¿Qué son la longitud de atención y el tamaño del vector de atención en TensorFlow?

El modelo tradicional de secuencia a secuencia supone que los elementos en cada secuencia están perfectamente alineados. Por lo tanto, si aplicara un modelo de este tipo a la traducción automática, tendría dificultades para pasar de los idiomas de sujeto-verbo-objeto como el inglés a idiomas como el español, donde el orden es flexible. Sin mencionar idiomas locos como el alemán, donde las palabras se concatenan juntas en súper palabras impías. Podríamos intentar calcular previamente la alineación desde la lingüística y los árboles de sintaxis abstracta y lo que sea, pero eso suena terriblemente difícil y tal vez modelos + datos pueden hacer eso por nosotros.

Por lo tanto, aprender traducción y alineación conjuntamente, una idea a menudo citada como https://arxiv.org/pdf/1409.0473.pdf. La idea concreta es hacer que el decodificador funcione no solo una función del estado oculto actual y la codificación del token actual, sino también un vector de contexto que es una suma ponderada de estados ocultos anteriores. Los pesos están determinados por un modelo de alineación, que en ese documento es otro RNN.

No dice qué código está viendo exactamente, pero supongo que está inspirado en este documento y que por longitud de atención se refieren al número de términos en la suma que define el vector de contexto y por el tamaño del vector de atención. refiriéndose al tamaño de los vectores de estado ocultos.