¿Qué son la longitud de atención y el tamaño del vector de atención en TensorFlow?

El modelo tradicional de secuencia a secuencia supone que los elementos en cada secuencia están perfectamente alineados. Por lo tanto, si aplicara un modelo de este tipo a la traducción automática, tendría dificultades para pasar de los idiomas de sujeto-verbo-objeto como el inglés a idiomas como el español, donde el orden es flexible. Sin mencionar idiomas locos como el alemán, donde las palabras se concatenan juntas en súper palabras impías. Podríamos intentar calcular previamente la alineación desde la lingüística y los árboles de sintaxis abstracta y lo que sea, pero eso suena terriblemente difícil y tal vez modelos + datos pueden hacer eso por nosotros.

Por lo tanto, aprender traducción y alineación conjuntamente, una idea a menudo citada como https://arxiv.org/pdf/1409.0473.pdf. La idea concreta es hacer que el decodificador funcione no solo una función del estado oculto actual y la codificación del token actual, sino también un vector de contexto que es una suma ponderada de estados ocultos anteriores. Los pesos están determinados por un modelo de alineación, que en ese documento es otro RNN.

No dice qué código está viendo exactamente, pero supongo que está inspirado en este documento y que por longitud de atención se refieren al número de términos en la suma que define el vector de contexto y por el tamaño del vector de atención. refiriéndose al tamaño de los vectores de estado ocultos.

Related Content

¿La investigación del FBI sobre Hillary Clinton está siendo influenciada por políticos?

¿Por qué y cómo fue Europa una influencia dominante en la década de 1900?

¿El hecho de que Australia fuera utilizada como una colonia para condenados en algún momento influye en la cultura allí?

¿Qué influencia tiene el lobby del carbón en Australia? De ser así, ¿hay alguna forma posible de contrarrestar esa influencia?

¿Qué tan fuerte es la influencia española en Florida hoy?

¿Cuánto se le debe permitir a una potencia extranjera influir en una elección?

¿Qué ganan los países occidentales cuando prestan dinero a países pobres?

More Interesting

¿Cómo influyen los factores sociales en el desarrollo curricular?

Cómo desarrollar una influencia remota

¿Qué acción de Joseph McCarthy finalmente lo derribó, es decir, terminó con su influencia?

¿Cuáles son algunas de las costumbres culturales de México y cómo influyeron estas costumbres en los principales productos alimenticios de la actualidad?

¿Qué son la longitud de atención y el tamaño del vector de atención en TensorFlow?

¿Es posible que acordar por cortesía pueda influir en sus propias opiniones?

¿La influencia política en California (posiciones estatales de alto nivel) se está concentrando más en el Norte? Si es así, ¿por qué?

¿Cómo influyen las propiedades del aire en la calidad del sonido?

¿Por qué Francia tiene tanta influencia en el norte de África?

En puntos y hechos claros, ¿cómo influye EE. UU. En la formulación de políticas en África?

¿Quiénes son las mujeres más influyentes en tecnología?

¿Cuál fue la influencia de Thatcher en cambiar la vida de las personas?

¿Cuál es la influencia de un idioma que desaparece?

¿Estás tratando de ser una influencia / factor positivo en la vida de los demás? ¿Cómo?

¿Puede un IAS / IFS usar influencia política para conocer celebridades?

Web Analytics