banner
Centro de Noticias
Articulado y competente en su experiencia.

Evidencia de una jerarquía de codificación predictiva en el cerebro humano al escuchar el habla

Oct 18, 2023

Nature Human Behavior volumen 7, páginas 430–441 (2023) Citar este artículo

79k Accesos

1167 Altmetric

Detalles de métricas

Recientemente se ha logrado un progreso considerable en el procesamiento del lenguaje natural: los algoritmos de aprendizaje profundo son cada vez más capaces de generar, resumir, traducir y clasificar textos. Sin embargo, estos modelos de lenguaje aún no logran igualar las habilidades lingüísticas de los humanos. La teoría de la codificación predictiva ofrece una explicación tentativa de esta discrepancia: mientras que los modelos de lenguaje están optimizados para predecir palabras cercanas, el cerebro humano predeciría continuamente una jerarquía de representaciones que abarca múltiples escalas de tiempo. Para probar esta hipótesis, analizamos las señales cerebrales de resonancia magnética funcional de 304 participantes que escuchaban cuentos. Primero, confirmamos que las activaciones de los modelos de lenguaje moderno se mapean linealmente en las respuestas del cerebro al habla. En segundo lugar, demostramos que mejorar estos algoritmos con predicciones que abarcan múltiples escalas de tiempo mejora este mapeo cerebral. Finalmente, mostramos que estas predicciones están organizadas jerárquicamente: las cortezas frontoparietales predicen representaciones de mayor nivel, mayor alcance y más contextuales que las cortezas temporales. En general, estos resultados fortalecen el papel de la codificación predictiva jerárquica en el procesamiento del lenguaje e ilustran cómo la sinergia entre la neurociencia y la inteligencia artificial puede desentrañar las bases computacionales de la cognición humana.

En menos de tres años, el aprendizaje profundo ha avanzado considerablemente en la generación, traducción y finalización de textos1,2,3,4 gracias a algoritmos entrenados con un objetivo simple: predecir palabras a partir de su contexto cercano. Sorprendentemente, se ha demostrado que las activaciones de estos modelos se mapean linealmente en las respuestas del cerebro humano al habla y al texto5,6,7,8,9,10,11,12. Además, este mapeo depende principalmente de la capacidad de los algoritmos para predecir palabras futuras7,8, lo que sugiere que este objetivo es suficiente para que converjan en cálculos similares al cerebro.

Sin embargo, persiste una brecha entre los humanos y estos algoritmos: a pesar de la cantidad considerable de datos de entrenamiento, los modelos de lenguaje actuales se ven desafiados por la generación de historias largas, el resumen y el diálogo coherente y la recuperación de información13,14,15,16,17; no logran capturar varias construcciones sintácticas y propiedades semánticas18,19,20,21,22 y su comprensión lingüística es superficial19,21,22,23,24. Por ejemplo, tienden a asignar incorrectamente el verbo al sujeto en frases anidadas como 'las llaves que tiene el hombre ESTÁN aquí'20. De manera similar, cuando la generación de texto se optimiza solo en la predicción de la siguiente palabra, los modelos de lenguaje profundo generan secuencias insulsas e incoherentes o se atascan en bucles repetitivos13.

La teoría de la codificación predictiva25,26,27 ofrece una posible explicación a estas deficiencias; mientras que los modelos de lenguaje profundo se ajustan principalmente para predecir la siguiente palabra, este marco sugiere que el cerebro humano hace predicciones en múltiples escalas de tiempo y niveles de representaciones a lo largo de la jerarquía cortical28,29 (Fig. 1a).

Trabajos anteriores ya evidenciaron predicciones del habla en el cerebro al correlacionar la palabra o la sorpresa fonética, es decir, la medida en que se espera una palabra o un teléfono, con imágenes de resonancia magnética funcional (fMRI)30,31,32,33, electroencefalografía34,35, 36, magnetoencefalografía37 y electrocorticografía11,38. Sin embargo, tales estimaciones sorprendentes se derivan de modelos entrenados para predecir la siguiente palabra o fonema y reducir su salida a un solo número, es decir, la probabilidad del siguiente token. En consecuencia, la naturaleza de las representaciones previstas y su alcance temporal se desconocen en gran medida.

En este estudio, abordamos estos problemas mediante el análisis de las señales cerebrales de 304 personas que escuchan cuentos mientras su actividad cerebral se registra con fMRI39. Después de confirmar que los algoritmos de lenguaje profundo mapean linealmente la actividad cerebral6,8,40, mostramos que mejorar estos modelos con predicciones de largo alcance y de varios niveles mejora dicho mapeo cerebral. Críticamente, y en línea con la teoría de la codificación predictiva, nuestros resultados revelan una organización jerárquica de las predicciones del lenguaje en la corteza, en la que las áreas más altas predicen las representaciones más distantes y de más alto nivel.

a, los algoritmos de lenguaje profundo generalmente se entrenan para predecir palabras a partir de sus contextos cercanos. A diferencia de estos algoritmos, el cerebro hace, de acuerdo con la teoría de la codificación predictiva, (1) predicciones de largo alcance y (2) jerárquicas. b, Para probar esta hipótesis, primero extrajimos las señales de fMRI de 304 personas, cada una escuchando ≈26 minutos de cuentos (Y), así como las activaciones de una entrada de algoritmo de lenguaje profundo (X) con las mismas historias. Luego cuantificamos la similitud entre X e Y con una 'puntuación cerebral': una correlación de Pearson \({{{\mathcal{R}}}}\) después de una proyección lineal óptima W (Métodos). c, para probar si agregar representaciones de palabras futuras (o palabras predichas; Fig. 4 complementaria) mejora esta correlación, concatenamos (⊕) las activaciones de la red (X, representada aquí como un rectángulo negro) a las activaciones de una 'ventana de pronóstico ' (\(\tilde{X}\), representado aquí como un rectángulo coloreado). Usamos PCA para reducir la dimensionalidad de la ventana de pronóstico a la dimensionalidad de X. Finalmente, \({{{\mathcal{F}}}}\) cuantifica la ganancia de puntaje cerebral obtenida al mejorar las activaciones del algoritmo de lenguaje a esta ventana de pronóstico. Repetimos este análisis con ventanas de distancia variable (d, Métodos). d, Arriba, un puntaje de pronóstico plano a lo largo de las distancias indica que las representaciones de pronóstico no hacen que el algoritmo sea más similar al cerebro. Abajo, por el contrario, una puntuación de pronóstico que alcanza un máximo de d > 1 indicaría que el modelo carece de un pronóstico similar al del cerebro. El pico de \({{{{\mathcal{F}}}}}^{d}\) indica qué tan lejos en el futuro el algoritmo necesitaría pronosticar que las representaciones serían más similares al cerebro.

Primero, cuantificamos la similitud entre los modelos de lenguaje profundo y el cerebro, cuando estos dos sistemas se ingresan con las mismas historias. Para ello, utilizamos el dataset Narratives39 y analizamos la resonancia magnética funcional de 304 individuos que escuchaban cuentos (27 cuentos que van de 7 a 56 min; 4,6 h de estímulo único en total, 26 min de media por participante, de 7 a 99 min) . Luego ajustamos, para cada vóxel y cada individuo de forma independiente, una regresión de cresta lineal para predecir las señales de resonancia magnética funcional de las activaciones de varios modelos de lenguaje profundo. Finalmente, calculamos las 'puntuaciones cerebrales' correspondientes utilizando datos retenidos, es decir, la correlación de vóxeles entre las señales de fMRI y las predicciones de la entrada de regresión de cresta con las activaciones de un modelo de lenguaje dado (Fig. 1b). Para mayor claridad, primero nos enfocamos en las activaciones de la octava capa de Generative Pre-trained Transformer 2 (GPT-2), una red neuronal profunda causal de 12 capas proporcionada por HuggingFace2 porque predice mejor la actividad cerebral7,8.

De acuerdo con estudios previos5,7,40,41, las activaciones de GPT-2 se mapean con precisión en un conjunto distribuido y bilateral de áreas cerebrales. Las puntuaciones cerebrales alcanzaron su punto máximo en la corteza auditiva y en las áreas temporal anterior y temporal superior (Fig. 2a, Fig. 1 complementaria, Nota complementaria 1 y Tablas complementarias 1–3). Los tamaños del efecto de estos puntajes cerebrales están en línea con trabajos previos7,42,43: por ejemplo, los puntajes cerebrales más altos (R = 0.23 en el surco temporal superior (Fig. 2a)) representan el 60% de la señal máxima explicable, como evaluado con un análisis de techo de ruido (Métodos). La Nota complementaria 2 y la Figura complementaria 2 muestran que, en promedio, se logran puntajes cerebrales similares con otros modelos de lenguaje de última generación y la Figura complementaria 3 muestra que las regiones auditivas se pueden mejorar aún más con representaciones del habla de nivel inferior. Como era de esperar, la puntuación cerebral de la velocidad de palabras (Fig. 3 complementaria), el techo de ruido (Métodos) y GPT-2 (Fig. 2a) alcanzan su punto máximo en la red de lenguaje44. En general, estos resultados confirman que los modelos de lenguaje profundo mapean linealmente las respuestas cerebrales a las historias habladas.

a, La 'puntuación cerebral' (\({{{\mathcal{R}}}}\); Fig. 1b y Métodos), obtenida con GPT-2, para cada individuo y cada vóxel, aquí promediada entre individuos (n = 304). Solo los vóxeles con puntuaciones cerebrales significativas están codificados por colores. b, puntajes cerebrales promedio (entre vóxeles) obtenidos con GPT-2 con (gris) o sin (azul) representaciones de pronóstico. La puntuación cerebral promedio alcanza su punto máximo en d* = 8 (estrella gris). c, para cada vóxel, la 'puntuación de pronóstico' promedio (entre individuos) \({{{{\mathcal{F}}}}}^{d}\), es decir, la ganancia en la puntuación cerebral al concatenar las activaciones de GPT-2 con una ventana de pronóstico \({\tilde{X}}^{(8)}\). Solo los vóxeles con puntajes de pronóstico significativos están codificados por colores. d, puntajes de pronóstico promedio (entre vóxeles) para diferentes distancias d. e, Distancia que maximiza \({{{{\mathcal{F}}}}}^{d}\), calculada para cada individuo y cada vóxel y denotada como d*. Esta 'distancia de pronóstico' revela las regiones asociadas con pronósticos a corto y largo plazo. Las regiones en rojo y azul están asociadas con pronósticos de largo y corto plazo, respectivamente. Solo mostramos los vóxeles con un pico promedio significativo (\({{{{\mathcal{F}}}}}^{{d}^{* }}-{{{{\mathcal{F}}}}} ^{0},{d}^{* }=\,8\); Métodos). f, Puntaje de pronóstico dentro de dos regiones de interés. Para cada región, reportamos los puntajes de pronóstico promedio de individuos con un pico representativo (individuos cuyo pico pertenece a los percentiles 45–55 de todos los picos, n = 30 individuos). g, Pronóstico de distancia de siete regiones de interés, calculado para cada vóxel de cada individuo y luego promediado dentro de las regiones cerebrales seleccionadas. Para todos los paneles, informamos el efecto promedio entre individuos (n = 304), con los IC del 95 % entre individuos (b, d, f). Los valores de p se evaluaron con una prueba de rango con signo de Wilcoxon de dos colas entre individuos. En a, c, e, los valores de P se corrigieron para comparaciones múltiples entre vóxeles usando el FDR y los mapas cerebrales tienen un umbral de P < 0.01. El diagrama de caja en g resume la distribución del efecto obtenido en diez subdivisiones distintas y aleatorias del conjunto de datos.

A continuación, probamos si mejorar las activaciones de los modelos de lenguaje con predicciones de largo alcance conduce a puntajes cerebrales más altos (Fig. 1c, d). Específicamente, para cada palabra, concatenamos (1) las activaciones del modelo de la palabra actual (denotadas X) y (2) una 'ventana de pronóstico' (denotadas \({\tilde{X}}^{(d)}\) ), que consiste en incrustaciones de palabras futuras y parametrizado por una distancia temporal d y un ancho de w = 7 palabras (consulte la Fig. 4 complementaria para el análisis de ventana creciente). Mientras que el ancho es el número de palabras concatenadas, d corresponde a la distancia entre la palabra actual y la última palabra de la ventana. Por ejemplo, \({\tilde{X}}^{(10)}\) es la concatenación de palabras a distancias 4, 5 y hasta 10 de la palabra actual, y \({\tilde{X}}^ {(8)}\) es la concatenación de palabras a distancias 2, 3 y hasta 8 de la palabra actual. Para cada distancia d, calculamos el 'puntaje de pronóstico' (denotado \({{{{\mathcal{F}}}}}^{d}\)) comparando los puntajes cerebrales obtenidos con y sin las representaciones de pronóstico (Fig. 2b).

Nuestros resultados muestran que \({{{\mathcal{F}}}}\) es máxima para una distancia de d = 8 palabras y picos en las áreas típicamente asociadas con el procesamiento del lenguaje (Fig. 2b–d). A modo de comparación, hay 2,54 palabras por segundo en promedio en los estímulos. Por lo tanto, 8 palabras corresponden a 3,15 s de audio (el tiempo de dos escaneos fMRI sucesivos). Estos puntajes de pronóstico se distribuyen bilateralmente en el cerebro, excepto para las circunvoluciones frontal inferior y supramarginal (P < 0.001 en la pars opercularis y supramarginal, utilizando una prueba de suma de rangos de Wilcoxon por pares bilateral entre los hemisferios izquierdo y derecho, después de corregir para comparaciones múltiples (Métodos)).

Los análisis complementarios confirman que (1) cada palabra futura de la palabra cero a la diez contribuye significativamente al efecto de pronóstico, (2) las representaciones de pronóstico se capturan mejor con un tamaño de ventana de alrededor de 8 palabras, (3) las representaciones de pronóstico aleatorias no mejoran las puntuaciones cerebrales y (4) el uso de las palabras generadas por GPT-2 en lugar de las palabras futuras verdaderas logra resultados más bajos pero similares (Notas complementarias 3–5 y Figuras complementarias 4–6).

Juntos, estos resultados revelan representaciones de pronóstico a largo plazo en el cerebro que representan una mejora del 23% (±9% entre individuos) en las puntuaciones cerebrales (Fig. 2a, b).

Tanto los estudios anatómicos como funcionales han demostrado que la corteza está organizada como una jerarquía28,45: por ejemplo, la acústica, los fonemas y la semántica de bajo nivel están codificados principalmente en la circunvolución de Heschl, la circunvolución temporal superior y las cortezas asociativas de las regiones frontal, temporal y lóbulos parietales, respectivamente42,46,47,48,49.

¿Los diferentes niveles de esta jerarquía cortical predicen la misma ventana de tiempo? Para abordar este problema, estimamos el pico de la puntuación de pronóstico de cada vóxel y denotamos d* la distancia correspondiente. Los resultados muestran que el pronóstico del área prefrontal, en promedio, está más alejado en el futuro que las áreas temporales (Fig. 2e). Por ejemplo, d* en la circunvolución temporal inferior (IFG) es mayor que en el surco temporal superior anterior (aSTS) (Δd* = 0,9 ± 0,2, P <0,001; Fig. 2f, g).

La variación de la distancia de pronóstico óptima a lo largo del eje temporo-parietal-frontal es en gran medida simétrica en los dos hemisferios (Figura complementaria 1).

¿Cuál es la naturaleza de estas representaciones predictivas? Para abordar este problema, evaluamos si el puntaje de pronóstico se relaciona con (1) representaciones bajas o altas, así como con (2) representaciones sintácticas o semánticas. Con este objetivo, calculamos los puntajes de pronóstico como en la Fig. 1c pero variamos la capa utilizada de GPT-2. Luego, identificamos k* para cada vóxel, es decir, la profundidad que maximiza los puntajes de pronóstico (Métodos). Consideramos que las capas profundas de los algoritmos del lenguaje codifican representaciones de mayor nivel y más contextualizadas que sus primeras capas50,51.

Nuestros resultados mostraron que la profundidad de pronóstico óptima varía a lo largo de la jerarquía cortical esperada (Fig. 3a). Específicamente, las cortezas asociativas se modelan mejor con pronósticos más profundos (k* > 6) que las áreas de lenguaje de bajo nivel (por ejemplo, k* < 6 en las circunvoluciones/surcos de Heschl, aSTS; Fig. 3a,b). La diferencia entre las regiones, aunque pequeña en promedio, fue muy significativa entre los individuos (por ejemplo, entre las circunvoluciones angular y de Heschl: Δk* = 2,5 ± 0,3, P < 0,001) y se observó tanto en el hemisferio izquierdo como en el derecho (Fig. 3b ).

a, profundidad de la representación que maximiza la puntuación prevista en el cerebro, indicada como k*. Los puntajes de pronóstico se calcularon para cada profundidad, individuo y vóxel, a una distancia fija de d* = 8 y se promediaron entre individuos. Calculamos la profundidad óptima para cada individuo y vóxel y trazamos la profundidad pronosticada promedio entre individuos. Las regiones oscuras se explican mejor con pronósticos profundos, mientras que las regiones claras se explican mejor con pronósticos poco profundos. Solo los vóxeles significativos están codificados por colores como en la Fig. 2c). b, Igual que a pero con k* promediado a través de los vóxeles de nueve regiones de interés, en los hemisferios izquierdo (círculo) y derecho (triángulo). Las puntuaciones se promediaron entre individuos (n = 304) y el diagrama de caja resume la distribución del efecto obtenido en diez subdivisiones distintas y aleatorias del conjunto de datos. La significación por pares entre regiones se evaluó mediante una prueba de suma de rangos de Wilcoxon de dos caras en las puntuaciones del hemisferio izquierdo (las barras grises indican P < 0,001).

Juntos, estos resultados sugieren que las predicciones a largo plazo de las cortezas frontoparietales están más contextualizadas y son de mayor nivel que las predicciones a corto plazo de las regiones cerebrales de bajo nivel.

Para factorizar las representaciones de pronóstico en componentes sintácticos y semánticos, aplicamos un método introducido en Caucheteux et al.40 y procedimos de la siguiente manera: para cada palabra y su contexto anterior, generamos diez futuros posibles, que coinciden con la sintaxis de las palabras futuras verdaderas. Elegimos k = 10 futuros posibles siguientes40. Para cada uno de estos futuros posibles, extrajimos las activaciones de GPT-2 correspondientes y las promediamos entre los diez futuros posibles (Fig. 4a y Métodos). Este método nos permitió descomponer las activaciones de un modelo de lenguaje dado X en componentes sintácticos (el vector promedio, denotado Xsyn) y semánticos (los residuos, Xsem = X − Xsyn) (Métodos). Una vez que se construyeron las ventanas de pronóstico sintáctico y semántico, calculamos los puntajes de pronóstico correspondientes (Métodos).

a, Método para extraer representaciones de pronósticos sintácticos y semánticos, adaptado de Caucheteux et al.40. Para cada palabra y su contexto (por ejemplo, 'Genial, tu trabajo...', generamos diez futuros posibles con la misma sintaxis que la oración original (parte del discurso y árbol de dependencia) pero semántica muestreada aleatoriamente (por ejemplo, ' ... sigue siendo tan cierto', '... parece tan pequeño'). Luego, extrajimos las activaciones GPT-2 correspondientes (capa ocho). Finalmente, promediamos las activaciones en los diez futuros. Este método nos permitió extraer el componente sintáctico común a los diez futuros, denotado Xsyn. El componente semántico se definió como los residuos de sintaxis en las activaciones completas; Xsem = X − Xsyn. Construimos las ventanas de pronóstico sintáctico y semántico concatenando los componentes sintácticos y semánticos de siete palabras futuras consecutivas, respectivamente (métodos). b, puntajes de pronóstico sintáctico (azul) y semántico (rojo), en promedio en todos los vóxeles, como en la Fig. 2c. Los puntajes se promediaron entre individuos; las regiones sombreadas indican los IC del 95% en individuos (n = 304) Los picos promedio entre individuos se indican con una estrella. c, puntajes de pronóstico semántico para cada vóxel, promediados entre individuos y en d* = 8, la distancia que maximiza los puntajes de pronóstico semántico en b. Solo los vóxeles significativos se muestran como en la Fig. 2c. d, Igual que c para puntajes de pronóstico sintáctico y d* = 5.

Los resultados muestran que los pronósticos semánticos son de largo alcance (d* = 8) e involucran una red distribuida con picos en los lóbulos frontal y parietal. Por el contrario, los pronósticos sintácticos (Fig. 4b) son de rango relativamente corto (d* = 5) y están localizados en las áreas frontal izquierda y temporal superior (Fig. 4c, d). Tenga en cuenta que el modelo sintáctico sin ventana de pronóstico (que tiene una dimensionalidad más baja) funciona mejor que el modelo sintáctico con una ventana de pronóstico distante. Estos puntajes disminuidos pueden ocurrir cuando no hay información adicional en la dimensión adicional de la regresión debido a la infame maldición de la dimensionalidad52. Esto sugiere que un pronóstico sintáctico de largo alcance no es detectable en el conjunto de datos actual.

En general, estos resultados revelan múltiples niveles de predicciones en el cerebro en los que la corteza temporal superior predice predominantemente representaciones sintácticas, superficiales y a corto plazo, mientras que las áreas parietal y frontal inferior predicen predominantemente representaciones semánticas, contextuales, de alto nivel y a largo plazo. .

Estos resultados muestran que la concatenación de representaciones de palabras presentes y futuras de GPT-2 conduce a un mejor modelado de la actividad cerebral, especialmente en las áreas frontoparietales (Fig. 2). ¿El ajuste fino de GPT-2 para predecir representaciones de mayor alcance, más contextuales y de mayor nivel mejora el mapeo cerebral en tales regiones? Para responder a esta pregunta, ajustamos GPT-2 en Wikipedia, no solo usando modelos de lenguaje (es decir, prediciendo la siguiente palabra), sino también un objetivo de alto nivel y largo alcance (es decir, prediciendo representaciones de alto nivel). de palabras lejanas). En concreto, el objetivo de alto nivel es predecir la capa 8 del modelo GPT-2 preentrenado, de palabra t+8 (Métodos). Los resultados muestran que GPT-2 ajustado con modelado de alto nivel y largo alcance explica mejor las respuestas frontoparietales (Fig. 5, >2 % de ganancia en el IFG y giros angulares/supramarginales en promedio, todos P < 0,001). Por otro lado, las áreas auditivas y las regiones cerebrales de nivel inferior no se benefician significativamente de un objetivo de tan alto nivel (Fig. 5 y Fig. 7 complementaria). Estos resultados fortalecen aún más el papel de las áreas frontoparietales en la predicción de representaciones del lenguaje de largo alcance, contextuales y de alto nivel.

a, Ganancia en puntajes cerebrales entre GPT-2 ajustado con modelado de lenguaje más predicción de alto nivel (para un nivel alto = 0.5) y GPT-2 ajustado solo con modelado de lenguaje. Solo se muestran los vóxeles con una ganancia significativa (P < 0,05 con una prueba de suma de rangos de Wilcoxon bilateral después de la corrección FDR para comparaciones múltiples). b, ganancia de puntaje cerebral en función del peso de alto nivel α en la pérdida (ecuación (8)), desde el modelado completo del lenguaje (izquierda, α = 0) hasta la predicción completa de alto nivel (derecha, α = 1). Las ganancias se promediaron entre vóxeles dentro de seis regiones de interés (consulte Métodos para la parcelación y la Fig. 7 complementaria para las otras regiones del cerebro). Las puntuaciones se promediaron entre individuos y mostramos los IC del 95 % entre individuos (n = 304).

En el presente estudio, ponemos a prueba hipótesis específicas de la teoría de la codificación predictiva25,26,27. Si bien los algoritmos de lenguaje profundo generalmente se entrenan para hacer predicciones cercanas y a nivel de palabra1,2,3,53,54,55, evaluamos si la jerarquía cortical predice múltiples niveles de representaciones, que abarcan múltiples escalas de tiempo. Con este objetivo en mente, comparamos las activaciones del cerebro con las de los modelos de lenguaje profundo más avanzados5,6,7,42,56. Validamos con éxito nuestra hipótesis en una cohorte de 304 participantes que escuchaban narraciones habladas39. La actividad cerebral se explica mejor por las activaciones de algoritmos de lenguaje profundo mejorados con predicciones de largo alcance y alto nivel. Nuestro estudio proporciona tres contribuciones adicionales.

En primer lugar, las cortezas lateral, dorsolateral e inferior-frontal y la circunvolución supramarginal exhibieron las distancias más largas pronosticadas. Curiosamente, estas regiones corticales se vincularon repetidamente con semántica de alto nivel, planificación a largo plazo, control atencional, pensamiento abstracto y otras funciones ejecutivas de alto nivel57,58. Este resultado se hace eco de estudios previos que muestran que la constante de integración de las cortezas frontoparietales es mayor que las de las áreas sensoriales y temporales46,59,60,61. Específicamente, nuestros hallazgos sugieren que estas regiones, ubicadas en la parte superior de la jerarquía del lenguaje, no se limitan a integrar pasivamente estímulos pasados, sino que anticipan activamente las representaciones del lenguaje futuro.

En segundo lugar, mostramos que la profundidad de las representaciones predictivas varía a lo largo de una organización anatómica similar: las predicciones de bajo nivel modelan mejor el surco temporal superior y la circunvolución, mientras que las predicciones de alto nivel modelan mejor las áreas frontal, parietal y temporal media. Este hallazgo amplía estudios previos que investigan la multiplicidad de predicciones subyacentes al procesamiento complejo del sonido o del habla28,34,36,62. Mientras que los estudios anteriores se centraron en correlacionar la actividad cerebral con un subconjunto de errores de predicción unidimensionales y hechos a mano (por ejemplo, sorpresa de palabras o fonemas), los análisis actuales exploraron y descompusieron predicciones de alta dimensión. De manera más general, nuestros resultados respaldan la idea de que, a diferencia de los algoritmos de lenguaje actuales, el cerebro no se limita a predecir representaciones a nivel de palabra, sino que predice múltiples niveles de representaciones.

Finalmente, descomponemos estas activaciones neuronales en representaciones sintácticas y semánticas y mostramos que las características semánticas, a diferencia de las sintácticas, impulsan los pronósticos a largo plazo. Este hallazgo refuerza la idea de que, si bien la sintaxis puede estar representada explícitamente en la actividad neuronal40,63,64, la predicción de la semántica de alto nivel puede ser el núcleo del procesamiento del lenguaje de formato largo65,66.

Juntos, estos resultados respaldan las teorías de codificación predictiva, mediante las cuales el cerebro predice continuamente las entradas sensoriales, compara estas predicciones con la verdad y actualiza su modelo interno en consecuencia25,26,67. Nuestro estudio aclara aún más este marco general. El cerebro no solo predice las entradas sensoriales, sino que cada región de la jerarquía cortical está organizada para predecir diferentes ámbitos temporales y diferentes niveles de representaciones (Fig. 1a). Sin embargo, el vínculo entre las construcciones jerárquicas en la sintaxis y la jerarquía funcional en la corteza y en el modelo es una pregunta importante para explorar40,51,68.

Esta organización computacional está en desacuerdo con los algoritmos de lenguaje actuales, que en su mayoría están entrenados para hacer predicciones adyacentes y de nivel de palabra (Fig. 1a). Algunos estudios investigaron reglas de aprendizaje alternativas4,53,55,69,70,71,72 pero no combinaron predicciones a largo plazo y de alto nivel. Especulamos que la arquitectura cerebral evidenciada en este estudio presenta al menos un beneficio importante sobre sus contrapartes actuales de aprendizaje profundo. Si bien las observaciones futuras rápidamente se vuelven indeterminadas en su formato original, sus representaciones latentes pueden permanecer predecibles durante largos períodos. Este problema ya está generalizado en los algoritmos basados ​​en imágenes y voz y se ha evitado parcialmente con pérdidas basadas en incrustaciones preentrenadas73, aprendizaje contrastivo y, de manera más general, arquitecturas de incrustaciones conjuntas74,75,76,77. En este estudio, destacamos que este problema también prevalece en los modelos de lenguaje, donde las secuencias de palabras, pero posiblemente no su significado, se vuelven rápidamente impredecibles. Nuestros resultados sugieren que la predicción de múltiples niveles de representaciones en múltiples ámbitos temporales puede ser fundamental para abordar la naturaleza indeterminada de observaciones tan distantes y ajustar su confianza relativa en consecuencia78.

Tres elementos principales mitigan estas conclusiones. En primer lugar, a diferencia de las técnicas de resolución temporal7,11,36, la resolución temporal de la IRMf es de alrededor de 1,5 s y, por lo tanto, difícilmente puede utilizarse para investigar predicciones subléxicas. En segundo lugar, se caracterizarán las representaciones y predicciones precisas calculadas en cada región de la jerarquía cortical. Esto probablemente requerirá nuevas técnicas de sondeo porque la interpretación de las representaciones neuronales es un desafío importante tanto para la inteligencia artificial como para la neurociencia. Finalmente, la arquitectura de codificación predictiva actualmente probada es rudimentaria. Es necesaria una generalización, escalado y evaluación sistemáticos de este enfoque en los puntos de referencia del procesamiento del lenguaje natural para demostrar la utilidad efectiva de hacer modelos más similares al cerebro.

Más allá de aclarar el cerebro y las bases computacionales del lenguaje, nuestro estudio requiere algoritmos de entrenamiento sistemático para predecir múltiples escalas de tiempo y niveles de representaciones.

Denotamos:

w como una secuencia de M palabras (es decir, varios cuentos);

X como las activaciones de una entrada de modelo de lenguaje profundo con w, de tamaño M × U, con U como la dimensionalidad de las incrustaciones (para una capa de GPT-2, U = 768). Salvo que se indique lo contrario, utilizamos las activaciones extraídas de la octava capa de un modelo GPT-2 de 12 capas. Denotamos explícitamente Xk como las activaciones extraídas de la capa k cuando se usa otra capa;

Y como las grabaciones de fMRI provocadas por w, de tamaño T × V, con T como el número de muestras de tiempo de fMRI y V como el número de vóxeles;

\({{{\mathcal{R}}}}(X)\) como la puntuación cerebral de X;

\({\widetilde{X}}^{(d)}\) como la ventana de pronóstico que contiene información hasta d palabras en el futuro. Brevemente, la ventana de pronóstico es la concatenación de las activaciones de red profunda de siete palabras sucesivas, estando la última palabra a una distancia d de la palabra actual;

\({{{{\mathcal{F}}}}}^{(d)}(X)\) como el puntaje de pronóstico a la distancia d, es decir, la ganancia en el puntaje cerebral al concatenar la ventana de pronóstico \({ \tilde{X}}^{(d)}\) a las activaciones de la red; \({{{{\mathcal{F}}}}}^{(d)}(X)={{{\mathcal{R}}}}(X\oplus {\tilde{X}}^{( d)})-{{{\mathcal{R}}}}(X)\);

d* como la distancia que maximiza la puntuación del pronóstico; \({d}^{* }={{{{\rm{argmax}}}}}_{d\in [-10,\ldots,30]}\,{{{{\mathcal{F}} }}}^{(d)}(X)\);

k* como la profundidad de la red que maximiza el puntaje de pronóstico a una distancia fija d = 8; \({k}^{* }={{{{\rm{argmax}}}}}_{k\in [0,\ldots,12]}\,{{{{\mathcal{F}}} }}^{(8)}({X}_{k})\), con Xk como las activaciones extraídas de la k-ésima capa de GPT-2. Usamos d = 8 porque era la distancia con el mejor puntaje de pronóstico en promedio entre individuos y vóxeles.

Utilizamos las grabaciones cerebrales (indicadas con Y) del conjunto de datos Narratives39, un conjunto de datos disponible públicamente que contiene las grabaciones de fMRI de 345 personas que escuchan 27 historias habladas en inglés, de 7 a 56 min (4,6 h de estímulo único en total). Utilizamos las señales fMRI preprocesadas del conjunto de datos original, sin suavizado espacial (denominado 'afni-nosmooth' en el repositorio) y muestreadas con TR = 1,5 s. Los pasos de preprocesamiento se realizaron utilizando fMRIPrep79; no se aplicó ningún filtrado temporal. El preprocesamiento resultante condujo al análisis de vóxeles corticales proyectados sobre la superficie y transformados en un cerebro de plantilla 'fsalvador'; de aquí en adelante, se denominarán vóxeles por simplicidad. Como se sugirió en el documento original, se excluyeron algunos pares de historias individuales debido al ruido, lo que resultó en 304 personas y 622 pares de historias individuales y 4 h de material de audio único en total.

Comparamos las grabaciones de fMRI con las activaciones de varias entradas de modelo de lenguaje profundo previamente entrenadas con las mismas oraciones presentadas a los individuos. Para mayor claridad, nos enfocamos principalmente en GPT-2, un modelo de lenguaje causal de alto rendimiento entrenado para predecir palabras dado su contexto anterior. GPT-2 consta de 12 módulos Transformer1,2, cada uno de ellos denominado "capa", apilados en una capa de incrustación de palabras no contextuales. Utilizamos los modelos preentrenados de Huggingface80 (1500 millones de parámetros entrenados en 8 millones de páginas web).

En la práctica, para extraer las activaciones X provocadas por una secuencia de M palabras w de la k-ésima capa de la red, (1) formateamos la transcripción textual de la secuencia w (reemplazando signos de puntuación especiales como '-' y marcas duplicadas ' ?.' por puntos), (2) tokenizó el texto usando el tokenizador Huggingface, (3) ingresó la red con los tokens y (4) extrajo las activaciones correspondientes de la capa k. Esto resultó en un vector de tamaño M × U, con M el número de palabras y U el número de unidades por capa (es decir, U = 768). Dado el tamaño de contexto restringido de la red, cada palabra se ingresó sucesivamente a la red con un máximo de 1024 tokens previos. Por ejemplo, mientras que el vector de la tercera palabra se calculó ingresando la red con (w1, w2, w3), el vector de la última palabra wM se calculó ingresando la red con (wM−1,024,…,wM). La alineación entre las grabaciones de audio de las historias y sus transcripciones textuales se proporcionó en la base de datos de Narratives original39.

Siguiendo trabajos previos7,42,56, evaluamos, para cada individuo s y voxel v, el mapeo entre (1) las activaciones de IRMf Y(s,v) en respuesta a las historias de audio y (2) las activaciones X de la profunda entrada de la red con las transcripciones textuales de las mismas historias. Con este fin, ajustamos una regresión de cresta lineal W en un conjunto de entrenamiento para predecir las exploraciones de fMRI dadas las activaciones de la red. Luego, evaluamos este mapeo calculando la correlación de Pearson entre las exploraciones de fMRI predichas y reales en un conjunto retenido:

con W como la proyección lineal ajustada, corr como la correlación de Pearson, X como las activaciones de GPT-2 e Y(s,v) como los escaneos fMRI de un individuo s en un voxel v, ambos provocados por las mismas historias retenidas .

En la práctica y siguiendo a Huth et al.42, modelamos la respuesta negrita lenta gracias a un modelo de respuesta de impulso finito (FIR) con seis retardos (de 0 a 9 s, TR = 1,5 s). Aún siguiendo a Huth et al.42, sumamos las activaciones del modelo de las palabras presentadas dentro del mismo TR para que coincidan con la frecuencia de muestreo de los modelos de fMRI y lenguaje (Figs. 8 y 9 complementarios). Luego, estimamos el mapeo lineal W con una regresión lineal penalizada con ℓ2 después de estandarizar los datos y reducir su dimensionalidad (por razones computacionales). Implementamos scikit-learn81 y usamos una tubería con los siguientes pasos: (1) estandarización de las funciones (establecidas en 0 media con un sd de 1 usando un StandardScaler), (2) análisis de componentes principales (PCA) con 20 componentes y ( 3) Regresión lineal penalizada con ℓ2 (RidgeCV en scikit-learn). En la Fig. 3c complementaria, replicamos los análisis principales sin PCA (PCA subestimó ligeramente las puntuaciones cerebrales y el efecto de pronóstico). El hiperparámetro de regularización de RidgeCV se seleccionó con una validación cruzada sin exclusión anidada entre diez valores posibles espaciados entre registros entre 10−1 y 108 para cada vóxel y cada pliegue de entrenamiento.

El esquema externo de validación cruzada, que permite una evaluación de rendimiento independiente, utiliza cinco pliegues obtenidos al dividir la serie temporal de resonancia magnética funcional en cinco partes contiguas. Las correlaciones de Pearson promediadas en los cinco pliegues de la prueba se denominan "puntuación cerebral" y se denotan como \({{{{\mathcal{R}}}}}^{(s,v)}(X)\). Mide el mapeo entre el espacio de activación X y el cerebro de un individuo s en un vóxel v en respuesta al mismo estímulo lingüístico.

En la Fig. 2a, b, se calcularon las puntuaciones cerebrales para cada par (individual, vóxel). Luego promediamos las puntuaciones cerebrales entre individuos (Fig. 2a) y/o vóxeles (Fig. 2b) según el análisis. Para simplificar, denotamos \({{{\mathcal{R}}}}(X)\) como las puntuaciones cerebrales promediadas entre individuos y/o vóxeles.

Probamos si agregar representaciones de pronóstico mejoraría nuestra capacidad para predecir la actividad cerebral. Con este objetivo, no modificamos la red profunda en sí, sino que agregamos representaciones de pronóstico a la entrada del modelo de codificación, es decir, la ventana de pronóstico. La ventana de pronóstico a la distancia d, denotada por \({\widetilde{X}}^{(d)}\), es la concatenación de las activaciones de la red de siete palabras sucesivas, siendo la última a una distancia d de la actual palabra. Precisamente, la ventana de previsión de una palabra wn a una distancia d es la concatenación de las activaciones de la red provocadas por las palabras wn + d−6, …, wn + d. De este modo,

con ⊕ como operador de concatenación y M como el número de palabras en la transcripción w (Fig. 9 complementaria). Tenga en cuenta que d puede ser negativo: en ese caso, la ventana de pronóstico solo contiene información pasada. Excepto si se indica lo contrario, la ventana de pronóstico se construyó a partir de las activaciones X extraídas de la octava capa de GPT-2. En la Fig. 3, la ventana de pronóstico se construyó a partir de las activaciones Xk extraídas de diferentes capas k de GPT-2. Denotamos \({\widetilde{X}}_{k}^{(d)}\) como las ventanas de pronóstico correspondientes. En la Fig. 4, las ventanas de pronóstico se construyeron a partir de las activaciones sintácticas (Xsyn) y semánticas (Xsem) de GPT-2.

Para cada distancia d, individuo s y vóxel v, calculamos el 'puntaje de pronóstico' \({{{{\mathcal{F}}}}}^{(d,s,v)}\), que es la ganancia en el puntaje cerebral al concatenar las ventanas de pronóstico a las activaciones actuales de GPT-2. De este modo,

Para hacer coincidir la dimensionalidad de X y \(\tilde{X}\), el PCA utilizado para calcular el mapeo se entrenó en X y \(\tilde{X}\) por separado antes de concatenar las dos características, es decir, \( {{{\mathcal{F}}}}(X)={{{\mathcal{R}}}}({{{\rm{PCA}}}}(X)+{{{\rm{PCA} }}}(\tilde{X}))-{{{\mathcal{R}}}}({{{\rm{PCA}}}}(X))\).

Para probar si el alcance del pronóstico variaba a lo largo de la jerarquía cortical, estimamos la distancia que maximiza el puntaje del pronóstico. Precisamente, la 'distancia de pronóstico' óptima d* para cada individuo s y vóxel v se definió como:

con X como las activaciones del modelo de lenguaje y \({{{{\mathcal{F}}}}}^{(d,s,v)}\) como la puntuación prevista a la distancia d para el individuo s y el vóxel v (ecuación (3)). Las distancias pronosticadas d* luego se promediaron entre individuos y/o vóxeles según los análisis.

El presente análisis solo es relevante para las regiones del cerebro para las cuales los puntajes de pronóstico no son planos. De hecho, calcular la distancia que maximiza una curva plana sería engañoso. Por lo tanto, en la Fig. 2e, calculamos la diferencia \({{{{\mathcal{F}}}}}^{8}-{{{{\mathcal{F}}}}}^{0}\) para cada individuo y vóxel, evaluó la significación con una prueba de suma de rangos de Wilcoxon entre individuos e ignoró los vóxeles con una diferencia no significativa (P> 0.01).

Para probar si la profundidad del pronóstico variaba a lo largo de la jerarquía cortical, calculamos el puntaje del pronóstico para diferentes profundidades de representación. Reemplazamos X por las activaciones Xk extraídas de la capa k de GPT-2 (k ∈ [0, …, 12]) en las ecuaciones (3) y (4). Luego, calculamos la profundidad que maximiza el puntaje de pronóstico, llamado 'profundidad de pronóstico', y dada por:

con \({{{{\mathcal{F}}}}}^{(d,s,v)}({X}_{k})={{{{\mathcal{R}}}}}^ {(s,v)}({X}_{k}\oplus {\widetilde{{X}_{k}}}^{(d)})-{{{\mathcal{R}}}}( {X}_{k})\) (ecuación (3)). Para simplificar, estudiamos la profundidad centrándonos en la distancia fija d = 8 (Fig. 3c, d), que maximiza el puntaje de pronóstico en la Fig. 2.

Para extraer los componentes sintácticos y semánticos de X, un vector de activaciones en respuesta a una historia w, aplicamos un método introducido en Caucheteux et al.40 (Fig. 4a). Para cada palabra, (1) generamos n = 10 futuros de la misma sintaxis que el futuro verdadero (es decir, la misma parte del discurso y etiquetas de dependencia que el futuro verdadero) pero semántica muestreada aleatoriamente, (2) calculamos las activaciones para cada uno de los 10 futuros posibles y (3) promediamos las activaciones en los 10 futuros. Usamos el mismo hiperparámetro n = 10 que en el artículo original. El método en realidad converge de n = 7 (Fig. 8 complementaria en el documento). Este método permite extraer el vector medio Xsyn, que contiene información sintáctica pero está desprovisto de información semántica. Las activaciones semánticas Xsem = X − Xsyn son los residuos de la sintaxis en las activaciones completas X. En el artículo original (Fig. 3), los autores comprobaron con análisis de sondeo que las incrustaciones sintácticas codificaban información sintáctica relevante (parte del discurso y profundidad de la palabra). el árbol sintáctico) y ya no codifica información semántica (frecuencia de palabras, incrustación de palabras, categoría semántica).

Para investigar los pronósticos sintácticos y semánticos en el cerebro, construimos ventanas de pronóstico a partir de las activaciones sintácticas y semánticas de GPT-2, respectivamente. Con este objetivo, primero construimos las ventanas de pronóstico a partir de las activaciones de GPT-2 \({\widetilde{X}}^{(d)}\). Luego, extrajimos el sintáctico \({\widetilde{X}}_{{{{\rm{syn}}}}}^{(d)}\) y semántico \({\widetilde{X}}_{ {{{\rm{sem}}}}}^{(d)}\) componentes de las activaciones concatenadas, tal como se presenta en Caucheteux et al.40. Finalmente, la puntuación de pronóstico sintáctico es el aumento en la puntuación cerebral al concatenar la ventana sintáctica:

De manera similar, el puntaje de pronóstico semántico viene dado por:

Implementamos sistemáticamente análisis de todo el cerebro y calculamos puntajes para cada vóxel en el cerebro. Sin embargo, para simplificar, informamos los puntajes promediados en regiones de interés seleccionadas en las Figs. 2f, gy 3c. Para ello, utilizamos una subdivisión del atlas de Destrieux82. Las regiones con más de 500 vértices se dividieron en partes más pequeñas. Esto resultó en 142 regiones por hemisferio, cada una con menos de 500 vértices.

Esto da como resultado 142 regiones por hemisferio, cada una con menos de 500 vértices.

STG/STS

Circunvolución / surco temporal superior

aSTS

STS anterior

mSTS

STS medio

pSTS

STS posterior

Angular / Supramar

Giro parietal inferior angular/supramarginal

IFG / IFS

Giro / surco frontal inferior

Tri/Operación

Pars triangularis / opercularis (IFG)

Heschl G / Heschl S

circunvolución / surco de Heschl

Implementamos sistemáticamente análisis individuales y de todo el cerebro: todas las métricas (puntaje cerebral, puntaje de pronóstico, distancia y profundidad de pronóstico) se calcularon para cada par de vóxeles individuales. Informamos las métricas promediadas entre individuos y/o vóxeles según el análisis. Las estadísticas se calcularon entre individuos mediante una prueba de suma de rangos de Wilcoxon de dos colas de Scipy83 que evaluó si la métrica (o la diferencia entre dos métricas) era significativamente diferente de cero y luego se corrigió para comparaciones múltiples mediante la tasa de descubrimiento falso (FDR). Reportamos un efecto como significativo si P < 0.01. Las regiones sombreadas en las Figs. 2, 4 y 5 corresponden a los intervalos de confianza (IC) del 95 % entre individuos (n = 304). Los diagramas de caja en las Figs. 2–5 resumen la distribución del efecto obtenido en 10 subdivisiones distintas y aleatorias del conjunto de datos.

Las grabaciones de fMRI son inherentemente ruidosas. Para evaluar la cantidad de señal explicable, usamos un análisis de "techo de ruido", es decir, predijimos las respuestas cerebrales Y(s) de cada individuo dadas las respuestas de los otros individuos a la misma historia \(\overline{Y }\). Procedimos de manera similar al cálculo de la puntuación cerebral y aplicamos la misma configuración que la ecuación (1), pero usamos las señales cerebrales promedio de los cerebros de otros individuos \({\overline{Y}}^{(s)}=\frac{1} {| {{{\mathcal{S}}}}| }{\sum }_{{s}^{{\prime} }\ne s}{Y}^{({s}^{{\prime} })}\) (de tamaño T × V) en lugar de las activaciones de red X. Precisamente:

Para el cálculo de la puntuación del cerebro, Y(s) representa las grabaciones de resonancia magnética funcional de los individuos, correspondientes a todas las historias que los individuos escucharon mientras se les escaneaba. X consiste en las incrustaciones contextuales de las palabras correspondientes, sumadas dentro de cada TR y transformadas con FIR. De este modo,

con X como las incrustaciones de GPT-2, alineadas temporalmente con Y usando FIR.

Para el cálculo del techo de ruido, Y(s) es el mismo que para el cálculo de la puntuación cerebral. X consta de las grabaciones promedio de fMRI de los otros individuos que escucharon las mismas historias que el individuo s. X e Y tienen la misma dimensionalidad y se supone que el retraso en negrita es comparable entre individuos, por lo que no aplicamos un FIR a X. Por lo tanto,

con Y(s) como el fMRI promedio de los otros individuos que escucharon la misma historia que el individuo s.

Tanto para la puntuación del cerebro como para el cálculo del techo de ruido, ajustamos una regresión de cresta W(s) para cada individuo s, prediciendo Y(s) dado X, usando la misma configuración de validación cruzada quíntuple. Evaluamos la predicción sucesivamente en los cinco pliegues de la prueba usando la correlación de Pearson y promediamos las puntuaciones de correlación entre los pliegues. Esto dio como resultado una puntuación cerebral y una estimación de techo de ruido por individuo (y vóxel). Los resultados promediados entre individuos se muestran en la figura complementaria 10. Esta puntuación es un límite superior posible para la mejor puntuación cerebral que se puede obtener dado el nivel de ruido en el conjunto de datos.

¿El ajuste fino de GPT-2 para predecir representaciones a largo plazo, de alto nivel y más contextualizadas aumenta su similitud con el cerebro?

Para probar esta pregunta, ajustamos GPT-2 utilizando una combinación de pérdida de modelado de lenguaje y pérdida de alto nivel y a largo plazo. Luego evaluamos las puntuaciones cerebrales y probamos si el objetivo de alto nivel conduciría a puntuaciones cerebrales significativamente más altas que el objetivo de modelado del lenguaje.

Ajustamos el modelo GPT-2 preentrenado proporcionado por Huggingface con una combinación de modelado de lenguaje y pronóstico de alto nivel. La pérdida de mezcla fue parametrizada por un hiperparámetro α ∈ [0,1]. La pérdida total minimizada viene dada por:

con la restricción de que \({\alpha }^{{\prime} }{{{{\mathcal{L}}}}}_{\mathrm{alto nivel}}=\alpha (1-{\alpha } ^{{\prime} }){{{{\mathcal{L}}}}}_{\mathrm{lenguaje}\ {\mathrm{modelado}}}\). Al hacerlo, establecer α en 0,5 significa que cada término de la pérdida contribuye al 50% de la pérdida total. El objetivo de modelado del lenguaje predice la siguiente palabra y viene dado por:

con:

CE como la pérdida de entropía cruzada;

f como el modelo refinado aprendido. f se inicializa con los pesos de GPT-2 preentrenado. Por lo tanto, f es una red de transformadores de 12 capas apiladas en una palabra incrustada, cada capa tiene una dimensionalidad de 768;

\(h_{{\rm{lenguaje}}\,{\rm{modelado}}}\) como el encabezado lineal de modelado del lenguaje en la parte superior de la última capa de f, de 768 a nvocab, que predice la siguiente palabra;

xt como tokens de entrada;

xt + 1 a medida que los tokens de entrada cambiaron de un paso de tiempo (las palabras siguientes).

El objetivo de alto nivel predice la capa k de palabra a la distancia d de la palabra actual y viene dado por:

dónde:

Nk es una red separada y fija. Aquí, usamos la versión preentrenada de GPT-2 proporcionada por Huggingface, tomada en la capa k. Sus pesos son fijos: no varían con el entrenamiento.

\(h_{{\rm{high}}\hbox{-}{\rm{level}}}\) es una cabeza lineal encima de la última capa de f, de 768 a 768, que predice las activaciones del k-ésima capa de la red fija Nk, correspondiente a la palabra a la distancia d de la palabra actual.

x representa las entradas, xt marca las palabras actuales y xt + d marca las palabras a la distancia d de la palabra actual.

CPC es la pérdida de codificación predictiva contrastiva84.

con S como métrica de similitud, yverdadero,negativo como un conjunto de muestras negativas y yverdadero,positivo como un conjunto de muestras positivas.

En la práctica, elegimos predecir los estados ocultos en la capa k = 8 de la palabra futura a una distancia d = 8. Elegimos la capa k = 8 y d = 8 porque condujo a los mejores resultados (Fig. 2d). Para calcular la pérdida de CPC, tomamos τ = 0,1 y usamos la similitud del coseno como métrica de similitud S. Usamos 2000 negativos muestreados aleatoriamente de una cola negativa (de tamaño 2500). La cola negativa se actualizó en cada lote agregando los estados ocultos a las palabras no objetivo del lote actual. Dichos estados ocultos se extrajeron de la red previamente entrenada en la capa k (Nk). Para que las pérdidas de modelado de lenguaje y de alto nivel tengan una contribución fija α y 1 − α sobre el entrenamiento, actualizamos el parámetro \({\alpha }^{{\prime} }\) en la ecuación (8) cada 100 pasos de gradiente .

Ajustamos GPT-2 en el conjunto de datos de Wikipedia en inglés ya preprocesado (https://huggingface.co/datasets/wikipedia) que consta de 6 millones de documentos (30 GB) en 2 unidades de procesamiento de gráficos. Usamos la implementación 'Trainer' de Huggingface con los argumentos de entrenamiento predeterminados (optimizador de Adam, tasa de aprendizaje = 0.00005; consulte https://huggingface.co/docs/transformers/main_classes/trainer para conocer los otros parámetros predeterminados). Debido a las limitaciones de memoria, restringimos el tamaño del contexto de GPT-2 a 256 tokens y usamos un tamaño de lote de 4 por dispositivo (por lo tanto, 2 × 4 × 256 = 1024 tokens por lote y actualizaciones de gradiente). Para mayor estabilidad, ajustamos las capas de nivel superior de la red (desde la capa 8 hasta la capa 12), mientras que las capas inferiores se mantuvieron congeladas. El ajuste fino de toda la red con el modelado del lenguaje condujo a una caída significativa en las puntuaciones cerebrales (con parámetros de entrenamiento fijos). Las pérdidas se monitorearon en un conjunto de evaluación separado de 1,000 documentos de Wikipedia.

Ajustamos siete modelos GPT-2 con diferente peso de alto nivel α, desde una pérdida de modelado de lenguaje completo (α = 0), modelado de medio lenguaje y alto nivel (α = 0.5) hasta alto nivel completo (α = 1). Durante el entrenamiento, guardamos ≈15 puntos de control del modelo (regularmente espaciados entre 0 y 106 actualizaciones de gradiente). Para cada modelo y paso, calculamos las puntuaciones cerebrales de sus capas concatenadas [0,4,8,12] en el mismo conjunto de datos de Narratives39. Elegimos abarcar todas las capas de 0 a 12 porque las representaciones podrían 'moverse' a través de las capas durante el ajuste fino, lo que podría sesgar los resultados. Luego promediamos las puntuaciones del cerebro a través de los pasos y evaluamos la ganancia de una red sobre otra. En la Fig. 5, informamos la ganancia promediada entre individuos al agregar cada vez más predicción de alto nivel en la pérdida.

Más información sobre el diseño de la investigación está disponible en el Resumen de informes de Nature Portfolio vinculado a este artículo.

El conjunto de datos Narratives39 está disponible públicamente en OpenNeuro https://openneuro.org/datasets/ds002345/versions/1.1.4.

Todos los análisis se realizaron con Python y scikit-learn81. Los datos de fMRI se analizaron con nilearn (https://nilearn.github.io/stable/index.html), mne-python85,86,87,88 y freesurfer (https://surfer.nmr.mgh.harvard.edu /). Los modelos de lenguaje profundo se analizaron utilizando la biblioteca de transformadores80. La significación estadística se evaluó utilizando Scipy83.

Vaswani, A. et al. La atención es todo lo que necesitas. En Avances en sistemas de procesamiento de información neuronal, vol. 30 (Curran Associates, 2017).

Radford, A. et al. Los modelos de lenguaje son estudiantes multitarea no supervisados ​​(2019).

Brown, TB et al. Los modelos de lenguaje son aprendices de pocas oportunidades. En Avances en sistemas de procesamiento de información neuronal, vol. 33, 1877-1901 (Curran Associates, 2020).

Fan, A., Lewis, M. y Dauphin, Y. Generación de historias neuronales jerárquicas. En Actas de la 56.ª Reunión Anual de la Asociación de Lingüística Computacional (Volumen 1: Documentos extensos), 889–898 (Asociación de Lingüística Computacional, 2018).

Jain, S. y Huth, AG Incorporación de contexto en modelos de codificación de lenguaje para fMRI. En Proc. 32ª Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS 2018), vol. 31, (Curran Associates, 2018).

Toneva, M. & Wehbe, L. Interpretación y mejora del procesamiento del lenguaje natural (en máquinas) con procesamiento del lenguaje natural (en el cerebro). En Avances en sistemas de procesamiento de información neuronal, vol. 32 (Curran Associates, 2019).

Caucheteux, C. y King, J.-R. Cerebros y algoritmos convergen parcialmente en el procesamiento del lenguaje natural. Biol común. 5, 134 (2022).

Schrimpf, M. et al. La arquitectura neuronal del lenguaje: el modelado integrador converge en el procesamiento predictivo. Actas de la Academia Nacional de Ciencias, vol. 118, e2105646118 (Actas de la Academia Nacional de Ciencias, 2020).

Toneva, M., Mitchell, TM y Wehbe, L. La combinación de controles computacionales con texto natural revela nuevos aspectos de la composición del significado. Nat. computar ciencia 2, 745–757 (2022).

Artículo PubMed PubMed Central Google Académico

Reddy, AJ & Wehbe, L. Representaciones sintácticas en el cerebro humano: más allá de las métricas basadas en el esfuerzo. Preimpresión en bioRxiv https://doi.org/10.1101/2020.06.16.155499 (2021).

Goldstein, A. et al. Principios computacionales compartidos para el procesamiento del lenguaje en humanos y modelos de lenguaje profundo. Nat Neurosci. 25, 369–380 (2022).

Artículo CAS PubMed PubMed Central Google Scholar

Millet, J., et al. Hacia un modelo realista del procesamiento del habla en el cerebro con aprendizaje autosupervisado. En Avances en Sistemas de Procesamiento de Información Neural (NeurIPS, 2022).

Holtzman, A., Buys, J., Maxwell Forbes, LD & Choi, Y. El curioso caso de la degeneración del texto neuronal. En Conferencia Internacional sobre Representaciones de Aprendizaje (2020).

Wiseman, S., Shieber, SM y Rush, AM Desafíos en la generación de datos a documentos. En Actas de la Conferencia de 2017 sobre métodos empíricos en el procesamiento del lenguaje natural, 2253–2263. (Asociación de Lingüística Computacional, 2017).

Thakur, N., Reimers, N., Rücklé, A., Srivastava, A. & Gurevych, I. BEIR: un punto de referencia heterogéneo para la evaluación de tiro cero de los modelos de recuperación de información. En la trigésima quinta conferencia sobre conjuntos de datos de sistemas de procesamiento de información neuronal y seguimiento de puntos de referencia (ronda 2) (2021).

Rafael, C. et al. Explorando los límites del aprendizaje por transferencia con un transformador unificado de texto a texto. J. Mach. Aprender. Res. 21, 140 (2020).

Google Académico

Krishna, K., Roy, A. & Iyyer, M. Obstáculos para progresar en la respuesta a preguntas de formato largo. En Actas de la Conferencia de 2021 del Capítulo de América del Norte de la Asociación de Lingüística Computacional: Tecnologías del Lenguaje Humano, 4940–4957 (Asociación de Lingüística Computacional, 2021).

Lakretz, Y. et al. El surgimiento de unidades numéricas y sintácticas en los modelos de lenguaje LSTM. En Actas de la Conferencia de 2019 del Capítulo de América del Norte de la Asociación de Lingüística Computacional: Tecnologías del Lenguaje Humano, Volumen 1 (Artículos largos y cortos), 11–20 (Asociación de Lingüística Computacional, 2019).

Arehalli, S. y Linzen, T. Los modelos de lenguaje neuronal capturan algunos, pero no todos, los efectos de atracción de acuerdos. Preimpresión en PsyArXiv https://doi.org/10.31234/osf.io/97qcg (2020).

Lakretz, Y. et al. ¿Pueden los RNN aprender acuerdos sujeto-verbo anidados recursivos? Preimpresión en arXiv https://doi.org/10.48550/arXiv.2101.02258 (2021).

Baroni, M. Generalización lingüística y composicionalidad en redes neuronales artificiales modernas. Filosofía Trans. R. Soc. largo B Biol. ciencia 375, 20190307 (2020).

Artículo PubMed Google Académico

Lake, BM & Murphy, GL Significado de las palabras en mentes y máquinas. psicol. Rev. Publicación anticipada en línea https://doi.org/10.1037/rev0000297 (2021).

Marcus, G. Gpt-2 y la naturaleza de la inteligencia. El gradiente https://thegradient.pub/gpt2-and-the-nature-of-intelligence/ (2020).

Warstadt, A. y Bowman, SR Qué pueden decirnos las redes neuronales artificiales sobre la adquisición del lenguaje humano. Preimpresión en arXiv https://doi.org/10.48550/arXiv.2208.07998 (2022).

Rumelhart, DE & McClelland, JL Un modelo de activación interactivo de efectos de contexto en la percepción de letras: Parte 2. El efecto de mejora contextual y algunas pruebas y extensiones del modelo. psicol. Rev. 89, 60–94 (1982).

Artículo CAS PubMed Google Académico

Rao, RP & Ballard, DH Codificación predictiva en la corteza visual: una interpretación funcional de algunos efectos de campo receptivo extraclásicos. Nat. Neurosci. 2, 79–87 (1999).

Artículo CAS PubMed Google Académico

Friston, K. & Kiebel, S. Codificación predictiva bajo el principio de energía libre. Filosofía Trans. R. Soc. largo B Biol. ciencia 364, 1211–1221 (2009).

Artículo PubMed PubMed Central Google Académico

Wacongne, C. et al. Evidencia de una jerarquía de predicciones y errores de predicción en la corteza humana. proc. Academia Nacional. ciencia EE. UU. 108, 20754–20759 (2011).

Artículo CAS PubMed PubMed Central Google Scholar

Garrido, MI, Kilner, JM, Stephan, KE & Friston, KJ La negatividad del desajuste: una revisión de los mecanismos subyacentes. clin. Neurofisiol. 120, 453–463 (2009).

Artículo PubMed PubMed Central Google Académico

Willems, RM, Frank, SL, Nijhof, AD, Hagoort, P. & van den Bosch, A. Predicción durante la comprensión del lenguaje natural. cerebro. Corteza 26, 2506–2516.

Artículo PubMed Google Académico

Lopopolo, A., Frank, SL, van den Bosch, A. & Willems, RM Uso de modelos de lenguaje estocástico (SLM) para mapear el procesamiento de información léxica, sintáctica y fonológica en el cerebro. PLoS ONE 12, e0177794 (2017).

Artículo PubMed PubMed Central Google Académico

Okada, K., Matchin, W. & Hickok, G. Evidencia neuronal para la codificación predictiva en la corteza auditiva durante la producción del habla. Psicón. Toro. Rev. 25, 423–430 (2018).

Artículo PubMed Google Académico

Shain, C., Blank, IA, van Schijndel, M., Schuler, W. y Fedorenko, E. fMRI revela la codificación predictiva específica del lenguaje durante la comprensión naturalista de oraciones. Neuropsychologia 138, 107307 (2020).

Artículo PubMed Google Académico

Heilbron, M., Armeni, K., Schoffelen, J.-M., Hagoort, P. & de Lange, F. Una jerarquía de predicciones lingüísticas durante la comprensión del lenguaje natural. proc. nacional Academia ciencia EE. UU. 119, e2201968119 (2022).

Artículo CAS PubMed PubMed Central Google Scholar

Heilbron, M., Ehinger, B., Hagoort, P. & de Lange, FP Seguimiento de predicciones lingüísticas naturalistas con modelos de lenguaje neuronal profundo. En Congreso sobre Neurociencia Cognitiva Computacional (2019).

Donhauser, PW y Baillet, S. Dos escalas de tiempo neuronales distintas para el procesamiento predictivo del habla. Neurona 105, 385–393 (2020).

Artículo Google Académico

Mousavi, Z., Kiani, MM y Aghajan, H. Firmas cerebrales de sorpresa en datos de EEG y MEG. Preimpresión en bioRxiv https://doi.org/10.1101/2020.01.06.895664 (2020).

Forseth, KJ, Hickok, G., Rollo, PS y Tandon, N. Mecanismos de predicción del lenguaje en la corteza auditiva humana. Nat. común 11, 5240 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Nastase, SA et al. Narrativas: datos de fMRI para evaluar modelos de comprensión naturalista del lenguaje. ciencia Datos 8, 250 (2021).

Artículo PubMed PubMed Central Google Académico

Caucheteux, C., Gramfort, A. y King, J.-R. Desentrañando sintaxis y semántica en el cerebro con redes profundas. En Actas de la 38.ª Conferencia internacional sobre aprendizaje automático, 1336-1348 (PMLR, 2021).

Wehbe, L., Vaswani, A., Knight, K. & Mitchell, T. Alineación de modelos estadísticos del lenguaje basados ​​en el contexto con la actividad cerebral durante la lectura. En Proc. Conferencia de 2014 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP), 233–243 (Asociación de Lingüística Computacional, 2014).

Huth, AG, de Heer, WA, Griffiths, TL, Theunissen, FE & Gallant, JL El habla natural revela los mapas semánticos que componen la corteza cerebral humana. Naturaleza 532, 453–458 (2016).

Artículo PubMed PubMed Central Google Académico

Toneva, M., Mitchell, TM & Wehbe, L. El significado que surge de la combinación de palabras es fuertemente localizable en el espacio pero no en el tiempo. Preimpresión en bioRxiv https://doi.org/10.1101/2020.09.28.316935 (2020).

Fedorenko, E. et al. Correlato neural de la construcción del significado de la oración. proc. nacional Academia ciencia EE. UU. 113, E6256–E6262 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Felleman, DJ & Van Essen, DC Procesamiento jerárquico distribuido en la corteza cerebral de los primates. cerebro. Corteza 1, 1–47 (1991).

Artículo CAS PubMed Google Académico

Lerner, Y., Honey, CJ, Silbert, LJ & Hasson, U. Mapeo topográfico de una jerarquía de ventanas receptivas temporales usando una historia narrada. J. Neurosci. 31, 2906–2915 (2011).

Artículo CAS PubMed PubMed Central Google Scholar

Kell, AJE, Yamins, DLK, Shook, EN, Norman-Haignere, SV y McDermott, JH Una red neuronal optimizada para tareas replica el comportamiento auditivo humano, predice las respuestas cerebrales y revela una jerarquía de procesamiento cortical. Neurona 98, 630–644 (2018).

Artículo Google Académico

Mesgarani, N., Cheung, C., Johnson, K. & Chang, EF Codificación de características fonéticas en la circunvolución temporal superior humana. Ciencia 343, 1006–1010 (2014).

Artículo CAS PubMed PubMed Central Google Scholar

Hickok, G. & Poeppel, D. La organización cortical del procesamiento del habla. Nat. Rev. Neurosci. 8, 393–402 (2007).

Artículo CAS PubMed Google Académico

Jawahar, G., Sagot, B. & Seddah, D. ¿Qué aprende BERT sobre la estructura del lenguaje? En Proc. 57.ª reunión anual de la Asociación de Lingüística Computacional, 3651–3657 (Asociación de Lingüística Computacional, 2019).

Manning, CD, Clark, K., Hewitt, J., Khandelwal, U. & Levy, O. Estructura lingüística emergente en redes neuronales artificiales entrenadas por autosupervisión. proc. nacional Academia ciencia EE. UU. 117, 30046–30054 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Bellman, R. Programación dinámica. Ciencia 153, 34–37 (1966).

Artículo CAS PubMed Google Académico

Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. BERT: entrenamiento previo de transformadores bidireccionales profundos para la comprensión del lenguaje. En Actas de la Conferencia de 2019 del Capítulo de América del Norte de la Asociación de Lingüística Computacional: Tecnologías del Lenguaje Humano, 1, 4171–4186, (Asociación de Lingüística Computacional, 2019).

Liu, Y. et al. RoBERTa: un enfoque de preentrenamiento BERT sólidamente optimizado. Preimpresión en arXiv https://doi.org/10.48550/arXiv.1907.11692 (2019).

Clark, K., Luong, M.-T. & Le, QV & Manning, CD ELECTRA: codificadores de texto de entrenamiento previo como discriminadores en lugar de generadores. Preimpresión en arXiv https://doi.org/10.48550/arXiv.2003.10555 (2020).

Caucheteux, C., Gramfort, A. y King, J.-R. Los algoritmos de lenguaje profundo predicen la comprensión semántica a partir de la actividad cerebral. Sci Rep. 12, 16327 (2022).

Artículo CAS PubMed PubMed Central Google Scholar

Gilbert, SJ & Burgess, PW Función ejecutiva. actual Biol. 18, R110–R114 (2008).

Artículo CAS PubMed Google Académico

Shallice, T. & Burgess, P. Déficit en la aplicación de la estrategia después del daño del lóbulo frontal en el hombre. Cerebro 114, 727–741 (1991).

Artículo PubMed Google Académico

Wang, L. et al. Codificación predictiva dinámica en la jerarquía del lenguaje fronto-temporal izquierdo: evidencia de MEG, EEG y fMRI. Preprint en bioRxiv https://doi.org/10.1101/2021.02.17.431452 (2021).

Lee, CS, Aly, M. & Baldassano, C. Anticipación de eventos estructurados temporalmente en el cerebro. eLife 10, e64972 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Caucheteux, C., Gramfort, A. y King, J.-R. El análisis basado en modelos de la actividad cerebral revela la jerarquía del lenguaje en 305 sujetos. En Proc. EMNLP 2021, Conferencia sobre métodos empíricos en el procesamiento del lenguaje natural 3635–3644 (Asociación de lingüística computacional, 2021).

Vidal, Y., Brusini, P., Bonfieni, M., Mehler, J. & Bekinschtein, TA Neural Signal to violas of abstract rules using speech-like stimules. eNeuro 6, ENEURO.0128-19.2019 (2019).

Nelson, MJ et al. Dinámica neurofisiológica de la construcción de estructuras de frases durante el procesamiento de oraciones. proc. Academia Nacional. ciencia EE. UU. 114, E3669–E3678 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Ding, N., Melloni, L., Zhang, H., Tian, ​​X. y Poeppel, D. Seguimiento cortical de estructuras lingüísticas jerárquicas en el habla conectada. Nat. Neurosci. 19, 158–164 (2016).

Artículo CAS PubMed Google Académico

Jackendoff, R. & Jackendoff, RS Fundamentos del lenguaje: cerebro, significado, gramática, evolución (Oxford Univ. Press, 2002).

Shain, C. et al. Los efectos de 'longitud de los constituyentes' en fMRI no proporcionan evidencia para el procesamiento sintáctico abstracto. Preimpresión en bioRxiv https://doi.org/10.1101/2021.11.12.467812 (2021).

McClelland, JL & Rumelhart, DE Un modelo de activación interactiva de los efectos del contexto en la percepción de letras: I. Una descripción de los hallazgos básicos. psicol. Rev. 88, 375–407 (1981).

Artículo Google Académico

Hale, JT et al. Modelos neurocomputacionales de procesamiento del lenguaje. Ana. Rev. lingüista. 8, 427–446 (2022).

Artículo Google Académico

Jernite, Y., Bowman, SR & Sontag, D. Objetivos basados ​​en el discurso para el aprendizaje rápido de representación de oraciones sin supervisión. Preimpresión en arXiv https://doi.org/10.48550/arXiv.1705.00557 (2017).

Lewis, M. et al. BART: entrenamiento previo de eliminación de ruido de secuencia a secuencia para la generación, traducción y comprensión del lenguaje natural. En Actas de la 58.ª Reunión Anual de la Asociación de Lingüística Computacional, 7871–7880 (Asociación de Lingüística Computacional, 2020).

Yang, Z. et al. XLNet: preentrenamiento autorregresivo generalizado para la comprensión del lenguaje. En Avances en sistemas de procesamiento de información neuronal, 32 (Curran Associates, 2019).

Joshi, M. et al. SpanBERT: Mejora del entrenamiento previo mediante la representación y predicción de tramos. En Transactions of the Association for Computational Linguistics 8, 64–77 (2020).

Google Académico

Szegedy, C. et al. Profundizando con las circunvoluciones. En Proc. Conferencia IEEE de 2015 sobre visión artificial y reconocimiento de patrones (CVPR), 1–9 (IEEE, 2015).

Chen, T., Kornblith, S., Norouzi, M. & Hinton, G. Un marco simple para el aprendizaje contrastivo de representaciones visuales. En Actas de la 37.ª Conferencia internacional sobre aprendizaje automático, 149 (2020).

He, K., Fan, H., Wu, Y., Xie, S. y Girshick, R. Momentum contrast para el aprendizaje de representación visual no supervisado. Preimpresión en arXiv https://doi.org/10.48550/arXiv.1911.05722 (2020).

El-Nouby, A. et al. XCiT: transformadores de imagen de covarianza cruzada. En Advances in Neural Information Processing Systems, 34, 20014–20027 (Curran Associates, 2021).

Bardes, A., Ponce, J. & LeCun, Y. VICReg: regularización de varianza-invarianza-covarianza para el aprendizaje autosupervisado. En Conferencia Internacional sobre Representaciones de Aprendizaje (2022).

Kepecs, A., Uchida, N., Zariwala, HA & Mainen, ZF Correlatos neuronales, computación e impacto conductual de la confianza en las decisiones. Naturaleza 455, 227–231 (2008).

Artículo CAS PubMed Google Académico

Esteban, O. et al. fMRIPrep: una sólida canalización de preprocesamiento para resonancia magnética funcional. Nat. Métodos 16, 111–116 (2019).

Artículo CAS PubMed Google Académico

Lobo, T. et al. Transformadores: procesamiento de lenguaje natural de última generación. En Proc. Conferencia de 2020 sobre métodos empíricos en el procesamiento del lenguaje natural: demostraciones del sistema, 38–45 (Asociación de lingüística computacional, 2020).

Pedregosa, F. et al. Scikit-learn: aprendizaje automático en Python. J. Mach. Aprender. Res. 12, 2825–2830 (2011).

Google Académico

Destrieux, C., Fischl, B., Dale, A. & Halgren, E. Parcelación automática de circunvoluciones y surcos corticales humanos usando nomenclatura anatómica estándar. Neuroimagen 53, 1–15 (2010).

Artículo PubMed Google Académico

Virtanen, P. et al. SciPy 1.0: algoritmos fundamentales para la computación científica en Python. Nat. Métodos 17, 261–272 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Henaff, OJ et al. Reconocimiento de imágenes eficiente en datos con codificación predictiva contrastiva. En Actas de la 37.ª Conferencia internacional sobre aprendizaje automático, 4182–4192 (PMLR, 2020).

Gramfort, A. et al. Análisis de datos MEG y EEG con MNE-Python. Frente. Neurosci. 7, 267 (2013).

Artículo PubMed PubMed Central Google Académico

Dai, Z. et al. Transformer-XL: modelos de lenguaje atento más allá de un contexto de longitud fija. En Actas de la 57.ª Reunión Anual de la Asociación de Lingüística Computacional, 2978–2988 (Asociación de Lingüística Computacional, 2019).

Nunez-Elizalde, AO, Huth, AG & Gallant, JL Modelos de codificación Voxelwise con anteriores normales multivariados no esféricos. Neuroimagen 197, 482–492 (2019).

Artículo PubMed Google Académico

Dupré la Tour, T., Eickenberg, M., Nunez-Elizalde, AO & Gallant, J. Feature-space selection with banded ridge regression. Neuroimagen 264, 119728 (2022).

Artículo PubMed Google Académico

Descargar referencias

Este proyecto fue financiado, en parte, por la Fundación Bettencourt-Schueller, la Fundación Philippe y la subvención FrontCog no. ANR-17-EURE-0017 a JRK por su trabajo en la Université Paris Sciences et Lettres. Los financiadores no tuvieron ningún papel en el diseño del estudio, la recopilación y el análisis de datos, la decisión de publicar o la preparación del manuscrito.

Meta AI, París, Francia

Charlotte Caucheteux, Alexandre Gramfort y Jean-Rémi King

Universidad Paris-Saclay, Inria, Comisión de Energía Atómica y Energías Alternativas, París, Francia

Charlotte Caucheteux y Alexandre Gramfort

Laboratorio de Sistemas de Percepción, Departamento de Estudios Cognitivos, École Normale Supérieure, Universidad PSL, CNRS, París, Francia

Jean Remi Rey

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

CC, AG y J.-RK diseñaron conjuntamente el análisis, interpretaron los resultados y redactaron el artículo. CC realizó los análisis y experimentos.

Correspondencia a Charlotte Caucheteux o Jean-Rémi King.

Los autores declaran no tener conflictos de intereses.

Nature Human Behavior agradece a Samuel Nastase y a los otros revisores anónimos por su contribución a la revisión por pares de este trabajo.

Nota del editor Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Notas complementarias 1–5, Figs. 1–10 y tablas 1–3.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Caucheteux, C., Gramfort, A. y King, JR. Evidencia de una jerarquía de codificación predictiva en el cerebro humano que escucha el habla. Nat Hum Behav 7, 430–441 (2023). https://doi.org/10.1038/s41562-022-01516-2

Descargar cita

Recibido: 31 de marzo de 2022

Aceptado: 15 de diciembre de 2022

Publicado: 02 marzo 2023

Fecha de emisión: marzo de 2023

DOI: https://doi.org/10.1038/s41562-022-01516-2

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt