banner
Centro de Noticias
Articulado y competente en su experiencia.

Sistema de salud

May 24, 2023

Naturaleza (2023)Citar este artículo

18k Accesos

604 Altmetric

Detalles de métricas

Los médicos toman decisiones críticas con limitaciones de tiempo todos los días. Los modelos predictivos clínicos pueden ayudar a los médicos y administradores a tomar decisiones al pronosticar eventos clínicos y operativos. Los modelos predictivos clínicos basados ​​en datos estructurados existentes tienen un uso limitado en la práctica diaria debido a la complejidad del procesamiento de datos, así como al desarrollo y despliegue del modelo1,2,3. Aquí mostramos que las notas clínicas no estructuradas de la historia clínica electrónica pueden permitir el entrenamiento de modelos de lenguaje clínico, que se pueden utilizar como motores de predicción clínica multiusos con desarrollo y despliegue de baja resistencia. Nuestro enfoque aprovecha los avances recientes en el procesamiento del lenguaje natural4,5 para entrenar un gran modelo de lenguaje para el lenguaje médico (NYUTron) y, posteriormente, ajustarlo en una amplia gama de tareas predictivas clínicas y operativas. Evaluamos nuestro enfoque dentro de nuestro sistema de salud para cinco tareas de este tipo: predicción de reingreso por todas las causas a los 30 días, predicción de mortalidad hospitalaria, predicción del índice de comorbilidad, predicción de la duración de la estadía y predicción de denegación del seguro. Mostramos que NYUTron tiene un área bajo la curva (AUC) de 78,7 a 94,9 %, con una mejora de 5,36 a 14,7 % en el AUC en comparación con los modelos tradicionales. Además, demostramos los beneficios del entrenamiento previo con texto clínico, el potencial para aumentar la generalización a diferentes sitios a través del ajuste fino y el despliegue completo de nuestro sistema en un ensayo prospectivo de un solo brazo. Estos resultados muestran el potencial del uso de modelos de lenguaje clínico en medicina para leer junto con los médicos y brindar orientación en el punto de atención.

Los médicos toman decisiones difíciles todos los días que requieren la integración de una gran cantidad de información. La información necesaria para tomar estas decisiones médicas se encuentra dispersa en varios registros, por ejemplo, el historial médico de un paciente y los informes de laboratorio e imágenes. Sin embargo, cuando los médicos realizan su trabajo, toda esta información finalmente se integra en las notas escritas por los médicos para documentar y resumir la atención del paciente.

Los modelos predictivos clínicos con frecuencia se derivan de reglas que han existido durante décadas6,7,8,9, así como de métodos de aprendizaje automático10,11,12, y la mayoría se basa en entradas estructuradas extraídas del registro de salud electrónico (EHR) o directamente del médico. entradas. Esta dependencia de entradas estructuradas introduce complejidad en el procesamiento de datos, así como en el desarrollo y la implementación de modelos, lo que en parte es responsable de que la gran mayoría de los algoritmos predictivos médicos se entrenen, prueben y publiquen, pero nunca se implementan para evaluar su impacto en la vida real. atención clínica mundial. Esto se conoce con frecuencia como el 'problema de la última milla' (refs. 1,2,3).

Uno de los desarrollos recientes más emocionantes en la investigación moderna de inteligencia artificial (IA) son los modelos de lenguaje grande (LLM). Se ha demostrado que estas redes neuronales masivas (con millones o incluso miles de millones de parámetros) obtienen resultados impactantes en una amplia gama de problemas que dependen de la lectura e interpretación del lenguaje humano. Se han desarrollado varios estilos de LLM en los últimos años, que van desde modelos de codificador (como BERT4) hasta modelos de decodificador (como GPT3; ref. 5). Teorizamos que los LLM podrían resolver potencialmente el problema de la última milla en el análisis predictivo médico simplemente leyendo las notas escritas por los médicos, accediendo así de inmediato a una descripción completa del estado médico de un paciente para brindar apoyo en la toma de decisiones en el punto de atención a través de una amplia gama de tareas clínicas y operativas.

Aquí presentamos nuestros resultados del desarrollo, evaluación, implementación y evaluación prospectiva de NYUTron, un sistema basado en LLM que puede integrarse en tiempo real con flujos de trabajo clínicos centrados en escribir notas y realizar pedidos electrónicos. Nuestro enfoque se basa en el hecho de que todos los datos clínicamente útiles y los procesos de toma de decisiones de los profesionales médicos se pueden encontrar como texto estructurado o no estructurado en el EHR (por ejemplo, como notas, resultados de laboratorio e informes de estudios). Nuestro enfoque aprovecha los avances recientes en el procesamiento del lenguaje natural que sugieren que los LLM autosupervisados ​​suficientemente escalados pueden superar los enfoques fuertemente supervisados ​​en tareas predictivas no médicas4,5,13. Investigamos nuestra hipótesis en el Sistema de Salud Langone de la NYU ('NYU Langone'), un gran sistema hospitalario de varios condados con una población diversa de pacientes en Nueva York, con 4 hospitales urbanos y 350 sitios para pacientes ambulatorios. Evaluamos NYUTron en una batería de cinco tareas, incluidas tres tareas clínicas y dos operativas (predicción de readmisión por todas las causas a los 30 días, predicción de mortalidad hospitalaria, predicción del índice de comorbilidad, predicción de la duración de la estancia (LOS) y predicción de denegación del seguro) y proporcionar un análisis detallado de nuestra tarea de readmisión de 30 días para analizar cuestiones de eficiencia de datos, generalización, implementación e impacto clínico potencial. Al repensar todo el análisis predictivo médico (consulte la sección 1.1 de Información complementaria para trabajos anteriores) como un problema de procesamiento del lenguaje natural, mostramos que es posible utilizar los LLM como motores de predicción universales para una amplia gama de tareas predictivas médicas.

Nuestro enfoque basado en modelos de lenguaje consta de cuatro pasos: recopilación de datos, capacitación previa, ajuste e implementación. En el primer paso (Fig. 1a), recopilamos un amplio conjunto de notas clínicas sin etiquetar y cinco notas clínicas etiquetadas para tareas específicas del NYU Langone EHR. A diferencia de otros estudios, nuestros conjuntos de datos provienen de todo el sistema hospitalario con una población diversa de pacientes de diferentes departamentos clínicos. Nuestro gran conjunto de datos sin etiquetar, 'NYU Notes', comprende 7,25 millones de notas clínicas (por ejemplo, lecturas radiográficas, historial y exámenes físicos) de 387 144 pacientes en cuatro hospitales, lo que da como resultado un corpus de 4100 millones de palabras seleccionado desde enero de 2011 hasta mayo de 2020. Cada uno de nuestros conjuntos de ajuste fino etiquetados contiene de 1 a 10 años de notas clínicas de pacientes hospitalizados (55 791 a 413 845 pacientes, 51 a 87 millones de palabras) con etiquetas específicas de tareas (2 a 4 clases). Consulte la Tabla 1 de datos ampliados para conocer las estadísticas del conjunto de datos.

a, consultamos el NYU Langone EHR para dos tipos de conjuntos de datos. El conjunto de datos previo al entrenamiento, NYU Notes, contiene 10 años de notas clínicas de pacientes hospitalizados (387 144 pacientes, 4100 millones de palabras). Hay cinco conjuntos de datos de ajuste fino. Cada uno contiene de 1 a 10 años de notas clínicas de pacientes hospitalizados (55 791 a 413 845 pacientes, 51 a 87 millones de palabras) con etiquetas específicas de tareas (2 a 4 clases). b, Entrenamos previamente un LLM similar a BERT de 109 millones de parámetros, denominado NYUTron, en todo el EHR mediante una tarea de MLM para crear un modelo preentrenado para el lenguaje médico contenido en el EHR. c, Posteriormente, ajustamos el modelo preentrenado en tareas específicas (por ejemplo, predicción de reingreso por todas las causas de 30 días) y lo validamos en datos retrospectivos retenidos. d, por último, el modelo ajustado se comprimió en un formato acelerado y se cargó en un motor de inferencia, que interactúa con el NYU Langone EHR para leer las notas de alta cuando las firman los médicos tratantes.

En el segundo y tercer paso (Fig. 1b, c), entrenamos previamente y ajustamos un LLM para cada tarea posterior utilizando un modelo de codificador bidireccional conocido como BERT (Representación de codificador bidireccional con transformador) y un objetivo de modelado de lenguaje enmascarado (MLM) en el conjunto de datos de NYU Notes11 hasta que la pérdida de validación se estabilizó. El objetivo de MLM enmascara aleatoriamente palabras o subpalabras en notas clínicas y entrena el modelo de lenguaje para completar correctamente la palabra enmascarada. Luego, utilizando el conjunto de datos de ajuste fino, ajustamos el modelo previamente entrenado (denominado 'NYUTron') para predecir la etiqueta de la tarea usando las relaciones aprendidas en el entrenamiento previo con las notas clínicas.

En el cuarto paso (Fig. 1d), implementamos nuestro mejor modelo en un motor de inferencia de alto rendimiento, NYUTriton, que interactúa con NYU Langone EHR. La implementación permitió la inferencia guiada por LLM en tiempo real en el punto de atención. En un ensayo prospectivo no intervencionista de un solo brazo, validamos el rendimiento de NYUTron en la predicción de reingreso a los 30 días en un entorno del mundo real y evaluamos sus impactos clínicos potenciales.

Para evaluar la amplitud de la aplicabilidad de NYUTron, evaluamos el desempeño de NYUTron en cinco tareas retrospectivamente. Entrenamos con el conjunto de datos completo y evaluamos el rendimiento con dos conjuntos de prueba: (1) un conjunto de prueba aleatorio (notas clínicas muestreadas al mismo tiempo que los datos de entrenamiento) y (2) un conjunto de prueba temporal (notas clínicas muestreadas del futuro de los datos de entrenamiento). El conjunto de prueba temporal se parece más al escenario de implementación, en el que los datos de inferencia provienen del futuro de los datos de entrenamiento. Nuestra batería de tareas consistió en tres tareas clínicas y dos tareas operativas, como se muestra en la Fig. 2a. Comparamos NYUTron con líneas de base estructuradas, que reenvían las características estructuradas utilizadas por los modelos predictivos clínicos tradicionales a un modelo de árbol14 potenciado por gradiente extremo.

a, Las cinco tareas incluyen tres tareas clínicas y dos tareas operativas. b, En la predicción de reingreso, NYUTron tuvo una mediana de AUC de 79,9 % ± 0,168 % con una mejora de 5,36 %. En la predicción de mortalidad hospitalaria, NYUTron tuvo una mediana de AUC de 94,9 % ± 0,168 % con una mejora de 7,43 %. En la imputación del índice de comorbilidad, NYUTron tuvo una AUC media de OVR de 89,4 % ± 0,275 %. A la derecha se muestra una matriz de confusión. c, En la predicción de LOS agrupada, NYUTron tuvo una mediana de AUC de 78,7 % ± 0,179 % con una mejora del 12,3 % desde la línea base estructurada. En la predicción de denegación del seguro, NYUTron tuvo una AUC media de 87,2 % ± 0,246 % con una mejora del 14,7 %. Para b,c, la altura de la barra de error es la mediana del AUC y la mitad del ancho de la barra de error es 1 sd. Los puntos grises son puntos de datos individuales de n = 5 experimentos que utilizan semillas aleatorias distintas.

NYUTron puede extenderse a múltiples tareas clínicas y operativas. La Figura 2b y la Figura 2c muestran que, en las tareas de predicción (mortalidad hospitalaria, reingreso, LOS y denegación del seguro), NYUTron tuvo un área bajo la curva (AUC) de 78,7 a 94,9 %, con una mejora de 5,36 a 14,7 %. en AUC de los modelos predictivos clínicos tradicionales. En la tarea de imputación del índice de comorbilidad, NYUTron tuvo una mediana de AUC de 89,4 % ± 0,275 %. Primero presentamos nuestros resultados en cuatro de las tareas y concluimos con una mirada enfocada a la predicción de readmisión que aborda cuestiones de eficiencia de datos, generalización del modelo e implementación en un entorno del mundo real.

NYUTron es capaz de predecir el riesgo de mortalidad hospitalaria al ingreso e imputar un índice de comorbilidad. La tarea de la predicción de la mortalidad hospitalaria era estimar (al ingreso) la probabilidad de muerte de un paciente durante el encuentro hospitalario actual. La figura 2b muestra que, para la predicción de la mortalidad hospitalaria, NYUTron tuvo una mediana de AUC de 94,9 % ± 0,168 %, con una mejora del 7,43 % desde su línea de base estructurada basada en la puntuación de fisiología aguda simplificada (SAPS2)15 y la evaluación de fisiología aguda y salud crónica (APACHE2)16 características como la edad y la frecuencia cardíaca media. La tarea de imputación del índice de comorbilidad fue predecir (al ingreso) el índice de comorbilidad de Charlson (ICC)17 sin características estructuradas disponibles para enfermedades crónicas. Enmarcamos esto como un problema de imputación de datos, ya que el 22% de nuestro conjunto de datos carecía de puntajes CCI y esta era un área conocida para la mejora de la documentación (consulte la sección 2.3 de Información complementaria para obtener más contexto). Discretizamos el índice en cuatro intervalos de acuerdo con los grados de gravedad del artículo original (0, ninguno; 1–2, leve; 3–4, moderado; ≥5, severo). La figura 2b muestra que, en la imputación de comorbilidad, NYUTron tuvo una mediana de AUC de 89,4 % ± 0,275 % y una precisión del 88 % al identificar a los pacientes cuya puntuación CCI era 0.

NYUTron también se puede utilizar para puntos finales operativos y para predecir la LOS de pacientes hospitalizados y la denegación de reclamaciones de seguros en el momento de la admisión. La tarea de la predicción de LOS era predecir (en el momento del ingreso) el rango probable de días que un paciente permanecería en el hospital. Discretizamos LOS en cuatro contenedores (0–25 % cuantil, 25–50 % cuantil, 50–75 % cuantil, >75 % cuantil). La figura 2c muestra que, para la predicción de LOS, NYUTron tuvo una AUC mediana de uno contra el resto (OVR) de 78,7 % ± 0,179 %, con una mejora del 12,3 % con respecto a la línea de base estructurada, que utilizó un subconjunto disponible de funciones de 'Lisboa Portugal'18 . La tarea de predicción de denegación de reclamos de seguros era predecir (en el momento de la admisión) si los reclamos de seguros presentados para un encuentro serían aceptados o denegados inicialmente. La Figura 2c muestra que, para la predicción de denegación de seguros, NYUTron tuvo un AUC medio de 87,2 % ± 0,246 %, con una mejora del 14,7 % con respecto a la línea de base estructurada, que utilizó un subconjunto disponible de funciones de 'formulario de reclamación'19, como la edad y el proveedor de seguros. NYUTron también es capaz de predecir diferentes tipos de denegaciones tanto de las notas de admisión como de las notas de alta con un rendimiento similar (información complementaria, sección 2.2).

Para comprender mejor el rendimiento de NYUTron, llevamos a cabo un análisis detallado de la predicción de readmisión por todas las causas a los 30 días. La tarea de la predicción de readmisión es predecir (en el momento del alta) la probabilidad de que un paciente regrese al hospital dentro de los 30 días y es un problema bien estudiado en la literatura de informática médica (consulte la sección Información complementaria 2.1 para obtener más detalles sobre la predicción de readmisión). tarea). La Figura 2b muestra que, para la predicción de reingreso por todas las causas a los 30 días, NYUTron tuvo un AUC medio de 79,87 % ± 0,168 %, con una mejora del 5,36 % desde su línea de base estructurada, que utilizó características LACE20 (un mnemotécnico para LOS, agudeza de admisión , índice de comorbilidad de Charlson y número de visitas a urgencias en los últimos 6 meses). Realizamos cinco evaluaciones adicionales en entornos tanto retrospectivos como prospectivos: (1) una comparación humana con seis médicos asistentes para predecir la readmisión de 20 casos de pacientes muestreados de una división aleatoria, (2) un estudio de las propiedades de escala de NYUTron con respecto a los datos en que NYUTron y otros modelos se compararon usando un número diferente de puntos de datos ajustados, (3) una evaluación de la generalización entre sitios de NYUTron usando datos de entrenamiento previo, ajuste fino y prueba de diferentes ubicaciones, (4) una evaluación prospectiva, única brazo, estudio no intervencionista para evaluar la capacidad de implementación de NYUTron y (5) una evaluación cualitativa realizada por un panel de médicos del desempeño prospectivo de NYUTron para evaluar los impactos clínicos.

En muestras pequeñas, NYUTron fue competitivo con un pequeño grupo de médicos en la predicción de la readmisión a los 30 días. Probamos a un grupo de seis médicos en diferentes niveles de antigüedad contra NYUTron en una comparación directa para establecer una dificultad de referencia para predecir el reingreso por todas las causas a los 30 días en el momento del alta. Se tomaron muestras de resúmenes de alta (n = 20, incluidos 11 casos positivos y 9 casos negativos) de una división aleatoria y se cargaron en una plataforma de evaluación en línea. El desempeño médico promedio fue peor que el de NYUTron (Fig. 3a). Para los médicos y NYUTron, la mediana de la tasa de falsos positivos (FPR) fue del 11,11 %, mientras que la mediana de la tasa de verdaderos positivos (TPR) fue del 50 % para los médicos en comparación con el 81,82 % para NYUTron. Los médicos tenían una puntuación F1 mediana del 62,8 % y una variación sustancial del 22,2 % en comparación con NYUTron, que tenía una puntuación F1 mediana del 77,8 %.

a, En 20 casos muestreados de una división aleatoria, comparamos el TPR y el FPR de NYUTron con los de seis médicos. NYUTron (triángulos naranjas) tuvo un TPR más alto y el mismo FPR en comparación con el desempeño médico medio (círculos verdes). La banda de error para AUC varía del mínimo al máximo, y las cruces naranjas indican TPR y FPR utilizando todos los umbrales posibles. Elegimos el umbral de NYUTron sobre la base de los datos de validación. b, Comparación de las AUC de prueba temporales de diferentes LLM preentrenados con un número creciente de ejemplos de ajuste fino. Para simplificar, omitimos la varianza y solo trazamos la mediana del rendimiento de cinco ensayos. Las diferencias en el rendimiento medio con 100 y 1000 ejemplos son menos notables porque las AUC con pocos ejemplos de ajuste fino tienen una variación alta (en 100 ejemplos, tuvimos una variación del 4,26 % al 9,56 %; en 1000 ejemplos, tuvimos una variación del 0,44 % al 9,46 %) . La variación de AUC disminuye con más ejemplos de ajuste fino. La línea discontinua horizontal en 0,75 corresponde al umbral de rendimiento. Ver presentaciones alternativas en Datos extendidos Fig. 7. c, d, rendimiento de prueba temporal de NYUTron utilizando datos de prueba, ajuste y preentrenamiento de diferentes sitios. Tanto para la prueba de Manhattan como para la de Brooklyn, la columna correspondiente al ajuste fino local muestra un mejor rendimiento que la del ajuste fino externo. Cada entrada en c, d se presenta como la media ± 1 sd para n = 5 experimentos que utilizan semillas aleatorias distintas.

La división aleatoria no se parece al escenario de implementación, en el que los datos de prueba provienen del futuro de los datos de entrenamiento. Por lo tanto, creamos una división temporal para simular el despliegue y observamos una diferencia significativa en las estadísticas de la prueba en comparación con la división aleatoria (el AUC de la prueba aleatoria fue del 84,13 %, mientras que el AUC de la prueba temporal fue del 80,2 %), lo que confirma la importancia de esta segunda fase de prueba ( comparación adicional en Datos extendidos Fig. 1).

NYUTron es competitivo con los modelos tradicionales y otros LLM. Evaluamos la efectividad de NYUTron comparando su rendimiento de prueba en la división temporal con el de un modelo tradicional y cuatro tipos diferentes de LLM. NYUTron tuvo el AUC más alto cuando se ajustó con el conjunto de datos completo (Fig. 3b), con un AUC medio de 79,87 % ± 0,17 %, que fue similar al AUC clínico+web-wiki+bio de 80,14 % ± 0,26 %. En comparación con los LLM preentrenados con texto no clínico (web-wiki+biografía y web-wiki), el AUC medio de NYUTron fue entre un 2,37 % y un 3,23 % más alto. En comparación con el modelo tradicional que usa características estructuradas (lace+xgb), NYUTron tuvo un AUC 5,36 % mayor. En comparación con un modelo que utiliza la incorporación tradicional de procesamiento de lenguaje natural (NLP) (tf-idf+xgb), NYUTron tuvo un AUC promedio 12,8 % más alto (datos extendidos, figura 2a).

Un LLM entrenado en notas clínicas no estructuradas escala mejor con datos que los modelos estructurados tradicionales. En comparación con lace+xgb, NYUTron se beneficia de una cantidad cada vez mayor de ejemplos etiquetados y logró un mejor AUC cuando se ajustó con el conjunto de datos completo. La Figura 3b muestra que lace+xgb (línea discontinua amarilla) y NYUTron (línea continua verde) tenían AUC similares en 100 y 1000 ejemplos. Sin embargo, el AUC de NYUTron mejoró constantemente con más ejemplos, mientras que el AUC de lace+xgb comenzó a estabilizarse (de 100 a 1000 ejemplos, el AUC de NYUTron aumentó un 7,27 % mientras que el de lace+xgb aumentó un 3,98 %; de 10 000 a 392 336 ejemplos, el AUC de NYUTron aumentó un 2,15% mientras que la de lace+xgb aumenta un 0,63%. Con el conjunto completo de datos de ajuste fino, NYUTron tuvo un AUC un 7,04 % más alto que lace+xgb.

El entrenamiento previo en una gran cantidad de notas clínicas sin etiquetar contribuye al rendimiento. En comparación con el LLM inicializado aleatoriamente (random-init), NYUTron aprende a generalizar mejor a partir de menos ejemplos. La figura 3b muestra que, mientras que NYUTron necesitaba 10 000 ejemplos para lograr un AUC de alrededor del 75 %, random-init necesitaba 100 000 ejemplos. También observamos una tendencia similar en otra tarea de predicción clínica: NYUTron se desempeñó mejor que el modelo de inicio aleatorio (puntaje F1 36,83 % más alto) y los modelos no entrenados previamente clínicamente (puntaje F1 2,06 % a 3,73 % más alto) en la entidad clínica nombrada tarea de reconocimiento (NER) del desafío i2b2 de 2012 (Datos extendidos Fig. 2b).

Es beneficioso hacer coincidir el dominio del corpus de preentrenamiento y el dominio del corpus de ajuste fino. La figura 3b muestra tres pruebas: los LLM entrenados previamente en texto no clínico (web-wiki y web-wiki+bio) tuvieron un rendimiento similar al de random-init. Un LLM separado, web-wiki+bio+clinical, tuvo un rendimiento similar al de NYUTron. En tercer lugar, en comparación con los LLM preentrenados en texto no clínico (web-wiki y web-wiki+bio), los LLM clínicamente preentrenados (NYUTron y web-wiki+bio+clinical) aprendieron a generalizar mejor a partir de menos ejemplos. Consulte la Fig. 3 de datos ampliados para comparar el corpus de preentrenamiento.

Tener una coincidencia de dominio cercana durante el preentrenamiento es particularmente beneficioso en la configuración de datos bajos durante el ajuste fino. Comparamos dos modelos de lenguaje que fueron previamente entrenados en texto clínico de diferentes sistemas hospitalarios, NYUTron (NYU Langone Health) y web-wiki+bio+clinical (Universidad de Florida). La Figura 3b muestra que, con 1000 ejemplos, NYUTron (el modelo en el dominio) tuvo un AUC más alto para la predicción de readmisión de NYU Langone que web-wiki+bio+clinical (el modelo fuera del dominio). En particular, la ventaja de NYUTron desapareció a medida que aumentó la cantidad de ejemplos de ajuste fino, lo que sugiere que un ajuste fino suficiente en el dominio puede adaptar modelos que fueron entrenados previamente fuera del dominio.

Los modelos de lenguaje clínico muestran capacidad de generalización a diferentes sitios a través de ajustes locales. Para investigar la solidez de NYUTron en entornos clínicos, elegimos dos hospitales que están separados geográficamente dentro del Sistema de Salud NYU Langone. Para abreviar, nos referimos a Tisch Hospital en Manhattan como 'Manhattan', NYU Langone Hospital–Brooklyn como 'Brooklyn' y los cuatro hospitales dentro del NYU Langone Health System (Manhattan, Brooklyn, NYU Langone Orthopaedic Hospital y NYU Langone Hospital–Long Island ) como 'todos los sitios'. Consideramos tres LLM preentrenados en diferentes sitios: el primero fue preentrenado en Manhattan, el segundo fue preentrenado en Brooklyn y el tercero fue preentrenado en todos los sitios. Para cada uno de los LLM preentrenados, ajustamos el LLM con un conjunto de datos de readmisión de Manhattan o Brooklyn. Finalmente, le pedimos al LLM perfeccionado que predijera la readmisión sobre la base de las notas de alta de Manhattan o Brooklyn. La Figura 3c,d muestra que el LLM preentrenado en todos los sitios tuvo el mejor desempeño tanto en la 'prueba de Manhattan' como en la 'prueba de Brooklyn'. Para todos los LLM, el ajuste fino con el conjunto de datos local ("ajuste fino Manhattan/Brooklyn") condujo a un AUC de prueba más alto en el sitio de prueba ("prueba Manhattan/Brooklyn") en comparación con el ajuste fino en otro sitio (" afinar Brooklyn/Manhattan'). Por lo tanto, el entrenamiento previo con datos de todos los sitios y el ajuste local es la mejor manera de optimizar el rendimiento. Realizamos análisis adicionales que mostraron que NYUTron puede generalizarse a un sistema de salud diferente a través de ajustes locales (información complementaria, sección 4.1 y datos ampliados, figura 4) y comparamos la solidez de NYUTron y lace+xgb con respecto a los sitios de capacitación ( Información complementaria apartado 4.2). También descubrimos que NYUTron es sensible a las notas de diferentes departamentos clínicos y pacientes con diferentes datos demográficos y que su rendimiento fluctúa a lo largo de los meses (datos extendidos, figuras 5 y 6). Las causas de las discrepancias pueden ser muy complejas (discutidas en la sección 4.3 de Información complementaria) y se estudiarán en trabajos futuros.

Para evaluar el rendimiento de NYUTron fuera del entorno de desarrollo, seleccionamos un modelo sobre la base de los resultados de la prueba retrospectiva y realizamos una prueba prospectiva de enero a abril de 2022. Durante este período, implementamos NYUTron en un formato acelerado y lo cargamos en una inferencia. motor, que interactúa con el EHR, para leer las notas de alta tal como fueron firmadas por los médicos tratantes. En este período, hubo 29.286 encuentros de alta, con 3.271 pacientes (11,17%) que regresaron dentro de los 30 días. NYUTron predijo 2692 de las 3271 readmisiones (82,30 % de recuperación) con una precisión del 20,58 %. La figura 4a muestra que NYUTron tenía un AUC del 78,70 %.

a, NYUTron tuvo un AUC del 78,70 % en un ensayo no intervencionista prospectivo de un solo brazo con un recuerdo del 82,3 % y una precisión del 20,6 %. b, Un panel de seis médicos revisó los resultados de NYUTron para determinar el impacto clínico potencial. De 100 readmisiones que NYUTron identificó con éxito, el 61 % fueron readmisiones no planificadas, el 50 % habría resultado en una sanción según las pautas de CMS y el 27 % se pudo prevenir en el momento del alta según la opinión consensuada del panel de médicos de múltiples especialidades. que revisó los casos del ensayo prospectivo. Consulte la sección 2.1 de Información complementaria para ver una discusión sobre la etiqueta de readmisión y la importancia práctica del rendimiento observado.

Para medir el impacto clínico potencial, un grupo de seis médicos realizó una evaluación cualitativa de 100 casos de readmisión seleccionados al azar que fueron capturados por NYUTron después de la conclusión del ensayo. La revisión de un médico sugirió que algunas predicciones positivas verdaderas de NYUTron son readmisiones prevenibles clínicamente significativas. En general, los pacientes readmitidos que se predijo que serían readmitidos tenían 6,02 veces más probabilidades de morir en el hospital y permanecer 2,93 días más (P < 10−4). Como se muestra en la figura 4b, el 61 % de los casos previstos no fueron planificados, y las probabilidades medias previstas para estos reingresos no planificados fueron inferiores a las de los reingresos planificados (31,9 % ± 31,1 % frente a 82,1 % ± 27,3 %; P < 10−4 ). Entre las readmisiones no planificadas, el 19,67 % de los pacientes experimentaron un evento adverso o la muerte en la readmisión, y el panel de médicos consideró que el 50 % de estos eventos eran prevenibles. Desde un punto de vista financiero, el 81,9% de las readmisiones no planificadas serían penalizadas según las pautas de los Centros de Servicios de Medicare y Medicaid (CMS). Entre los casos sancionables, el 54% se consideraron evitables. En particular, 3 de las 27 readmisiones prevenibles tenían enterocolitis por Clostridioides difficile, una infección bacteriana contagiosa asociada a la atención médica que causa que 1 de cada 11 personas mayores de 65 años muera dentro de 1 mes21.

Presentamos nuestro trabajo en el desarrollo, capacitación, validación e implementación de NYUTron, un LLM a escala del sistema de salud diseñado y validado para uso clínico. Demostramos el desempeño de NYUTron en tres tareas clínicas (predicción de mortalidad de pacientes hospitalizados, predicción del índice de comorbilidad y predicción de readmisión) y dos tareas operativas (predicción de denegación de reclamos de seguros y predicción de LOS de pacientes hospitalizados). También realizamos un análisis detallado de la predicción de reingreso debido a su importancia clínica y operativa y su historia bien documentada en la literatura médica informática. Vemos la flexibilidad de nuestro enfoque en el uso de una arquitectura de codificador (BERT), que se basa solo en entradas de texto no estructuradas para generar una sola predicción, como una virtud, y anticipamos muchas tareas futuras basadas en este paradigma fundamental para ayudar con múltiples aspectos. de la atención al paciente y la automatización de las operaciones hospitalarias.

Una consideración ética en la implementación es que los médicos y los administradores podrían confiar demasiado en las predicciones de NYUTron debido a su perfecta integración con los flujos de trabajo médicos existentes, lo que conduciría a resultados no deseados. Se necesita más investigación para optimizar las interacciones humano-IA, así como el desarrollo de evaluaciones estandarizadas para fuentes de sesgo u otros puntos de falla inesperados. El trabajo en curso de nuestro grupo sobre la medición de la similitud entre los patrones de sensibilidad de los modelos de lenguaje y los de los médicos a través de perturbaciones a nivel de fichas de las notas clínicas22 es uno entre muchos de esos esfuerzos.

Los LLM grandes y generativos también presentan una oportunidad única para la integración en los flujos de trabajo médicos; sin embargo, dependen en gran medida de las entradas y las indicaciones del usuario23 y no se adaptan tan fácilmente para la automatización de tareas clínicas y operativas básicas. La perfecta integración en los flujos de trabajo de informática médica existentes es una virtud de nuestro enfoque, y esperamos que este trabajo se presente como una solución flexible para el problema de la última milla: cualquier algoritmo de datos estructurados puede reconceptualizarse y crear prototipos rápidamente dentro de este marco. Como parte del monitoreo del impacto de un sistema de este tipo en el comportamiento del médico y en los pacientes, debe haber un nivel de supervisión continua para capturar las interacciones hombre-máquina, así como mitigar el riesgo de desviación del modelo con el tiempo. Discutimos nuestra implementación de dicho sistema en la sección 5 de Información complementaria.

Nuestro enfoque de usar un modelo de lenguaje de codificador más pequeño (<1000 millones de parámetros) entrenado en datos altamente personalizados representa un marcado alejamiento de la tendencia actual en la investigación de modelos de lenguaje que se enfoca en modelos generativos masivos (>1000 millones de parámetros) entrenados previamente en datos grandes, no -conjuntos de datos específicos. No obstante, incluso los LLM relativamente pequeños, como los utilizados en este estudio, requieren una cantidad sustancial de tiempo de cómputo para el entrenamiento previo. Nuestro entrenamiento previo usó 24 GPU NVIDIA A100 con 40 GB de VRAM durante 3 semanas, y nuestro ajuste fino usó 8 GPU A100 durante 6 horas por ejecución. Esta cantidad de cómputo no es comúnmente accesible para los grupos de investigación, aunque observamos que es menor que en proyectos LLM similares que los grupos de investigación de la industria persiguen de manera rutinaria y que nuestros resultados indican que puede no ser necesario un entrenamiento previo masivo para obtener modelos de alto rendimiento. Nuestros resultados muestran que los conjuntos de datos de alta calidad para el ajuste fino son más valiosos que el entrenamiento previo y, sobre la base de nuestros resultados experimentales, recomendamos que los usuarios ajusten localmente un modelo de lenguaje previamente entrenado externamente cuando la capacidad computacional sea limitada. Con respecto a la elección del modelo preentrenado externamente, recomendamos además usar un modelo preentrenado con una gran cantidad de texto clínico en el dominio, aunque señalamos que los modelos grandes, fuera del dominio pueden tener un alto rendimiento, particularmente cuando se combinan con ajuste fino del dominio. El trabajo con arquitecturas basadas en decodificadores más grandes también ha demostrado un beneficio con el ajuste fino de los datos médicos o el ajuste rápido con la cadena de pensamiento, las instrucciones y las técnicas relacionadas24,25, lo que enfatiza aún más la necesidad de tener en cuenta el cambio de dominio del texto general al médico. para el trabajo de LLM en las ciencias médicas. Aunque no hemos comparado estos enfoques directamente (lo que requeriría más texto médico o la fusión con texto de dominio general para entrenar un modelo óptimo de cómputo26), creemos que esta podría ser una dirección futura interesante para la investigación y que, al final, Los enfoques que combinan estos diferentes enfoques para el modelado del lenguaje pueden resultar complementarios según el caso de uso.

La validación final de nuestro enfoque debe provenir de ensayos controlados aleatorios de intervenciones vinculadas a predicciones de tareas individuales para evaluar su impacto clínico y de los comentarios de los usuarios a medida que continuamos integrando NYUTron en los sistemas de salud. Dado que planificamos esto dentro de nuestro propio sistema de salud, recomendamos la consideración de diferentes niveles de intervención según el riesgo previsto de los pacientes para cada tarea. Por ejemplo, para un paciente con bajo riesgo de reingreso a los 30 días, se pueden programar llamadas de seguimiento; para un paciente de alto riesgo, se debe tener cuidado para limitar la descarga prematura. Todas las intervenciones deben decidirse con la supervisión de un médico, aunque muchos de los usos operativos probablemente puedan automatizarse por completo.

Es un sueño de larga data para los médicos tener asistentes de IA que observen la atención junto con ellos y participen con predicciones y consejos. Para dar un paso hacia esta visión futurista, capacitamos a un LLM, NYUTron, en todo el EHR de un gran sistema de atención médica para leer notas médicas y hacer varias de estas predicciones en una amplia gama de tareas clínicas y operativas. Implementamos NYUTron en un entorno de atención médica en vivo y demostramos su eficacia para predecir el reingreso a los 30 días mientras se integra a la perfección en los flujos de trabajo clínicos. Creemos que este trabajo abre la puerta para traducir el progreso en el procesamiento del lenguaje natural moderno y el aprendizaje profundo para mejorar la calidad y la asequibilidad de la atención médica, y estamos emocionados de ver lo que viene después.

Creamos este conjunto de datos de notas clínicas sin etiquetar directamente desde NYU Langone EHR. El conjunto de datos contiene 387.144 pacientes, 7.247.694 notas y 4.112.249.482 palabras en total. Construimos NYU Notes de la siguiente manera: escribimos secuencias de comandos de lenguaje de consulta estructurado (SQL) para consultar el NYU Langone EHR. Primero creamos un prototipo de las consultas con un editor interactivo basado en la web (Cloudera Hue) y luego descargamos los resultados de la consulta como archivos separados por comas (CSV) al clúster de computación de alto rendimiento de NYU Langone. Incluimos notas firmadas por profesionales médicos (médicos, residentes, asistentes médicos, enfermeras practicantes y becarios) en Tisch Hospital, NYU Langone Hospital–Brooklyn, NYU Langone Hospital–Long Island y NYU Langone Orthopaedic Hospital de 2011 a 2020 (inclusive). Excluimos las notas derivadas de la facturación, etiquetadas como no válidas o vacías. Dividimos las notas en tres conjuntos, conjuntos de entrenamiento, validación y prueba, con una proporción de 949:50:1. Por último, enmascaramos tokens con un 15 % de probabilidad de crear texto y etiquetas enmascarados.

Creamos este conjunto de datos de notas clínicas sin etiquetar como el subconjunto de las notas de la NYU que se escribieron en el Hospital Tisch de Manhattan. El conjunto de datos contiene 256 217 pacientes, 4 342 602 notas y 2 381 466 993 palabras en total.

Creamos este conjunto de datos de notas clínicas sin etiquetar como el subconjunto de notas de NYU que se escribieron en NYU Langone Health–Brooklyn. El conjunto de datos contiene 104 521 pacientes, 1 337 352 notas y 1 102 078 012 palabras en total.

Creamos este conjunto de datos de notas de alta etiquetadas (con etiquetas binarias para readmisión) del NYU Langone EHR. La mayoría de las notas de este conjunto de datos son un subconjunto de las notas de NYU, con notas de descarga adicionales de 2021 para la prueba temporal. El conjunto de datos contiene 413 845 pacientes, 506 740 notas y 487 395 462 palabras en total. Construimos este conjunto de datos de la siguiente manera: para cada encuentro que terminó entre enero de 2011 y noviembre de 2021, incluimos su nota de alta con una etiqueta binaria para readmisión por todas las causas de 30 días. Asignamos la etiqueta de 'reingreso' si el paciente tenía una nota de ingreso dentro de los 30 días posteriores al alta. Para centrarnos en modelar la readmisión en cuidados agudos, excluimos las notas de alta de los departamentos de rehabilitación, diálisis y cuidados paliativos porque no se trataba de admisiones en cuidados agudos. Dividimos el conjunto de datos en cuatro conjuntos: conjuntos de entrenamiento, validación, prueba y prueba temporal. Los tres primeros conjuntos fueron billetes de enero de 2011 a mayo de 2021, con una proporción de 8:1:1. El conjunto de prueba temporal incluyó notas de junio a diciembre de 2021. Consulte Datos extendidos, Fig. 8a, para ver una visualización de la división en cuatro direcciones.

Creamos este conjunto de datos de notas clínicas sin etiquetar como el subconjunto de notas en el conjunto de datos de readmisión de NYU que se escribieron en el Hospital Tisch en Manhattan. El conjunto de datos contiene 240.824 pacientes, 296.519 notas y 253.622.053 palabras.

Creamos este conjunto de datos de notas clínicas sin etiquetar como el subconjunto de notas clínicas del conjunto de datos de readmisión de NYU que se escribieron en NYU Langone Health–Brooklyn. El conjunto de datos contiene 94.653 pacientes, 113.275 notas y 142.767.957 palabras.

Creamos este conjunto de datos de historial y notas físicas (H&P) con etiquetas binarias para la mortalidad hospitalaria del NYU Langone EHR. La mayoría de las notas de este conjunto de datos son un subconjunto de las notas de NYU, con notas H&P adicionales de 2021 para la prueba temporal. El conjunto de datos contiene 371 922 pacientes, 469 162 notas y 484 467 141 palabras en total. Construimos este conjunto de datos de la siguiente manera: para cada encuentro que terminó entre enero de 2011 y noviembre de 2021, incluimos su nota H&P con una etiqueta binaria para la mortalidad hospitalaria. Asignamos la etiqueta positiva si la disposición de alta del paciente fue 'caducada'. Dividimos el conjunto de datos en cuatro conjuntos: conjuntos de entrenamiento, validación, prueba y prueba temporal. Los tres primeros conjuntos fueron billetes de enero de 2011 a mayo de 2021, con una proporción de 8:1:1, y el conjunto de prueba temporal incluyó billetes de junio a diciembre de 2021.

Creamos este conjunto de datos de notas de H&P con cinco etiquetas de clase para LOS de hospital de NYU Langone EHR. La mayoría de las notas de este conjunto de datos eran un subconjunto de NYU Notes, con notas H&P adicionales de 2021 para la prueba temporal. El conjunto de datos contiene 327 039 pacientes, 403 579 notas y 422 485 417 palabras en total. El conjunto de datos contiene menos encuentros etiquetados que los conjuntos de datos NYU Mortality y NYU Binned LOS porque el 22% de los encuentros no tenían códigos de Clasificación Internacional de Enfermedades (ICD) para calcular la puntuación CCI. Esta falta motivó nuestra tarea de predecir el puntaje CCI agrupado con una falta de códigos ICD estructurados. Construimos este conjunto de datos de la siguiente manera: para cada encuentro que finalizó entre enero de 2011 y noviembre de 2021, incluimos su nota H&P con una etiqueta de cinco clases para el puntaje CCI agrupado. Para generar las etiquetas, primero calculamos el índice de comorbilidad utilizando los códigos ICD y la función de puntuación en la ref. 27. Luego, discretizamos las puntuaciones en cinco clases: asignamos la etiqueta 0 para un índice de comorbilidad por debajo del cuantil del 50 % (0 días), la etiqueta 1 para un índice de comorbilidad entre el cuantil del 50 % y el 75 % (1–2 días), etiquete 2 para un índice de comorbilidad entre el cuantil del 75 % y el 90 % (3–4 días), etiquete 3 para un índice de comorbilidad entre el cuantil del 90 % y el 99 % (4–7 días) y etiquete 4 para un índice de comorbilidad superior al 99% cuantil (>7 días). Dividimos el conjunto de datos en cuatro conjuntos: conjuntos de entrenamiento, validación, prueba y prueba temporal. Los tres primeros conjuntos fueron billetes de enero de 2011 a mayo de 2021, con una proporción de 8:1:1, y el conjunto de prueba temporal incluyó billetes de junio a diciembre de 2021.

Creamos este conjunto de datos de notas de H&P con etiquetas de cuantiles para LOS de hospital de NYU Langone EHR. La mayoría de las notas de este conjunto de datos eran un subconjunto de NYU Notes, con notas H&P adicionales de 2021 para la prueba temporal. El conjunto de datos contiene 371 922 pacientes, 469 162 notas y 484 467 141 palabras en total. Construimos este conjunto de datos de la siguiente manera: para cada encuentro que finalizó entre enero de 2011 y noviembre de 2021, incluimos su nota H&P con una etiqueta binaria y una etiqueta cuantil para LOS. Para la etiqueta del cuantil, asignamos la etiqueta 0 para un LOS por debajo del cuantil del 25 % (0–2 días), la etiqueta 1 para un LOS entre el 25 % y el 50 % (3 días), la etiqueta 2 para un LOS entre el 50 y el 50 %. % y cuantil del 75 % (4–5 días) y etiquete 3 para una LOS por encima del cuantil del 75 % (>5 días). Dividimos el conjunto de datos en cuatro conjuntos: conjuntos de entrenamiento, validación, prueba y prueba temporal. Los tres primeros conjuntos fueron billetes de enero de 2011 a mayo de 2021, con una proporción de 8:1:1, y el conjunto de prueba temporal incluyó billetes de junio a diciembre de 2021.

Creamos este conjunto de datos de notas de H&P con etiquetas binarias para determinar si el reclamo de seguro del paciente se rechazó inicialmente o se aprobó directamente. El conjunto de datos contiene 54.563 pacientes, 55.791 notas y 51.270.256 palabras en total. Construimos este conjunto de datos de la siguiente manera: para cada encuentro que ocurrió entre el 1 de mayo de 2021 y el 30 de abril de 2022, incluimos su nota H&P con una etiqueta binaria para la denegación del seguro. Asignamos una etiqueta positiva si el estado de la reclamación del seguro del paciente era "determinación adversa final" (la reclamación fue rechazada por el seguro y nuevamente fue rechazada después de la apelación) o "determinación final favorable" (la reclamación fue rechazada por el seguro y aprobada después de la apelación). Dividimos el conjunto de datos en cuatro conjuntos: conjuntos de entrenamiento, validación, prueba y prueba temporal. Los tres primeros conjuntos fueron billetes del 1 de mayo de 2021 al 30 de febrero de 2022, con una proporción de 18:1:1. El conjunto de prueba temporal incluyó notas del 1 de marzo al 30 de abril de 2022.

Creamos este conjunto de datos de notas de alta con etiquetas binarias para determinar si el reclamo de seguro del paciente se rechazó inicialmente o se aprobó directamente. El conjunto de datos contiene 54.563 pacientes, 55.791 notas y 49.405.133 palabras en total. Construimos este conjunto de datos de la siguiente manera: para cada encuentro que ocurrió entre el 1 de mayo de 2021 y el 30 de abril de 2022, incluimos su nota de alta con una etiqueta binaria para la denegación del seguro. La asignación de etiquetas y la división en cuatro fueron las mismas que en el conjunto de datos de denegación de seguros de la NYU.

Este conjunto de datos contenía las mismas notas que el conjunto de datos de Negación de seguro de la NYU, pero las etiquetas eran diferentes. La etiqueta binaria indicaba si el reclamo de seguro del paciente finalmente se rechazó (incluso después de la apelación) o si finalmente se aprobó (aprobación directa o aprobación después de la apelación).

Este conjunto de datos contenía las mismas notas que el conjunto de datos de Notas de denegación y alta del seguro de la NYU, pero las etiquetas eran diferentes. La etiqueta binaria indicaba si el reclamo de seguro del paciente finalmente se rechazó (incluso después de la apelación) o si finalmente se aprobó (aprobación directa o aprobación después de la apelación).

Este es un conjunto de datos abiertos publicado por la Escuela de Medicina de Harvard como parte de un desafío clínico anual de PNL28. Este conjunto de datos es un punto de referencia bien conocido en la comunidad clínica de PNL. La tarea es identificar y clasificar conceptos clínicos (por ejemplo, tratamientos), departamentos clínicos (por ejemplo, cirugía), ocurrencias de eventos (por ejemplo, admisión) y pruebas (por ejemplo, el paciente se quejó) de notas clínicas no identificadas. del Centro Médico Beth Israel en Boston. El conjunto de datos no contiene más de 310 pacientes, 310 notas y 636 000 palabras. Descargamos el conjunto de datos como un archivo tar.gz comprimido del portal de datos n2c2 después de que se aprobara nuestra solicitud de uso.

Este es un conjunto de datos abierto para un EHR de una unidad de cuidados intensivos (UCI) publicado por el MIT y el Centro Médico Beth Israel de Boston29. Recolectamos un conjunto de 52,726 notas de alta y creamos una etiqueta de readmisión por todas las causas de 30 días al verificar si hubo algún encuentro posterior dentro de los 30 días. La tasa de reingreso fue del 6%. Dividimos los datos en conjuntos de entrenamiento, validación y prueba en una proporción de 8:1:1.

Este conjunto de datos consta de notas de alta con etiquetas binarias para readmisión de nuestro motor de implementación y NYU Langone EHR. De enero a abril de 2022, cada vez que un médico firmaba una nota de alta, la nota se enviaba a nuestro motor de inferencia personalizado para la predicción de NYUTron. La nota de alta y la predicción emparejadas se registraron en una base de datos. La base de datos contenía 27.376 pacientes, 29.287 notas y 34.669.963 palabras al final del período de estudio.

Creamos este conjunto de datos de características LACE30 estructuradas con etiquetas binarias para readmisión para compararlas con los modelos no estructurados. El conjunto de datos contiene características estructuradas para todos los encuentros en el conjunto de datos de readmisión de NYU. LACE es una regla de predicción clínica tradicional para la readmisión con cuatro características: LOS, la agudeza de la readmisión, el índice de comorbilidad de Charlson y el número de visitas recientes al departamento de emergencias en los últimos 6 meses. Creamos el conjunto de datos de la siguiente manera: para cada encuentro en el conjunto de datos de readmisión de la NYU, recopilamos datos sobre las cuatro funciones LACE del NYU Langone EHR. LOS fue la diferencia (en días) entre la fecha de alta y la fecha de admisión. La agudeza de la readmisión fue una característica binaria que indicaba si el paciente había ingresado en el servicio de urgencias. El índice de comorbilidad se calculó con los códigos ICD-9 o ICD-10 para enfermedades crónicas, sobre la base del algoritmo de mapeo en la ref. 31 y la función de puntuación en la ref. 27. El número de visitas al servicio de urgencias se calculó a partir del historial de visitas del paciente hasta 6 meses antes de la fecha de ingreso.

Creamos este conjunto de datos de características LACE estructuradas a partir del subconjunto de notas del conjunto de datos NYU Readmission-LACE que se escribieron en el Tisch Hospital en Manhattan.

Creamos este conjunto de datos de características LACE estructuradas a partir del subconjunto de notas del conjunto de datos NYU Readmission-LACE que se escribieron en NYU Langone Health-Brooklyn.

Creamos este conjunto de datos de funciones SAPS2 + APACHE2 estructuradas con etiquetas binarias para la mortalidad hospitalaria para comparar con los datos no estructurados. El conjunto de datos contiene un subconjunto de características estructuradas de SAPS2 + APACHE2 para todos los encuentros en el conjunto de datos de Mortalidad de la NYU. Las funciones SAPS2 + APACHE2 son un subconjunto de las funciones utilizadas en el modelo SAPS215 y el modelo APACHE216 para la predicción de la mortalidad en la UCI. Seleccionamos el subconjunto de características que estaban disponibles en NYU Langone EHR. Se incluyeron las siguientes 12 características: edad (numérica), frecuencia cardíaca media (numérica), presión arterial sistólica (numérica), temperatura auricular (numérica), concentración de nitrógeno ureico en sangre (numérica), concentración de sodio (numérica), concentración de potasio (numérica) ), concentración de bilirrubina (numérico), recuento de glóbulos blancos (numérico), pH (numérico), concentración de creatina (numérico) y hematocrito (numérico). Además, incluimos la especialidad del departamento (categórica). Excluimos las siguientes características debido a su falta de disponibilidad: PaO2/FiO2 (relación entre la presión parcial de oxígeno arterial y el oxígeno inspirado fraccional), si el paciente estaba con ventilación mecánica o con presión positiva continua en las vías respiratorias (CPAP), concentración de bicarbonato, diuresis, coma de Glasgow Escala de puntuación, presencia de cáncer metastásico o neoplasia hematológica o sida, y si se programó el ingreso.

Creamos este conjunto de datos de características estructuradas de 'Lisboa Portugal' con etiquetas binarias para la mortalidad hospitalaria para compararlas con el modelo de datos no estructurados. El conjunto de datos contiene un subconjunto de las características utilizadas en el conjunto de datos Lisboa Portugal18 (que se usa ampliamente en la literatura de predicción de LOS) para todos los encuentros en el conjunto de datos NYU Binned LOS. Seleccionamos un subconjunto de 12 características que estaban disponibles en NYU Langone EHR: sexo (categórico), edad medida por la diferencia de años entre la fecha de nacimiento y la fecha de admisión (numérico), nivel educativo más alto (categórico), país (categórico), código postal como dirección (categórico), estado civil (categórico), tipo de admisión (categórico), tipo de servicio de admisión (categórico), identificación del proveedor (categórico), especialidad del departamento (categórico), nombre del procedimiento (categórico) y número de ingresos anteriores (numérico). Omitimos el diagnóstico porque no siempre está disponible al momento de escribir las notas de H&P. Se excluyeron las siguientes tres características debido a la dificultad para encontrarlas en el NYU Langone EHR: código de diagnóstico de grupo homogéneo, gran categoría de diagnóstico y tratamiento.

Creamos este conjunto de datos estructurado basado en el conjunto de datos de denegación de seguros de la NYU para compararlo con el modelo de datos no estructurados. El conjunto de datos contiene características estructuradas para todos los encuentros en el conjunto de datos de denegación de seguro de NYU y tiene las mismas divisiones que el conjunto de datos de denegación de seguro de NYU. La selección de características estructuradas se basó en las características de la ref. 19, que creó un modelo que predice la denegación de reclamos de seguros a partir de las características demográficas y relacionadas con la atención que se encuentran en el formulario de reclamo. Encontramos ocho funciones disponibles en el NYU Langone EHR: nombre del paciente (categórico), edad (numérico), género (categórico), código postal como una generalización de dirección (categórico), marca de seguro (categórico), primer nombre del plan de seguro (categórico). ), ID de proveedor (categórico) y tipo de proveedor (categórico). Además, agregamos cuatro funciones basadas en las entradas del médico: segundo código del plan de seguro (categórico), un indicador binario para casos quirúrgicos (categórico), un indicador binario para casos del departamento de emergencias (categórico) y un indicador binario para tarifa por servicio de Medicare usuarios (categóricos). Omitimos seis características en la ref. 19 por dificultad para buscarlos: parentesco del paciente con el asegurado, tipo de red, si el reclamo fue de reenvío, indicador de diagnóstico, cargo del servicio y número de autorización previa.

Usando estos conjuntos de datos, entrenamos un tokenizador de pieza de palabra BERT sin carcasa con un tamaño de vocabulario de 50,000 tokens, una longitud de secuencia máxima de 512 tokens y tokens especiales [SEP], [PAD], [UNK], [MASK] y [CLS]. Debido a que la mayoría de las notas clínicas tenían más de 512 fichas, dividimos cada nota larga en fragmentos que no se superponen y que estaban por debajo de la longitud máxima de la secuencia. Específicamente, dividimos cada nota en oraciones utilizando el kit de herramientas de lenguaje natural (nltk)32 y tokenizamos cada oración. Para oraciones que tenían más de 512 tokens, las truncamos. Luego, para todas las oraciones tokenizadas en la misma nota, las concatenamos en grupos de modo que cada grupo tuviera exactamente la longitud máxima de secuencia. Descartamos cualquier grupo restante (con una duración estrictamente inferior a la máxima) de una nota larga.

Usando el tokenizador entrenado con NYU Notes, primero tokenizamos la nota de descarga. Truncamos las notas que excedían la longitud máxima de secuencia de 512 tokens. Dejamos para el futuro diseñar un modelo de lenguaje que lea de manera eficiente notas clínicas más largas (ver Datos extendidos Fig. 8b para el impacto de la longitud de la nota en el rendimiento del modelo de lenguaje).

Primero descomprimimos los archivos tar.gz en carpetas de archivos xml. Luego convertimos los archivos xml a formato brat. A continuación, convertimos los archivos mocosos en archivos biográficos. Finalmente, escribimos un cargador de datos HuggingFace33 personalizado para convertir la carpeta de archivos biográficos en un conjunto de datos HuggingFace. Nuestro código para preprocesamiento está disponible en GitHub.

Primero limpiamos las notas eliminando los artefactos html. Luego tokenizamos la nota de descarga usando el tokenizador de NYUTron. Truncamos las notas que excedían la longitud máxima de secuencia de 512 tokens.

Cuando faltaba una característica numérica (por ejemplo, la frecuencia cardíaca promedio era NaN), completamos la característica como la característica promedio en todo el conjunto de entrenamiento. Para las características categóricas faltantes (por ejemplo, el departamento de admisiones fue 'sin especificar'), las dejamos como categoría 'ninguna'.

Entrenamos previamente un modelo BERT de 109 millones de parámetros utilizando NYU Notes preprocesados ​​y el objetivo MLM durante 3 semanas (96 épocas) en 24 GPU NVIDIA A100 distribuidas en tres nodos de cómputo hasta que la pérdida de validación comenzó a estabilizarse. El modelo tiene 12 capas ocultas con dimensión 768, con 12 cabezas de atención por capa. Utilizamos un tamaño de lote de entrenamiento por dispositivo de 64 y guardamos cada 2000 pasos. Usamos el optimizador Zero Redundancy AdamW (una mejora sobre el optimizador Adam) con una tasa de aprendizaje constante de 5 × 10−5, precisión mixta FP16 y paralelización de etapa 234,35,36.

Reemplazamos el clasificador MLM entrenado con un clasificador lineal inicializado aleatoriamente después de la última capa oculta del modelo BERT preentrenado. Ajustamos el modelo de principio a fin utilizando el conjunto de entrenamiento del conjunto de datos de readmisión de la NYU durante diez épocas, evaluando el AUC de validación cada media época y deteniéndonos temprano con una paciencia de cinco. Usamos los siguientes hiperparámetros del ajuste manual basado en el AUC de validación: una tasa de aprendizaje de 2 × 10−5, una caída de peso de 0.01 y un tamaño de lote por dispositivo de 4. Optimizamos la pérdida de entropía cruzada usando el optimizador AdamW . Mientras variamos el tamaño del conjunto de datos (N ∈ {102, 103, 104, 105, 3.92336 × 105}), ajustamos el modelo previamente entrenado usando submuestras del conjunto de datos de readmisión de NYU y evaluamos su AUC en el conjunto de prueba temporal. Para cada tamaño de submuestra, realizamos cinco experimentos con distintas semillas aleatorias (0, 13, 24, 36, 42). A modo de comparación, observamos la mediana del AUC y la desviación estándar de los cinco experimentos.

Reemplazamos el clasificador MLM entrenado con un clasificador lineal inicializado aleatoriamente después de la última capa oculta del modelo BERT preentrenado. Ajustamos el modelo de principio a fin usando el conjunto de entrenamiento del conjunto de datos de Mortalidad de la NYU durante diez épocas, evaluando el AUC de validación cada mitad de época y deteniéndonos temprano con una paciencia de 5. Usamos los siguientes hiperparámetros del ajuste manual basado en la validación AUC: una tasa de aprendizaje de 2 × 10−5, una caída de peso de 0,01 y un tamaño de lote por dispositivo de 4. Optimizamos la pérdida de entropía cruzada con el optimizador AdamW. Usando el conjunto de datos completo, ajustamos el modelo previamente entrenado usando submuestras del conjunto de datos de Mortalidad de la NYU y evaluamos su AUC en el conjunto de prueba temporal. Para cada tamaño de submuestra, realizamos cinco experimentos con distintas semillas aleatorias (0, 13, 24, 36, 42). A modo de comparación, observamos la mediana del AUC y la desviación estándar de los cinco experimentos.

Reemplazamos el clasificador MLM entrenado con un clasificador lineal inicializado aleatoriamente después de la última capa oculta del modelo BERT preentrenado. Ajustamos el modelo de extremo a extremo usando el conjunto de entrenamiento del conjunto de datos de comorbilidad agrupada de la NYU durante diez épocas, evaluando la validación OVR AUC cada mitad de la época y deteniéndonos temprano con una paciencia de 5. Usamos los siguientes hiperparámetros del ajuste manual basado en la validación OVR AUC: una tasa de aprendizaje de 2 × 10−5, una caída de peso de 0,01 y un tamaño de lote por dispositivo de 4. Optimizamos la pérdida de entropía cruzada utilizando el optimizador AdamW. Con el conjunto de datos completo, ajustamos el modelo preentrenado con submuestras del conjunto de datos de comorbilidad agrupada de la NYU y evaluamos su OVR AUC en el conjunto de prueba temporal. Para cada tamaño de submuestra, realizamos cinco experimentos con distintas semillas aleatorias (0, 13, 24, 36, 42). A modo de comparación, observamos la mediana de OVR AUC y la desviación estándar de los cinco experimentos.

Reemplazamos el clasificador MLM entrenado con un clasificador lineal inicializado aleatoriamente después de la última capa oculta del modelo BERT preentrenado. Ajustamos el modelo de extremo a extremo usando el conjunto de entrenamiento del conjunto de datos NYU Binned LOS durante diez épocas, evaluando el AUC de validación cada media época y deteniéndonos temprano con una paciencia de 5. Usamos los siguientes hiperparámetros de la sintonización manual basada en el validación OVR AUC: una tasa de aprendizaje de 2 × 10−5, una caída de peso de 0,01 y un tamaño de lote por dispositivo de 4. Optimizamos la pérdida de entropía cruzada utilizando el optimizador AdamW. Usando el conjunto de datos completo, ajustamos el modelo previamente entrenado con submuestras del conjunto de datos NYU Binned LOS y evaluamos su AUC en el conjunto de prueba temporal. Para cada tamaño de submuestra, realizamos cinco experimentos con distintas semillas aleatorias (0, 13, 24, 36, 42). Para la inferencia, combinamos las dos últimas clases, la etiqueta 3 (90–99 % cuantil) y la etiqueta 4 (>99 % cuantil) porque la etiqueta 4 era muy escasa. A modo de comparación, observamos la mediana de OVR AUC y la desviación estándar de los cinco experimentos.

Reemplazamos el clasificador MLM entrenado con un clasificador lineal inicializado aleatoriamente después de la última capa oculta del modelo BERT preentrenado. Ajustamos el modelo de principio a fin usando el conjunto de entrenamiento del conjunto de datos de denegación de seguros de la NYU durante diez épocas, evaluando el AUC de validación cada mitad de época y deteniéndonos temprano con una paciencia de 5. Usamos los siguientes hiperparámetros de ajuste manual basados ​​en el AUC de validación: una tasa de aprendizaje de 2 × 10−5, una caída de peso de 0,01 y un tamaño de lote por dispositivo de 4. Optimizamos la pérdida de entropía cruzada utilizando el optimizador AdamW. Usando el conjunto de datos completo, ajustamos el modelo previamente entrenado usando submuestras del conjunto de datos de Negación de seguros de la NYU y evaluamos su AUC en el conjunto de prueba temporal. Para cada tamaño de submuestra, realizamos cinco experimentos con distintas semillas aleatorias (0, 13, 24, 36, 42). A modo de comparación, observamos la mediana del AUC y la desviación estándar de los cinco experimentos.

Realizamos los experimentos de ajuste fino de la siguiente manera. Para cada LLM en la Tabla 2 de datos ampliados, inicializamos un modelo de clasificación de token HuggingFace con el LLM como punto de control preentrenado. Ajustamos el modelo usando i2b2-2012 NER para diez épocas usando el optimizador AdamW con una tasa de aprendizaje de 2 × 10−5, una caída de peso de 0.01 y un tamaño de lote de 4, evaluando cada 50 pasos y deteniéndonos temprano en el según el área bajo la característica operativa del receptor (AUROC) con una paciencia de 1. Esto llevó de 20 a 40 minutos en un nodo de cuatro GPU NVIDIA V100 de 17 GB. Realizamos un ajuste fino cinco veces con semillas aleatorias 0, 13, 24, 36 y 42 y registramos el promedio y la desviación estándar del puntaje F1 micropromediado (excluyendo la etiqueta para no entidad, 'O').

Realizamos los experimentos de ajuste fino de la siguiente manera: tanto para NYUTron como para BioClinicalBert, inicializamos un modelo de clasificación de token HuggingFace con el LLM como punto de control preentrenado. Ajustamos el modelo utilizando la readmisión MIMIC-III durante diez épocas utilizando el optimizador AdamW con una tasa de aprendizaje de 2 × 10−5, una caída de peso de 0,01 y un tamaño de lote de 16, evaluando cada mitad de época. Realizamos un ajuste fino cinco veces con semillas aleatorias 0, 13, 24, 36 y 42.

El modelo ajustado se convirtió a un formato de alto rendimiento (Onnx o TensorRT) y se cargó en nuestra plataforma de implementación, un motor de inferencia NVIDIA Triton que interactúa con NYU Langone EHR a través de la interfaz HLA7 Fast Health Interoperability Resources (FHIR)37. Para nuestra consideración del rendimiento, la seguridad, la confiabilidad y la interpretabilidad, consulte la sección 5 de Información complementaria.

Nuestra plataforma de implementación consistía en una versión modificada del servidor de inferencia Triton de NVIDIA que llamamos NYUTriton (pronunciado 'nutrición' porque es bueno para el sistema de salud). NVIDIA Triton es compatible con la inferencia basada en CPU GPU, x86 y ARM y varias características clave, que incluyen procesamiento por lotes dinámico, ejecución simultánea, una interfaz de especificación de modelo altamente flexible y la capacidad de admitir una amplia gama de marcos de trabajo de aprendizaje profundo y formatos de modelo acelerado para rendimiento máximo. Modificamos NVIDIA Triton para que interactúe perfectamente con los modelos de lenguaje con formato HuggingFace a fin de proporcionar un punto de cruce uniforme y altamente flexible entre nuestras líneas de desarrollo y producción. Los modelos entrenados se guardaron en un formato de estilo HuggingFace estándar y se convirtieron en Onnx y luego en TensorRT para obtener resultados de inferencia de escala inferior al milisegundo. NYUTriton está alojado en un servidor de inferencia dedicado que consta de un AMD Threadripper 3960X (24 núcleos, 3,8 GHz), dos GPU RTX 3090 y 128 GB de memoria del sistema DDR5 comprada a Lambda Labs.

Después de la firma de los resúmenes de alta en Epic, la interfaz HL7 FHIR se conecta con NYUTriton y envía una carga útil de notación de objetos de JavaScript (JSON) que consta del resumen de alta y los metadatos que especifican el modelo de readmisión subyacente y el remitente. NYUTriton preprocesa el texto, ejecuta un trabajo de inferencia con el modelo de readmisión acelerado de NYUTron y devuelve el resultado de la inferencia del modelo a un servidor de orquestación secundario, que escribe el resultado en una base de datos y genera un correo electrónico para el médico firmante.

Las líneas de base estructuradas fueron (1) características de SAPS2/APACHE2 + XGBoost para la predicción de mortalidad hospitalaria, (2) características de LACE + XGBoost para la predicción de readmisión, (3) características de Lisboa Portugal + XGBoost para la predicción de LOS agrupados y (4) características del formulario de reclamación + XGBoost para predicción de denegación de seguros.

Para todas las líneas base estructuradas, usamos la biblioteca xgboost para entrenar un clasificador de árbol potenciado por gradiente extremo con una pérdida logística binaria (pérdida softmax multiclase para más de dos clases). Usamos la búsqueda aleatoria de scikit-learn para buscar hiperparámetros entre minimal_child_weight de {1, 5, 10}, gamma de {0.5, 1, 1.5, 2, 5}, submuestra de {0.6, 0.8, 1}, col_sample_bytree de {0.6, 0.8, 1.0}, max_depth de {3, 4, 5}, learning_rates de {0.001, 0.01, 0.1, 0.5} y n_estimators de {10, 100, 1000} para 100 iteraciones basadas en la puntuación AUROC (puntuación ovr-auroc para múltiples clases) a partir de la triple validación cruzada38. Ejecutamos cada experimento cinco veces con distintas semillas aleatorias (0, 13, 24, 36, 42). Para mortalidad, comorbilidad agrupada, LOS agrupados y denegación de seguro, realizamos el experimento con el conjunto de datos completo. Para la readmisión, entrenamos el modelo usando submuestras (N ∈ {102, 103, 104, 105, 3.92336 × 105}) del conjunto de datos NYU Readmission–LACE.

Evaluamos las cinco tareas (predicción de mortalidad hospitalaria, predicción del índice de comorbilidad agrupado, predicción de readmisión por todas las causas a los 30 días, predicción de LOS agrupado y predicción de denegación del seguro) con AUC para clases binarias y OVR AUROC para clases múltiples. AUROC es el área bajo la curva bidimensional formada por tuplas de la forma (TPR, FPR) resultantes de diferentes umbrales de decisión.

Además, evaluamos la predicción de reingreso con las siguientes métricas: TPR, FPR, precisión, recuperación y puntaje F1, todos los cuales tienen un rango de [0, 1]. Evaluamos NER utilizando una puntuación NER F1 micropromediada. El puntaje NER F1 es similar al puntaje F1 normal excepto que la etiqueta de no entidad 'O' se excluye para el cálculo.

Comparamos NYUTron con médicos. Se trabajó con seis médicos con diferentes niveles de antigüedad: tres médicos adjuntos y tres residentes. Se pidió a los médicos que revisaran los resúmenes de alta y predijeran si el paciente descrito regresaría al hospital dentro de los 30 días.

Comparamos NYUTron con otros cuatro LLM y dos modelos de aprendizaje automático. 'random-init' es un modelo sin carcasa basado en BERT con parámetros inicializados aleatoriamente. 'web-wiki' es un modelo sin carcasa basado en BERT que se entrena previamente con texto web (del conjunto de datos de BookCorpus39) y artículos de Wikipedia (del conjunto de datos de Wikipedia en inglés40). 'web-wiki+bio' es un modelo BERT preentrenado usando texto web, artículos de Wikipedia, resúmenes de PubMed41 y artículos completos de PubMed Central (PMC)42. 'web-wiki+bio+clinical', o gatortron-og43, es un modelo Megatron-BERT44 preentrenado con texto web, artículos de Wikipedia, resúmenes de PubMed, artículos completos de PMC, notas MIMIC-III y notas clínicas anónimas de la Universidad de Florida Salud. 'lace+xgb' lee características LACE estructuradas (a partir de una regla de predicción clínica tradicional) con un modelo de árbol potenciado por gradiente extremo14. 'tf-idf+xgb' lee características de bolsa de palabras a nivel de corpus con un modelo de árbol reforzado con gradiente extremo. Para obtener estadísticas detalladas y ejemplos de los corpus previos al entrenamiento, consulte la tabla 2 de datos ampliados y la figura 3 de datos ampliados.

Tomamos muestras aleatorias de 20 notas de alta del conjunto de pruebas aleatorias y les preguntamos a seis médicos con diferente antigüedad que predijeran si el paciente regresaría dentro de los 30 días. Los seis médicos incluyeron tres neurocirujanos asistentes, dos residentes de neurocirugía y un residente de UCI.

Usamos REDCap para realizar la encuesta y les dimos a los médicos tiempo ilimitado. La encuesta se estructuró de la siguiente manera: para cada caso, preguntamos "¿Esta persona será ingresada dentro de los 30 días?", seguido del resumen del alta. El médico podía optar por responder "sí" o "no". Si el paciente regresaba dentro de los 30 días, teníamos tres preguntas de seguimiento para evaluar las características del reingreso posterior. Primero, preguntamos "¿Esta readmisión está relacionada con el alta anterior?", Seguido de la nota H&P de la readmisión posterior. El médico podría responder "sí", "no", "parcial" o "no cumple con los criterios de Medicare para la readmisión de 30 días". La segunda pregunta de seguimiento fue "¿Es prevenible este reingreso?", a la que el médico podía responder "sí", "no" o "parcial". La tercera pregunta de seguimiento, "¿Algún comentario?", tenía una respuesta de texto libre donde el médico podía explicar por qué la readmisión estaba parcialmente relacionada con el alta anterior o por qué la readmisión era parcialmente prevenible.

Para recopilar las predicciones de NYUTron, usamos la canalización de clasificación de texto de HuggingFace para realizar inferencias en las 20 notas de descarga. Para cada nota de descarga, la tubería genera una probabilidad prevista de readmisión. Convertimos esta probabilidad pronosticada en una etiqueta binaria con un umbral de 0,07 (una probabilidad pronosticada no inferior a 0,07 se convirtió en una etiqueta positiva). Elegimos 0,07 como límite de decisión porque era el umbral mínimo que nos dio más del 80 % de recuperación de validación entre los umbrales {0,01 × n : n ∈ {1, ..., 90} (el criterio del 80 % se eligió sobre la base de aplicabilidad clínica). Consulte la Fig. 8c de datos extendidos para conocer la curva de calibración de NYUTron.

El conjunto de datos, los hiperparámetros y las bibliotecas de evaluación y software para ajustar otros LLM eran los mismos que cuando se ajustaba NYUTron. Los LLM preentrenados se construyeron de la siguiente manera: random-init es un modelo sin carcasa basado en BERT con parámetros de reinicio. web-wiki es un modelo sin carcasa basado en BERT. web-wiki+bio es un modelo dmis-lab/biobert-base cased v1.2. web-wiki+bio+clinical se descargó Gatortron-og de NVIDIA NGC y se convirtió en un punto de control HuggingFace mediante el punto de control convert megatron bert.

El conjunto de datos, los hiperparámetros y las bibliotecas de evaluación y software para el ajuste fino de otros LLM fueron los mismos que para el ajuste fino de NYUTron. Los LLM preentrenados fueron los mismos que los LLM de referencia para predecir la readmisión a partir de las notas de alta.

Usando el conjunto de datos NYU Readmission-LACE, usamos la biblioteca xgboost para entrenar un clasificador de árbol potenciado por gradiente extremo con pérdida logística binaria con búsqueda de hiperparámetros. Usamos la búsqueda aleatoria de scikit-learn para buscar entre minimal_child_weight de {1, 5, 10}, gamma de {0.5, 1, 1.5, 2, 5}, submuestra de {0.6, 0.8, 1}, col_sample_bytree de {0.6, 0.8 , 1,0}, profundidad_máxima de {3, 4, 5}, tasas de aprendizaje de {0,001, 0,01, 0,1, 0,5} y n_estimadores de {10, 100, 1000} para 100 iteraciones sobre la base de la puntuación AUROC en el conjunto de validación37. Entrenamos el modelo usando submuestras (N ∈ {102, 103, 104, 105, 3.92336 × 105}) del conjunto de datos NYU Readmission–LACE y evaluamos su AUROC en el conjunto de prueba temporal. Para cada tamaño de submuestra, realizamos cinco experimentos con distintas semillas aleatorias (0, 13, 24, 36, 42). A modo de comparación, observamos la mediana de AUROC y la desviación estándar de los cinco experimentos.

Transformamos el texto del conjunto de datos de readmisión de NYU en incrustaciones tf-idf (frecuencia de término-frecuencia de documento inversa) y usamos un clasificador xgboost con pérdida logística binaria para predecir la readmisión. Utilizamos raytune45 para buscar hiperparámetros, incluidas las funciones max_tf-idf de {512, 5000}, max_ depth de un número entero aleatorio cuantificado de 3 a 16 con un intervalo de 4, learning_rate de una distribución logarítmica uniforme de 10−2 a 10−1, gamma de una distribución uniforme cuantificada de 0 a 12 con un intervalo de 4, minimal_child_weight de una distribución uniforme cuantificada de 0 a 8 con un intervalo de 4, reg lambda de una distribución uniforme cuantificada de 0 a 10 con un intervalo de 2, colsample_bytree de una distribución uniforme de 0,7 a 1, scale pos peso de una distribución uniforme cuantificada de 0 a 50 con un intervalo de 10 y n_estimator de una distribución entera cuantificada de 50 a 300 con un intervalo de 50. Entrenamos el modelo usando submuestras ( N ∈ {102, 103, 104, 105, 3,92336 × 105}) del conjunto de datos de readmisión de la NYU y evaluó su AUROC en el conjunto de prueba temporal. Para cada tamaño de submuestra, realizamos cinco experimentos con distintas semillas aleatorias (0, 13, 24, 36, 42). A modo de comparación, observamos la mediana de AUROC y la desviación estándar de los cinco experimentos.

Comparamos NYUTron con sus cuatro variantes (preentrenadas y ajustadas con datos de diferentes sitios): (1) NYU Notes–Manhattan + NYU Readmission–Manhattan, (2) NYU Notes–Manhattan + NYU Readmission–Brooklyn, (3) NYU Notas: Brooklyn + Readmisión de NYU: Brooklyn y (4) Notas de NYU: Brooklyn + Readmisión de NYU: Manhattan. Los hiperparámetros y las bibliotecas de evaluación y software para el ajuste fino de las variantes de NYUTron fueron los mismos que para el ajuste fino de NYUTron.

Sobre la base del rendimiento de la prueba temporal en el estudio retrospectivo, seleccionamos un modelo ajustado con un umbral de decisión de 0,07 para usar en el ensayo prospectivo.

Para evaluar el estado de los pacientes reingresados ​​que fueron correctamente predichos (n = 3.298), comparamos su tasa de mortalidad hospitalaria y la duración de la hospitalización con la de los pacientes que ingresaron en el mismo período. Recopilamos datos sobre pacientes que ingresaron de febrero a mayo de 2022 (n = 30 548) y comparamos su tasa de mortalidad hospitalaria y LOS con la de los pacientes readmitidos capturados por NYUTron de enero a abril de 2022. Usamos la t de Welch bilateral pruebas (con la hipótesis nula de que los dos grupos tenían el mismo promedio) para evaluar la significancia estadística de nuestra comparación46.

Realizamos un análisis post hoc de pacientes readmitidos en la cohorte prospectiva para comprender mejor el rendimiento del modelo en un entorno del mundo real y en anticipación de la creación de intervenciones específicas basadas en los resultados del modelo. Se tomaron muestras de cien pacientes readmitidos de los cinco departamentos más grandes de NYU Langone por volumen de pacientes: medicina interna, pediatría, cirugía general, obstetricia y ginecología, y hematología y oncología. Cada departamento contribuyó con 20 casos, con 10 casos con las probabilidades más altas pronosticadas en ese departamento y 10 casos con las probabilidades más bajas pronosticadas. Todos los casos registraron sus identificaciones de encuentro para su alta índice y readmisión en una plataforma segura en línea. Se construyó un cuestionario estandarizado para revisión manual preguntando si la readmisión fue planificada, si la readmisión cumplió con los criterios de CMS para una readmisión penalizada de 30 días, si la readmisión fue prevenible, si ocurrió un evento adverso en la readmisión, si algún evento adverso fue prevenible y si los médicos revisores tenían algún comentario sobre el caso. Se asignaron casos al azar a un equipo de diez médicos de medicina interna y neurocirugía para que fueran revisados ​​por parejas, y cualquier desacuerdo entre los revisores fue adjudicado por un tercer médico revisor. Para determinar si una readmisión era prevenible, el revisor miró la nota de alta del encuentro de inferencia y la nota H&P del encuentro de readmisión.

Nuestra investigación fue aprobada por la junta de revisión institucional de NYU Langone como 's21-01189 NYUtron', y los métodos se llevaron a cabo de acuerdo con las pautas y regulaciones pertinentes de la junta de revisión institucional.

Más información sobre el diseño de la investigación está disponible en el Resumen de informes de Nature Portfolio vinculado a este artículo.

Los datos clínicos utilizados para el preentrenamiento, el ajuste fino, la validación y los conjuntos de prueba se recopilaron del sistema de salud electrónico de NYU Langone Health System mantenido por el equipo de NYULH Datacore. Los datos de texto se despojaron de las funciones de texto enriquecido y se incluyeron directamente en el conjunto de datos 'tal cual' y se aumentaron con funciones estructuradas donde se indicó. Estos datos consisten en los registros médicos de producción de NYU Langone y no pueden ponerse a disposición del público. Los investigadores pueden obtener un conjunto de datos no identificado limitado (o un subconjunto de prueba) del Sistema de Salud Langone de la NYU mediante una solicitud razonable y sujeto a las aprobaciones éticas locales y nacionales. También usamos i2b2-2012 disponible públicamente (https://portal.dbmi.hms.harvard.edu/projects/n2c2-nlp/) y MIMIC-III (https://physionet.org/content/mimiciii/1.4/) conjuntos de datos

Utilizamos sql y Python 3.8.13 para recopilar datos de NYU Langone EHR. Utilizamos REDCap 12.4.31 para recopilar las respuestas de los médicos. Este trabajo utilizó varias bibliotecas de código abierto, incluidas HuggingFace Transformers 4.19.2, Datasets 2.2.2, Evaluate 0.1.1, wandb 0.12.17, matplotlib 3.5.2, seaborn 0.12.2, pandas 1.4.2, ray 2.0.0 , sklearn 1.1.1, deepspeed 0.8.0+384f17b, NVIDIA Apex, XGBoost 1.6.1 y nltk 3.6.3. Nuestro marco experimental involucró el uso de estas bibliotecas y, en algunos casos, la modificación de las mismas. Lanzaremos código para replicar el entrenamiento previo, el ajuste y la prueba de los modelos descritos en este documento en el momento de la publicación (código para experimentos disponible en https://github.com/nyuolab/NYUTron, código de preprocesamiento para i2b2-2012 disponible en https://github.com/nyuolab/i2b2_2012_preprocessing). Incluimos métodos detallados y pasos de implementación en Métodos e información complementaria para permitir una replicación independiente.

Roberts, M. et al. Errores comunes y recomendaciones para usar el aprendizaje automático para detectar y pronosticar COVID-19 usando radiografías de tórax y tomografías computarizadas. Nat. Mach. Intel. 3, 199–217 (2021).

Artículo Google Académico

Kelly, CJ, Karthikesalingam, A., Suleyman, M., Corrado, G. y King, D. Desafíos clave para generar impacto clínico con inteligencia artificial. BMC Med. 17, 195 (2019).

Artículo PubMed PubMed Central Google Académico

Gaube, S. et al. Haga lo que dice la IA: susceptibilidad en el despliegue de ayudas para la toma de decisiones clínicas. Dígito NPJ. Medicina. 4, 31 (2021).

Artículo PubMed PubMed Central Google Académico

Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. BERT: entrenamiento previo de transformadores bidireccionales profundos para la comprensión del lenguaje. en Proc. 2019 NAACL: Human Language Technologies (eds Burstein, J., Doran, C. & Solorio, T.) 4171–4186 (Association for Computational Linguistics, 2019).

Brown, TB et al. Los modelos de lenguaje son aprendices de pocas oportunidades. en Proc. NeurIPS (eds Wallach, H. et al.) 1877–1901 (Sistemas de procesamiento de información neuronal, 2020).

Gage, BF et al. Selección de pacientes con fibrilación auricular para la anticoagulación: estratificación del riesgo de accidente cerebrovascular en pacientes que toman aspirina. Circulación 110, 2287–2292 (2004).

Artículo CAS PubMed Google Académico

Child, CG & Turcotte, JG Cirugía e hipertensión portal. Problema mayor clin. Cirugía 1, 1–85 (1964).

CAS Google Académico

Pugh, RNH, Murray-Lyon, IM, Dawson, JL, Pietroni, MC y Williams, R. Transección del esófago por várices esofágicas sangrantes. Hermano J. Cirugía. 60, 646–649 (2005).

Artículo Google Académico

Wells, P. et al. Precisión de la evaluación clínica de la trombosis venosa profunda. Lancet 345, 1326–1330 (1995).

Artículo CAS PubMed Google Académico

Tomašev, N. et al. Un enfoque clínicamente aplicable a la predicción continua de la futura lesión renal aguda. Naturaleza 572, 116–119 (2019).

Artículo PubMed PubMed Central ADS Google Scholar

Wu, N. et al. Las redes neuronales profundas mejoran el desempeño de los radiólogos en la detección del cáncer de mama. IEEE TMI 39, 1184–1194 (2020).

Google Académico

Liang, H. et al. Evaluación y diagnósticos precisos de enfermedades pediátricas utilizando inteligencia artificial. Nat. Medicina. 25, 433–438 (2019).

Artículo CAS PubMed Google Académico

Kaplan, J. et al. Leyes de escala para modelos de lenguaje neural. Preimpresión en https://doi.org/10.48550/arXiv.2001.08361 (2020).

Chen, T. & Guestrin, C. XGBoost: un sistema escalable de refuerzo de árboles. en Proc. 2016 SIGKDD 785–794 (Asociación de Maquinaria Informática, 2016).

Le Gall, J.-RA Nueva puntuación de fisiología aguda simplificada (SAPS II) basada en un estudio multicéntrico europeo/norteamericano. Mermelada. Medicina. Asoc. 270, 2957-2963 (1993).

Artículo Google Académico

Knaus, WA, Draper, EA, Wagner, DP & Zimmerman, JE APACHE II: un sistema de clasificación de la gravedad de la enfermedad. crítico Cuidado Med. 13, 818–829 (1985).

Artículo CAS PubMed Google Académico

Charlson, ME, Pompei, P., Ales, KL & MacKenzie, CR Un nuevo método para clasificar la comorbilidad pronóstica en estudios longitudinales: desarrollo y validación. J. Cron. Dis. 40, 373–383 (1987).

Artículo CAS PubMed Google Académico

Caetano, N., Laureano, RMS & Cortez, P. Un enfoque basado en datos para predecir la duración de la estancia hospitalaria: un estudio de caso portugués. en Proc. 2014 ICEIS (eds Hammoudi, S., Maciaszek, L. & Cordeiro, J.) 407–414 (Biblioteca Digital SCITEPRESS, 2014).

Johnson, M., Albizri, A. & Harfouche, A. Inteligencia artificial responsable en el cuidado de la salud: predicción y prevención de denegaciones de reclamos de seguros para el bienestar económico y social. información sist. Frente. https://doi.org/10.1007/s10796-021-10137-5 (2021).

van Walraven, C., Wong, J. & Forster, AJ Índice LACE+: extensión de un índice validado para predecir muerte prematura o readmisión urgente después del alta hospitalaria utilizando datos administrativos. Abierto Med. 6, 80–90 (2012).

Google Académico

Centro para el Control y la Prevención de Enfermedades. ¿Qué es C. diff? https://www.cdc.gov/cdiff/what-is.html (2022).

Yang, G. et al. El clasificador del modelo de lenguaje se alinea mejor con la sensibilidad de palabras del médico que XGBoost en la predicción de readmisión. Preimpresión en https://doi.org/10.48550/arXiv.2211.07047 (2022).

Perez, E., Kiela, D. & Cho, K. Verdadero aprendizaje de pocos disparos con modelos de lenguaje. en Proc. NeurIPS (eds Ranzato, M. et al.) 11054–11070 (Sistemas de procesamiento de información neuronal, 2021).

Singhal, K. et al. Los grandes modelos de lenguaje codifican el conocimiento clínico. Preimpresión en https://doi.org/10.48550/arXiv.2212.13138 (2022).

Bolton, E. et al. PubMed GPT 2.7B. Reporte técnico. Centro de investigación de modelos de cimientos de la Universidad de Stanford https://crfm.stanford.edu/2022/12/15/pubmedgpt.html (2022).

Hoffmann, J. et al. Un análisis empírico del entrenamiento de un modelo de lenguaje grande óptimo para computación. en Proc. NeurIPS (eds Koyejo, S. et al.) 30016–30030 (Sistemas de procesamiento de información neuronal, 2022).

Charlson, M. Índice de comorbilidad de Charlson (ICC). MD+CALC https://www.mdcalc.com/calc/3917/charlson-comorbidity-index-cci (2022).

Sun, W., Rumshisky, A. y Uzuner, O. Anotación de información temporal en narrativas clínicas. J. Biomédica. Informar. 46, 5–12 (2013).

Artículo Google Académico

Johnson, AEW et al. MIMIC-III, una base de datos de cuidados críticos de libre acceso. ciencia Datos 3, 160035 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

van Walraven, C. et al. Derivación y validación de un índice para predecir muerte temprana o readmisión no planificada después del alta del hospital a la comunidad. Poder. Medicina. Asoc. J. 182, 551–557 (2010).

Artículo Google Académico

Sundararajan, V. et al. Nueva versión ICD-10 del índice de comorbilidad de Charlson predice mortalidad hospitalaria. J. Clin. Epidemiol. 57, 1288–1294 (2004).

Artículo PubMed Google Académico

Bird, S. & Loper, E. NLTK: El kit de herramientas del lenguaje natural. en Proc. 2004 ACL Interactive Poster and Demonstration Sessions 214–217 (Association for Computational Linguistics, 2004).

Lobo, T. et al. Transformadores: procesamiento de lenguaje natural de última generación. en Proc. 2020 EMNLP (eds Webber, B., Cohn, T., He, Y. & Liu, Y.) 38–45 (Association for Computational Linguistics, 2020).

Rajbhandari, S., Rasley, J., Ruwase, O. & He, Y. ZeRO: optimizaciones de memoria. Hacia el entrenamiento de billones de modelos de parámetros. en Proc. En t. Conf. Informática, redes, almacenamiento y análisis de alto rendimiento 1–16 (IEEE Press, 2020).

Loshchilov, I. y Hutter, F. Regularización de la disminución del peso desacoplada. ICLR https://openreview.net/forum?id=Bkg6RiCqY7 (2019).

Kingma, DP & Ba, J. Adam: un método para la optimización estocástica. ICLR https://arxiv.org/abs/1412.6980 (2017).

Ayaz, M., Pasha, MF, Alzahrani, MY, Budiarto, R. & Stiawan, D. El estándar Fast Health Interoperability Resources (FHIR): revisión sistemática de la literatura sobre implementaciones, aplicaciones, desafíos y oportunidades. JMIR Med. Informar. 9, 21929 (2021).

Artículo Google Académico

Pedregosa, F. et al. Scikit-Learn: aprendizaje automático en Python. J. Mach. Aprender. Res. 12, 2825–2830 (2011).

MathSciNet MATEMÁTICAS Google Académico

Zhu, Y. et al. Alinear libros y películas: hacia explicaciones visuales parecidas a historias viendo películas y leyendo libros. en Proc. 2015 ICCV (ed. O'Conner, L.) 19–27 (IEEE, 2015).

Fundación Wikimedia. Descargas Wikimedia. https://dumps.wikimedia.org/ (2021).

Recursos de literatura del NCBI. Descargar datos de PubMed. https://pubmed.ncbi.nlm.nih.gov/download/ (2022).

Biblioteca Nacional de Medicina. PubMed Central: conjuntos de datos de artículos de PMC. https://www.ncbi.nlm.nih.gov/pmc/tools/textmining/ (2022).

Yang, X. et al. Un gran modelo de lenguaje para registros de salud electrónicos. Dígito NPJ. Medicina. 5, 194 (2022).

Shoeybi, M. et al. Megatron-LM: entrenamiento de modelos de lenguaje de parámetros multimillonarios mediante el paralelismo de modelos. Preimpresión en https://doi.org/10.48550/arXiv.1909.08053 (2020).

Liaw, R. et al. Tune: una plataforma de investigación para la selección y entrenamiento de modelos distribuidos. Preimpresión en https://doi.org/10.48550/arXiv.1807.05118 (2018).

Welch, BL La generalización del problema de Student cuando están involucradas varias varianzas de población diferentes. Biometrika 34, 28–35 (1947).

MathSciNet CAS PubMed MATEMÁTICAS Google Académico

Descargar referencias

EKO cuenta con el apoyo del Programa Científico Cirujano Temprano del Instituto Nacional del Cáncer (3P30CA016087-41S1) y la Fundación WM Keck. Nos gustaría agradecer a J. Golfinos, cuya visión y apoyo hicieron posible este proyecto. También nos gustaría agradecer a nuestros colaboradores M. Costantino y K. Yie del equipo de computación de alto rendimiento (HPC) Langone de la NYU; sin su incansable asistencia en la construcción y el mantenimiento de nuestro clúster de GPU, ninguna de estas investigaciones habría sido posible. También nos gustaría agradecer a D. Bar-Sagi y N. Mherabi, cuyo apoyo para esta investigación ha hecho que todo sea posible. Nos gustaría agradecer a B. Guzman de la Unidad de Análisis Predictivo Langone de la NYU y a VJ Major de la Escuela de Medicina Grossman de la NYU por su ayuda para aprender las estructuras de datos SQL utilizadas como parte de este trabajo. Nos gustaría agradecer a Y.(R.) Pang por revisar y editar el manuscrito inicial. Nos gustaría agradecer a X. Yang de la Universidad de Florida por ayudarnos con el preprocesamiento y la evaluación del conjunto de datos i2b2. Agradecemos a S. Ciprut por ayudar con la encuesta REDCap y la administración de la investigación para nuestro equipo. Agradecemos a C. Fernandez-Granda, J. Kempe, V. Dhar, N. Wu, M. Barot, A. Chen, K. Link y F. Kwon por sus valiosos debates.

Departamento de Neurocirugía, NYU Langone Health, Nueva York, NY, EE. UU.

Lavender Yao Jiang, Xujin Chris Liu, Mustafa Nasir-Moin, Howard Antony Riina, Ilya Laufer, Nora C. Kim, Cordelia Orillac, Zane Schnurman, Christopher Livia, Hannah Weiss, David Kurland, Sean Neifert, Yosef Dastagirzada, Douglas Kondziolka, Alexander TM Cheung, Grace Yang, Ming Cao y Eric Karl Oermann

Centro de Ciencia de Datos, Universidad de Nueva York, Nueva York, NY, EE. UU.

Lavanda Yao Jiang, Grace Yang, Ming Cao, Kyunghyun Cho y Eric Karl Oermann

Ingeniería Eléctrica e Informática, Escuela de Ingeniería Tandon, Nueva York, NY, EE. UU.

Xujin Chris Liu

NVIDIA, Santa Clara, CA, USA

Haga clic en Descargar para guardar Nima Pour Nejatian - Anas Abidin mp3 youtube com

Unidad de análisis predictivo, NYU Langone Health, Nueva York, NY, EE. UU.

Dúo Wang & Yindalon Aphinyanaphongs

Departamento de Medicina Interna, NYU Langone Health, Nueva York, NY, EE. UU.

Kevin Eaton, Paawan Punjabi y Madeline Miceli

Departamento de Salud de la Población, NYU Langone Health, Nueva York, NY, EE. UU.

Yindalon Aphinyanaphongs

Prescient Design, Genentech, Nueva York, NY, EE. UU.

Kyung Hyun Cho

Instituto Courant de Ciencias Matemáticas, Universidad de Nueva York, Nueva York, NY, EE. UU.

Kyung Hyun Cho

Instituto Canadiense de Investigación Avanzada, Toronto, Ontario, Canadá

Kyung Hyun Cho

Departamento de Radiología, NYU Langone Health, Nueva York, NY, EE. UU.

Eric Karl Oermann

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

EKO conceptualizó y supervisó el proyecto. LYJ recopiló datos (excepto los conjuntos de datos NYU Insurance Denial y MIMIC-III Readmission) y realizó experimentos. LYJ y XCL prepararon las figuras. XCL, NPN, MN-M. y KC depuraron y probaron el modelo y el software de preentrenamiento y ajuste. EKO diseñó la plataforma de implementación NYUTriton, y EKO, AA y DW construyeron el sistema y lo integraron con el EHR. KE, EKO, DW y YA recopilaron y procesaron el conjunto de datos de denegación de seguro de NYU. HAR, IL, PP, KE, MM, NCK, CO, ZS, CL, HW, DK, SN, YD, DK y ATMC participaron en los experimentos con humanos, revisaron los casos y brindaron comentarios y pruebas de los usuarios. GY y MC proporcionaron los scripts para tf-idf+xgb y crearon el conjunto de datos de readmisión MIMIC-III. MF, ABC, YA y KC brindaron orientación y retroalimentación durante todo el proyecto. LYJ, KC y EKO escribieron el borrador inicial. LYJ, EKO, KC, MN-M., GY y MC formatearon la presentación final. Todos los autores editaron y revisaron el manuscrito.

Correspondencia a Eric Karl Oermann.

EKO informa consultoría con Sofinnova y Google, ingresos de Merck & Co. y Mirati Therapeutics, y participación en Artisight. NPN, MF y ABC son empleados de NVIDIA. DK informa consultar con Elekta. KC es empleado de Prescient Design, un acelerador de Genentech, una subsidiaria de Roche. No existen otros posibles conflictos de interés. El trabajo presentado aquí se realizó exclusivamente dentro del Sistema de Salud Langone de la NYU.

Nature agradece a Ziad Obermeyer y a los otros revisores anónimos por su contribución a la revisión por pares de este trabajo.

Nota del editor Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

a, la curva AUC para la prueba aleatoria muestra un mejor rendimiento que la prueba temporal. El AUC de la prueba aleatoria es del 84,13 %, en comparación con el AUC de la prueba temporal del 80,2 %. La diferencia destaca la importancia de crear un conjunto de prueba para reflejar la configuración del problema. En el caso de la predicción de readmisión, el conjunto de implementación siempre proviene del futuro del conjunto de entrenamiento. Por lo tanto, usamos la prueba temporal AUC para la selección del modelo. b, la comparación de AUC de prueba aleatoria y AUC de prueba temporal a medida que aumenta el número de ejemplos de entrenamiento muestra que la prueba temporal es importante para estimar el rendimiento de la implementación. Aquí mostramos que muestrear un conjunto de datos dividido temporalmente parece "más difícil" que un conjunto de datos de prueba muestreado aleatoriamente porque todos los LLM y lace+xgb probados funcionan peor en la prueba temporal (notas del futuro) que en la prueba aleatoria (notas del mismo tiempo). como datos de entrenamiento). Las líneas coloreadas de la izquierda (AUC de prueba aleatoria) son generalmente más altas que las líneas coloreadas de la derecha (AUC de prueba temporal). Concluimos que esta es una distinción importante de que los conjuntos de prueba retenidos muestreados temporalmente brindan una estimación más realista del rendimiento del modelo. Curiosamente, los modelos de lenguaje parecen ser más sensibles a este fenómeno que el modelo lace+xgb.

Observamos una tendencia similar a la predicción de readmisión: (a) muestra que NYUTron tiene un mejor rendimiento que tf-idf en diferentes configuraciones de disponibilidad de datos y (b) muestra que los modelos de lenguaje clínicamente entrenados tienen un mejor rendimiento que los modelos de lenguaje no clínicamente entrenados. Esto corrobora nuestros hallazgos de que los modelos de lenguaje a escala del sistema de salud son motores de predicción clínica de propósito general y que una coincidencia de dominio entre el corpus de preentrenamiento y ajuste fino contribuye al desempeño de la tarea. a, Comparación de las AUC de prueba temporal entre NYUTron y un modelo NLP tradicional (tf-idf+xgb). NYUTron tiene un AUC medio más alto que tf-idf+xgb para todos los ejemplos probados de ajuste fino. La línea vertical negra indica la desviación estándar en 5 ensayos de diferentes semillas aleatorias (0, 13, 24, 36, 42). b, Comparación de los rendimientos de ajuste fino de los LLM en la tarea NER. En la tarea de extracción de conceptos clínicos i2b2-2012, los LLM que están preentrenados con corpus clínicos (NYUTron, web-wiki+bio+clinical) tienen un puntaje f1 promedio más alto que los LLM que no están preentrenados con corpus clínicos (web-wiki+bio , web-wiki, inicio aleatorio). Específicamente, NYUTron y web-wiki+bio+clinical se desempeñan mejor que el modelo inicializado aleatoriamente (36,64 % más de puntuación media de f1 de secuencia) y los modelos no preentrenados clínicamente (2,01 %–3,48 % más de puntuación media de f1 de secuencia). Tenga en cuenta que la altura de cada barra es el puntaje f1 promedio y la mitad de la longitud de cada línea vertical negra indica la desviación estándar en 5 intentos de diferentes semillas aleatorias (0, 13, 24, 36, 42).

Incluimos aquí algunos ejemplos de los corpus de preformación utilizados para ayudar a contextualizar nuestro trabajo. Ejemplos de tres tipos de corpus previos al entrenamiento: (1) web-wiki (libros en línea de bookcorpus y artículos de enciclopedia de Wikipedia en inglés), (2) biografía (resúmenes de artículos académicos de Pubmed Abstracts y artículos completos de Pubmed Central), y (3 ) clínico (NYU Notes, NYU Readmission de Langone EHR y notas clínicas de University of Florida Health).

Para probar cuánto ajuste necesita NYUTron para generalizar a otro sistema de salud, ajustamos NYUTron y BioClinicalBERT (que tiene la misma cantidad de parámetros y arquitectura que NYUTron, pero entrenado previamente en notas MIMIC, bookcorpus, pubmed y artículos de wikipedia) usando diferentes submuestras de MIMIC -III conjunto de datos de readmisión. El conjunto de datos contiene 52 726 notas de alta de UCI no identificadas del Hospital Beth Israel de Boston con una división de prueba de tren-val de 8:1:1. A 100 muestras, el AUC es similar. Con 1000 muestras, NYUTron tiene un AUC medio 3,58 % más alto que BioClinicalBERT (57,22 % frente a 53,64 %). Con 10 000 muestras, NYUTron tiene un AUC medio 6,42 % más alto que BioClinicalBERT (65,56 % frente a 59,14 %). Utilizando el conjunto de datos completo (42 180 muestras), NYUTron tiene un AUC medio 3,8 % más alto que BioClinicalBERT (67,04 % frente a 63,24 %). Dado que NYUTron se entrenó previamente en notas identificadas de todos los departamentos de NYU Langone y se ajustó en notas específicas de UCI no identificadas de Beth-Israel, este resultado muestra que NYUTron puede generalizar a un entorno de salud muy diferente a través de ajustes locales. La altura de la barra indica el rendimiento medio de 5 experimentos que utilizan semillas aleatorias distintas (0, 13, 24, 36, 42) y la barra de error indica el rango mínimo-máximo.

a, Un análisis estratificado del rendimiento de la prueba temporal de NYUTron por departamento clínico y subespecialidad oncológica. NYUTron se desempeña mejor en el Departamento de Neurología (AUC 90,12 %) y se desempeña peor en el Departamento de Medicina Interna (AUC 67,95 % para especialidad no oncológica y AUC 63,77 % para especialidad oncológica), con una diferencia de aproximadamente 20 % AUC. Esta variación significativa entre los departamentos clínicos sugiere que un análisis más detallado puede generar beneficios en el rendimiento. Anotamos el número de ejemplos (N) y la tasa de reingreso (p) para cada departamento. b, el rendimiento de NYUTron muestra fluctuaciones menores a lo largo de los meses. Trazamos el AUC de la prueba mensual promedio de NYUTron desde enero de 2013 hasta diciembre de 2021 para buscar tendencias o ciclos mensuales subyacentes y probar la hipótesis de que el rendimiento sería peor en julio cuando los nuevos médicos comienzan su capacitación con un estilo de escritura diferente al de los médicos que ya están en práctica (línea roja discontinua que indica el AUC mensual de julio). La altura de la barra indica el rendimiento mensual promedio durante los 9 años y la barra vertical indica la desviación estándar. Anotamos el número de ejemplos (N) y la tasa de reingreso (p) para cada mes. Observamos que julio tiene el segundo AUC mensual más bajo y la varianza más alta. Especulamos (y necesitamos más años de datos para verificar) que las notas clínicas escritas por nuevos médicos están asociadas con el cambio temporal a lo largo de los meses y la caída en el rendimiento en julio. Las AUC promedio de los trimestres de enero a marzo, de abril a junio y de julio a septiembre están aumentando, lo que puede coincidir con el cronograma de rotación de los residentes en diferentes departamentos clínicos. Dejamos la investigación adicional de este desempeño cíclico para trabajos futuros.

Como parte de un análisis del rendimiento del modelo por dos posibles fuentes de sesgo, la edad y la raza, realizamos análisis estratificados del rendimiento de NYUTron. Anotamos el número de ejemplos (N) y la tasa de reingreso (p) para cada evaluación. a, estratificamos la prueba temporal con base en nueve intervalos de edades (0 a 90 años con intervalos de 10 años). NYUTron funciona mejor en pacientes de 10 a 40 años y tiene un rendimiento decreciente por decil a partir de los 40 años, con el peor rendimiento en el grupo de edad de 80 a 90 años. Observamos que esto no es un efecto del tamaño de la muestra, la muestra individual más grande tiene entre 80 y 90 años, pero probablemente refleja que la complejidad y las cargas de comorbilidad son desproporcionadamente mayores con la edad avanzada. b, Para probar las posibles dependencias y sesgos por raza, primero identificamos las cinco razas más frecuentes en el conjunto de datos (blanco, otra raza, negro, chino, indio), luego estratificamos los resultados de la evaluación por raza. NYUTron funciona mejor en pacientes chinos y peor en pacientes negros con una leve variación en el AUC en ambos grupos.

a, Un diagrama de caja con puntos de datos individuales. Para cada modelo, se realizaron 5 experimentos utilizando semillas aleatorias 0, 13, 24, 36, 42. La línea central del diagrama de caja indica la mediana. La línea superior del cuadro indica el primer cuantil. La línea inferior del gráfico indica el último cuantil. El bigote se extiende hasta 1,5 veces la longitud intercuartil y los rombos indican valores atípicos. b, Un gráfico de barras que muestra la media y la desviación estándar. La altura de la barra indica la media de 5 experimentos y la longitud de la línea vertical negra indica la desviación estándar.

a, Visualización de líneas de tiempo divididas de datos de readmisión. Visualizamos la división aleatoria, la división temporal y la división de implementación en una línea de tiempo para indicar esta decisión para la evaluación del modelo. La división aleatoria comienza en enero de 2013 y finaliza en mayo de 2021 (inclusive), que se divide aún más en un conjunto de trenes del 80 %, un conjunto de validación del 10 % y un conjunto de pruebas del 10 %. La división temporal (prueba temporal) comienza en junio de 2021 y finaliza en diciembre de 2021, un período de tiempo del que no se tomaron muestras de capacitación. Los datos de implementación se obtienen necesariamente del futuro, ya que se acumulan prospectivamente como parte de nuestro ensayo clínico no intervencionista de un solo brazo. b, el rendimiento de NYUTron aumenta con notas de entrada más completas. Para intentar estimar el rendimiento en función de la longitud de la secuencia, muestreamos un subconjunto de "notas largas" del conjunto de prueba temporal. Cada nota en este subconjunto tiene no menos de 400 palabras, o aproximadamente 512 fichas. Cortamos estas notas largas a 100, 200, 300 y 400 palabras mientras mantuvimos sus etiquetas de readmisión fijas para demostrar la ganancia incremental en el rendimiento a medida que capturamos proporcionalmente más información de cada una de estas "notas largas". La línea discontinua es el AUC de todos los billetes. Esta figura muestra que procesar más palabras de la posible entrada conduce a un mejor rendimiento de evaluación y confirma que existe un claro potencial para mejorar el rendimiento aumentando la longitud máxima de la secuencia. c,d Curva de calibración de NYUTron para la prueba temporal (c, el número de ejemplos de evaluación es N = 53 916) y el despliegue prospectivo (d, el número de ejemplos de evaluación es N = 29 286). Como referencia, la línea naranja es la curva de calibración de un clasificador idealmente calibrado. La línea azul es la curva de calibración de NYUTron. Actualmente no realizamos ninguna calibración adicional y elegimos el umbral de decisión en función de la precisión y la recuperación del conjunto de validación temporal. La probabilidad pronosticada se normaliza por la probabilidad pronosticada más grande. En general, el modelo está bien calibrado para la tarea de readmisión de 30 días.

.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Jiang, LY, Liu, XC, Nejatian, NP et al. Los modelos de lenguaje a escala del sistema de salud son motores de predicción de uso múltiple. Naturaleza (2023). https://doi.org/10.1038/s41586-023-06160-y

Descargar cita

Recibido: 14 Octubre 2022

Aceptado: 02 mayo 2023

Publicado: 07 junio 2023

DOI: https://doi.org/10.1038/s41586-023-06160-y

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.