Sistema de salud | ClearVitality Innovaciones Co., Ltd

Naturaleza (2023)Citar este artículo

18k Accesos

604 Altmetric

Detalles de métricas

Los médicos toman decisiones críticas con limitaciones de tiempo todos los días. Los modelos predictivos clínicos pueden ayudar a los médicos y administradores a tomar decisiones al pronosticar eventos clínicos y operativos. Los modelos predictivos clínicos basados en datos estructurados existentes tienen un uso limitado en la práctica diaria debido a la complejidad del procesamiento de datos, así como al desarrollo y despliegue del modelo1,2,3. Aquí mostramos que las notas clínicas no estructuradas de la historia clínica electrónica pueden permitir el entrenamiento de modelos de lenguaje clínico, que se pueden utilizar como motores de predicción clínica multiusos con desarrollo y despliegue de baja resistencia. Nuestro enfoque aprovecha los avances recientes en el procesamiento del lenguaje natural4,5 para entrenar un gran modelo de lenguaje para el lenguaje médico (NYUTron) y, posteriormente, ajustarlo en una amplia gama de tareas predictivas clínicas y operativas. Evaluamos nuestro enfoque dentro de nuestro sistema de salud para cinco tareas de este tipo: predicción de reingreso por todas las causas a los 30 días, predicción de mortalidad hospitalaria, predicción del índice de comorbilidad, predicción de la duración de la estadía y predicción de denegación del seguro. Mostramos que NYUTron tiene un área bajo la curva (AUC) de 78,7 a 94,9 %, con una mejora de 5,36 a 14,7 % en el AUC en comparación con los modelos tradicionales. Además, demostramos los beneficios del entrenamiento previo con texto clínico, el potencial para aumentar la generalización a diferentes sitios a través del ajuste fino y el despliegue completo de nuestro sistema en un ensayo prospectivo de un solo brazo. Estos resultados muestran el potencial del uso de modelos de lenguaje clínico en medicina para leer junto con los médicos y brindar orientación en el punto de atención.

Los médicos toman decisiones difíciles todos los días que requieren la integración de una gran cantidad de información. La información necesaria para tomar estas decisiones médicas se encuentra dispersa en varios registros, por ejemplo, el historial médico de un paciente y los informes de laboratorio e imágenes. Sin embargo, cuando los médicos realizan su trabajo, toda esta información finalmente se integra en las notas escritas por los médicos para documentar y resumir la atención del paciente.

Los modelos predictivos clínicos con frecuencia se derivan de reglas que han existido durante décadas6,7,8,9, así como de métodos de aprendizaje automático10,11,12, y la mayoría se basa en entradas estructuradas extraídas del registro de salud electrónico (EHR) o directamente del médico. entradas. Esta dependencia de entradas estructuradas introduce complejidad en el procesamiento de datos, así como en el desarrollo y la implementación de modelos, lo que en parte es responsable de que la gran mayoría de los algoritmos predictivos médicos se entrenen, prueben y publiquen, pero nunca se implementan para evaluar su impacto en la vida real. atención clínica mundial. Esto se conoce con frecuencia como el 'problema de la última milla' (refs. 1,2,3).

Uno de los desarrollos recientes más emocionantes en la investigación moderna de inteligencia artificial (IA) son los modelos de lenguaje grande (LLM). Se ha demostrado que estas redes neuronales masivas (con millones o incluso miles de millones de parámetros) obtienen resultados impactantes en una amplia gama de problemas que dependen de la lectura e interpretación del lenguaje humano. Se han desarrollado varios estilos de LLM en los últimos años, que van desde modelos de codificador (como BERT4) hasta modelos de decodificador (como GPT3; ref. 5). Teorizamos que los LLM podrían resolver potencialmente el problema de la última milla en el análisis predictivo médico simplemente leyendo las notas escritas por los médicos, accediendo así de inmediato a una descripción completa del estado médico de un paciente para brindar apoyo en la toma de decisiones en el punto de atención a través de una amplia gama de tareas clínicas y operativas.

Aquí presentamos nuestros resultados del desarrollo, evaluación, implementación y evaluación prospectiva de NYUTron, un sistema basado en LLM que puede integrarse en tiempo real con flujos de trabajo clínicos centrados en escribir notas y realizar pedidos electrónicos. Nuestro enfoque se basa en el hecho de que todos los datos clínicamente útiles y los procesos de toma de decisiones de los profesionales médicos se pueden encontrar como texto estructurado o no estructurado en el EHR (por ejemplo, como notas, resultados de laboratorio e informes de estudios). Nuestro enfoque aprovecha los avances recientes en el procesamiento del lenguaje natural que sugieren que los LLM autosupervisados suficientemente escalados pueden superar los enfoques fuertemente supervisados en tareas predictivas no médicas4,5,13. Investigamos nuestra hipótesis en el Sistema de Salud Langone de la NYU ('NYU Langone'), un gran sistema hospitalario de varios condados con una población diversa de pacientes en Nueva York, con 4 hospitales urbanos y 350 sitios para pacientes ambulatorios. Evaluamos NYUTron en una batería de cinco tareas, incluidas tres tareas clínicas y dos operativas (predicción de readmisión por todas las causas a los 30 días, predicción de mortalidad hospitalaria, predicción del índice de comorbilidad, predicción de la duración de la estancia (LOS) y predicción de denegación del seguro) y proporcionar un análisis detallado de nuestra tarea de readmisión de 30 días para analizar cuestiones de eficiencia de datos, generalización, implementación e impacto clínico potencial. Al repensar todo el análisis predictivo médico (consulte la sección 1.1 de Información complementaria para trabajos anteriores) como un problema de procesamiento del lenguaje natural, mostramos que es posible utilizar los LLM como motores de predicción universales para una amplia gama de tareas predictivas médicas.

Nuestro enfoque basado en modelos de lenguaje consta de cuatro pasos: recopilación de datos, capacitación previa, ajuste e implementación. En el primer paso (Fig. 1a), recopilamos un amplio conjunto de notas clínicas sin etiquetar y cinco notas clínicas etiquetadas para tareas específicas del NYU Langone EHR. A diferencia de otros estudios, nuestros conjuntos de datos provienen de todo el sistema hospitalario con una población diversa de pacientes de diferentes departamentos clínicos. Nuestro gran conjunto de datos sin etiquetar, 'NYU Notes', comprende 7,25 millones de notas clínicas (por ejemplo, lecturas radiográficas, historial y exámenes físicos) de 387 144 pacientes en cuatro hospitales, lo que da como resultado un corpus de 4100 millones de palabras seleccionado desde enero de 2011 hasta mayo de 2020. Cada uno de nuestros conjuntos de ajuste fino etiquetados contiene de 1 a 10 años de notas clínicas de pacientes hospitalizados (55 791 a 413 845 pacientes, 51 a 87 millones de palabras) con etiquetas específicas de tareas (2 a 4 clases). Consulte la Tabla 1 de datos ampliados para conocer las estadísticas del conjunto de datos.

a, consultamos el NYU Langone EHR para dos tipos de conjuntos de datos. El conjunto de datos previo al entrenamiento, NYU Notes, contiene 10 años de notas clínicas de pacientes hospitalizados (387 144 pacientes, 4100 millones de palabras). Hay cinco conjuntos de datos de ajuste fino. Cada uno contiene de 1 a 10 años de notas clínicas de pacientes hospitalizados (55 791 a 413 845 pacientes, 51 a 87 millones de palabras) con etiquetas específicas de tareas (2 a 4 clases). b, Entrenamos previamente un LLM similar a BERT de 109 millones de parámetros, denominado NYUTron, en todo el EHR mediante una tarea de MLM para crear un modelo preentrenado para el lenguaje médico contenido en el EHR. c, Posteriormente, ajustamos el modelo preentrenado en tareas específicas (por ejemplo, predicción de reingreso por todas las causas de 30 días) y lo validamos en datos retrospectivos retenidos. d, por último, el modelo ajustado se comprimió en un formato acelerado y se cargó en un motor de inferencia, que interactúa con el NYU Langone EHR para leer las notas de alta cuando las firman los médicos tratantes.

En el segundo y tercer paso (Fig. 1b, c), entrenamos previamente y ajustamos un LLM para cada tarea posterior utilizando un modelo de codificador bidireccional conocido como BERT (Representación de codificador bidireccional con transformador) y un objetivo de modelado de lenguaje enmascarado (MLM) en el conjunto de datos de NYU Notes11 hasta que la pérdida de validación se estabilizó. El objetivo de MLM enmascara aleatoriamente palabras o subpalabras en notas clínicas y entrena el modelo de lenguaje para completar correctamente la palabra enmascarada. Luego, utilizando el conjunto de datos de ajuste fino, ajustamos el modelo previamente entrenado (denominado 'NYUTron') para predecir la etiqueta de la tarea usando las relaciones aprendidas en el entrenamiento previo con las notas clínicas.

En el cuarto paso (Fig. 1d), implementamos nuestro mejor modelo en un motor de inferencia de alto rendimiento, NYUTriton, que interactúa con NYU Langone EHR. La implementación permitió la inferencia guiada por LLM en tiempo real en el punto de atención. En un ensayo prospectivo no intervencionista de un solo brazo, validamos el rendimiento de NYUTron en la predicción de reingreso a los 30 días en un entorno del mundo real y evaluamos sus impactos clínicos potenciales.

Para evaluar la amplitud de la aplicabilidad de NYUTron, evaluamos el desempeño de NYUTron en cinco tareas retrospectivamente. Entrenamos con el conjunto de datos completo y evaluamos el rendimiento con dos conjuntos de prueba: (1) un conjunto de prueba aleatorio (notas clínicas muestreadas al mismo tiempo que los datos de entrenamiento) y (2) un conjunto de prueba temporal (notas clínicas muestreadas del futuro de los datos de entrenamiento). El conjunto de prueba temporal se parece más al escenario de implementación, en el que los datos de inferencia provienen del futuro de los datos de entrenamiento. Nuestra batería de tareas consistió en tres tareas clínicas y dos tareas operativas, como se muestra en la Fig. 2a. Comparamos NYUTron con líneas de base estructuradas, que reenvían las características estructuradas utilizadas por los modelos predictivos clínicos tradicionales a un modelo de árbol14 potenciado por gradiente extremo.

a, Las cinco tareas incluyen tres tareas clínicas y dos tareas operativas. b, En la predicción de reingreso, NYUTron tuvo una mediana de AUC de 79,9 % ± 0,168 % con una mejora de 5,36 %. En la predicción de mortalidad hospitalaria, NYUTron tuvo una mediana de AUC de 94,9 % ± 0,168 % con una mejora de 7,43 %. En la imputación del índice de comorbilidad, NYUTron tuvo una AUC media de OVR de 89,4 % ± 0,275 %. A la derecha se muestra una matriz de confusión. c, En la predicción de LOS agrupada, NYUTron tuvo una mediana de AUC de 78,7 % ± 0,179 % con una mejora del 12,3 % desde la línea base estructurada. En la predicción de denegación del seguro, NYUTron tuvo una AUC media de 87,2 % ± 0,246 % con una mejora del 14,7 %. Para b,c, la altura de la barra de error es la mediana del AUC y la mitad del ancho de la barra de error es 1 sd. Los puntos grises son puntos de datos individuales de n = 5 experimentos que utilizan semillas aleatorias distintas.

NYUTron puede extenderse a múltiples tareas clínicas y operativas. La Figura 2b y la Figura 2c muestran que, en las tareas de predicción (mortalidad hospitalaria, reingreso, LOS y denegación del seguro), NYUTron tuvo un área bajo la curva (AUC) de 78,7 a 94,9 %, con una mejora de 5,36 a 14,7 %. en AUC de los modelos predictivos clínicos tradicionales. En la tarea de imputación del índice de comorbilidad, NYUTron tuvo una mediana de AUC de 89,4 % ± 0,275 %. Primero presentamos nuestros resultados en cuatro de las tareas y concluimos con una mirada enfocada a la predicción de readmisión que aborda cuestiones de eficiencia de datos, generalización del modelo e implementación en un entorno del mundo real.

NYUTron es capaz de predecir el riesgo de mortalidad hospitalaria al ingreso e imputar un índice de comorbilidad. La tarea de la predicción de la mortalidad hospitalaria era estimar (al ingreso) la probabilidad de muerte de un paciente durante el encuentro hospitalario actual. La figura 2b muestra que, para la predicción de la mortalidad hospitalaria, NYUTron tuvo una mediana de AUC de 94,9 % ± 0,168 %, con una mejora del 7,43 % desde su línea de base estructurada basada en la puntuación de fisiología aguda simplificada (SAPS2)15 y la evaluación de fisiología aguda y salud crónica (APACHE2)16 características como la edad y la frecuencia cardíaca media. La tarea de imputación del índice de comorbilidad fue predecir (al ingreso) el índice de comorbilidad de Charlson (ICC)17 sin características estructuradas disponibles para enfermedades crónicas. Enmarcamos esto como un problema de imputación de datos, ya que el 22% de nuestro conjunto de datos carecía de puntajes CCI y esta era un área conocida para la mejora de la documentación (consulte la sección 2.3 de Información complementaria para obtener más contexto). Discretizamos el índice en cuatro intervalos de acuerdo con los grados de gravedad del artículo original (0, ninguno; 1–2, leve; 3–4, moderado; ≥5, severo). La figura 2b muestra que, en la imputación de comorbilidad, NYUTron tuvo una mediana de AUC de 89,4 % ± 0,275 % y una precisión del 88 % al identificar a los pacientes cuya puntuación CCI era 0.

NYUTron también se puede utilizar para puntos finales operativos y para predecir la LOS de pacientes hospitalizados y la denegación de reclamaciones de seguros en el momento de la admisión. La tarea de la predicción de LOS era predecir (en el momento del ingreso) el rango probable de días que un paciente permanecería en el hospital. Discretizamos LOS en cuatro contenedores (0–25 % cuantil, 25–50 % cuantil, 50–75 % cuantil, >75 % cuantil). La figura 2c muestra que, para la predicción de LOS, NYUTron tuvo una AUC mediana de uno contra el resto (OVR) de 78,7 % ± 0,179 %, con una mejora del 12,3 % con respecto a la línea de base estructurada, que utilizó un subconjunto disponible de funciones de 'Lisboa Portugal'18 . La tarea de predicción de denegación de reclamos de seguros era predecir (en el momento de la admisión) si los reclamos de seguros presentados para un encuentro serían aceptados o denegados inicialmente. La Figura 2c muestra que, para la predicción de denegación de seguros, NYUTron tuvo un AUC medio de 87,2 % ± 0,246 %, con una mejora del 14,7 % con respecto a la línea de base estructurada, que utilizó un subconjunto disponible de funciones de 'formulario de reclamación'19, como la edad y el proveedor de seguros. NYUTron también es capaz de predecir diferentes tipos de denegaciones tanto de las notas de admisión como de las notas de alta con un rendimiento similar (información complementaria, sección 2.2).

Para comprender mejor el rendimiento de NYUTron, llevamos a cabo un análisis detallado de la predicción de readmisión por todas las causas a los 30 días. La tarea de la predicción de readmisión es predecir (en el momento del alta) la probabilidad de que un paciente regrese al hospital dentro de los 30 días y es un problema bien estudiado en la literatura de informática médica (consulte la sección Información complementaria 2.1 para obtener más detalles sobre la predicción de readmisión). tarea). La Figura 2b muestra que, para la predicción de reingreso por todas las causas a los 30 días, NYUTron tuvo un AUC medio de 79,87 % ± 0,168 %, con una mejora del 5,36 % desde su línea de base estructurada, que utilizó características LACE20 (un mnemotécnico para LOS, agudeza de admisión , índice de comorbilidad de Charlson y número de visitas a urgencias en los últimos 6 meses). Realizamos cinco evaluaciones adicionales en entornos tanto retrospectivos como prospectivos: (1) una comparación humana con seis médicos asistentes para predecir la readmisión de 20 casos de pacientes muestreados de una división aleatoria, (2) un estudio de las propiedades de escala de NYUTron con respecto a los datos en que NYUTron y otros modelos se compararon usando un número diferente de puntos de datos ajustados, (3) una evaluación de la generalización entre sitios de NYUTron usando datos de entrenamiento previo, ajuste fino y prueba de diferentes ubicaciones, (4) una evaluación prospectiva, única brazo, estudio no intervencionista para evaluar la capacidad de implementación de NYUTron y (5) una evaluación cualitativa realizada por un panel de médicos del desempeño prospectivo de NYUTron para evaluar los impactos clínicos.

En muestras pequeñas, NYUTron fue competitivo con un pequeño grupo de médicos en la predicción de la readmisión a los 30 días. Probamos a un grupo de seis médicos en diferentes niveles de antigüedad contra NYUTron en una comparación directa para establecer una dificultad de referencia para predecir el reingreso por todas las causas a los 30 días en el momento del alta. Se tomaron muestras de resúmenes de alta (n = 20, incluidos 11 casos positivos y 9 casos negativos) de una división aleatoria y se cargaron en una plataforma de evaluación en línea. El desempeño médico promedio fue peor que el de NYUTron (Fig. 3a). Para los médicos y NYUTron, la mediana de la tasa de falsos positivos (FPR) fue del 11,11 %, mientras que la mediana de la tasa de verdaderos positivos (TPR) fue del 50 % para los médicos en comparación con el 81,82 % para NYUTron. Los médicos tenían una puntuación F1 mediana del 62,8 % y una variación sustancial del 22,2 % en comparación con NYUTron, que tenía una puntuación F1 mediana del 77,8 %.

a, En 20 casos muestreados de una división aleatoria, comparamos el TPR y el FPR de NYUTron con los de seis médicos. NYUTron (triángulos naranjas) tuvo un TPR más alto y el mismo FPR en comparación con el desempeño médico medio (círculos verdes). La banda de error para AUC varía del mínimo al máximo, y las cruces naranjas indican TPR y FPR utilizando todos los umbrales posibles. Elegimos el umbral de NYUTron sobre la base de los datos de validación. b, Comparación de las AUC de prueba temporales de diferentes LLM preentrenados con un número creciente de ejemplos de ajuste fino. Para simplificar, omitimos la varianza y solo trazamos la mediana del rendimiento de cinco ensayos. Las diferencias en el rendimiento medio con 100 y 1000 ejemplos son menos notables porque las AUC con pocos ejemplos de ajuste fino tienen una variación alta (en 100 ejemplos, tuvimos una variación del 4,26 % al 9,56 %; en 1000 ejemplos, tuvimos una variación del 0,44 % al 9,46 %) . La variación de AUC disminuye con más ejemplos de ajuste fino. La línea discontinua horizontal en 0,75 corresponde al umbral de rendimiento. Ver presentaciones alternativas en Datos extendidos Fig. 7. c, d, rendimiento de prueba temporal de NYUTron utilizando datos de prueba, ajuste y preentrenamiento de diferentes sitios. Tanto para la prueba de Manhattan como para la de Brooklyn, la columna correspondiente al ajuste fino local muestra un mejor rendimiento que la del ajuste fino externo. Cada entrada en c, d se presenta como la media ± 1 sd para n = 5 experimentos que utilizan semillas aleatorias distintas.

La división aleatoria no se parece al escenario de implementación, en el que los datos de prueba provienen del futuro de los datos de entrenamiento. Por lo tanto, creamos una división temporal para simular el despliegue y observamos una diferencia significativa en las estadísticas de la prueba en comparación con la división aleatoria (el AUC de la prueba aleatoria fue del 84,13 %, mientras que el AUC de la prueba temporal fue del 80,2 %), lo que confirma la importancia de esta segunda fase de prueba ( comparación adicional en Datos extendidos Fig. 1).

NYUTron es competitivo con los modelos tradicionales y otros LLM. Evaluamos la efectividad de NYUTron comparando su rendimiento de prueba en la división temporal con el de un modelo tradicional y cuatro tipos diferentes de LLM. NYUTron tuvo el AUC más alto cuando se ajustó con el conjunto de datos completo (Fig. 3b), con un AUC medio de 79,87 % ± 0,17 %, que fue similar al AUC clínico+web-wiki+bio de 80,14 % ± 0,26 %. En comparación con los LLM preentrenados con texto no clínico (web-wiki+biografía y web-wiki), el AUC medio de NYUTron fue entre un 2,37 % y un 3,23 % más alto. En comparación con el modelo tradicional que usa características estructuradas (lace+xgb), NYUTron tuvo un AUC 5,36 % mayor. En comparación con un modelo que utiliza la incorporación tradicional de procesamiento de lenguaje natural (NLP) (tf-idf+xgb), NYUTron tuvo un AUC promedio 12,8 % más alto (datos extendidos, figura 2a).

Un LLM entrenado en notas clínicas no estructuradas escala mejor con datos que los modelos estructurados tradicionales. En comparación con lace+xgb, NYUTron se beneficia de una cantidad cada vez mayor de ejemplos etiquetados y logró un mejor AUC cuando se ajustó con el conjunto de datos completo. La Figura 3b muestra que lace+xgb (línea discontinua amarilla) y NYUTron (línea continua verde) tenían AUC similares en 100 y 1000 ejemplos. Sin embargo, el AUC de NYUTron mejoró constantemente con más ejemplos, mientras que el AUC de lace+xgb comenzó a estabilizarse (de 100 a 1000 ejemplos, el AUC de NYUTron aumentó un 7,27 % mientras que el de lace+xgb aumentó un 3,98 %; de 10 000 a 392 336 ejemplos, el AUC de NYUTron aumentó un 2,15% mientras que la de lace+xgb aumenta un 0,63%. Con el conjunto completo de datos de ajuste fino, NYUTron tuvo un AUC un 7,04 % más alto que lace+xgb.

El entrenamiento previo en una gran cantidad de notas clínicas sin etiquetar contribuye al rendimiento. En comparación con el LLM inicializado aleatoriamente (random-init), NYUTron aprende a generalizar mejor a partir de menos ejemplos. La figura 3b muestra que, mientras que NYUTron necesitaba 10 000 ejemplos para lograr un AUC de alrededor del 75 %, random-init necesitaba 100 000 ejemplos. También observamos una tendencia similar en otra tarea de predicción clínica: NYUTron se desempeñó mejor que el modelo de inicio aleatorio (puntaje F1 36,83 % más alto) y los modelos no entrenados previamente clínicamente (puntaje F1 2,06 % a 3,73 % más alto) en la entidad clínica nombrada tarea de reconocimiento (NER) del desafío i2b2 de 2012 (Datos extendidos Fig. 2b).

Es beneficioso hacer coincidir el dominio del corpus de preentrenamiento y el dominio del corpus de ajuste fino. La figura 3b muestra tres pruebas: los LLM entrenados previamente en texto no clínico (web-wiki y web-wiki+bio) tuvieron un rendimiento similar al de random-init. Un LLM separado, web-wiki+bio+clinical, tuvo un rendimiento similar al de NYUTron. En tercer lugar, en comparación con los LLM preentrenados en texto no clínico (web-wiki y web-wiki+bio), los LLM clínicamente preentrenados (NYUTron y web-wiki+bio+clinical) aprendieron a generalizar mejor a partir de menos ejemplos. Consulte la Fig. 3 de datos ampliados para comparar el corpus de preentrenamiento.

Tener una coincidencia de dominio cercana durante el preentrenamiento es particularmente beneficioso en la configuración de datos bajos durante el ajuste fino. Comparamos dos modelos de lenguaje que fueron previamente entrenados en texto clínico de diferentes sistemas hospitalarios, NYUTron (NYU Langone Health) y web-wiki+bio+clinical (Universidad de Florida). La Figura 3b muestra que, con 1000 ejemplos, NYUTron (el modelo en el dominio) tuvo un AUC más alto para la predicción de readmisión de NYU Langone que web-wiki+bio+clinical (el modelo fuera del dominio). En particular, la ventaja de NYUTron desapareció a medida que aumentó la cantidad de ejemplos de ajuste fino, lo que sugiere que un ajuste fino suficiente en el dominio puede adaptar modelos que fueron entrenados previamente fuera del dominio.

Los modelos de lenguaje clínico muestran capacidad de generalización a diferentes sitios a través de ajustes locales. Para investigar la solidez de NYUTron en entornos clínicos, elegimos dos hospitales que están separados geográficamente dentro del Sistema de Salud NYU Langone. Para abreviar, nos referimos a Tisch Hospital en Manhattan como 'Manhattan', NYU Langone Hospital–Brooklyn como 'Brooklyn' y los cuatro hospitales dentro del NYU Langone Health System (Manhattan, Brooklyn, NYU Langone Orthopaedic Hospital y NYU Langone Hospital–Long Island ) como 'todos los sitios'. Consideramos tres LLM preentrenados en diferentes sitios: el primero fue preentrenado en Manhattan, el segundo fue preentrenado en Brooklyn y el tercero fue preentrenado en todos los sitios. Para cada uno de los LLM preentrenados, ajustamos el LLM con un conjunto de datos de readmisión de Manhattan o Brooklyn. Finalmente, le pedimos al LLM perfeccionado que predijera la readmisión sobre la base de las notas de alta de Manhattan o Brooklyn. La Figura 3c,d muestra que el LLM preentrenado en todos los sitios tuvo el mejor desempeño tanto en la 'prueba de Manhattan' como en la 'prueba de Brooklyn'. Para todos los LLM, el ajuste fino con el conjunto de datos local ("ajuste fino Manhattan/Brooklyn") condujo a un AUC de prueba más alto en el sitio de prueba ("prueba Manhattan/Brooklyn") en comparación con el ajuste fino en otro sitio (" afinar Brooklyn/Manhattan'). Por lo tanto, el entrenamiento previo con datos de todos los sitios y el ajuste local es la mejor manera de optimizar el rendimiento. Realizamos análisis adicionales que mostraron que NYUTron puede generalizarse a un sistema de salud diferente a través de ajustes locales (información complementaria, sección 4.1 y datos ampliados, figura 4) y comparamos la solidez de NYUTron y lace+xgb con respecto a los sitios de capacitación ( Información complementaria apartado 4.2). También descubrimos que NYUTron es sensible a las notas de diferentes departamentos clínicos y pacientes con diferentes datos demográficos y que su rendimiento fluctúa a lo largo de los meses (datos extendidos, figuras 5 y 6). Las causas de las discrepancias pueden ser muy complejas (discutidas en la sección 4.3 de Información complementaria) y se estudiarán en trabajos futuros.

Para evaluar el rendimiento de NYUTron fuera del entorno de desarrollo, seleccionamos un modelo sobre la base de los resultados de la prueba retrospectiva y realizamos una prueba prospectiva de enero a abril de 2022. Durante este período, implementamos NYUTron en un formato acelerado y lo cargamos en una inferencia. motor, que interactúa con el EHR, para leer las notas de alta tal como fueron firmadas por los médicos tratantes. En este período, hubo 29.286 encuentros de alta, con 3.271 pacientes (11,17%) que regresaron dentro de los 30 días. NYUTron predijo 2692 de las 3271 readmisiones (82,30 % de recuperación) con una precisión del 20,58 %. La figura 4a muestra que NYUTron tenía un AUC del 78,70 %.

a, NYUTron tuvo un AUC del 78,70 % en un ensayo no intervencionista prospectivo de un solo brazo con un recuerdo del 82,3 % y una precisión del 20,6 %. b, Un panel de seis médicos revisó los resultados de NYUTron para determinar el impacto clínico potencial. De 100 readmisiones que NYUTron identificó con éxito, el 61 % fueron readmisiones no planificadas, el 50 % habría resultado en una sanción según las pautas de CMS y el 27 % se pudo prevenir en el momento del alta según la opinión consensuada del panel de médicos de múltiples especialidades. que revisó los casos del ensayo prospectivo. Consulte la sección 2.1 de Información complementaria para ver una discusión sobre la etiqueta de readmisión y la importancia práctica del rendimiento observado.

Para medir el impacto clínico potencial, un grupo de seis médicos realizó una evaluación cualitativa de 100 casos de readmisión seleccionados al azar que fueron capturados por NYUTron después de la conclusión del ensayo. La revisión de un médico sugirió que algunas predicciones positivas verdaderas de NYUTron son readmisiones prevenibles clínicamente significativas. En general, los pacientes readmitidos que se predijo que serían readmitidos tenían 6,02 veces más probabilidades de morir en el hospital y permanecer 2,93 días más (P < 10−4). Como se muestra en la figura 4b, el 61 % de los casos previstos no fueron planificados, y las probabilidades medias previstas para estos reingresos no planificados fueron inferiores a las de los reingresos planificados (31,9 % ± 31,1 % frente a 82,1 % ± 27,3 %; P < 10−4 ). Entre las readmisiones no planificadas, el 19,67 % de los pacientes experimentaron un evento adverso o la muerte en la readmisión, y el panel de médicos consideró que el 50 % de estos eventos eran prevenibles. Desde un punto de vista financiero, el 81,9% de las readmisiones no planificadas serían penalizadas según las pautas de los Centros de Servicios de Medicare y Medicaid (CMS). Entre los casos sancionables, el 54% se consideraron evitables. En particular, 3 de las 27 readmisiones prevenibles tenían enterocolitis por Clostridioides difficile, una infección bacteriana contagiosa asociada a la atención médica que causa que 1 de cada 11 personas mayores de 65 años muera dentro de 1 mes21.

Presentamos nuestro trabajo en el desarrollo, capacitación, validación e implementación de NYUTron, un LLM a escala del sistema de salud diseñado y validado para uso clínico. Demostramos el desempeño de NYUTron en tres tareas clínicas (predicción de mortalidad de pacientes hospitalizados, predicción del índice de comorbilidad y predicción de readmisión) y dos tareas operativas (predicción de denegación de reclamos de seguros y predicción de LOS de pacientes hospitalizados). También realizamos un análisis detallado de la predicción de reingreso debido a su importancia clínica y operativa y su historia bien documentada en la literatura médica informática. Vemos la flexibilidad de nuestro enfoque en el uso de una arquitectura de codificador (BERT), que se basa solo en entradas de texto no estructuradas para generar una sola predicción, como una virtud, y anticipamos muchas tareas futuras basadas en este paradigma fundamental para ayudar con múltiples aspectos. de la atención al paciente y la automatización de las operaciones hospitalarias.

Una consideración ética en la implementación es que los médicos y los administradores podrían confiar demasiado en las predicciones de NYUTron debido a su perfecta integración con los flujos de trabajo médicos existentes, lo que conduciría a resultados no deseados. Se necesita más investigación para optimizar las interacciones humano-IA, así como el desarrollo de evaluaciones estandarizadas para fuentes de sesgo u otros puntos de falla inesperados. El trabajo en curso de nuestro grupo sobre la medición de la similitud entre los patrones de sensibilidad de los modelos de lenguaje y los de los médicos a través de perturbaciones a nivel de fichas de las notas clínicas22 es uno entre muchos de esos esfuerzos.

Los LLM grandes y generativos también presentan una oportunidad única para la integración en los flujos de trabajo médicos; sin embargo, dependen en gran medida de las entradas y las indicaciones del usuario23 y no se adaptan tan fácilmente para la automatización de tareas clínicas y operativas básicas. La perfecta integración en los flujos de trabajo de informática médica existentes es una virtud de nuestro enfoque, y esperamos que este trabajo se presente como una solución flexible para el problema de la última milla: cualquier algoritmo de datos estructurados puede reconceptualizarse y crear prototipos rápidamente dentro de este marco. Como parte del monitoreo del impacto de un sistema de este tipo en el comportamiento del médico y en los pacientes, debe haber un nivel de supervisión continua para capturar las interacciones hombre-máquina, así como mitigar el riesgo de desviación del modelo con el tiempo. Discutimos nuestra implementación de dicho sistema en la sección 5 de Información complementaria.

Nuestro enfoque de usar un modelo de lenguaje de codificador más pequeño (<1000 millones de parámetros) entrenado en datos altamente personalizados representa un marcado alejamiento de la tendencia actual en la investigación de modelos de lenguaje que se enfoca en modelos generativos masivos (>1000 millones de parámetros) entrenados previamente en datos grandes, no -conjuntos de datos específicos. No obstante, incluso los LLM relativamente pequeños, como los utilizados en este estudio, requieren una cantidad sustancial de tiempo de cómputo para el entrenamiento previo. Nuestro entrenamiento previo usó 24 GPU NVIDIA A100 con 40 GB de VRAM durante 3 semanas, y nuestro ajuste fino usó 8 GPU A100 durante 6 horas por ejecución. Esta cantidad de cómputo no es comúnmente accesible para los grupos de investigación, aunque observamos que es menor que en proyectos LLM similares que los grupos de investigación de la industria persiguen de manera rutinaria y que nuestros resultados indican que puede no ser necesario un entrenamiento previo masivo para obtener modelos de alto rendimiento. Nuestros resultados muestran que los conjuntos de datos de alta calidad para el ajuste fino son más valiosos que el entrenamiento previo y, sobre la base de nuestros resultados experimentales, recomendamos que los usuarios ajusten localmente un modelo de lenguaje previamente entrenado externamente cuando la capacidad computacional sea limitada. Con respecto a la elección del modelo preentrenado externamente, recomendamos además usar un modelo preentrenado con una gran cantidad de texto clínico en el dominio, aunque señalamos que los modelos grandes, fuera del dominio pueden tener un alto rendimiento, particularmente cuando se combinan con ajuste fino del dominio. El trabajo con arquitecturas basadas en decodificadores más grandes también ha demostrado un beneficio con el ajuste fino de los datos médicos o el ajuste rápido con la cadena de pensamiento, las instrucciones y las técnicas relacionadas24,25, lo que enfatiza aún más la necesidad de tener en cuenta el cambio de dominio del texto general al médico. para el trabajo de LLM en las ciencias médicas. Aunque no hemos comparado estos enfoques directamente (lo que requeriría más texto médico o la fusión con texto de dominio general para entrenar un modelo óptimo de cómputo26), creemos que esta podría ser una dirección futura interesante para la investigación y que, al final, Los enfoques que combinan estos diferentes enfoques para el modelado del lenguaje pueden resultar complementarios según el caso de uso.

La validación final de nuestro enfoque debe provenir de ensayos controlados aleatorios de intervenciones vinculadas a predicciones de tareas individuales para evaluar su impacto clínico y de los comentarios de los usuarios a medida que continuamos integrando NYUTron en los sistemas de salud. Dado que planificamos esto dentro de nuestro propio sistema de salud, recomendamos la consideración de diferentes niveles de intervención según el riesgo previsto de los pacientes para cada tarea. Por ejemplo, para un paciente con bajo riesgo de reingreso a los 30 días, se pueden programar llamadas de seguimiento; para un paciente de alto riesgo, se debe tener cuidado para limitar la descarga prematura. Todas las intervenciones deben decidirse con la supervisión de un médico, aunque muchos de los usos operativos probablemente puedan automatizarse por completo.

Es un sueño de larga data para los médicos tener asistentes de IA que observen la atención junto con ellos y participen con predicciones y consejos. Para dar un paso hacia esta visión futurista, capacitamos a un LLM, NYUTron, en todo el EHR de un gran sistema de atención médica para leer notas médicas y hacer varias de estas predicciones en una amplia gama de tareas clínicas y operativas. Implementamos NYUTron en un entorno de atención médica en vivo y demostramos su eficacia para predecir el reingreso a los 30 días mientras se integra a la perfección en los flujos de trabajo clínicos. Creemos que este trabajo abre la puerta para traducir el progreso en el procesamiento del lenguaje natural moderno y el aprendizaje profundo para mejorar la calidad y la asequibilidad de la atención médica, y estamos emocionados de ver lo que viene después.

Creamos este conjunto de datos de notas clínicas sin etiquetar directamente desde NYU Langone EHR. El conjunto de datos contiene 387.144 pacientes, 7.247.694 notas y 4.112.249.482 palabras en total. Construimos NYU Notes de la siguiente manera: escribimos secuencias de comandos de lenguaje de consulta estructurado (SQL) para consultar el NYU Langone EHR. Primero creamos un prototipo de las consultas con un editor interactivo basado en la web (Cloudera Hue) y luego descargamos los resultados de la consulta como archivos separados por comas (CSV) al clúster de computación de alto rendimiento de NYU Langone. Incluimos notas firmadas por profesionales médicos (médicos, residentes, asistentes médicos, enfermeras practicantes y becarios) en Tisch Hospital, NYU Langone Hospital–Brooklyn, NYU Langone Hospital–Long Island y NYU Langone Orthopaedic Hospital de 2011 a 2020 (inclusive). Excluimos las notas derivadas de la facturación, etiquetadas como no válidas o vacías. Dividimos las notas en tres conjuntos, conjuntos de entrenamiento, validación y prueba, con una proporción de 949:50:1. Por último, enmascaramos tokens con un 15 % de probabilidad de crear texto y etiquetas enmascarados.

Creamos este conjunto de datos de notas clínicas sin etiquetar como el subconjunto de las notas de la NYU que se escribieron en el Hospital Tisch de Manhattan. El conjunto de datos contiene 256 217 pacientes, 4 342 602 notas y 2 381 466 993 palabras en total.

Creamos este conjunto de datos de notas clínicas sin etiquetar como el subconjunto de notas de NYU que se escribieron en NYU Langone Health–Brooklyn. El conjunto de datos contiene 104 521 pacientes, 1 337 352 notas y 1 102 078 012 palabras en total.

Creamos este conjunto de datos de notas de alta etiquetadas (con etiquetas binarias para readmisión) del NYU Langone EHR. La mayoría de las notas de este conjunto de datos son un subconjunto de las notas de NYU, con notas de descarga adicionales de 2021 para la prueba temporal. El conjunto de datos contiene 413 845 pacientes, 506 740 notas y 487 395 462 palabras en total. Construimos este conjunto de datos de la siguiente manera: para cada encuentro que terminó entre enero de 2011 y noviembre de 2021, incluimos su nota de alta con una etiqueta binaria para readmisión por todas las causas de 30 días. Asignamos la etiqueta de 'reingreso' si el paciente tenía una nota de ingreso dentro de los 30 días posteriores al alta. Para centrarnos en modelar la readmisión en cuidados agudos, excluimos las notas de alta de los departamentos de rehabilitación, diálisis y cuidados paliativos porque no se trataba de admisiones en cuidados agudos. Dividimos el conjunto de datos en cuatro conjuntos: conjuntos de entrenamiento, validación, prueba y prueba temporal. Los tres primeros conjuntos fueron billetes de enero de 2011 a mayo de 2021, con una proporción de 8:1:1. El conjunto de prueba temporal incluyó notas de junio a diciembre de 2021. Consulte Datos extendidos, Fig. 8a, para ver una visualización de la división en cuatro direcciones.

Creamos este conjunto de datos de notas clínicas sin etiquetar como el subconjunto de notas en el conjunto de datos de readmisión de NYU que se escribieron en el Hospital Tisch en Manhattan. El conjunto de datos contiene 240.824 pacientes, 296.519 notas y 253.622.053 palabras.

Creamos este conjunto de datos de notas clínicas sin etiquetar como el subconjunto de notas clínicas del conjunto de datos de readmisión de NYU que se escribieron en NYU Langone Health–Brooklyn. El conjunto de datos contiene 94.653 pacientes, 113.275 notas y 142.767.957 palabras.

Creamos este conjunto de datos de historial y notas físicas (H&P) con etiquetas binarias para la mortalidad hospitalaria del NYU Langone EHR. La mayoría de las notas de este conjunto de datos son un subconjunto de las notas de NYU, con notas H&P adicionales de 2021 para la prueba temporal. El conjunto de datos contiene 371 922 pacientes, 469 162 notas y 484 467 141 palabras en total. Construimos este conjunto de datos de la siguiente manera: para cada encuentro que terminó entre enero de 2011 y noviembre de 2021, incluimos su nota H&P con una etiqueta binaria para la mortalidad hospitalaria. Asignamos la etiqueta positiva si la disposición de alta del paciente fue 'caducada'. Dividimos el conjunto de datos en cuatro conjuntos: conjuntos de entrenamiento, validación, prueba y prueba temporal. Los tres primeros conjuntos fueron billetes de enero de 2011 a mayo de 2021, con una proporción de 8:1:1, y el conjunto de prueba temporal incluyó billetes de junio a diciembre de 2021.

Creamos este conjunto de datos de notas de H&P con cinco etiquetas de clase para LOS de hospital de NYU Langone EHR. La mayoría de las notas de este conjunto de datos eran un subconjunto de NYU Notes, con notas H&P adicionales de 2021 para la prueba temporal. El conjunto de datos contiene 327 039 pacientes, 403 579 notas y 422 485 417 palabras en total. El conjunto de datos contiene menos encuentros etiquetados que los conjuntos de datos NYU Mortality y NYU Binned LOS porque el 22% de los encuentros no tenían códigos de Clasificación Internacional de Enfermedades (ICD) para calcular la puntuación CCI. Esta falta motivó nuestra tarea de predecir el puntaje CCI agrupado con una falta de códigos ICD estructurados. Construimos este conjunto de datos de la siguiente manera: para cada encuentro que finalizó entre enero de 2011 y noviembre de 2021, incluimos su nota H&P con una etiqueta de cinco clases para el puntaje CCI agrupado. Para generar las etiquetas, primero calculamos el índice de comorbilidad utilizando los códigos ICD y la función de puntuación en la ref. 27. Luego, discretizamos las puntuaciones en cinco clases: asignamos la etiqueta 0 para un índice de comorbilidad por debajo del cuantil del 50 % (0 días), la etiqueta 1 para un índice de comorbilidad entre el cuantil del 50 % y el 75 % (1–2 días), etiquete 2 para un índice de comorbilidad entre el cuantil del 75 % y el 90 % (3–4 días), etiquete 3 para un índice de comorbilidad entre el cuantil del 90 % y el 99 % (4–7 días) y etiquete 4 para un índice de comorbilidad superior al 99% cuantil (>7 días). Dividimos el conjunto de datos en cuatro conjuntos: conjuntos de entrenamiento, validación, prueba y prueba temporal. Los tres primeros conjuntos fueron billetes de enero de 2011 a mayo de 2021, con una proporción de 8:1:1, y el conjunto de prueba temporal incluyó billetes de junio a diciembre de 2021.

Creamos este conjunto de datos de notas de H&P con etiquetas de cuantiles para LOS de hospital de NYU Langone EHR. La mayoría de las notas de este conjunto de datos eran un subconjunto de NYU Notes, con notas H&P adicionales de 2021 para la prueba temporal. El conjunto de datos contiene 371 922 pacientes, 469 162 notas y 484 467 141 palabras en total. Construimos este conjunto de datos de la siguiente manera: para cada encuentro que finalizó entre enero de 2011 y noviembre de 2021, incluimos su nota H&P con una etiqueta binaria y una etiqueta cuantil para LOS. Para la etiqueta del cuantil, asignamos la etiqueta 0 para un LOS por debajo del cuantil del 25 % (0–2 días), la etiqueta 1 para un LOS entre el 25 % y el 50 % (3 días), la etiqueta 2 para un LOS entre el 50 y el 50 %. % y cuantil del 75 % (4–5 días) y etiquete 3 para una LOS por encima del cuantil del 75 % (>5 días). Dividimos el conjunto de datos en cuatro conjuntos: conjuntos de entrenamiento, validación, prueba y prueba temporal. Los tres primeros conjuntos fueron billetes de enero de 2011 a mayo de 2021, con una proporción de 8:1:1, y el conjunto de prueba temporal incluyó billetes de junio a diciembre de 2021.

Creamos este conjunto de datos de notas de H&P con etiquetas binarias para determinar si el reclamo de seguro del paciente se rechazó inicialmente o se aprobó directamente. El conjunto de datos contiene 54.563 pacientes, 55.791 notas y 51.270.256 palabras en total. Construimos este conjunto de datos de la siguiente manera: para cada encuentro que ocurrió entre el 1 de mayo de 2021 y el 30 de abril de 2022, incluimos su nota H&P con una etiqueta binaria para la denegación del seguro. Asignamos una etiqueta positiva si el estado de la reclamación del seguro del paciente era "determinación adversa final" (la reclamación fue rechazada por el seguro y nuevamente fue rechazada después de la apelación) o "determinación final favorable" (la reclamación fue rechazada por el seguro y aprobada después de la apelación). Dividimos el conjunto de datos en cuatro conjuntos: conjuntos de entrenamiento, validación, prueba y prueba temporal. Los tres primeros conjuntos fueron billetes del 1 de mayo de 2021 al 30 de febrero de 2022, con una proporción de 18:1:1. El conjunto de prueba temporal incluyó notas del 1 de marzo al 30 de abril de 2022.

Creamos este conjunto de datos de notas de alta con etiquetas binarias para determinar si el reclamo de seguro del paciente se rechazó inicialmente o se aprobó directamente. El conjunto de datos contiene 54.563 pacientes, 55.791 notas y 49.405.133 palabras en total. Construimos este conjunto de datos de la siguiente manera: para cada encuentro que ocurrió entre el 1 de mayo de 2021 y el 30 de abril de 2022, incluimos su nota de alta con una etiqueta binaria para la denegación del seguro. La asignación de etiquetas y la división en cuatro fueron las mismas que en el conjunto de datos de denegación de seguros de la NYU.

Este conjunto de datos contenía las mismas notas que el conjunto de datos de Negación de seguro de la NYU, pero las etiquetas eran diferentes. La etiqueta binaria indicaba si el reclamo de seguro del paciente finalmente se rechazó (incluso después de la apelación) o si finalmente se aprobó (aprobación directa o aprobación después de la apelación).

Este conjunto de datos contenía las mismas notas que el conjunto de datos de Notas de denegación y alta del seguro de la NYU, pero las etiquetas eran diferentes. La etiqueta binaria indicaba si el reclamo de seguro del paciente finalmente se rechazó (incluso después de la apelación) o si finalmente se aprobó (aprobación directa o aprobación después de la apelación).

Este es un conjunto de datos abiertos publicado por la Escuela de Medicina de Harvard como parte de un desafío clínico anual de PNL28. Este conjunto de datos es un punto de referencia bien conocido en la comunidad clínica de PNL. La tarea es identificar y clasificar conceptos clínicos (por ejemplo, tratamientos), departamentos clínicos (por ejemplo, cirugía), ocurrencias de eventos (por ejemplo, admisión) y pruebas (por ejemplo, el paciente se quejó) de notas clínicas no identificadas. del Centro Médico Beth Israel en Boston. El conjunto de datos no contiene más de 310 pacientes, 310 notas y 636 000 palabras. Descargamos el conjunto de datos como un archivo tar.gz comprimido del portal de datos n2c2 después de que se aprobara nuestra solicitud de uso.

Este es un conjunto de datos abierto para un EHR de una unidad de cuidados intensivos (UCI) publicado por el MIT y el Centro Médico Beth Israel de Boston29. Recolectamos un conjunto de 52,726 notas de alta y creamos una etiqueta de readmisión por todas las causas de 30 días al verificar si hubo algún encuentro posterior dentro de los 30 días. La tasa de reingreso fue del 6%. Dividimos los datos en conjuntos de entrenamiento, validación y prueba en una proporción de 8:1:1.

Este conjunto de datos consta de notas de alta con etiquetas binarias para readmisión de nuestro motor de implementación y NYU Langone EHR. De enero a abril de 2022, cada vez que un médico firmaba una nota de alta, la nota se enviaba a nuestro motor de inferencia personalizado para la predicción de NYUTron. La nota de alta y la predicción emparejadas se registraron en una base de datos. La base de datos contenía 27.376 pacientes, 29.287 notas y 34.669.963 palabras al final del período de estudio.

Creamos este conjunto de datos de características LACE30 estructuradas con etiquetas binarias para readmisión para compararlas con los modelos no estructurados. El conjunto de datos contiene características estructuradas para todos los encuentros en el conjunto de datos de readmisión de NYU. LACE es una regla de predicción clínica tradicional para la readmisión con cuatro características: LOS, la agudeza de la readmisión, el índice de comorbilidad de Charlson y el número de visitas recientes al departamento de emergencias en los últimos 6 meses. Creamos el conjunto de datos de la siguiente manera: para cada encuentro en el conjunto de datos de readmisión de la NYU, recopilamos datos sobre las cuatro funciones LACE del NYU Langone EHR. LOS fue la diferencia (en días) entre la fecha de alta y la fecha de admisión. La agudeza de la readmisión fue una característica binaria que indicaba si el paciente había ingresado en el servicio de urgencias. El índice de comorbilidad se calculó con los códigos ICD-9 o ICD-10 para enfermedades crónicas, sobre la base del algoritmo de mapeo en la ref. 31 y la función de puntuación en la ref. 27. El número de visitas al servicio de urgencias se calculó a partir del historial de visitas del paciente hasta 6 meses antes de la fecha de ingreso.

Creamos este conjunto de datos de características LACE estructuradas a partir del subconjunto de notas del conjunto de datos NYU Readmission-LACE que se escribieron en el Tisch Hospital en Manhattan.

Creamos este conjunto de datos de características LACE estructuradas a partir del subconjunto de notas del conjunto de datos NYU Readmission-LACE que se escribieron en NYU Langone Health-Brooklyn.

Creamos este conjunto de datos de funciones SAPS2 + APACHE2 estructuradas con etiquetas binarias para la mortalidad hospitalaria para comparar con los datos no estructurados. El conjunto de datos contiene un subconjunto de características estructuradas de SAPS2 + APACHE2 para todos los encuentros en el conjunto de datos de Mortalidad de la NYU. Las funciones SAPS2 + APACHE2 son un subconjunto de las funciones utilizadas en el modelo SAPS215 y el modelo APACHE216 para la predicción de la mortalidad en la UCI. Seleccionamos el subconjunto de características que estaban disponibles en NYU Langone EHR. Se incluyeron las siguientes 12 características: edad (numérica), frecuencia cardíaca media (numérica), presión arterial sistólica (numérica), temperatura auricular (numérica), concentración de nitrógeno ureico en sangre (numérica), concentración de sodio (numérica), concentración de potasio (numérica) ), concentración de bilirrubina (numérico), recuento de glóbulos blancos (numérico), pH (numérico), concentración de creatina (numérico) y hematocrito (numérico). Además, incluimos la especialidad del departamento (categórica). Excluimos las siguientes características debido a su falta de disponibilidad: PaO2/FiO2 (relación entre la presión parcial de oxígeno arterial y el oxígeno inspirado fraccional), si el paciente estaba con ventilación mecánica o con presión positiva continua en las vías respiratorias (CPAP), concentración de bicarbonato, diuresis, coma de Glasgow Escala de puntuación, presencia de cáncer metastásico o neoplasia hematológica o sida, y si se programó el ingreso.

Creamos este conjunto de datos de características estructuradas de 'Lisboa Portugal' con etiquetas binarias para la mortalidad hospitalaria para compararlas con el modelo de datos no estructurados. El conjunto de datos contiene un subconjunto de las características utilizadas en el conjunto de datos Lisboa Portugal18 (que se usa ampliamente en la literatura de predicción de LOS) para todos los encuentros en el conjunto de datos NYU Binned LOS. Seleccionamos un subconjunto de 12 características que estaban disponibles en NYU Langone EHR: sexo (categórico), edad medida por la diferencia de años entre la fecha de nacimiento y la fecha de admisión (numérico), nivel educativo más alto (categórico), país (categórico), código postal como dirección (categórico), estado civil (categórico), tipo de admisión (categórico), tipo de servicio de admisión (categórico), identificación del proveedor (categórico), especialidad del departamento (categórico), nombre del procedimiento (categórico) y número de ingresos anteriores (numérico). Omitimos el diagnóstico porque no siempre está disponible al momento de escribir las notas de H&P. Se excluyeron las siguientes tres características debido a la dificultad para encontrarlas en el NYU Langone EHR: código de diagnóstico de grupo homogéneo, gran categoría de diagnóstico y tratamiento.

Creamos este conjunto de datos estructurado basado en el conjunto de datos de denegación de seguros de la NYU para compararlo con el modelo de datos no estructurados. El conjunto de datos contiene características estructuradas para todos los encuentros en el conjunto de datos de denegación de seguro de NYU y tiene las mismas divisiones que el conjunto de datos de denegación de seguro de NYU. La selección de características estructuradas se basó en las características de la ref. 19, que creó un modelo que predice la denegación de reclamos de seguros a partir de las características demográficas y relacionadas con la atención que se encuentran en el formulario de reclamo. Encontramos ocho funciones disponibles en el NYU Langone EHR: nombre del paciente (categórico), edad (numérico), género (categórico), código postal como una generalización de dirección (categórico), marca de seguro (categórico), primer nombre del plan de seguro (categórico). ), ID de proveedor (categórico) y tipo de proveedor (categórico). Además, agregamos cuatro funciones basadas en las entradas del médico: segundo código del plan de seguro (categórico), un indicador binario para casos quirúrgicos (categórico), un indicador binario para casos del departamento de emergencias (categórico) y un indicador binario para tarifa por servicio de Medicare usuarios (categóricos). Omitimos seis características en la ref. 19 por dificultad para buscarlos: parentesco del paciente con el asegurado, tipo de red, si el reclamo fue de reenvío, indicador de diagnóstico, cargo del servicio y número de autorización previa.

Usando estos conjuntos de datos, entrenamos un tokenizador de pieza de palabra BERT sin carcasa con un tamaño de vocabulario de 50,000 tokens, una longitud de secuencia máxima de 512 tokens y tokens especiales [SEP], [PAD], [UNK], [MASK] y [CLS]. Debido a que la mayoría de las notas clínicas tenían más de 512 fichas, dividimos cada nota larga en fragmentos que no se superponen y que estaban por debajo de la longitud máxima de la secuencia. Específicamente, dividimos cada nota en oraciones utilizando el kit de herramientas de lenguaje natural (nltk)32 y tokenizamos cada oración. Para oraciones que tenían más de 512 tokens, las truncamos. Luego, para todas las oraciones tokenizadas en la misma nota, las concatenamos en grupos de modo que cada grupo tuviera exactamente la longitud máxima de secuencia. Descartamos cualquier grupo restante (con una duración estrictamente inferior a la máxima) de una nota larga.

Usando el tokenizador entrenado con NYU Notes, primero tokenizamos la nota de descarga. Truncamos las notas que excedían la longitud máxima de secuencia de 512 tokens. Dejamos para el futuro diseñar un modelo de lenguaje que lea de manera eficiente notas clínicas más largas (ver Datos extendidos Fig. 8b para el impacto de la longitud de la nota en el rendimiento del modelo de lenguaje).

Primero descomprimimos los archivos tar.gz en carpetas de archivos xml. Luego convertimos los archivos xml a formato brat. A continuación, convertimos los archivos mocosos en archivos biográficos. Finalmente, escribimos un cargador de datos HuggingFace33 personalizado para convertir la carpeta de archivos biográficos en un conjunto de datos HuggingFace. Nuestro código para preprocesamiento está disponible en GitHub.

Primero limpiamos las notas eliminando los artefactos html. Luego tokenizamos la nota de descarga usando el tokenizador de NYUTron. Truncamos las notas que excedían la longitud máxima de secuencia de 512 tokens.

Cuando faltaba una característica numérica (por ejemplo, la frecuencia cardíaca promedio era NaN), completamos la característica como la característica promedio en todo el conjunto de entrenamiento. Para las características categóricas faltantes (por ejemplo, el departamento de admisiones fue 'sin especificar'), las dejamos como categoría 'ninguna'.

Entrenamos previamente un modelo BERT de 109 millones de parámetros utilizando NYU Notes preprocesados y el objetivo MLM durante 3 semanas (96 épocas) en 24 GPU NVIDIA A100 distribuidas en tres nodos de cómputo hasta que la pérdida de validación comenzó a estabilizarse. El modelo tiene 12 capas ocultas con dimensión 768, con 12 cabezas de atención por capa. Utilizamos un tamaño de lote de entrenamiento por dispositivo de 64 y guardamos cada 2000 pasos. Usamos el optimizador Zero Redundancy AdamW (una mejora sobre el optimizador Adam) con una tasa de aprendizaje constante de 5 × 10−5, precisión mixta FP16 y paralelización de etapa 234,35,36.

Reemplazamos el clasificador MLM entrenado con un clasificador lineal inicializado aleatoriamente después de la última capa oculta del modelo BERT preentrenado. Ajustamos el modelo de principio a fin utilizando el conjunto de entrenamiento del conjunto de datos de readmisión de la NYU durante diez épocas, evaluando el AUC de validación cada media época y deteniéndonos temprano con una paciencia de cinco. Usamos los siguientes hiperparámetros del ajuste manual basado en el AUC de validación: una tasa de aprendizaje de 2 × 10−5, una caída de peso de 0.01 y un tamaño de lote por dispositivo de 4. Optimizamos la pérdida de entropía cruzada usando el optimizador AdamW . Mientras variamos el tamaño del conjunto de datos (N ∈ {102, 103, 104, 105, 3.92336 × 105}), ajustamos el modelo previamente entrenado usando submuestras del conjunto de datos de readmisión de NYU y evaluamos su AUC en el conjunto de prueba temporal. Para cada tamaño de submuestra, realizamos cinco experimentos con distintas semillas aleatorias (0, 13, 24, 36, 42). A modo de comparación, observamos la mediana del AUC y la desviación estándar de los cinco experimentos.

Reemplazamos el clasificador MLM entrenado con un clasificador lineal inicializado aleatoriamente después de la última capa oculta del modelo BERT preentrenado. Ajustamos el modelo de principio a fin usando el conjunto de entrenamiento del conjunto de datos de Mortalidad de la NYU durante diez épocas, evaluando el AUC de validación cada mitad de época y deteniéndonos temprano con una paciencia de 5. Usamos los siguientes hiperparámetros del ajuste manual basado en la validación AUC: una tasa de aprendizaje de 2 × 10−5, una caída de peso de 0,01 y un tamaño de lote por dispositivo de 4. Optimizamos la pérdida de entropía cruzada con el optimizador AdamW. Usando el conjunto de datos completo, ajustamos el modelo previamente entrenado usando submuestras del conjunto de datos de Mortalidad de la NYU y evaluamos su AUC en el conjunto de prueba temporal. Para cada tamaño de submuestra, realizamos cinco experimentos con distintas semillas aleatorias (0, 13, 24, 36, 42). A modo de comparación, observamos la mediana del AUC y la desviación estándar de los cinco experimentos.

Reemplazamos el clasificador MLM entrenado con un clasificador lineal inicializado aleatoriamente después de la última capa oculta del modelo BERT preentrenado. Ajustamos el modelo de extremo a extremo usando el conjunto de entrenamiento del conjunto de datos de comorbilidad agrupada de la NYU durante diez épocas, evaluando la validación OVR AUC cada mitad de la época y deteniéndonos temprano con una paciencia de 5. Usamos los siguientes hiperparámetros del ajuste manual basado en la validación OVR AUC: una tasa de aprendizaje de 2 × 10−5, una caída de peso de 0,01 y un tamaño de lote por dispositivo de 4. Optimizamos la pérdida de entropía cruzada utilizando el optimizador AdamW. Con el conjunto de datos completo, ajustamos el modelo preentrenado con submuestras del conjunto de datos de comorbilidad agrupada de la NYU y evaluamos su OVR AUC en el conjunto de prueba temporal. Para cada tamaño de submuestra, realizamos cinco experimentos con distintas semillas aleatorias (0, 13, 24, 36, 42). A modo de comparación, observamos la mediana de OVR AUC y la desviación estándar de los cinco experimentos.

Reemplazamos el clasificador MLM entrenado con un clasificador lineal inicializado aleatoriamente después de la última capa oculta del modelo BERT preentrenado. Ajustamos el modelo de extremo a extremo usando el conjunto de entrenamiento del conjunto de datos NYU Binned LOS durante diez épocas, evaluando el AUC de validación cada media época y deteniéndonos temprano con una paciencia de 5. Usamos los siguientes hiperparámetros de la sintonización manual basada en el validación OVR AUC: una tasa de aprendizaje de 2 × 10−5, una caída de peso de 0,01 y un tamaño de lote por dispositivo de 4. Optimizamos la pérdida de entropía cruzada utilizando el optimizador AdamW. Usando el conjunto de datos completo, ajustamos el modelo previamente entrenado con submuestras del conjunto de datos NYU Binned LOS y evaluamos su AUC en el conjunto de prueba temporal. Para cada tamaño de submuestra, realizamos cinco experimentos con distintas semillas aleatorias (0, 13, 24, 36, 42). Para la inferencia, combinamos las dos últimas clases, la etiqueta 3 (90–99 % cuantil) y la etiqueta 4 (>99 % cuantil) porque la etiqueta 4 era muy escasa. A modo de comparación, observamos la mediana de OVR AUC y la desviación estándar de los cinco experimentos.

Reemplazamos el clasificador MLM entrenado con un clasificador lineal inicializado aleatoriamente después de la última capa oculta del modelo BERT preentrenado. Ajustamos el modelo de principio a fin usando el conjunto de entrenamiento del conjunto de datos de denegación de seguros de la NYU durante diez épocas, evaluando el AUC de validación cada mitad de época y deteniéndonos temprano con una paciencia de 5. Usamos los siguientes hiperparámetros de ajuste manual basados en el AUC de validación: una tasa de aprendizaje de 2 × 10−5, una caída de peso de 0,01 y un tamaño de lote por dispositivo de 4. Optimizamos la pérdida de entropía cruzada utilizando el optimizador AdamW. Usando el conjunto de datos completo, ajustamos el modelo previamente entrenado usando submuestras del conjunto de datos de Negación de seguros de la NYU y evaluamos su AUC en el conjunto de prueba temporal. Para cada tamaño de submuestra, realizamos cinco experimentos con distintas semillas aleatorias (0, 13, 24, 36, 42). A modo de comparación, observamos la mediana del AUC y la desviación estándar de los cinco experimentos.

Realizamos los experimentos de ajuste fino de la siguiente manera. Para cada LLM en la Tabla 2 de datos ampliados, inicializamos un modelo de clasificación de token HuggingFace con el LLM como punto de control preentrenado. Ajustamos el modelo usando i2b2-2012 NER para diez épocas usando el optimizador AdamW con una tasa de aprendizaje de 2 × 10−5, una caída de peso de 0.01 y un tamaño de lote de 4, evaluando cada 50 pasos y deteniéndonos temprano en el según el área bajo la característica operativa del receptor (AUROC) con una paciencia de 1. Esto llevó de 20 a 40 minutos en un nodo de cuatro GPU NVIDIA V100 de 17 GB. Realizamos un ajuste fino cinco veces con semillas aleatorias 0, 13, 24, 36 y 42 y registramos el promedio y la desviación estándar del puntaje F1 micropromediado (excluyendo la etiqueta para no entidad, 'O').

Realizamos los experimentos de ajuste fino de la siguiente manera: tanto para NYUTron como para BioClinicalBert, inicializamos un modelo de clasificación de token HuggingFace con el LLM como punto de control preentrenado. Ajustamos el modelo utilizando la readmisión MIMIC-III durante diez épocas utilizando el optimizador AdamW con una tasa de aprendizaje de 2 × 10−5, una caída de peso de 0,01 y un tamaño de lote de 16, evaluando cada mitad de época. Realizamos un ajuste fino cinco veces con semillas aleatorias 0, 13, 24, 36 y 42.

El modelo ajustado se convirtió a un formato de alto rendimiento (Onnx o TensorRT) y se cargó en nuestra plataforma de implementación, un motor de inferencia NVIDIA Triton que interactúa con NYU Langone EHR a través de la interfaz HLA7 Fast Health Interoperability Resources (FHIR)37. Para nuestra consideración del rendimiento, la seguridad, la confiabilidad y la interpretabilidad, consulte la sección 5 de Información complementaria.

Nuestra plataforma de implementación consistía en una versión modificada del servidor de inferencia Triton de NVIDIA que llamamos NYUTriton (pronunciado 'nutrición' porque es bueno para el sistema de salud). NVIDIA Triton es compatible con la inferencia basada en CPU GPU, x86 y ARM y varias características clave, que incluyen procesamiento por lotes dinámico, ejecución simultánea, una interfaz de especificación de modelo altamente flexible y la capacidad de admitir una amplia gama de marcos de trabajo de aprendizaje profundo y formatos de modelo acelerado para rendimiento máximo. Modificamos NVIDIA Triton para que interactúe perfectamente con los modelos de lenguaje con formato HuggingFace a fin de proporcionar un punto de cruce uniforme y altamente flexible entre nuestras líneas de desarrollo y producción. Los modelos entrenados se guardaron en un formato de estilo HuggingFace estándar y se convirtieron en Onnx y luego en TensorRT para obtener resultados de inferencia de escala inferior al milisegundo. NYUTriton está alojado en un servidor de inferencia dedicado que consta de un AMD Threadripper 3960X (24 núcleos, 3,8 GHz), dos GPU RTX 3090 y 128 GB de memoria del sistema DDR5 comprada a Lambda Labs.

Después de la firma de los resúmenes de alta en Epic, la interfaz HL7 FHIR se conecta con NYUTriton y envía una carga útil de notación de objetos de JavaScript (JSON) que consta del resumen de alta y los metadatos que especifican el modelo de readmisión subyacente y el remitente. NYUTriton preprocesa el texto, ejecuta un trabajo de inferencia con el modelo de readmisión acelerado de NYUTron y devuelve el resultado de la inferencia del modelo a un servidor de orquestación secundario, que escribe el resultado en una base de datos y genera un correo electrónico para el médico firmante.

Las líneas de base estructuradas fueron (1) características de SAPS2/APACHE2 + XGBoost para la predicción de mortalidad hospitalaria, (2) características de LACE + XGBoost para la predicción de readmisión, (3) características de Lisboa Portugal + XGBoost para la predicción de LOS agrupados y (4) características del formulario de reclamación + XGBoost para predicción de denegación de seguros.

Para todas las líneas base estructuradas, usamos la biblioteca xgboost para entrenar un clasificador de árbol potenciado por gradiente extremo con una pérdida logística binaria (pérdida softmax multiclase para más de dos clases). Usamos la búsqueda aleatoria de scikit-learn para buscar hiperparámetros entre minimal_child_weight de {1, 5, 10}, gamma de {0.5, 1, 1.5, 2, 5}, submuestra de {0.6, 0.8, 1}, col_sample_bytree de {0.6, 0.8, 1.0}, max_depth de {3, 4, 5}, learning_rates de {0.001, 0.01, 0.1, 0.5} y n_estimators de {10, 100, 1000} para 100 iteraciones basadas en la puntuación AUROC (puntuación ovr-auroc para múltiples clases) a partir de la triple validación cruzada38. Ejecutamos cada experimento cinco veces con distintas semillas aleatorias (0, 13, 24, 36, 42). Para mortalidad, comorbilidad agrupada, LOS agrupados y denegación de seguro, realizamos el experimento con el conjunto de datos completo. Para la readmisión, entrenamos el modelo usando submuestras (N ∈ {102, 103, 104, 105, 3.92336 × 105}) del conjunto de datos NYU Readmission–LACE.

Evaluamos las cinco tareas (predicción de mortalidad hospitalaria, predicción del índice de comorbilidad agrupado, predicción de readmisión por todas las causas a los 30 días, predicción de LOS agrupado y predicción de denegación del seguro) con AUC para clases binarias y OVR AUROC para clases múltiples. AUROC es el área bajo la curva bidimensional formada por tuplas de la forma (TPR, FPR) resultantes de diferentes umbrales de decisión.

Además, evaluamos la predicción de reingreso con las siguientes métricas: TPR, FPR, precisión, recuperación y puntaje F1, todos los cuales tienen un rango de [0, 1]. Evaluamos NER utilizando una puntuación NER F1 micropromediada. El puntaje NER F1 es similar al puntaje F1 normal excepto que la etiqueta de no entidad 'O' se excluye para el cálculo.

Comparamos NYUTron con médicos. Se trabajó con seis médicos con diferentes niveles de antigüedad: tres médicos adjuntos y tres residentes. Se pidió a los médicos que revisaran los resúmenes de alta y predijeran si el paciente descrito regresaría al hospital dentro de los 30 días.

Comparamos NYUTron con otros cuatro LLM y dos modelos de aprendizaje automático. 'random-init' es un modelo sin carcasa basado en BERT con parámetros inicializados aleatoriamente. 'web-wiki' es un modelo sin carcasa basado en BERT que se entrena previamente con texto web (del conjunto de datos de BookCorpus39) y artículos de Wikipedia (del conjunto de datos de Wikipedia en inglés40). 'web-wiki+bio' es un modelo BERT preentrenado usando texto web, artículos de Wikipedia, resúmenes de PubMed41 y artículos completos de PubMed Central (PMC)42. 'web-wiki+bio+clinical', o gatortron-og43, es un modelo Megatron-BERT44 preentrenado con texto web, artículos de Wikipedia, resúmenes de PubMed, artículos completos de PMC, notas MIMIC-III y notas clínicas anónimas de la Universidad de Florida Salud. 'lace+xgb' lee características LACE estructuradas (a partir de una regla de predicción clínica tradicional) con un modelo de árbol potenciado por gradiente extremo14. 'tf-idf+xgb' lee características de bolsa de palabras a nivel de corpus con un modelo de árbol reforzado con gradiente extremo. Para obtener estadísticas detalladas y ejemplos de los corpus previos al entrenamiento, consulte la tabla 2 de datos ampliados y la figura 3 de datos ampliados.

Tomamos muestras aleatorias de 20 notas de alta del conjunto de pruebas aleatorias y les preguntamos a seis médicos con diferente antigüedad que predijeran si el paciente regresaría dentro de los 30 días. Los seis médicos incluyeron tres neurocirujanos asistentes, dos residentes de neurocirugía y un residente de UCI.

Usamos REDCap para realizar la encuesta y les dimos a los médicos tiempo ilimitado. La encuesta se estructuró de la siguiente manera: para cada caso, preguntamos "¿Esta persona será ingresada dentro de los 30 días?", seguido del resumen del alta. El médico podía optar por responder "sí" o "no". Si el paciente regresaba dentro de los 30 días, teníamos tres preguntas de seguimiento para evaluar las características del reingreso posterior. Primero, preguntamos "¿Esta readmisión está relacionada con el alta anterior?", Seguido de la nota H&P de la readmisión posterior. El médico podría responder "sí", "no", "parcial" o "no cumple con los criterios de Medicare para la readmisión de 30 días". La segunda pregunta de seguimiento fue "¿Es prevenible este reingreso?", a la que el médico podía responder "sí", "no" o "parcial". La tercera pregunta de seguimiento, "¿Algún comentario?", tenía una respuesta de texto libre donde el médico podía explicar por qué la readmisión estaba parcialmente relacionada con el alta anterior o por qué la readmisión era parcialmente prevenible.

Para recopilar las predicciones de NYUTron, usamos la canalización de clasificación de texto de HuggingFace para realizar inferencias en las 20 notas de descarga. Para cada nota de descarga, la tubería genera una probabilidad prevista de readmisión. Convertimos esta probabilidad pronosticada en una etiqueta binaria con un umbral de 0,07 (una probabilidad pronosticada no inferior a 0,07 se convirtió en una etiqueta positiva). Elegimos 0,07 como límite de decisión porque era el umbral mínimo que nos dio más del 80 % de recuperación de validación entre los umbrales {0,01 × n : n ∈ {1, ..., 90} (el criterio del 80 % se eligió sobre la base de aplicabilidad clínica). Consulte la Fig. 8c de datos extendidos para conocer la curva de calibración de NYUTron.

El conjunto de datos, los hiperparámetros y las bibliotecas de evaluación y software para ajustar otros LLM eran los mismos que cuando se ajustaba NYUTron. Los LLM preentrenados se construyeron de la siguiente manera: random-init es un modelo sin carcasa basado en BERT con parámetros de reinicio. web-wiki es un modelo sin carcasa basado en BERT. web-wiki+bio es un modelo dmis-lab/biobert-base cased v1.2. web-wiki+bio+clinical se descargó Gatortron-og de NVIDIA NGC y se convirtió en un punto de control HuggingFace mediante el punto de control convert megatron bert.

El conjunto de datos, los hiperparámetros y las bibliotecas de evaluación y software para el ajuste fino de otros LLM fueron los mismos que para el ajuste fino de NYUTron. Los LLM preentrenados fueron los mismos que los LLM de referencia para predecir la readmisión a partir de las notas de alta.

Usando el conjunto de datos NYU Readmission-LACE, usamos la biblioteca xgboost para entrenar un clasificador de árbol potenciado por gradiente extremo con pérdida logística binaria con búsqueda de hiperparámetros. Usamos la búsqueda aleatoria de scikit-learn para buscar entre minimal_child_weight de {1, 5, 10}, gamma de {0.5, 1, 1.5, 2, 5}, submuestra de {0.6, 0.8, 1}, col_sample_bytree de {0.6, 0.8 , 1,0}, profundidad_máxima de {3, 4, 5}, tasas de aprendizaje de {0,001, 0,01, 0,1, 0,5} y n_estimadores de {10, 100, 1000} para 100 iteraciones sobre la base de la puntuación AUROC en el conjunto de validación37. Entrenamos el modelo usando submuestras (N ∈ {102, 103, 104, 105, 3.92336 × 105}) del conjunto de datos NYU Readmission–LACE y evaluamos su AUROC en el conjunto de prueba temporal. Para cada tamaño de submuestra, realizamos cinco experimentos con distintas semillas aleatorias (0, 13, 24, 36, 42). A modo de comparación, observamos la mediana de AUROC y la desviación estándar de los cinco experimentos.

Transformamos el texto del conjunto de datos de readmisión de NYU en incrustaciones tf-idf (frecuencia de término-frecuencia de documento inversa) y usamos un clasificador xgboost con pérdida logística binaria para predecir la readmisión. Utilizamos raytune45 para buscar hiperparámetros, incluidas las funciones max_tf-idf de {512, 5000}, max_ depth de un número entero aleatorio cuantificado de 3 a 16 con un intervalo de 4, learning_rate de una distribución logarítmica uniforme de 10−2 a 10−1, gamma de una distribución uniforme cuantificada de 0 a 12 con un intervalo de 4, minimal_child_weight de una distribución uniforme cuantificada de 0 a 8 con un intervalo de 4, reg lambda de una distribución uniforme cuantificada de 0 a 10 con un intervalo de 2, colsample_bytree de una distribución uniforme de 0,7 a 1, scale pos peso de una distribución uniforme cuantificada de 0 a 50 con un intervalo de 10 y n_estimator de una distribución entera cuantificada de 50 a 300 con un intervalo de 50. Entrenamos el modelo usando submuestras ( N ∈ {102, 103, 104, 105, 3,92336 × 105}) del conjunto de datos de readmisión de la NYU y evaluó su AUROC en el conjunto de prueba temporal. Para cada tamaño de submuestra, realizamos cinco experimentos con distintas semillas aleatorias (0, 13, 24, 36, 42). A modo de comparación, observamos la mediana de AUROC y la desviación estándar de los cinco experimentos.

Comparamos NYUTron con sus cuatro variantes (preentrenadas y ajustadas con datos de diferentes sitios): (1) NYU Notes–Manhattan + NYU Readmission–Manhattan, (2) NYU Notes–Manhattan + NYU Readmission–Brooklyn, (3) NYU Notas: Brooklyn + Readmisión de NYU: Brooklyn y (4) Notas de NYU: Brooklyn + Readmisión de NYU: Manhattan. Los hiperparámetros y las bibliotecas de evaluación y software para el ajuste fino de las variantes de NYUTron fueron los mismos que para el ajuste fino de NYUTron.

Sobre la base del rendimiento de la prueba temporal en el estudio retrospectivo, seleccionamos un modelo ajustado con un umbral de decisión de 0,07 para usar en el ensayo prospectivo.

Para evaluar el estado de los pacientes reingresados que fueron correctamente predichos (n = 3.298), comparamos su tasa de mortalidad hospitalaria y la duración de la hospitalización con la de los pacientes que ingresaron en el mismo período. Recopilamos datos sobre pacientes que ingresaron de febrero a mayo de 2022 (n = 30 548) y comparamos su tasa de mortalidad hospitalaria y LOS con la de los pacientes readmitidos capturados por NYUTron de enero a abril de 2022. Usamos la t de Welch bilateral pruebas (con la hipótesis nula de que los dos grupos tenían el mismo promedio) para evaluar la significancia estadística de nuestra comparación46.

Realizamos un análisis post hoc de pacientes readmitidos en la cohorte prospectiva para comprender mejor el rendimiento del modelo en un entorno del mundo real y en anticipación de la creación de intervenciones específicas basadas en los resultados del modelo. Se tomaron muestras de cien pacientes readmitidos de los cinco departamentos más grandes de NYU Langone por volumen de pacientes: medicina interna, pediatría, cirugía general, obstetricia y ginecología, y hematología y oncología. Cada departamento contribuyó con 20 casos, con 10 casos con las probabilidades más altas pronosticadas en ese departamento y 10 casos con las probabilidades más bajas pronosticadas. Todos los casos registraron sus identificaciones de encuentro para su alta índice y readmisión en una plataforma segura en línea. Se construyó un cuestionario estandarizado para revisión manual preguntando si la readmisión fue planificada, si la readmisión cumplió con los criterios de CMS para una readmisión penalizada de 30 días, si la readmisión fue prevenible, si ocurrió un evento adverso en la readmisión, si algún evento adverso fue prevenible y si los médicos revisores tenían algún comentario sobre el caso. Se asignaron casos al azar a un equipo de diez médicos de medicina interna y neurocirugía para que fueran revisados por parejas, y cualquier desacuerdo entre los revisores fue adjudicado por un tercer médico revisor. Para determinar si una readmisión era prevenible, el revisor miró la nota de alta del encuentro de inferencia y la nota H&P del encuentro de readmisión.

Nuestra investigación fue aprobada por la junta de revisión institucional de NYU Langone como 's21-01189 NYUtron', y los métodos se llevaron a cabo de acuerdo con las pautas y regulaciones pertinentes de la junta de revisión institucional.

Más información sobre el diseño de la investigación está disponible en el Resumen de informes de Nature Portfolio vinculado a este artículo.

Los datos clínicos utilizados para el preentrenamiento, el ajuste fino, la validación y los conjuntos de prueba se recopilaron del sistema de salud electrónico de NYU Langone Health System mantenido por el equipo de NYULH Datacore. Los datos de texto se despojaron de las funciones de texto enriquecido y se incluyeron directamente en el conjunto de datos 'tal cual' y se aumentaron con funciones estructuradas donde se indicó. Estos datos consisten en los registros médicos de producción de NYU Langone y no pueden ponerse a disposición del público. Los investigadores pueden obtener un conjunto de datos no identificado limitado (o un subconjunto de prueba) del Sistema de Salud Langone de la NYU mediante una solicitud razonable y sujeto a las aprobaciones éticas locales y nacionales. También usamos i2b2-2012 disponible públicamente (https://portal.dbmi.hms.harvard.edu/projects/n2c2-nlp/) y MIMIC-III (https://physionet.org/content/mimiciii/1.4/) conjuntos de datos

Utilizamos sql y Python 3.8.13 para recopilar datos de NYU Langone EHR. Utilizamos REDCap 12.4.31 para recopilar las respuestas de los médicos. Este trabajo utilizó varias bibliotecas de código abierto, incluidas HuggingFace Transformers 4.19.2, Datasets 2.2.2, Evaluate 0.1.1, wandb 0.12.17, matplotlib 3.5.2, seaborn 0.12.2, pandas 1.4.2, ray 2.0.0 , sklearn 1.1.1, deepspeed 0.8.0+384f17b, NVIDIA Apex, XGBoost 1.6.1 y nltk 3.6.3. Nuestro marco experimental involucró el uso de estas bibliotecas y, en algunos casos, la modificación de las mismas. Lanzaremos código para replicar el entrenamiento previo, el ajuste y la prueba de los modelos descritos en este documento en el momento de la publicación (código para experimentos disponible en https://github.com/nyuolab/NYUTron, código de preprocesamiento para i2b2-2012 disponible en https://github.com/nyuolab/i2b2_2012_preprocessing). Incluimos métodos detallados y pasos de implementación en Métodos e información complementaria para permitir una replicación independiente.

Roberts, M. et al. Errores comunes y recomendaciones para usar el aprendizaje automático para detectar y pronosticar COVID-19 usando radiografías de tórax y tomografías computarizadas. Nat. Mach. Intel. 3, 199–217 (2021).

Artículo Google Académico

Kelly, CJ, Karthikesalingam, A., Suleyman, M., Corrado, G. y King, D. Desafíos clave para generar impacto clínico con inteligencia artificial. BMC Med. 17, 195 (2019).

Artículo PubMed PubMed Central Google Académico

Gaube, S. et al. Haga lo que dice la IA: susceptibilidad en el despliegue de ayudas para la toma de decisiones clínicas. Dígito NPJ. Medicina. 4, 31 (2021).

Artículo PubMed PubMed Central Google Académico

Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. BERT: entrenamiento previo de transformadores bidireccionales profundos para la comprensión del lenguaje. en Proc. 2019 NAACL: Human Language Technologies (eds Burstein, J., Doran, C. & Solorio, T.) 4171–4186 (Association for Computational Linguistics, 2019).

Brown, TB et al. Los modelos de lenguaje son aprendices de pocas oportunidades. en Proc. NeurIPS (eds Wallach, H. et al.) 1877–1901 (Sistemas de procesamiento de información neuronal, 2020).

Gage, BF et al. Selección de pacientes con fibrilación auricular para la anticoagulación: estratificación del riesgo de accidente cerebrovascular en pacientes que toman aspirina. Circulación 110, 2287–2292 (2004).