banner
Centro de Noticias
Articulado y competente en su experiencia.

Aprender a predecir expresiones de secuencias de ARN a partir de imágenes completas de portaobjetos con aplicaciones de búsqueda y clasificación

Apr 04, 2023

Biología de las comunicaciones volumen 6, Número de artículo: 304 (2023) Citar este artículo

3463 Accesos

14 Altmetric

Detalles de métricas

Los métodos de aprendizaje profundo se aplican ampliamente en patología digital para abordar desafíos clínicos como el pronóstico y el diagnóstico. Como una de las aplicaciones más recientes, también se han utilizado modelos profundos para extraer características moleculares de imágenes de diapositivas completas. Aunque las pruebas moleculares contienen información rica, a menudo son costosas, requieren mucho tiempo y requieren tejido adicional para muestrear. En este documento, proponemos tRNAsformer, una topología basada en la atención que puede aprender tanto a predecir el RNA-seq a granel de una imagen como a representar la imagen completa de un portaobjetos de vidrio simultáneamente. El tRNAsformer utiliza el aprendizaje de múltiples instancias para resolver un problema poco supervisado mientras la anotación a nivel de píxel no está disponible para una imagen. Realizamos varios experimentos y logramos un mejor rendimiento y una convergencia más rápida en comparación con los algoritmos de última generación. El tRNAsformer propuesto puede ayudar como herramienta de patología computacional para facilitar una nueva generación de métodos de búsqueda y clasificación mediante la combinación de la morfología del tejido y la huella digital molecular de las muestras de biopsia.

Los patólogos usan la histopatología para diagnosticar y clasificar el cáncer después de examinar una muestra de biopsia. La introducción de la patología digital, los avances en la tecnología informática y la creciente disponibilidad de conjuntos de datos masivos hicieron posible entrenar modelos de aprendizaje profundo cada vez más complejos para diversas tareas clínicas. Las redes neuronales convolucionales (CNN) superaron a todos los demás algoritmos tradicionales de visión por computadora en una amplia gama de aplicaciones clínicas, incluida la subtipificación de cáncer1, la búsqueda y categorización de imágenes de diapositivas completas (WSI)2, la detección de mitosis3 y la calificación4, entre las arquitecturas de aprendizaje profundo.

Sin embargo, ha habido algunos intentos de conectar las características morfológicas incrustadas en las imágenes con las firmas moleculares, recientemente5,6,7,8. Por ejemplo, investigaciones recientes han revelado que los modelos estadísticos pueden vincular rasgos histomorfológicos con mutaciones en órganos, incluidos el pulmón y la próstata9,10. Se sabe que las mutaciones y las modificaciones epigenómicas causan grandes variaciones en la expresión génica. Por lo tanto, la caracterización de la expresión génica puede ser vital para el diagnóstico y tratamiento11. A pesar de que se han establecido herramientas de secuenciación de transcriptomas completos más asequibles para estudiar la información genética, todavía están muy lejos de ser ampliamente utilizadas en los centros médicos12. Por otro lado, la recuperación de las características moleculares de los WSI teñidos con hematoxilina y eosina (H&E) es una de las opciones más rápidas y menos costosas. Se ha demostrado que la capacidad de predecir la expresión génica mediante WSI, ya sea como modalidad intermedia o como resultado, ayuda al diagnóstico y al pronóstico5,8. Estudios anteriores han llamado la atención sobre la predicción de la expresión génica mediante WSI; sin embargo, el tamaño de los WSI y la cantidad de datos bien anotados aún imponen serios desafíos. En particular, la selección de muestras y la representación de WSI es un tema abierto que a menudo se maneja de manera arbitraria.

Según el informe estadístico mundial más reciente sobre el cáncer, en 2020 se estimaron 431 288 nuevos casos de cáncer de riñón y 179 368 muertes en todo el mundo13. El carcinoma de células renales (CCR) es el cáncer de riñón más común y es responsable del 85% de los casos malignos14. Desde un solo fenotipo maligno hasta un grupo heterogéneo de tumores, nuestro conocimiento sobre el CCR ha evolucionado con el tiempo14. Entre todos los subtipos histológicos de RCC, ccRCC, pRCC y crRCC constituyen casi el 75 %, 16 % y 7 % de todos los casos de RCC, respectivamente14. Los subtipos de RCC difieren en su histología, características moleculares, resultados clínicos y respuesta terapéutica como resultado de esta heterogeneidad. Por ejemplo, debido a que la tasa de supervivencia a 5 años difiere entre los diferentes subtipos, el diagnóstico adecuado del subtipo es fundamental15. Todos los métodos en este trabajo se aplican en diapositivas de RCC para identificar los subtipos mediante búsqueda y clasificación.

Aquí, presentamos tRNAsformer (pronunciado t-RNAs-former), un modelo de aprendizaje profundo para la predicción de genes de extremo a extremo y el aprendizaje de la representación de WSI al mismo tiempo (Fig. 1 y Fig. 1 complementaria). Nuestro modelo emplea módulos transformadores basados ​​en el mecanismo de atención para recopilar la información necesaria para aprender las representaciones WSI. El mecanismo basado en la atención permite aprender información que se atribuye a algunas características específicas de la imagen y las puntúa frente a otras características. Al hacerlo, el modelo capturaría cómo una característica se relaciona con las demás en la imagen para que se centre en la parte relevante de la imagen. Además, tRNAsformer emplea el concepto de aprendizaje de múltiples instancias (MIL)16 para manejar el problema de tener los valores reales de expresión génica por WSI en lugar de por mosaico. MIL es una forma de aprendizaje débilmente supervisado donde las instancias de capacitación se organizan en bolsas (conjuntos) y se proporciona una etiqueta para la bolsa completa. Para entrenar nuestro modelo, utilizamos datos del conjunto de datos públicos The Cancer Genome Atlas (TCGA) para recopilar WSI de riñón y sus datos de secuencia de ARN relacionados. Para WSI, presentamos nuestros hallazgos relacionados con la predicción de genes y la representación interna. Finalmente, probamos la generalización de nuestro modelo en términos de representación interna de WSI aprendida contra puntos de referencia de última generación utilizando un conjunto de datos de cáncer de riñón externo de la Universidad Estatal de Ohio.

49 mosaicos de tamaño 224 × 224 × 3 seleccionados de 49 grupos espaciales en un WSI están integrados con un DenseNet-121. El resultado es una matriz de tamaño 49 × 1024, ya que DenseNet-121 tiene 1024 funciones profundas después de la última agrupación. Luego, la matriz se remodela y se reorganiza a una matriz de 224 × 224 en la que cada bloque de 32 × 32 corresponde a un mosaico que incrusta 1 × 1024. b Aplicando una convolución 2D con kernel 32, stride 32 y 384 kernels, cada bloque de 32 × 32 tiene mapeó linealmente un vector de 384 dimensiones. A continuación, se concatena un token de clase con el resto de las incrustaciones de mosaicos y se agrega Epos a la matriz antes de ingresar a las capas L Encoder. La primera fila del resultado, que está asociada con el token de clase, se envía al encabezado de clasificación. El resto de las incrustaciones internas que están asociadas con todas las incrustaciones de mosaicos se pasan al cabezal de predicción de genes. Todas las partes con variables aprendibles se muestran en púrpura.

En esta sección, evaluamos el desempeño de tRNAsformer en términos de las dos tareas principales para las que ha sido entrenado: predicción de expresión génica a partir de WSI y representación WSI para búsqueda y clasificación de imágenes. El rendimiento de tRNAsformer en la predicción de expresiones génicas se ha comparado con el rendimiento de uno de los modelos más avanzados, llamado HE2RNA. El rendimiento de tRNAsformer en términos de aprendizaje de información rica para representar WSI se ha comparado con otros dos métodos, a saber, Yottixel y Low Power.

En este estudio se utilizaron los archivos FPKM-UQ que contenían 60 483 identificaciones de genes Ensembl17. Durante el paso de preprocesamiento (descrito en la sección "Preprocesamiento de expresión génica"), se seleccionaron algunos de los valores de expresión génica y luego se transformaron primero.

Ambos modelos, tRNAsformer y HE2RNA, se compararon para tres criterios diferentes, a saber, el coeficiente de correlación medio de las predicciones, el número de genes predichos significativamente mejor que una línea de base aleatoria y el error de predicción. En el primer experimento, la correlación se evalúa para cada gen por separado usando el coeficiente de correlación de Pearson y Spearman. Si los conjuntos de datos se distribuyen normalmente, el coeficiente de correlación de Pearson mide la conexión lineal entre ellos. El coeficiente de correlación de Pearson varía entre −1 y +1. Una correlación de −1 o +1 denota una relación positiva o negativa lineal perfecta, respectivamente, mientras que una correlación de 0 denota que no hay correlación. El valor p representa aproximadamente la probabilidad de que un sistema no correlacionado pueda producir conjuntos de datos con una correlación de Pearson al menos tan alta como la calculada a partir de estos conjuntos de datos. La correlación de Spearman, a diferencia de la correlación de Pearson, no requiere que ambos conjuntos de datos estén distribuidos normalmente. La figura 2 muestra la distribución del coeficiente de correlación de 31793 genes previstos por diferentes modelos.

Los diagramas de violín representan la distribución, los valores mínimo, máximo y medio de los coeficientes de correlación. a Diagramas de violín para los coeficientes de correlación de Pearson yb diagramas de violín para los coeficientes de correlación de Spearman. Los diagramas de violín se trazan para tRNAsformerL para L = (1, 2, 4, 8, 12) y HE2RNAbb1024. La media y la desviación estándar de los coeficientes de correlación se incluyen en la leyenda de los violines de izquierda a derecha.

La Figura 1 ilustra la distribución de los coeficientes de correlación para 31 793 genes predichos por diferentes modelos junto con sus valores reales en el conjunto de prueba de TCGA. Como se ve en la Fig. 2, el coeficiente de correlación medio R creció con la profundidad de L = 1 a L = 8. El valor medio de R disminuye después de ocho bloques de codificadores Transformer, lo que sugiere que aumentar el número de capas no mejora las predicciones de expresión génica. En cuanto a la correlación de las expresiones génicas predichas con valores reales, los modelos de tRNAsformer de L = 2 a L = 8 lograron resultados comparables con una ligera mejora en comparación con HE2RNA. Más allá de los valores de correlación, la literatura usa diagramas de violín18,19,20,21 porque la gran cantidad de puntos de datos por paciente reduce drásticamente la visibilidad de cualquier pista interpretable si se usan otros métodos como los diagramas de dispersión22.

Los coeficientes de correlación de Pearson y Spearman y los valores p se calcularon entre el valor predicho y el verdadero de la expresión génica para cada gen. Se utilizaron dos métodos de prueba de hipótesis múltiples, a saber, Holm–Šidák (HS) y Benjamini–Hochberg (BH), para ajustar los valores de p. Si el valor p del coeficiente R era inferior a 0,01 después de la corrección para la prueba de hipótesis múltiples, la predicción era significativamente diferente de la línea de base aleatoria23,24. Similar a ref. 5, se realizaron pruebas de hipótesis múltiples utilizando la corrección HS y BH. Los resultados se muestran en la Tabla 1 para todas las arquitecturas.

Como se demuestra en la Tabla 1, al aumentar la profundidad del formador de ARNt de uno a ocho aumenta el número de genes que son significativamente diferentes de una línea de base aleatoria. Similar a los resultados en la Fig. 2, hay una disminución en el número de genes cuando la profundidad alcanza los 12 bloques del codificador de transformador. Por otro lado, el modelo basado en el diseño de HE2RNA obtuvo una puntuación inferior a casi todos los demás modelos de tRNAsformer (excepto L = 1).

Seleccionamos MAE, RMSE y RRMSE25 para calcular el error entre la predicción y los valores reales de expresión génica. MAE, RMSE y RRMSE se definen como

donde Dtest denota el conjunto de prueba, (xi, yi) es la i-ésima muestra xi con verdad fundamental \({y}_{i},{\hat{y}}_{i}\) es el valor predicho de \({y}_{i},\bar{y}\) es el valor medio sobre los objetivos en el conjunto de prueba, y |Dtest| es el número de muestras en el conjunto de prueba. Los resultados se dan en la Tabla 2.

De forma similar a los resultados de la figura 2 y la tabla 1, aumentar el número de bloques de codificador de transformador de ocho a 12 degrada significativamente el rendimiento del modelo. Los valores de correlación logrados por tRNAsformer son comparables a los valores del modelo HE2RNA.

Los hiperparámetros de los modelos tRNAsformer y HE2RNA se optimizaron antes de realizar los experimentos. HE2RNA usa todos los mosaicos de un WSI para entrenar el modelo y producir una predicción para cada mosaico. Esto ayuda a mejorar la tasa de error al promediar una gran cantidad de predicciones de mosaicos para obtener una predicción por diapositiva. Promediar múltiples valores pronosticados (predicciones de mosaicos) aumentaría la posibilidad de tener un valor más similar al valor real, ya que el efecto de aplicar este método es como promediar la tasa de error de todas las predicciones para obtener un único valor representativo de todos los mosaicos. Sin embargo, producir una puntuación de expresión génica por mosaico, como HE2RNA, da como resultado ignorar las dependencias entre los mosaicos de un WSI, ya que los valores reales son por WSI, no por mosaico. tRNAsformer resuelve este problema al tratar un WSI en su totalidad y, por lo tanto, producir una predicción por WSI. El modelo emplea el concepto de aprendizaje de instancias múltiples para manejar el problema de tener los valores reales de expresión génica por WSI en lugar de por mosaico. Además, desde un punto de vista computacional, considerar todas las teselas para entrenar la red consume mucho tiempo y recursos, ya que un solo WSI puede tener fácilmente varios miles de teselas. Por lo tanto, en tRNAsformer abordamos este problema al incorporar el mecanismo de atención y el concepto de aprendizaje de múltiples instancias en el proceso de capacitación.

En general, como puede observarse a partir de los resultados anteriores, el rendimiento de los modelos de tRNAsformer con L = 2 a 8 es comparable. Sin embargo, al considerar todas las métricas utilizadas para evaluar los modelos, tRNAsformer con L = 4 funciona mejor. En este documento, presentamos el rendimiento de tRNAsformer con diferentes profundidades, ya que la profundidad del modelo se puede seleccionar en función de los recursos disponibles. Por ejemplo, en el caso de recursos limitados, se puede usar L = 2, ya que puede lograr un rendimiento comparable al de los modelos más profundos pero con menos requisitos de recursos.

Los experimentos de clasificación se realizaron para evaluar la calidad de la representación interna aprendida por el modelo propuesto. Para empezar, se han creado 100 bolsas de cada WSI de prueba TCGA. De acuerdo con la Tabla complementaria 1, se crearon un total de 8000 bolsas a partir del conjunto de prueba TCGA, ya que había 80 WSI. Los mismos modelos que se entrenaron en la sección anterior para predecir los subtipos de RCC también se evaluaron para la tarea de clasificación. Las puntuaciones F1 de precisión, macro y ponderadas se presentan para todos los modelos en la Tabla 3. Las matrices de confusión de diferentes modelos se muestran en la Fig. 2 complementaria. Todos los valores informados aquí se basan en resultados de clasificación a nivel de diapositiva. La predicción se realiza para todas las bolsas con el fin de calcular los valores de nivel de deslizamiento. La predicción de la etiqueta de cada portaobjetos de prueba se elige como la predicción más común entre todas las bolsas creadas a partir de ese portaobjetos. Las representaciones WSI aprendidas por los modelos se proyectan en un plano creado por los dos primeros componentes principales encontrados usando PCA para representar la representación interna de nuestros modelos en un espacio bidimensional. Las proyecciones PCA bidimensionales se muestran en la Fig. 3 complementaria.

Debido a las variaciones en los estándares y métodos hospitalarios para el procesamiento de tejidos, la preparación de portaobjetos y los protocolos de digitalización, la apariencia de los WSI puede variar significativamente. Como resultado, es importante asegurarse de que los modelos creados con fuentes de datos sean resistentes a los sesgos específicos de la fuente de datos y se generalicen a datos clínicos del mundo real de fuentes no utilizadas durante el entrenamiento26. Para probar la generalización de nuestros modelos entrenados, se utilizan 142 RCC WSI de la Universidad Estatal de Ohio como una cohorte de prueba independiente (consulte la sección "Conjunto de datos renales de la Universidad Estatal de Ohio").

Primero, se crearon 100 bolsas a partir de cada WSI de prueba externa. Según la Tabla complementaria 1, se crearon un total de 14 200 bolsas a partir del conjunto de prueba TCGA, ya que había 142 WSI. Los mismos modelos que se entrenaron en la sección anterior para predecir los subtipos de RCC se usan para informar los resultados de clasificación para el conjunto de datos externo. Las puntuaciones F1 de precisión, macro y ponderadas se informan para todos los modelos en la Tabla 3. Como se muestra en la Tabla 3, la precisión de tRNAsformer disminuyó en aproximadamente un 13 % para la validación externa. Estos resultados todavía muestran un desempeño razonable, especialmente cuando se considera el desempeño de su contraparte, que mostró una disminución de precisión del 20 %. La falta de generalización debido al sobreajuste, el sesgo y los atajos es un problema general en el aprendizaje profundo27,28. Sin embargo, la aplicación de un preprocesamiento más sofisticado puede mejorar el rendimiento del modelo y conducir a una mayor sensibilidad cuando se utiliza un conjunto de datos externo. El rendimiento del modelo también se puede mejorar entrenándolo en un conjunto de datos más grande. Sin embargo, en aras de la reproducibilidad, estamos limitados a la cantidad de WSI disponibles en TCGA. Además, solo podemos considerar WSI donde los perfiles de RNA-seq estaban disponibles en TCGA. Las matrices de confusión de diferentes modelos se muestran en la figura complementaria 4. Las representaciones WSI aprendidas por los modelos se proyectan en un plano creado por los dos primeros componentes principales que se encuentran usando PCA para representar la representación interna de los modelos en un espacio bidimensional. Las proyecciones PCA bidimensionales se muestran en la figura complementaria 5. Las figuras complementarias. 3, 5 muestran qué tan bien se pueden distinguir las representaciones de WSI extraídas del modelo tRNAsformer en diferentes clases. En otras palabras, las figuras ilustran el poder discriminativo de las características aprendidas por cada modelo de tRNAsformer.

El modelo sugerido en la ref. 29, también conocida como la técnica de "baja potencia", superó todos los enfoques basados ​​en mosaicos y de nivel WSI de última generación. La precisión del método de "baja potencia", la puntuación F1 (macro y ponderada) y el AUC fueron del 73,76 %, 0,7388, 0,7385 y 0,893, respectivamente. Como se demuestra en la Tabla 3 y la Fig. 3, todos los modelos de tRNAsformer superan el método descrito en la ref. 29 en todas las medidas, a saber, precisión, puntuación F1 (macro y ponderada) y AUC. Además, como se muestra en la Fig. 4 complementaria, los modelos de tRNAsformer tienden a tener predicciones correctas más equilibradas para todas las clases, ya que hay una línea diagonal nítida resaltada en las matrices de confusión. Para decirlo de otra manera, los modelos de tRNAsformer son buenos para distinguir entre todas las clases.

La microcurva ROC de diferentes modelos aplicada en el conjunto de prueba TCGA yb el conjunto de datos externo. El AUC se informa en la leyenda para todos los modelos.

Se realizaron experimentos de búsqueda WSI para evaluar la calidad de la representación interna del tRNAsformer. El modelo se prueba tanto en TCGA como en un conjunto de datos externo. Como se mencionó anteriormente, se crearon 100 instancias de cada WSI en el conjunto de datos TCGA; el conjunto de prueba TCGA contenía 8000 instancias asociadas con 80 diapositivas. Después de entrenar a tRNAsformer, se utilizó para extraer características (incrustaciones). Para cuantificar el rendimiento de tRNAsformer en la búsqueda WSI, primero se crearon 100 subconjuntos de instancias a partir de 8000 instancias de prueba TCGA. A continuación, se calcula una matriz de distancia por pares utilizando las incrustaciones WSI (vectores de características) para cada subconjunto. La correlación de Pearson se emplea como la métrica de distancia. Siguiendo el procedimiento de dejar fuera a un paciente, se determinaron las muestras top-k para cada instancia (WSI). Posteriormente, se calcularon P@K (Precisión@K) y AP@K (Precisión promedio@K) para cada subconjunto. P@K refleja cuántas imágenes relevantes están presentes en las recomendaciones top-k que sugiere el modelo, mientras que AP@K es la media de P@i para i = 1,…,K. Finalmente, el valor MAP@K (Mean Average Precision@K) se calculó tomando el promedio de 100 consultas asociadas con 100 subconjuntos de búsqueda.

De manera similar, se crearon 100 instancias para cada WSI en el conjunto de datos externo. En general, se generaron 100 subconjuntos de 142 WSI para la búsqueda de WSI en el conjunto de datos externo. Como resultado, los valores de MAP@K se evaluaron tomando un promedio de 100 experimentos de búsqueda diferentes. El resumen de los valores de MAP@K para la prueba TCGA y el conjunto de datos externo se muestra en la Tabla 4.

El rendimiento de tRNAsformer se ha comparado con el rendimiento de Yottixel30, el estado del arte en la búsqueda de WSI, en términos de precisión promedio promedio en diferentes k, MAP@5 y MAP@10. MAP@5 y MAP@10 para 10 ejecuciones independientes de Yottixel fueron 0,7416 y 0,7092, respectivamente. tRNAsformer supera a Yottixel en las medidas MAP@5 y MAP@10. Además, los modelos de tRNAsformer brindan más estabilidad porque el valor MAP@ K no cae tan abruptamente como otros algoritmos de búsqueda mientras que k aumenta.

En este documento, se propone un marco MIL multitarea basado en el modelo tRNAsformer para aprender la representación WSI aprendiendo a predecir la expresión génica a partir de diapositivas H&E. Al incorporar el mecanismo de atención y el diseño del Transformador, tRNAsformer puede proporcionar predicciones más precisas para las expresiones génicas de un WSI. Mientras tanto, tRNAsformer superó los puntos de referencia para la predicción de RNA-seq a granel al tiempo que tenía menos hiperparámetros. Además, tRNAsformer aprende una representación exclusiva y compacta para un WSI utilizando la firma molecular de la muestra de tejido. Como resultado, la técnica propuesta aprende una representación relevante desde el punto de vista diagnóstico a partir de una imagen integrando la información genética en un enfoque multimodal.

De hecho, las imágenes de diapositivas completas (WSI) generalmente se etiquetan tratando la imagen en su totalidad (la etiqueta se asigna a la imagen completa). Por ejemplo, una imagen completa de un portaobjetos se puede etiquetar como un portaobjetos de tumor, aunque también podría incluir algo de tejido normal. No es posible procesar un WSI completo a la vez con la tecnología de hardware actual. Estas imágenes se dividen comúnmente en piezas más pequeñas y manejables conocidas como parches o mosaicos. Sin embargo, los grandes conjuntos de datos de WSI generalmente se etiquetan de forma suave, ya que la anotación experta a nivel de píxel es costosa y requiere mucha mano de obra. Como resultado, es posible que algunos mosaicos no contengan información relevante para la etiqueta de diagnóstico asociada con el WSI. El diseño de tRNAsformer permitió un procesamiento más eficiente y preciso de una colección de muestras. Emplea aprendizaje supervisado semanal junto con el concepto de aprendizaje de múltiples instancias (MIL)16. El aprendizaje supervisado débilmente es un enfoque para entrenar una red profunda mediante el uso de la combinación de los datos etiquetados dados y la supervisión débil para obtener nuevos datos etiquetados31. Este enfoque hace posible el entrenamiento de una red profunda cuando los datos etiquetados disponibles son insuficientes. Además, tRNAsformer emplea el concepto de MIL para manejar el problema de tener los valores reales de expresión génica por WSI en lugar de por mosaico. MIL es una forma de aprendizaje débilmente supervisado donde las instancias de capacitación se organizan en bolsas (conjuntos) y se proporciona una etiqueta para la bolsa completa.

Se utilizó un modelo CNN preentrenado para muestrear e incrustar mosaicos de imágenes antes de entrenar tRNAsformer. Este enfoque nos permite crear ricas incrustaciones intermedias a partir de muestras de imágenes, ya que el modelo de CNN preentrenado se entrenó en grandes conjuntos de datos de imágenes. Además, trabajar con instancias muestreadas integradas es computacionalmente menos costoso en comparación con tratar cada WSI como una instancia. De acuerdo con la Tabla complementaria 2, el modelo más pequeño de tRNAsformer puede tener aproximadamente un 60% menos de hiperparámetro en comparación con el modelo basado en MLP. Además, pueden ser un 72 % y un 15 % más rápidos que el modelo basado en MLP durante el entrenamiento y la validación, respectivamente.

Nuestro objetivo principal de la comparación entre tRNAsformer y HE2RNA es demostrar que tRNAsformer puede predecir expresiones génicas de un WSI con la misma precisión que los algoritmos de expresión génica de última generación con el aprendizaje simultáneo de una rica representación WSI tanto de características morfológicas como moleculares. huella dactilar, que se puede utilizar para aplicaciones como la búsqueda de imágenes. tRNAsformer fue capaz de predecir puntuaciones de expresión génica con una correlación ligeramente mejorada en comparación con la lograda por HE2RNA. Sin embargo, hay que tener en cuenta que tRNAsformer es una herramienta de patología computacional multitarea que se puede utilizar no solo para la predicción de la expresión génica sino también para el aprendizaje de la representación WSI basada en la morfología del tejido y la huella digital molecular de una muestra de biopsia, que puede integrarse en la búsqueda y clasificación de imágenes. La métrica de correlación se utilizó para evaluar solo una tarea, que es la predicción de la expresión génica. La otra tarea (es decir, el aprendizaje transcriptómico para la representación WSI para la búsqueda y clasificación de imágenes) se evaluó considerando un conjunto de datos externo junto con otros dos métodos de comparación, a saber, los métodos "Yottixel" y "Baja potencia".

En contraste con la ref. 7, donde el conjunto de datos de transcriptómica espacial estaba disponible, el enfoque propuesto en este trabajo utiliza datos de RNA-seq a granel. Como resultado, el modelo descrito en este estudio emplea un tipo de supervisión más débil, ya que aprende la representación interna mediante una combinación de un diagnóstico primario y un RNA-seq masivo asociado con un WSI. Esto está más en línea con la práctica clínica actual, que generalmente recopila secuencias de ARN a granel en lugar de datos transcriptómicos espaciales. Además, tRNAsformer maneja el problema al tratar un WSI en su totalidad, mientras que el método explicado en la ref. 7 separa cada mosaico y estima el valor de expresión génica para él. Por lo tanto, el método descrito en la ref. 7 ignora las dependencias entre mosaicos. Comparando con la ref. 8, la técnica propuesta en este manuscrito procesa un conjunto de muestras considerablemente más pequeño con un campo de visión más grande. En particular, la técnica propuesta muestrea bolsas de 49 instancias de 224 × 224 × 3 mientras que la otra técnica8 desplegó varias opciones de muestreo con al menos 2500 mosaicos de tamaño 32 × 32 × 3 por bolsa. Además, tRNAsformer aprende la representación WSI exclusiva aprendiendo la traducción de píxel a gen. Por otro lado, ninguna de las metodologías tiene un paradigma de aprendizaje de representación independiente5,7,8.

En conclusión, los resultados mostraron que tRNAsformer puede aprender representaciones internas confiables para archivos masivos de portaobjetos de patología que igualan o superan el rendimiento de los algoritmos de búsqueda y clasificación de vanguardia desarrollados29,30. Además, tRNAsformer puede predecir expresiones génicas a partir de portaobjetos de H&E con un rendimiento comparable con algunas mejoras en comparación con otros métodos de última generación5. Hemos demostrado que incluso con perfiles de RNA-Seq obtenidos de células a granel, en su mayoría, aisladas de una sección de tejido diferente, el tRNAsformer se desempeñó bien en términos de predicción de puntajes de expresión génica correlacionados con los puntajes reales en los perfiles de RNA-seq a granel, lo que puede indicar que la mayoría de los genes expresados ​​en la sección de tejido utilizada para la tinción con H&E también se expresan en la sección de tejido utilizada para la cuantificación de RNA-seq. Sin embargo, en investigaciones futuras, el tRNAsformer puede investigarse rigurosamente mediante la verificación de su rendimiento utilizando datos transcriptómicos espaciales en los que tanto el perfil de RNA-seq como la tinción con H&E se realizan en el mismo corte de la muestra.

Los datos utilizados en este estudio se obtuvieron de TCGA (https://portal.gdc.cancer.gov/). Solo se consideraron los casos que tienen perfil WSI y RNAseq. Seleccionamos portaobjetos de diagnóstico fijados en formalina e incluidos en parafina (FFPE) teñidos con H&E. Los casos recuperados incluyeron tres subtipos, carcinoma de células claras, ICD-O 8310/3, (ccRCC), tipo cromófobo: carcinoma de células renales, ICD-O 8317/3, (crRCC) y carcinoma papilar, ICD-O 8260/3 , (pRCC). Para los datos transcriptómicos, utilizamos fragmentos por kilobase de archivos de transcripción por millón de lecturas mapeadas del cuartil superior (FPKM-UQ). La información detallada sobre los casos se incluye en la Tabla complementaria 1. Como el valor medio de los datos de FPKM-UQ para cada gen puede variar significativamente entre diferentes proyectos, se evaluaron los modelos tRNAsformer y HE2RNA para predecir las puntuaciones de expresión génica de FPKM-UQ. datos de un solo proyecto, que es TCGA. Se han considerado tres conjuntos de datos de riñón de TCGA, que son TCGA-KIRC, TCGA-KIRP y TCGA-KICH. Además, hemos excluido genes con una mediana de expresión de cero para mejorar la interpretabilidad de los resultados. Los datos se dividieron por casos en conjuntos de tren (% 80), validación (% 10), prueba (% 10), respectivamente. En otras palabras, cada paciente solo pertenecía a uno de los conjuntos.

Los archivos FPKM-UQ contenían 60.483 identificaciones de genes Ensembl. Excluimos genes con una mediana de cero en todos los casos de riñón y nos quedamos con 31 793 genes. Otros estudios han adoptado la misma estrategia para mejorar la interpretabilidad de los resultados5. Usamos una transformación → log10(1 + a) para convertir las expresiones génicas, ya que el orden de los valores de expresión génica cambia mucho y puede afectar el error cuadrático medio solo en el caso de genes altamente expresados5.

El tamaño de los portaobjetos de vidrio digitalizados puede ser de 100 000 × 100 000 en píxeles o incluso mayor. Como resultado, no es posible procesar un portaobjetos completo a la vez con la tecnología actual. Estas imágenes se dividen comúnmente en piezas más pequeñas y manejables conocidas como mosaicos. Además, los grandes conjuntos de datos de WSI generalmente están mal etiquetados, ya que la anotación experta a nivel de píxel es costosa y requiere mucha mano de obra. Como resultado, es posible que algunos mosaicos no contengan información relevante para la etiqueta de diagnóstico asociada con el WSI. En consecuencia, MIL puede ser adecuado para este escenario. En lugar de recibir una colección de ejemplos etiquetados individualmente, el alumno recibe un conjunto de bolsas etiquetadas, cada una de las cuales comprende varias instancias en MIL. Para hacer bolsas de instancias, el primer paso es averiguar dónde están los límites del tejido. Usando el algoritmo descrito en la ref. 29, la región del tejido se ubicó en la miniatura (ampliación de 1,25x) mientras que se eliminaron el fondo y los píxeles marcadores. Los mosaicos de tamaño 14 por 14 píxeles se procesaron utilizando la máscara de tejido de 1,25 × para descartar aquellos con menos del 50% de tejido. Tenga en cuenta que los mosaicos de 14 × 14 píxeles a 1,25 × equivalen al área de 224 × 224 píxeles con un aumento de 20 ×.

El algoritmo k-means se implementa en la ubicación de las teselas seleccionadas previamente para muestrear un número fijo de teselas de cada WSI. El valor de k se fijó en 49 para todos los experimentos de este estudio. Después de eso, los conglomerados se clasifican espacialmente en función de la magnitud de los centros de los conglomerados. El beneficio de las teselas agrupadas espacialmente es doble; (1) es más probable que el concepto de similitud sea cierto dentro de un radio estrecho32,33, y (2) la agrupación de coordenadas con dos variables es computacionalmente menos costosa que los vectores de características de alta dimensión. Los pasos del algoritmo de agrupamiento se muestran en la Fig. 4.

a Muestra una miniatura de un WSI, b muestra la máscara de tejido obtenida al segmentar el WSI, y c muestra el WSI agrupado usando k-medias.

El tRNAsformer está hecho de L capas de codificador de transformador estándar34 seguidas de dos cabezas, a saber, la clasificación y la cabeza de predicción de genes. La Fig. 1 complementaria muestra la arquitectura del método propuesto. El codificador de transformador aprende una incrustación (también conocida como token de clase) para la entrada al tratarla como una secuencia de instancias de características asociadas con cada WSI. Aprende incrustaciones internas para cada instancia mientras aprende el token de clase que representa la bolsa o WSI.

La cabeza de clasificación, que es una capa lineal, recibe la representación WSI c. A continuación, la representación de WSI se proyecta mediante una capa lineal a la puntuación de WSI \(\hat{y}\). A continuación, tRNAsformer utiliza la pérdida de entropía cruzada entre la puntuación predicha \(\hat{y}\) y la etiqueta verdadera y del WSI para conocer el diagnóstico principal. El uso del codificador de transformador y el cabezal de clasificación permite el aprendizaje de la representación de WSI mientras se entrena el modelo.

Considerando una bolsa \({{{{{\rm{X}}}}}}=[{{{{{\bf{x}}}}}}}_{1},{{{{{{ \bf{x}}}}}}}_{2},\ldots,{{{{{{\bf{x}}}}}}}_{k}]\), donde \({{{ {{{\bf{x}}}}}}}_{i}\in {{\Bbb{R}}}^{d},i=1,\ldots,k\) son los mosaicos integrados de DenseNet -121, un transformador estándar de capa L se puede definir como

donde MSA, LN, MLP, L, E y Epos son autoatención de cabezales múltiples, norma de capa, bloque de perceptrón multicapa (MLP), capa lineal, proyección de incrustación de teselas e incrustación de posición (para obtener más información, consulte la referencia 34). ). Las variables E y Epos se pueden aprender. La norma de capa aplica la normalización sobre un minilote de entradas. En layernorm, las estadísticas se calculan de forma independiente a través de las dimensiones de las características para cada instancia (es decir, mosaico) en una secuencia (es decir, una bolsa de mosaicos). El bloque de perceptrón multicapa está formado por dos capas lineales seguidas de una capa de abandono. La primera capa lineal tiene función de activación GELU35. La incrustación se proyecta a una dimensión superior en la primera capa y luego se asigna a su tamaño original en la segunda capa. La figura complementaria 5b muestra la estructura de un bloque MLP en un codificador de transformador.

Las incrustaciones internas restantes se pasan a una capa de exclusión seguida de una capa de convolución 1D para la cabeza de predicción de genes. El cabezal de predicción de genes utiliza una capa de abandono y una capa de convolución 1D como capa de salida similar al modelo HE2RNA presentado en la ref. 5. Sin embargo, las dos primeras capas, que eran dos capas de convolución 1D responsables de la extracción de características en HE2RNA, se reemplazaron con un codificador de transformador para capturar la relación entre todas las instancias. Como el modelo produce una predicción por gen por instancia, la misma estrategia de agregación descrita en la ref. 5 se adaptó para calcular la predicción de genes para cada WSI. En particular, Schmauch et al. muestreó un número aleatorio n en cada iteración y calculó la predicción de cada gen promediando las predicciones top-n por mosaicos en un WSI (bolsa)5. Sugirieron que este enfoque actúa como una técnica de regularización y disminuye la posibilidad de sobreajuste5. Como había 49 incrustaciones de mosaicos en cada bolsa, n se seleccionó aleatoriamente de {1,2,5,10,20,49}. Para un n seleccionado al azar durante el entrenamiento, el resultado de la predicción del gen se puede escribir como

donde \({{{{{{\bf{z}}}}}}}_{L}^{1:{{{{{\rm{end}}}}}}}\in {{\mathbb {R}}}^{D\veces k},{{{{{\bf{s}}}}}}\in {{\mathbb{R}}}^{D\veces k}\), y \({{{{{\bf{S}}}}}}({{{{{\rm{n}}}}}})\en {{\mathbb{R}}}^{{d} _ {g}}\) son las incrustaciones internas que excluyen el token de clase, la predicción de genes en mosaico y la predicción de expresión de genes a nivel de diapositiva, respectivamente. Durante la prueba, la predicción final S se calcula como un promedio de todos los valores posibles para n como

La función de pérdida de error cuadrático medio se emplea para aprender predicciones de genes.

Finalmente, la pérdida total de tRNAsformer se calcula como

donde \(\theta ,\lambda ,\gamma ,B,{{{{{{\bf{y}}}}}}}^{g}\) son los parámetros del modelo, coeficiente de regularización de peso, hiperparámetro para escalar el pérdidas, número de muestras en un lote y RNA-seq a granel real asociado con los portaobjetos. En la figura 1 se incluye un resumen del enfoque propuesto.

Para comenzar, los casos de TCGA se dividen en subconjuntos de 80 %, 10 % y 10 % para los conjuntos de entrenamiento, validación y prueba. Cada caso estaba asociado con un paciente y podría haber contenido múltiples WSI de diagnóstico o archivos RNA-seq. Durante el proceso de entrenamiento se ha considerado el número de bolsas como un hiperparámetro para optimizar el rendimiento del modelo. Después de optimizar los hiperparámetros, se tomaron muestras de 100 bolsas de cada WSI. Como resultado, el conjunto de entrenamiento constaba de 63 400 bolsas (consulte la Tabla complementaria 1).

El tamaño de representación interna del tRNAsformer se fijó en 384. La proporción de MLP y el número de cabezas de autoatención fueron cuatro. El tRNAsformer se entrenó durante 20 épocas con un minilote de tamaño 64. AdamW se eligió como optimizador con una tasa de aprendizaje inicial de 3 × 10−4 36. El coeficiente de regularización de peso se estableció en 0,01 para evitar el sobreajuste. Se eligió el método de reducción en meseta para programar la tasa de aprendizaje. Por lo tanto, la tasa de aprendizaje se redujo en diez cada dos épocas sin una mejora en la pérdida de validación. El coeficiente de escala γ se fijó en 0,5. La probabilidad de la última capa de abandono se estableció en 0,25. Se informan los valores para el modelo con la pérdida de validación más baja. Todos los experimentos se realizan con una sola tarjeta gráfica NVIDIA GeForce RTX 2080 SUPER. La CPU de la computadora de escritorio era Intel(R) Core(TM) i9-10900X.

Se entrenó otro modelo basado en la arquitectura MLP, llamado HE2RNA, descrito en la ref. 5. Los autores del artículo HE2RNA no proporcionaron el modelo HE2RNA entrenado. Por lo tanto, construimos y entrenamos el modelo HE2RNA utilizando el mismo conjunto de datos que se usó para entrenar tRNAsformer, de modo que producimos un punto de referencia justo basado en la literatura actual. Las capas completamente conectadas se reemplazaron con convoluciones 1D sucesivas con tamaño de núcleo uno y paso uno para deslizar datos debido a la practicidad en el diseño MLP5. Se aplica una capa de abandono entre capas sucesivas, y la función de activación fue ReLU. El modelo basado en el diseño MLP sugerido en la ref. 5 se denomina HE2RNAbb (bb significa backbone) ya que se entrenó en el conjunto de entrenamiento TCGA utilizado en este documento. El modelo HE2RNA Rbb está hecho de tres capas convolucionales 1D. Cada una de las dos primeras capas contenía h canales de entrada y salida, mientras que la última capa tenía el mismo número de canales de salida que el número de genes. En otras palabras, h es el tamaño de la representación interna del modelo. La h se fijó en 1024 para HE2RNAbb1024. El modelo se entrenó durante 20 épocas con el optimizador AdamW y una tasa de aprendizaje inicial de 3 × 10−4 36. Si no se observa ninguna mejora en la pérdida de validación durante dos épocas, la tasa de aprendizaje se reduce en diez. El tamaño del minilote se estableció en 64. Se proporcionan los valores para el modelo con la pérdida de validación más baja. El número de parámetros de cada modelo se muestra en la Tabla complementaria 2 para comparar. El tiempo del reloj de pared para una sola época de entrenamiento y validación también se proporciona en la misma tabla que el número de parámetros.

Este es un conjunto de datos interno que usamos para evaluar la representación interna de nuestro modelo. Se examinaron los archivos de patología quirúrgica del departamento de patología en busca de casos consecutivos de carcinoma de células renales clasificado como carcinoma de células claras (ccRCC), carcinoma de células renales cromófobas (crRCC) o carcinoma de células renales papilares (pRCC). El conjunto de datos se creó al final de la búsqueda y contenía 142 instancias de carcinoma de células renales. Los WSI de ccRCC, crRCC y pRCC fueron 48, 44 y 50, respectivamente. Cada paciente tenía un portaobjetos de cáncer representativo que fue examinado por un patólogo certificado por la junta (Anil V. Parwani) antes de ser escaneado a 20 × utilizando un escáner aperio XT (Leica biosystems, CA). Un patólogo certificado por la junta (AP) revisó las imágenes WSI y validó las clasificaciones por segunda vez para garantizar la calidad de la imagen y la exactitud del diagnóstico.

El modelo que se entrenó en el conjunto de datos de riñón TCGA se utilizó para incrustar el conjunto de datos externo. Luego se realizaron los estudios de clasificación y búsqueda de WSI para examinar el impacto del cambio de dominio en la tubería propuesta.

Más información sobre el diseño de la investigación está disponible en el Resumen de informes de Nature Portfolio vinculado a este artículo.

El Portal de datos genómicos comunes del NCI (https://portal.gdc.cancer.gov) tiene todos los portaobjetos digitales TCGA disponibles para el público. Para reproducibilidad, los datos procesados ​​de cada caso obtenidos del proyecto TCGA están disponibles en https://doi.org/10.5281/zenodo.7613408. Los datos incluyen un archivo csv para cada caso, que enumera todos los 31 793 puntajes de expresión génica que hemos considerado en nuestros experimentos.

Nuestro código fuente junto con los modelos de tRNAsformer capacitados están disponibles en https://doi.org/10.5281/zenodo.7613349.

Hou, L. et al. Red neuronal convolucional basada en parches para la clasificación de imágenes de tejido de portaobjetos completos. en Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones 2424–2433 (2016).

Kalra, S. et al. Consenso diagnóstico pan-cáncer a través de la búsqueda de imágenes de histopatología de archivo utilizando inteligencia artificial. Dígito NPJ. Medicina. 3, 1–15 (2020).

Artículo Google Académico

Wang, H. et al. Detección de mitosis en imágenes de patología de cáncer de mama mediante la combinación de características de redes neuronales convolucionales y artesanales. J.Med. Imágenes 1, 034003 (2014).

Artículo Google Académico

Bulten, W. et al. Sistema automatizado de aprendizaje profundo para la clasificación de gleason del cáncer de próstata mediante biopsias: un estudio de diagnóstico. Lanceta Oncol. 21, 233–241 (2020).

Artículo PubMed Google Académico

Schmauch, B. et al. Un modelo de aprendizaje profundo para predecir la expresión rna-seq de tumores a partir de imágenes de diapositivas completas. Nat. común 11, 1–15 (2020).

Artículo Google Académico

Levy-Jurgenson, A., Tekpli, X., Kristensen, VN y Yakhini, Z. La transcriptómica espacial inferida a partir de imágenes de diapositivas completas de patología vincula la heterogeneidad del tumor con la supervivencia en el cáncer de mama y de pulmón. ciencia Rep. 10, 1–11 (2020).

Artículo Google Académico

Él, B. et al. Integración de la expresión génica espacial y la morfología del tumor de mama a través del aprendizaje profundo. Nat. biomedicina Ing. 4, 827–834 (2020).

Artículo CAS PubMed Google Académico

Tavolara, TE et al. El aprendizaje profundo predice la expresión génica como una modalidad de datos intermedios para identificar patrones de susceptibilidad en ratones exogámicos de diversidad infectados con Mycobacterium tuberculosis. EBioMedicine 67, 103388 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Coudray, N. et al. Clasificación y predicción de mutaciones a partir de imágenes histopatológicas de cáncer de pulmón de células no pequeñas mediante aprendizaje profundo. Nat. Medicina. 24, 1559–1567 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Schaumberg, AJ, Rubin, MA & Fuchs, TJ El aprendizaje profundo de la imagen completa de la diapositiva teñida con H&E predice el estado de mutación spop en el cáncer de próstata. Preprint en BioRxiv https://doi.org/10.1101/064279 (2017).

Segal, E., Friedman, N., Kaminski, N., Regev, A. & Koller, D. De las firmas a los modelos: comprensión del cáncer mediante micromatrices. Nat. Gineta. 37, S38–S45 (2005).

Artículo CAS PubMed Google Académico

Kamps, R. et al. Secuenciación de última generación en oncología: diagnóstico genético, predicción de riesgo y clasificación del cáncer. En t. J. Mol. ciencia 18, 308 (2017).

Artículo PubMed PubMed Central Google Académico

Cantado, H. et al. Estadísticas mundiales de cáncer 2020: estimaciones de Globocan de incidencia y mortalidad en todo el mundo para 36 cánceres en 185 países. CA: Cáncer J. Clin. 71, 209–249 (2021).

Académico de Google de PubMed

Shuch, B. et al. Comprender las variantes patológicas del carcinoma de células renales: extraer oportunidades terapéuticas de la complejidad biológica. EUR. Urol. 67, 85–97 (2015).

Artículo PubMed Google Académico

Tabibu, S., Vinod, P. & Jawahar, C. Clasificación del carcinoma de células panrenales y predicción de supervivencia a partir de imágenes histopatológicas mediante aprendizaje profundo. ciencia Rep. 9, 10509 (2019).

Artículo PubMed PubMed Central Google Académico

Dietterich, TG, Lathrop, RH & Lozano-Pérez, T. Resolviendo el problema de múltiples instancias con rectángulos paralelos al eje. Artefacto Intel. 89, 31–71 (1997).

Artículo Google Académico

Hubbard, T. et al. El proyecto de base de datos del genoma ensembl. Ácidos Nucleicos Res. 30, 38–41 (2002).

Artículo CAS PubMed PubMed Central Google Scholar

Bartha, Á. & Győrffy, B. Tnmplot. com: una herramienta web para la comparación de la expresión génica en tejidos normales, tumorales y metastásicos. En t. J. Mol. ciencia 22, 2622 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Luo, M.-S., Huang, G.-J. y Liu, B.-X. Infiltración inmune en carcinoma nasofaríngeo basada en expresión génica. Medicina 98, e17311 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Hoffman, GE & Schadt, EE partición de varianza: interpretación de los impulsores de variación en estudios complejos de expresión génica. BMC Bioinforma. 17, 1–13 (2016).

Artículo Google Académico

Campbell-Staton, SC, Velotta, JP y Winchell, KM Selección sobre la plasticidad de la expresión génica adaptativa y desadaptativa durante la adaptación térmica a las islas de calor urbanas. Nat. común 12, 1–14 (2021).

Artículo Google Académico

Avsec, Ž. et al. Predicción eficaz de la expresión génica a partir de la secuencia mediante la integración de interacciones de largo alcance. Nat. Métodos 18, 1196–1203 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Holm, S. Un procedimiento de prueba múltiple secuencialmente rechazante simple. Escanear. Estado J. 6, 65–70 (1979).

Benjamini, Y. & Hochberg, Y. Controlando la tasa de descubrimiento falso: un enfoque práctico y poderoso para las pruebas múltiples. Estado JR. Soc.: Ser. B 57, 289–300 (1995).

Google Académico

Spyromitros-Xioufis, E., Tsoumakas, G., Groves, W. & Vlahavas, I. Regresión de objetivos múltiples a través de la expansión del espacio de entrada: tratar los objetivos como entradas. Mach. Aprender. 104, 55–98 (2016).

Artículo Google Académico

Stacke, K., Eilertsen, G., Unger, J. & Lundström, C. Una mirada más cercana al cambio de dominio para el aprendizaje profundo en histopatología. Preimpresión en https://arxiv.org/abs/1909.11575 (2019).

Asilian Bidgoli, A., Rahnamayan, S., Dehkharghanian, T., Grami, A. y Tizhoosh, H. Reducción del sesgo en la representación de imágenes de histopatología mediante la selección profunda de características. ciencia Rep. 12, 1–12 (2022).

Artículo Google Académico

Dehkharghanian, T. et al. Datos sesgados, IA sesgada: las redes profundas predicen el sitio de adquisición de las imágenes TCGA. Patología Diagnóstica BMC (2023).

Safarpoor, A., Shafiei, S., Gonzalez, R., Parwani, A. & Tizhoosh, H. Clasificación y búsqueda de imágenes de diapositivas completas de carcinoma de células renales mediante aprendizaje profundo. Cuadrado de investigación https://doi.org/10.21203/rs.3.rs-971708/v1 (2021).

Kalra, S. et al. Yottixel: un motor de búsqueda de imágenes para grandes archivos de imágenes de diapositivas completas de histopatología. Medicina. Anal de imagen. 65, 101757 (2020).

Artículo PubMed Google Académico

Dehghani, M., Zamani, H., Severyn, A., Kamps, J. & Croft, WB Modelos de clasificación neuronal con supervisión débil. en Actas de la 40.ª Conferencia Internacional ACM SIGIR sobre Investigación y Desarrollo en Recuperación de Información 65–74 (2017).

Sikaroudi, M. et al. Supervisión e impacto del dominio fuente en el aprendizaje de la representación: un estudio de caso de histopatología. en 2020 42a Conferencia Internacional Anual de la Sociedad de Ingeniería en Medicina y Biología del IEEE (EMBC) 1400–1403 (IEEE, 2020).

Gildenblat, J. & Klaiman, E. Aprendizaje de similitud autosupervisado para patología digital. Preimpresión en https://arxiv.org/abs/1905.08139 (2019).

Dosovitskiy, A. et al. Una imagen vale 16 × 16 palabras: Transformadores para el reconocimiento de imágenes a escala. Preimpresión en https://arxiv.org/abs/2010.11929 (2020).

Hendrycks, D. & Gimpel, K. Unidades lineales de error gaussiano (gelus). Preimpresión en https://arxiv.org/abs/1606.08415 (2016).

Loshchilov, I. y Hutter, F. Regularización de la disminución del peso desacoplada. Preimpresión en https://arxiv.org/abs/1711.05101 (2017).

Descargar referencias

Este proyecto fue financiado parcialmente como parte de un consorcio ORF-RE por el Gobierno de Ontario.

Rhazes Lab, Inteligencia Artificial e Informática, Mayo Clinic, Rochester, MN, EE. UU.

Areej Alsaafin y HR Tizhoosh

Kimia Lab, Universidad de Waterloo, Waterloo, ON, Canadá

Areej Alsaafin, Amir Safarpoor, Milad Sikaroudi y HR Tizhoosh

División de Patología Computacional e IA, Mayo Clinic, Rochester, MN, EE. UU.

Jason D. Hipp

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

AA contribuyó a la concepción de las ideas principales, reestructuró el documento, volvió a analizar los datos y revisó el manuscrito. AS contribuyó y discutió las ideas iniciales, diseñó y realizó los experimentos iniciales, analizó e interpretó los resultados y escribió el primer borrador. MS contribuido al procesamiento y análisis de datos. HRT concibió la idea inicial, supervisó todo el estudio, analizó los datos/resultados y escribió partes del artículo. JDH contribuyó a la gestión del proyecto, revisó el documento y brindó comentarios críticos.

Correspondencia a HR Tizhoosh.

Los autores declaran no tener conflictos de intereses.

Este estudio fue aprobado por la junta de investigación institucional de la Universidad Estatal de Ohio. Se obtuvo el consentimiento informado por escrito de todos los pacientes individuales incluidos en el estudio. Todos los métodos se llevaron a cabo de acuerdo con las directrices y regulaciones pertinentes. Todos los datos se desidentificaron utilizando un sistema de intermediario honesto.

Communications Biology agradece a Nobuaki Yasuo y a los otros revisores anónimos por su contribución a la revisión por pares de este trabajo. Editores principales de manejo: Eirini Marouli y Luke R. Grinham. Los informes de los revisores están disponibles.

Nota del editor Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Alsaafin, A., Safarpoor, A., Sikaroudi, M. et al. Aprender a predecir expresiones de secuencias de ARN a partir de imágenes de diapositivas completas con aplicaciones para búsqueda y clasificación. Comun Biol 6, 304 (2023). https://doi.org/10.1038/s42003-023-04583-x

Descargar cita

Recibido: 22 de marzo de 2022

Aceptado: 13 febrero 2023

Publicado: 22 de marzo de 2023

DOI: https://doi.org/10.1038/s42003-023-04583-x

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.