Aprendiendo el lenguaje proteico del proteoma | ClearVitality Innovaciones Co., Ltd

Biología de las comunicaciones volumen 6, Número de artículo: 73 (2023) Citar este artículo

5883 Accesos

10 Altmetric

Detalles de métricas

Las interacciones proteína-proteína (PPI, por sus siglas en inglés) gobiernan las vías y los procesos celulares, al influir significativamente en la expresión funcional de las proteínas. Por lo tanto, la identificación precisa de los sitios de unión de la interacción proteína-proteína se ha convertido en un paso clave en el análisis funcional de las proteínas. Sin embargo, dado que la mayoría de los métodos computacionales están diseñados en función de características biológicas, no hay modelos de lenguaje de proteínas disponibles para codificar directamente secuencias de aminoácidos en representaciones de vectores distribuidos para modelar sus características para eventos de unión proteína-proteína. Además, el número de sitios de interacción de proteínas detectados experimentalmente es mucho menor que el de las interacciones proteína-proteína o los sitios de proteínas en los complejos de proteínas, lo que da como resultado conjuntos de datos desequilibrados que dejan espacio para mejorar su rendimiento. Para abordar estos problemas, desarrollamos un método de identificación de sitios de interacción proteína-proteína (PPI) basado en un modelo de aprendizaje profundo de conjunto (EDLM) (EDLMPPI). Los resultados de la evaluación muestran que EDLMPPI supera las técnicas de vanguardia, incluidos varios modelos de predicción de sitios PPI en tres conjuntos de datos de referencia ampliamente utilizados, incluidos Dset_448, Dset_72 y Dset_164, que demostraron que EDLMPPI es superior a esos modelos de predicción de sitios PPI en casi 10 % en términos de precisión promedio. Además, los análisis biológicos e interpretables proporcionan nuevos conocimientos sobre los mecanismos de identificación y caracterización del sitio de unión a proteínas desde diferentes perspectivas. El servidor web de EDLMPPI está disponible en http://www.edlmppi.top:5002/.

Las interacciones proteína-proteína (PPI) tienen un papel esencial en todos los principales procesos celulares que ayudan a dilucidar la función de la proteína, pero también para interpretar la mayor parte de la biología de las células. En particular, las proteínas clave en estas interacciones de proteínas pueden proporcionar la base para el desarrollo de fármacos terapéuticos dirigidos a las enfermedades relacionadas, y también informar sobre la base molecular subyacente de las enfermedades1. Si bien existen numerosas bases de datos, como BioLip2 y PDB3, disponibles para consultar los sitios de interacción proteína-proteína, parecen abrumadoras debido al creciente número de proteínas que ahora conocen los humanos4. Del mismo modo, los experimentos biológicos para la detección de sitios de unión, como el análisis de dos híbridos y los sistemas de afinidad, consumen mucho tiempo y son costosos5. Para cerrar esta brecha, se han desarrollado muchos métodos computacionales para abordar las interacciones de proteínas y los sitios asociados. En los últimos años, se han propuesto muchos modelos de identificación de sitios de interacción de proteínas basados en el aprendizaje profundo incorporando las potentes capacidades de extracción de características del aprendizaje profundo, lo que ha dado como resultado un salto cualitativo en el rendimiento de la predicción en comparación con el aprendizaje automático tradicional. Por ejemplo, Zeng et al.6 utilizaron TextCNN como un extractor de funciones para aprender funciones utilizando núcleos convolucionales de diferentes tamaños, lo que puede mejorar el rendimiento de la predicción. Xie et al.7 adoptaron una CNN simple para conocer las características locales entre los residuos. Yang et al.8 presentaron una red neuronal profunda con peso compartido local para predecir los sitios de interacción de aminoácidos. Sun et al.9 desarrollaron una arquitectura de aprendizaje profundo basada en redes neuronales residuales para predecir la interacción de aminoácidos en proteínas transmembrana. Zhang et al.10 utilizaron un LSTM simplificado para predecir el PPI, con el objetivo de conocer la información contextual de las características utilizando la capacidad del LSTM para captar el contexto global. Li et al.11 integraron información contextual local y dependencias de largo alcance al incorporar CNN y RNN, lo que mejora el rendimiento del modelo. Desafortunadamente, la mayoría de estos métodos computacionales son muy inestables y poco generalizados, especialmente para estos conjuntos de datos de referencia altamente desequilibrados, lo que implica cierto margen de mejora.

Por otro lado, se ha propuesto una plétora de métodos de codificación de secuencias de proteínas para modelar secuencias de proteínas en una matriz de características. La codificación one-hot de sitios de interacción de proteínas es un método muy eficiente que se ha utilizado en muchos enfoques computacionales10,12. Sin embargo, no pueden expresar con precisión las diferencias funcionales entre los aminoácidos. La matriz de puntuación específica de posición (PSSM) se emplea con frecuencia para tareas de predicción a nivel de secuencia y nivel de residuos para caracterizar la relación entre secuencias y funciones4,6,10,11,13, lo que requiere relativamente mucho tiempo debido al hecho de que PSSM requiere la alineación de secuencias de grandes bases de datos. Recientemente, el desarrollo de modelos de incrustación de palabras en el procesamiento del lenguaje natural ha brindado la posibilidad de abordar la codificación de proteínas. Algunos modelos de incrustación de palabras como Word2Vec14, Doc2Vec15, fastText16 y GloVe17 han sido ampliamente adoptados en el campo de la bioinformática; por ejemplo, Zeng et al.6 codificaron aminoácidos utilizando un modelo de incrustación de palabras estáticas basado en ProtVec18, que mejora la precisión de la predicción de PPI. El iCircRBP-DHN propuesto por Yang et al.19 avanza la precisión de identificación de los sitios de interacción circRNA-RBP por Doc2Vec15. Min et al.20 llevaron a cabo la predicción de la accesibilidad de la cromatina utilizando GloVe17 como método de incrustación de secuencias de genes. Hamid21 usó Word2Vec22 para representar secuencias de proteínas para diferenciar bacteriocinas. Desafortunadamente, tales incrustaciones de vectores de palabras estáticas no capturan bien la asociación entre secuencias y estructuras y descuidan las conexiones potenciales entre contextos de secuencia. Para abordar estas limitaciones, las incrustaciones de palabras dinámicas, representadas por el modelo de representaciones de codificador bidireccional de transformadores (BERT), han demostrado un rendimiento muy bueno en el análisis semántico, capaz de aprender el contexto de secuencia de secuencias de proteínas mediante el entrenamiento previo de corpus sin etiquetar a gran escala en un manera bidireccional23,24,25.

En nuestro estudio, proponemos un método de identificación del sitio de interacción proteína-proteína basado en un modelo de aprendizaje profundo de conjunto (EDLMPPI), como se muestra en la Fig. 1. Sugerimos adoptar ProtT5 basado en la arquitectura del transformador como el extractor de características de aminoácidos, para aprovechar al máximo la asociación contextual global de cada aminoácido, y luego, incorporamos once descriptores de características adicionales para enriquecer aún más la representación de características. En EDLMPPI, la arquitectura de aprendizaje profundo se compone de BiLSTM26 y la red de cápsulas27, donde BiLSTM puede aprender funciones tanto en dirección hacia adelante como hacia atrás de las secuencias de proteínas de manera integral, y la red de cápsulas puede descubrir aún más las correlaciones entre las funciones. Para hacer frente al impacto de los conjuntos de datos desequilibrados, entrenamos múltiples modelos de aprendizaje profundo para formar un aprendizaje profundo conjunto y luego realizar predicciones. Para investigar la efectividad de nuestro EDLMPPI propuesto, realizamos experimentos sobre el mecanismo de red y las partes de extracción de características. Todos los experimentos se basaron en los conjuntos de entrenamiento y prueba descritos en la sección "Métodos". El conjunto de validación se identificó aleatoriamente como el 20% del conjunto de entrenamiento, y también usamos un muestreo aleatorio estratificado para dividir el conjunto de validación para garantizar la consistencia de la distribución de los conjuntos de entrenamiento y validación. Para validar la efectividad de EDLMPPI, lo comparamos con diez modelos diferentes de aprendizaje automático y modelos de aprendizaje profundo en los conjuntos de datos de referencia. Además, también comparamos EDLMPPI con otros modelos de predicción de sitios de PPI y demostramos que EDLMPPI está al frente por un amplio margen, lo que valida la eficiencia de la arquitectura de red y la extracción de características de EDLMPPI. Para explorar la importancia biológica de EDLMPPI, extraemos los dominios estructurales de las secuencias de proteínas. En comparación con otros métodos, los sitios de interacción predichos por EDLMPPI mostraron una mayor correlación con los sitios nativos en el dominio estructural. Además, realizamos un análisis interpretable para demostrar el proceso interno de representación de características de EDLMPPI. Creamos un servidor web para la predicción de EDLMPPI en http://www.edlmppi.top:5002/.

Por un lado, este diseño puede capturar la correlación entre características en ambas direcciones y considera completamente la información contextual. Por otro lado, la cápsula puede retener información clave tanto como sea posible mientras reduce la dimensionalidad de las características, evita la fuga de información y mejora la eficiencia del algoritmo.

En nuestro estudio, adoptamos una estrategia multicanal para formar características combinadas con MBF (características biológicas de múltiples fuentes, incluida la información evolutiva, las propiedades físicas y las propiedades fisicoquímicas de los residuos de proteínas) y ProtT5 como entradas para el modelo, respectivamente. Luego, los dos conjuntos de vectores se concatenaron y normalizaron antes de la capa de clasificación softmax. En MBF, se empleó el mecanismo de ventana deslizante para codificar la información contextual local para cada residuo, lo que puede prevenir eficazmente el sobreajuste y mejorar la generalización del modelo. Además, para un tamaño de ventana de n (n es un número impar), el aminoácido del medio es el aminoácido objetivo que se va a predecir y el paso deslizante es 1. Por lo tanto, primero realizamos un experimento para encontrar la ventana óptima size en MBF evaluando el rendimiento del modelo MBF con diferentes tamaños de ventana del conjunto {5, 11, 15, 21, 25, 33}. Los resultados experimentales de diferentes tamaños de ventana se resumen en la Fig. 2a con Dset_448 como ejemplo. Está claro que el modelo logró el mejor rendimiento medido por varias métricas clave, incluidas AP, AUROC y MCC para un tamaño de ventana de 25. Sin embargo, el rendimiento general del algoritmo disminuyó con un tamaño de ventana de 31, lo que indica que las ventanas más grandes no siempre son mejores. Por lo tanto, en nuestro estudio, elegimos un tamaño de ventana de 25 como tamaño final.

un gráfico de radar de indicadores de evaluación correspondientes a los diferentes tamaños de ventana. b Muestra la comparación de rendimiento de ProtT5, MBF y características combinadas en el clasificador, donde los "valores de métrica de evaluación promedio" se refieren al promedio de las ocho métricas de evaluación (incluidas TPR, TNR, Pre, ACC, F1, MCC, AUROC, y AP) para los diferentes descriptores de características en estos tres conjuntos de datos. c Demostración de la comparación de rendimiento entre la arquitectura EDLMPPI y 10 modelos de aprendizaje automático y modelos de aprendizaje profundo convencionales: EDLMPPI es particularmente fuerte en métricas clave. d Comparación de rendimiento entre diferentes métodos para la resolución de conjuntos de datos de desequilibrio, donde los "Valores de métrica de evaluación promedio" se refieren al promedio de las ocho métricas de evaluación (incluidas TPR, TNR, Pre, ACC, F1, MCC, AUROC y AP) para los diferentes algoritmos en estos tres conjuntos de datos.

Además, para investigar más a fondo la superioridad de nuestro descriptor de funciones propuesto, comparamos las funciones combinadas en EDLMPPI con un solo descriptor de funciones que incluye MBF y ProtT5, respectivamente. Los resultados experimentales se tabulan en la Tabla 1 y la Fig. 2b. Se puede observar que la combinación de las características de MBF y ProtT5 superó en gran medida a los descriptores de características individuales en los tres conjuntos de datos. De hecho, para la métrica de evaluación AP, utilizada con frecuencia para evaluar datos desequilibrados, las funciones combinadas superaron a MBF en los tres conjuntos de datos, respectivamente, y superaron a ProtT5 en un 1,8 %, 3 % y 2,9 %, respectivamente, lo que revela que las funciones combinadas enriquecieron la la expresión de proteínas y mejoró el rendimiento del modelo. Además, al comparar Prot5 y MBF, también se puede revelar que los valores AP de Prot5 funcionan mejor que en esos tres conjuntos de datos y supera a MBF en un 10,7 %, 11,2 % y 8,6 %, respectivamente para AUROC, revelando la efectividad de la palabra dinámica. incrustación en la predicción del sitio de unión proteína-proteína. La razón puede ser que ProtT5 capturó mejor la diferencia entre los aminoácidos (sitios de unión y sitios de no unión) de nuestros datos de entrenamiento etiquetados, mientras que MBF tuvo dificultades para distinguir la especificidad de los aminoácidos en función de la información evolutiva y otras funciones biológicas.

En los últimos años, los modelos de lenguaje basados en la arquitectura Transformer han sido ampliamente utilizados en problemas de predicción de proteínas. El Transformador basado en la autoatención puede calcular directamente la asociación de dos por dos entre los residuos y capturar la interdependencia entre los aminoácidos en diferentes posiciones. Además de ProtT5, se han propuesto varios modelos alternativos de preentrenamiento de proteínas, incluidos ESM-1b28 y ProGen229, para caracterizar las secuencias de proteínas. ESM-1b usa una arquitectura basada en RoBERTa con la base de datos Uniref50 2018_03 como corpus de entrenamiento no supervisado mientras usa la normalización de la capa de preactivación para optimizar los hiperparámetros en el traductor. ProGen2 se amplió a 6400 millones de parámetros y se entrenó en diferentes conjuntos de datos de secuencias con más de 1000 millones de proteínas de bases de datos genómicas, metagenómicas y de repertorio inmunitario. Para una comparación justa, reemplazamos la representación incrustada aprendida por ProtT5 con la representación incrustada aprendida por ESM-1b y ProGen2. Los resultados experimentales se resumen en la Tabla 2. Como se muestra en esta tabla, observamos que ProtT5 es superior a ESM-1b y ProGen2 en AP y AUROC, lo que demuestra que ProtT5 es más adecuado para caracterizar las secuencias de aminoácidos para la unión proteína-proteína. eventos.

Dado que el número de residuos en los sitios de unión es solo una décima parte del número total, estos datos desequilibrados hacen que el entrenamiento del modelo se centre en la clase principal e ignore la clase secundaria, lo que lleva a un sobreajuste del modelo30,31,32. Para abordar este problema, propusimos emplear el aprendizaje profundo de conjunto para abordar la distribución sesgada de categorías de conjuntos de datos desequilibrados. Para investigar el rendimiento del modelo de conjunto, lo comparamos con otros tres algoritmos de procesamiento de datos desequilibrados diferentes, incluido el modelo sensible al costo33, el sobremuestreo aleatorio34 y el submuestreo aleatorio34 en estos tres conjuntos de datos. En detalle, el modelo sensible al costo33 se enfoca en las muestras de categorías optimizando el costo total más bajo de los errores de clasificación. El sobremuestreo34 genera nuevas muestras para las clases infrarrepresentadas mediante un muestreo aleatorio, mientras que el submuestreo34 elimina aleatoriamente las muestras redundantes de la muestra de la clase principal.

Los resultados experimentales se resumen en la Tabla 3 y la Fig. 2d. En general, el modelo de conjunto se desempeñó mejor, obteniendo puntuaciones más altas de MCC, AUROC y AP. En términos de puntajes AP en los tres conjuntos de datos, el algoritmo de aprendizaje de conjunto superó comparativamente a los algoritmos de la competencia con 46,0 %, 33,0 % y 41,3 %, respectivamente, lo que indica un rendimiento de generalización mejorado con el método de embolsado asimétrico. Además, la precisión promedio del método de sobremuestreo en los tres conjuntos de datos fue del 43,9 %, 31,5 % y 40,4 %, respectivamente, que fue menor que el método de aprendizaje por conjuntos, ya que el método de sobremuestreo destruye las dependencias entre características y limita la capacidad del modelo para encontrar correlaciones entre características. Vale la pena señalar que el método de submuestreo se puede considerar como un submodelo del modelo de aprendizaje profundo conjunto, que tiene un retraso de 1,1 % a 3,9 % en los puntajes AUROC y AP en los tres conjuntos de datos en comparación con el método de aprendizaje conjunto.

En resumen, podemos concluir que el método de aprendizaje profundo de conjunto basado en embolsado asimétrico asegura la eficiencia de la ejecución del algoritmo y mejora su rendimiento de identificación, al reducir comparativamente el impacto de los conjuntos de datos desequilibrados.

Para estudiar la efectividad de EDLMPPI, lo comparamos con cinco métodos de aprendizaje automático, incluidos tres métodos de aprendizaje de conjunto (XGBoost35, LightGBM36 y CatBoost37) y otros dos métodos de aprendizaje automático, SGDClassifier (descenso de gradiente estocástico) y MLPClassifier (percepción de múltiples capas). ). La Figura 2c y la Tabla 4 muestran los resultados experimentales de los diferentes algoritmos en los tres conjuntos de datos. A partir de los resultados, vemos que nuestro modelo propuesto tuvo un mejor rendimiento que los otros cinco algoritmos de aprendizaje automático en los tres conjuntos de datos. En particular, en Dset_448, EDLMPPI superó a los métodos de aprendizaje automático en un 2,1-3,4 % en el AUROC promedio y en un 3,0-6,2 % para el AP promedio en los tres conjuntos de datos, lo que indica una gran mejora en la capacidad predictiva de EDLMPPI. Además, dado que EDLMPPI y estos algoritmos de aprendizaje automático adoptan el mismo descriptor de características, observamos a partir de los resultados que el rendimiento integral del método de aprendizaje profundo fue más fuerte que el del aprendizaje automático tradicional, lo que indica que el método de aprendizaje profundo puede explorar el potencial mejor la conexión entre la secuencia de proteínas y la estructura, mejorando así la predicción del rendimiento de los sitios de unión a proteínas, lo que demuestra aún más la eficacia de EDLMPPI.

Para validar la eficacia y la sofisticación de la arquitectura revisada de EDLMPPI, la comparamos con otros cinco modelos de aprendizaje profundo, incluidos TextCNN38, Single-Capsule27, BiLSTM39, BiGRU40 y Multi-Head Attention41 utilizando los mismos descriptores de características. Los resultados experimentales de los diferentes modelos de aprendizaje profundo se representan en la Fig. 2c y la Tabla 4, donde vemos que EDLMPPI se desempeñó comparativamente mejor que los otros modelos de aprendizaje profundo, medido por la métrica de evaluación AP, superando al segundo clasificado Multi-Head- Atención por 1.2%, 2.2% y 1.2% en los tres conjuntos de datos, respectivamente. Además, la vista intuitiva del rendimiento de TextCNN fue más débil que la de varios otros modelos de aprendizaje profundo, lo que es consistente con nuestra expectativa de que la estructura de CNN solo extrajo las características locales, lo que socava la integridad de la incrustación basada en el contexto de Prot5. Además, LSTM y GRU funcionan de manera similar en Dset_448 y Dset_72, pero LSTM funciona mejor que GRU en Dset 164, razón por la cual se eligió LSTM para conocer las dependencias a largo plazo en el modelo final EDLMPPI.

Para probar aún más el avance que trajo EDLMPPI, lo comparamos con diez métodos de predicción de PPI actuales, incluidos SPPIDER42, SPRINT43, PSIVER44, SPRINGS45, LORIS46, CRFPPI47, SSWRF48, DLPred49, SCRIBER13 y DELPHI11. Obtuvimos los puntajes de predicción para cada secuencia de proteína en el conjunto de datos de prueba a través del servidor web o los códigos fuente disponibles de estos algoritmos. Adoptamos TPR, TNR, Pre, ACC, F1, MCC, AUROC y AP como criterios de evaluación y MCC, AUROC y AP como determinantes importantes para evaluar los méritos de los modelos que se utilizan con frecuencia para evaluar datos desequilibrados13. Los resultados de la predicción se resumen en la Tabla 5 y la Fig. 3a.

a Demostración de los resultados de las comparaciones entre EDLMPPI y otros diez métodos competitivos, con los "Valores de métrica de evaluación promedio" referidos al promedio de las ocho métricas de evaluación (incluidas TPR, TNR, Pre, ACC, F1, MCC, AUROC y AP) para los diferentes métodos en estos tres conjuntos de datos. b Una comparación de los PPI pronosticados de EDLMPPI, DELPHI y SCRIBER en comparación con los PPI nativos. Al calcular la proporción de PPI en cada dominio, EDLMPPI y los PPI nativos tienen la correlación más alta.

Vemos que EDLMPPI es mejor que los otros métodos de predicción de PPI para la mayoría de las métricas de evaluación, con AUROC de 82,0 %, 78,8 % y 75,5 % en los tres conjuntos de datos, respectivamente, sustancialmente más altos que el método DELPHI con 73,7 %, 71,1 % y 68,5%, respectivamente. Además, para la precisión promedio (AP), EDLMPPI superó a DELPHI por 12,3 %, 9,3 % y 8,1 % en los tres conjuntos de datos, respectivamente, lo que representa una mejora considerable. La razón parece ser que EDLMPPI puede abordar el problema de la dependencia de largo alcance de aminoácidos basado en el transformador del mecanismo de autoatención, que explora completamente las características contextuales globales y la información semántica, lo que indica que nuestra arquitectura de aprendizaje profundo propuesta proporciona una contribución importante a clasificación precisa. Además, incorporamos características biológicas tradicionales, como la información evolutiva y varias propiedades fisicoquímicas, para superar las posibles deficiencias de ProtT5, mejorando así aún más el rendimiento de la identificación. En particular, EDLMPPI mostró una mayor ventaja en el conjunto de datos Dset_448, comparando secuencias completas, lo que sugiere que nuestro método de extracción de características puede ser mejor y más preciso en la expresión funcional de secuencias de proteínas completas. En general, EDLMPPI ha estado sustancialmente por delante de los métodos existentes y puede usarse como una herramienta complementaria para la anotación del sitio de interacción proteína-proteína.

Los dominios proteicos están estrechamente relacionados con la realización de las funciones fisiológicas de las proteínas y sirven como base estructural para sus funciones celulares50. Para obtener información sobre la posible relación entre los dominios estructurales de las proteínas y los sitios de interacción proteína-proteína, realizamos un experimento para verificar si EDLMPPI predice con precisión los PPI en el dominio de la proteína. Anotamos 448 secuencias de proteínas en el conjunto de datos Dset_448 por Pfam51 para eliminar cualquier dominio estructural superpuesto y finalmente obtuvimos 501 dominios estructurales. La Figura 3b muestra la correspondencia entre los dominios estructurales de cada tamaño y el número de PPI en ellos, mientras comparamos los resultados de predicción de EDLMPPI, DELPHI y SCRIBER13. Además, agregamos un grupo de control para mejorar la racionalidad del experimento: se seleccionó aleatoriamente de la secuencia un fragmento del mismo tamaño que el dominio de la proteína. A partir de los resultados, los resultados de predicción de EDLMPPI fueron más optimistas que los otros dos métodos, con el número de PPI predichos por EDLMPPI aumentando con el crecimiento del dominio estructural. Según un estudio anterior52, las superfamilias de dominios de longitud desviada interactúan mucho, tienen una función más mixta y están reguladas por múltiples proteínas, lo que respalda la plausibilidad de EDLMPPI para predecir la función de la proteína. Además, contamos la proporción de PPI pronosticados estimados por EDLMPPI, DELPHI y SCRIBER para cada dominio estructural y calculamos el coeficiente de correlación de Pearson con el vector de proporción real. EDLMPPI presentó la mayor correlación con las anotaciones nativas con una puntuación de 0,70, mientras que DELPHI, SCRIBER y el grupo control obtuvieron una puntuación de 0,63, 0,57 y 0,21, respectivamente.

Para indicar además que EDLMPPI puede predecir con precisión el rendimiento de los sitios de unión en los dominios de proteínas, seleccionamos tres proteínas enzimáticas con alta actividad catalítica, P19821 - DPO1_THAQ, P9WHH9 - DLDH_MYCTU y P17109 - MEND_ECOLI para demostrar la diferencia en el rendimiento previsto por diferentes métodos. Dado que SCRIBER y DELPHI proporcionaron un mejor rendimiento en la predicción de PPI que otros modelos de predicción de sitio de PPI, empleamos los resultados de predicción de SCRIBER y DELPHI en estas tres especies de secuencias como comparación, y los resultados se muestran en la Tabla 6. Con un dominio estructural de proteína tamaño de 337 en P19821 - DPO1_THAQ, el número real de PPI detectados experimentalmente es 31, y la predicción de EDLMPPI fue 36, más cercana al número real en comparación con SCRIBER y DELPHI. Este desempeño es más evidente en P9WHH9 - DLDH_MYCTU y P17109 - MEND_ECOLI, donde el número de PPI predicho por EDLMPPI difiere del valor real en solo 1 o 2, lo que indica la efectividad de EDLMPPI para predecir los sitios de unión de los dominios estructurales de proteínas y también para validar nuestra conclusión anterior de que EDLMPPI puede proporcionar más sitios de unión en los dominios estructurales de las proteínas.

Para investigar la efectividad de la arquitectura EDLMPPI, extrajimos los resultados de la capa intermedia del modelo en varias etapas y los mapeamos en un espacio bidimensional para la agrupación, como se muestra en la Fig. 4a. Vemos que la incrustación original se distribuyó al azar, mientras que después de la capa BiLSTM, se puede ver un efecto de agrupación más evidente. La capa de la cápsula conservó aún más las características de clasificación clave, y los sitios de unión y no unión aparecieron como grupos separados. Finalmente, después de la función softmax, se logró una identificación precisa.

a El diagrama de flujo t-SNE muestra el efecto de agrupamiento de la salida de las diferentes capas intermedias de la arquitectura EDLMPPI. b Las 20 características que tienen mayor impacto en la identificación de los IBP, revelando cómo actúan para predecir sitios de no unión y sitios de unión, respectivamente. c Los diagramas esquemáticos muestran la interacción entre la función 1024 y otras funciones, y la interacción entre la función 569 y otras funciones, respectivamente. d Un diagrama apilado que muestra el efecto de cada característica en cada muestra.

Además, exploramos las contribuciones de diferentes características al reconocimiento del sitio de unión proteína-proteína y la relación de interacción. La Figura 4b muestra las 20 características que tienen el mayor impacto en la identificación de PPI y revela cómo actúan en la predicción de los sitios de unión y de no unión, respectivamente. El color rojo representa valores de características más altos, mientras que el azul representa valores de características más bajos. Tomando las características 1027 y 33 como ejemplos, la característica superior 1027 tiende a clasificar las muestras como sitios vinculantes mientras que la característica superior 33 es más probable que clasifique las muestras como sitios no vinculantes. En comparación con el impacto de una sola función en el modelo, la interacción de las funciones fue más importante. La figura 4c muestra cómo la función 1027 y la función 569 interactúan con las otras funciones. Notamos que la Característica 1027 no tuvo una interacción significativa con las otras características, lo cual es consistente con nuestra opinión de que la Característica 1027 representa accesibilidad solvente y está codificada como un vector de longitud 1, sin demasiada dependencia de las otras características. Por otro lado, se mostró una fuerte correlación entre las características 569 y 72, y el efecto de la característica 72 en la clasificación se debilitó con valores más bajos de la característica 569. Esto se debe al hecho de que ProtT5 contiene dependencia del contexto global y la expresión de características se basa en la acción conjunta con otras características, lo que valida aún más la eficacia de ProtT5. La Figura 4d es un diagrama apilado que muestra el efecto de cada característica en cada muestra, lo que nos permite observar qué características afectan la identificación de una muestra.

Para obtener una comprensión más profunda del funcionamiento de EDLMPPI, investigamos la confiabilidad del proceso interno de incrustación de ProtT5. Primero, seleccionamos una secuencia de proteína completa y la codificamos usando ProtT5. Para cada vector de incrustación de aminoácidos, aplicamos el coeficiente de correlación de Pearson para describir la correlación entre los residuos. Los resultados se muestran en la Fig. 5a, donde vemos que cada aminoácido siempre tuvo una fuerte correlación con el aminoácido más cercano, pero a medida que la distancia aumenta, ProtT5 aún podría capturar una asociación entre aminoácidos, lo que implica que ProtT5 balanceó las influencias locales y la dependencia a largo plazo. Para profundizar en el proceso, aplicamos Bertviz53 para visualizar cada cabeza de atención y cada capa en ProtT5, y los resultados se muestran en la Fig. 5b, c, donde los diferentes colores representan las diferentes cabezas de atención y la saturación de las líneas representa la atención. puntuaciones. La figura 5b(a) muestra la primera capa de atención en todas las cabezas de atención, que se parece más o menos a una conexión completa, lo que implica que para cada residuo, todas las cabezas de atención intentaron encontrar la asociación con el objetivo de los otros residuos. El actúa como un separador de secuencias que llama la atención de todos los residuos, lo que indica que para ProtT5, la identidad general de una secuencia está determinada por todos los aminoácidos juntos. Además, la Fig. 5b (d) muestra claramente el flujo de aminoácidos objetivo en las diferentes cabezas de atención, lo que verifica nuestra afirmación anterior de que una mayor atención se ve con mayor proximidad. Además, la Fig. 5c visualiza la evolución de cada cabeza de atención en las diferentes capas, a medida que las capas se profundizaban, el patrón de atención pasó de centrarse en la asociación entre diferentes aminoácidos a transmitir la expresión de las secuencias de aminoácidos. En resumen, ProtT5 puede explorar la conexión entre la estructura a nivel de proteína y su función de local a global, proporcionando una interpretación razonable de que EDLMPPI predice de manera efectiva los sitios de unión de interacción proteína-proteína.

un mapa de calor de correlación de cada residuo bajo la incrustación de ProtT5. b Vista de atención con diferentes capas y diferentes cabezas de atención. c Vista de flujo de atención entre diferentes capas, con cada color representando una capa diferente.

Para facilitar el uso de los investigadores y mejorar nuestro modelo y acelerar el progreso en la predicción del sitio de unión a proteínas, hemos desarrollado un servidor web de predicción en línea EDLMPPI totalmente funcional para PPI, que está disponible en http://www.edlmppi.top:5002/. Dados los recursos computacionales limitados y la gran capacidad computacional de ProtT5, guiamos pacientemente a los usuarios sobre cómo configurar el entorno ProtT5 en su entorno local, descargar el modelo y extraer características en varios escenarios. Además, el servidor de predicción en línea también alienta a los usuarios a cargar las funciones extraídas de ProtT5 directamente en el servidor EDLMPPI, de modo que podamos devolver los resultados de la predicción por correo electrónico con una interpretación de los resultados. Además, hemos sincronizado código y datos de código abierto en GitHub, al que se puede acceder en https://github.com/houzl3416/EDLMPPI.git.

La Figura complementaria 1 resume los módulos principales y la Figura complementaria 1a ilustra la interfaz principal, que incluye tres formas de obtener ProtT5: extrayéndolo en su dispositivo, extrayéndolo en Colab o descargando el archivo que proporcionamos. La figura complementaria 1b muestra el módulo de predicción: una vez que se cargan las características de ProtT5, el servidor puede enviar los resultados de la predicción al correo electrónico del usuario automáticamente. Finalmente, está el módulo descargable que se muestra en la Figura complementaria 1c, donde los usuarios pueden hacer clic directamente en los enlaces para descargar conjuntos de datos y modelos de manera rápida.

En este estudio, proponemos un método de predicción del sitio de interacción proteína-proteína basado en modelos de aprendizaje profundo de conjunto, llamado EDLMPPI, EDLMPPI adapta el modelo dinámico de incrustación de palabras basado en la arquitectura del transformador para el estudio de los sitios de interacción proteína-proteína y utiliza ProtT5 para capturar el información contextual y posicional entre residuos, al tiempo que integra once características biológicas de múltiples fuentes para enriquecer aún más la representación de características. Mientras tanto, desarrollamos un modelo de aprendizaje profundo integrado multicanal que captura tanto la dependencia del contexto local como la dependencia del contexto global de las secuencias de proteínas y resuelve de manera efectiva el problema del desequilibrio de datos.

Para demostrar la eficacia del EDLMPPI, lo comparamos con diez modelos tradicionales diferentes de aprendizaje automático y aprendizaje profundo en tres conjuntos de datos de referencia ampliamente utilizados. Además, comparamos EDLMPPI con otros modelos de predicción de sitios web de PPI y el rendimiento predictivo de EDLMPPI mejora la predicción sobre estos modelos. Además, en la predicción de PPI en dominios estructurales de proteínas, EDLMPPI muestra resultados biológicamente más consistentes, lo que indica que EDLMPPI tiene la capacidad para ciertos análisis biológicos y puede usarse para guiar a los biólogos para realizar experimentos específicos en proteínas. Mientras tanto, el análisis de interpretabilidad demuestra plenamente la visión interna del modelo EDLMPPI, lo que mejora aún más la racionalidad del modelo.

Además, el lanzamiento del servidor web de predicción en línea EDLMPPI proporciona una guía detallada sobre el entrenamiento y la predicción de modelos, lo que garantiza que los resultados de nuestros experimentos sean repetibles y operativos. El código y los datos también son de código abierto en https://github.com/houzl3416/EDLMPPI.git.

En resumen, EDLMPPI es una herramienta de predicción de sitios de interacción proteína-proteína muy competitiva con las ventajas de una alta eficiencia y precisión, demostrando una nueva alternativa para la identificación de sitios de interacción de proteínas. Proporciona nuevas ideas y conocimientos sobre la tarea de predicción del sitio de interacción proteína-proteína y también puede servir como un asistente importante para que los biólogos implementen de manera efectiva la predicción de PPI y el trabajo de análisis posterior. El lanzamiento del servidor web también facilita enormemente el trabajo de otros investigadores para mejorar nuestro modelo y lograr resultados de predicción más efectivos. En el futuro, incorporaremos otros modelos dinámicos de incrustación de palabras en nuestro modelo propuesto y los adaptaremos a otros problemas de identificación de proteínas relevantes.

Para los conjuntos de datos, recopilamos tres conjuntos de datos de referencia ampliamente utilizados, Dset_18654, Dset_7254 y Dset_16455. Dset_186 se construyó a partir de la base de datos PDB3 y contiene 186 secuencias de proteínas con una resolución de <3,0 Å y una homología de secuencia <25 %. Este conjunto de datos se refinó en varios pasos, incluida la eliminación de cadenas con accesiones UniprotKB/Swiss-Prot idénticas, la eliminación de proteínas transmembrana, la eliminación de estructuras diméricas, la eliminación de proteínas con accesibilidad a la superficie y polaridad interfacial ocultas dentro de un cierto rango. y la eliminación de similitudes. Dset_72 y Dset_164 se construyeron de la misma manera que Dset_186 y constan de 72 y 186 secuencias de proteínas, respectivamente.

Además, Dset_1291 es un conjunto de datos de la base de datos BioLip, donde se define un sitio de unión si la distancia entre un átomo de un residuo y un átomo de una proteína asociada determinada es 0,5 Å más la suma de los radios de van der Waals de los dos átomos13. Zhang et al.13 eliminaron las proteínas fragmentadas y luego transfirieron la anotación de los residuos unidos a la misma secuencia UniProt. Por lo tanto, la similitud entre las secuencias se redujo a menos del 25 % con el método Blast-Clust. Finalmente, se utilizó Dset_843 (843 secuencias de Dset_1291) para entrenar nuestro modelo, mientras que las 448 secuencias restantes (Dset_448) se emplearon como conjunto de prueba independiente.

Usando estos conjuntos de datos, construimos los conjuntos de entrenamiento y prueba. Como Dset_843 y Dset_448 consisten completamente en secuencias de proteínas de longitud completa, mientras que Dset_71, Dset_186 y Dset_164 están compuestos por secuencias fragmentadas; para mejorar la generalización del modelo, seleccionamos Dset_843 y Dset_186 que representan dos tipos diferentes de conjuntos de datos como nuestros conjuntos de datos de entrenamiento, respectivamente. Luego, Dset_448, Dset_72 y Dset_164 se usaron como conjuntos de prueba independientes para probar el rendimiento de los diferentes modelos de predicción de sitios de PPI. Además, para reducir la similitud entre los conjuntos de entrenamiento y prueba, realizamos la eliminación de redundancia de coherencia entre ellos mediante el procedimiento PSI-BlAST56 para garantizar que la similitud fuera inferior al 25 %. La Tabla complementaria 1 resume la cantidad de residuos de proteínas y la proporción de sitios de unión en cada conjunto de datos, donde es fácil ver que la distribución de los conjuntos de datos está relativamente desequilibrada, con muestras positivas que representan solo el 10-18% del tamaño total de la muestra. , lo que plantea un desafío para la generalización del modelo.

Para explorar completamente las características estructurales de los sitios de interacción proteína-proteína, se extraen de las secuencias de proteínas varias características, incluida la información contextual global dinámica y las características biológicas de múltiples fuentes, de la siguiente manera.

Debido al alto costo de los experimentos biológicos tradicionales y la baja capacidad de algunas técnicas basadas en el aprendizaje profundo, presentamos el ProtT524 basado en la incrustación de palabras dinámicas para representar la información de expresión característica de las proteínas para obtener la información sensible al contexto global entre las diferentes secuencias. y aminoácidos, que ya ha demostrado ser un método eficaz experimentalmente. Específicamente, ProtT5 se emplea para generar incrustaciones contextuales globales. De hecho, ProtT5 aprende una codificación posicional para cada cabeza de atención en la arquitectura del transformador y la comparte en todos los niveles. En ProtT5, el corpus de entrenamiento es Uniref50, que contiene 45 millones de secuencias de proteínas compuestas por 15 mil millones de aminoácidos. Un conjunto de entrenamiento tan grande garantiza que ProtT5 capturará las conexiones estructurales y funcionales entre diferentes tipos o razas de proteínas.

ProtT5 primero mapea cada aminoácido en un vector de longitud fija por medio de una capa de incrustación, además, la incrustación de posición en ProtT5 se emplea para codificar la información de posición relativa de cada aminoácido en la secuencia de proteína correspondiente, y se introdujo la incrustación de segmento distinguir las diferentes secuencias de proteínas. La suma de la incrustación de tokens, la incrustación de segmentación y la incrustación de posición proporciona no solo un mapeo no contextual de aminoácidos al espacio subyacente, sino que también amplía las dependencias de aminoácidos en cada secuencia de proteínas y las asociaciones contextuales entre diferentes secuencias de proteínas, que pueden definirse como sigue:

donde Wtok, Wseg y Wpos son las matrices de parámetros correspondientes a entrenar. Después de eso, la incrustación dinámica de palabras, aprendida del mecanismo de autoatención de múltiples cabezas en la arquitectura del transformador, se usa para correlacionar los aminoácidos relevantes en la secuencia de proteínas, que se puede calcular a través de la siguiente fórmula:

donde Q(Consulta), K(Clave), V(Valor) se obtienen a través de m transformaciones lineales, que se utilizan para almacenar todas las incrustaciones de palabras. Zi representa la atención de cada cabeza de atención, que se calcula mediante la transformación lineal de un conjunto de Q, K, V.

De hecho, la pila de atención de ProtT5 consta de 24 capas, cada capa contiene 32 cabezas de atención y el tamaño de la capa oculta es 1024. Este modo apilado es lo que permite que cada capa opere en la salida de la capa anterior. A través de una combinación tan repetida de incrustación de palabras, ProtT5 puede formar una representación muy rica a medida que alcanza la capa más profunda del modelo23. Por lo tanto, en nuestro estudio, extraemos la incrustación de la última capa de la pila de atención en nuestra representación de funciones.

Además, para mejorar el rendimiento de la predicción, accedimos a la información evolutiva, las propiedades físicas y las propiedades fisicoquímicas de los residuos de proteínas para enriquecer la expresión de características.

(1) Matriz de puntuación específica de posición (PSSM): PSSM proporciona una forma flexible de representar la especificidad de las interacciones de residuos, que describe la conservación evolutiva de las posiciones de residuos. Se puede describir de la siguiente manera:

donde pa y pb representan la probabilidad de observar los aminoácidos a y b, respectivamente, y M(a, b) es la puntuación de probabilidad de una mutación. Elegimos Uniref90 como la base de datos de comparación, establecimos el número de iteraciones en tres y establecimos el valor de umbral en 0.001 por PSI-BLAST.

(2) Características físicas: las características físicas son el índice de gráfico, la tasa de polarización, el volumen de van der Waals normalizado, la hidrofobicidad, el punto isoeléctrico, la probabilidad de espiral y la probabilidad de hoja. Los mismos cálculos se realizan utilizando los valores informados en la ref. 57 para obtener un vector de 7 dimensiones para cada aminoácido.

(3) Propiedades fisicoquímicas: Para expresar con precisión las diferencias y conexiones entre diferentes residuos, introducimos las propiedades fisicoquímicas de los aminoácidos. Las características fisicoquímicas de un residuo se describen mediante tres valores: el número de átomos, el número de cargas electrostáticas y el número de enlaces de hidrógeno potenciales. Estos valores solo están relacionados con el tipo de aminoácido y no contienen ninguna información estructural del residuo de aminoácido.

Para capturar la información crucial en los esquemas de características híbridas de manera más eficiente, desarrollamos la red de cápsulas de memoria profunda de conjunto (EDMCN) para maximizar el rendimiento de aprendizaje de características de la identificación del sitio de interacción proteína-proteína, como se muestra en la Fig. 1. Las redes de cápsulas de memoria profunda se expanden el paralelismo de las redes de memoria tradicionales al vincularlas con diferentes tamaños de salida para capturar la correlación entre aminoácidos en diferentes escalas de profundidad. Además, la estructura de la cápsula puede explorar aún más las conexiones intrínsecas entre las características y retener la información de ubicación entre las muestras. Además, para promover la generalización y la estabilidad del modelo, introdujimos un algoritmo de embolsado asimétrico para resolver el alto desequilibrio entre muestras.

Las redes de memoria tradicionales como LSTM39, GRU40, etc. han logrado buenos resultados en la organización del contexto de características para la predicción. Sin embargo, estos modelos son sensibles a los parámetros, lo que afecta en gran medida la estabilidad de la predicción. Para abordar esto, desarrollamos una red de memoria profunda para mejorar el rendimiento de generalización del modelo. La idea central de las redes de memoria profunda es conectar múltiples redes de memoria con diferentes escalas de salida para capturar la correlación entre los residuos de manera multiescala. Formalmente, controla principalmente el flujo de información de proteínas a través de tres puertas (puerta de entrada (i), puerta de olvido (f) y puerta de salida (o)), incluido cuándo recordar, actualizar y utilizar la información. La puerta de olvido funciona aceptando una memoria a largo plazo Mt−1 y decidiendo qué partes conservar o descartar. En un paso de tiempo t, la puerta de olvido primero calcula el factor de olvido ft del estado oculto anterior ht−1 y la información de entrada actual mt:

donde σ es la función logística sigmoidea. La puerta de entrada controla principalmente qué corrientes de entrada mt pueden pasar a través de la celda de memoria, primero generando una señal de control para controlar la tasa rt de flujo de entrada:

Luego, la puerta de entrada genera celdas de memoria candidatas \(\widetilde{{M}_{t}}\) y calcula la información de la memoria que finalmente pasa a través de la puerta de entrada en función del rt previamente resuelto:

Finalmente, la puerta de salida filtra mt generando la señal de control gt para obtener la salida Ot:

La red de memoria profunda captura efectivamente las dependencias contextuales globales entre las características, sin embargo, tiende a debilitar las fuertes correlaciones entre las características locales y pierde información topológica sobre los tipos de características. Para resolver este problema, presentamos la red de cápsulas27. Intuitivamente, la red de cápsulas contiene una parte de red convolucional junto con neuronas llamadas cápsulas, que deciden su percepción de las características, no solo reflejadas en la importancia de las características sino también en los diversos estados de las características, incluida su información de ubicación. De esta manera, la red de cápsulas puede capturar de manera efectiva las asociaciones potenciales entre características para nuestros métodos de descripción de características altamente dependientes del contexto.

La estructura de las neuronas de la cápsula en una red de cápsula se muestra en la Fig. 1. En una red de cápsula, las neuronas de la cápsula están conectadas de manera similar a una conexión completa, para la capa actual de cápsulas c1, c2, …, ci, el La relación de posición entre las características locales y globales se aprende a través de la transformación de pose (traslación, rotación, deflación):

donde Wij es la matriz de pesos. Luego, multiplicamos cada vector transformado por un coeficiente de acoplamiento oij y lo pasamos a la siguiente capa de cápsulas, y sumamos todas las señales neuronales recibidas por la j-ésima cápsula de la siguiente capa:

y el oij se puede calcular de la siguiente manera:

donde bij es la probabilidad previa logarítmica de si dos cápsulas están conectadas. Similar a sigmoid, se emplea una función de activación no lineal llamada squash27 para mapear vectores a [0, 1], y la salida de cápsula vj de esta capa se puede calcular de la siguiente manera:

Para mejorar aún más la estabilidad y el rendimiento de generalización de nuestro modelo propuesto, se aplica un método de aprendizaje de conjuntos basado en el algoritmo de embolsado asimétrico58 para lidiar con la distribución sesgada de categorías en conjuntos de datos desequilibrados. El embolsado es uno de los métodos de aprendizaje de conjuntos predominantes59, que puede integrar los resultados de predicción de múltiples clasificadores diferentes y luego usar el principio de votación para determinar la clase de las muestras en la fase de decisión, con el objetivo de reducir la varianza y promover el rendimiento de generalización del modelo. . De hecho, el principio de reducción de la varianza por embolsado está representado por la siguiente ecuación:

donde X representa una muestra independiente, Var(X) es la varianza y E(X) representa la media de la muestra X. Entonces, se puede ver que suponiendo que hay n modelos independientes con una distribución idéntica y la varianza de cada modelo es σ2, la varianza del modelo de conjunto se puede deducir de las Ecs. (16) y (17) como σ2/n. El embolsado se muestrea con muestreo de devolución para que haya muestras duplicadas entre conjuntos de datos, violando así la suposición de independencia en la ecuación. (18). En este caso, la varianza del modelo de conjunto basada en el coeficiente de correlación rho entre los modelos individuales se puede expresar de la siguiente manera:

En virtud de eso, a medida que aumenta el número de clasificadores o disminuye la correlación entre modelos individuales, la varianza del modelo de conjunto disminuye aún más. Motivados por las observaciones anteriores, propusimos emplear el algoritmo de embolsado asimétrico para lograr este objetivo. Para el conjunto de datos S, en cada iteración, mantenemos todas las muestras de sitios de unión a proteínas como Sp y separamos un subconjunto \({S}_{n}^{{\prime} }\) con la misma escala que Sp de las muestras Sn de sitios de no unión. Este paso se repite para el muestreo sin reemplazo hasta que el proceso de entrenamiento cubra todas las muestras y, finalmente, se pueden obtener múltiples clasificadores. Después de eso, sumamos los valores softmax obtenidos por estos clasificadores múltiples para cada muestra para tomar la decisión final de identificación. Sobre esta base, el embolsado asimétrico puede garantizar adecuadamente una distribución de clase equilibrada de los datos de entrada para cada modelo y mantener la correlación entre los modelos individuales lo más baja posible. Vale la pena mencionar que aunque los modelos de conjuntos pueden aumentar la complejidad computacional, la viabilidad del paralelismo en el embolsado asimétrico puede reducir efectivamente el tiempo de ejecución con suficientes recursos computacionales.

Para demostrar la efectividad de nuestro EDLMPPI propuesto, lo comparamos con varios métodos tradicionales de aprendizaje automático y métodos de aprendizaje profundo. En la siguiente sección, presentamos los detalles de la configuración de parámetros de estos algoritmos.

Para EDLMPPI, usamos la función tanh como función de activación y adoptamos el inicializador Glorot con una distribución uniforme para inicializar los pesos para la parte BiLSTM. Luego, para el número de neuronas en la capa oculta, fijamos un conjunto de valores candidatos [32, 64, 128, 256]. Para la red de cápsulas, los principales hiperparámetros son el número de cápsulas neuronales y la dimensionalidad de cada vector neuronal, para lo cual establecemos un grupo de valores candidatos [32, 64, 128, 256] y [3, 5, 7, 10] , respectivamente. Para obtener los mejores hiperparámetros, optimizamos los tres conjuntos de valores candidatos anteriores mediante el método de búsqueda de cuadrícula en Tensorflow 2.5.0 y Keras 2.4.3. Las épocas se establecen en 100 y se aplica el mecanismo de parada anticipada para evitar el sobreajuste del algoritmo propuesto.

Para realizar una comparación justa con otros algoritmos de aprendizaje profundo, incluidos TextCNN38, Single-Capsule27, BiLSTM39, BiGRU40 y MultiHead Attention41, para realizar una comparación justa, los métodos de optimización de hiperparámetros utilizaron los mismos principios que EDLMPPI; también adoptamos las mismas reglas del método de optimización de hiperparámetros que para EDLMPPI, utilizando un procedimiento de búsqueda en cuadrícula para seleccionar hiperparámetros razonables. Para TextCNN, las configuraciones de prueba para diferentes combinaciones de núcleos convolucionales de diferentes tamaños fueron {{1, 3, 5, 7}, {7, 9, 11, 13}, {4, 5, 6, 7}, {7, 8, 9, 10}}, donde el número de filtros para cada combinación se elige entre 16, 32, 64, 128, respectivamente. El número de celdas de capa oculta de BiLSTM y BiGRU se elige entre {32, 64, 128}. En la red de cápsulas, los valores candidatos para el número de cápsulas neurales y la dimensionalidad de cada vector neuronal son {32, 64, 128, 256} y {3, 5, 7, 10}, respectivamente. Finalmente, la red de atención Multi-Head selecciona el número de cabezas de atención de {4, 8, 16, 32}.

Los métodos de aprendizaje automático contienen tres métodos de aprendizaje de conjuntos (XGBoost35, LightGBM36 y CatBoost37), SGDClassifier (descenso de gradiente estocástico) y MLPClassifier (perceptrón multicapa), que se encuentran bajo el paquete de dependencia scikit-learn60 en el entorno de Python. XGBoost adopta una estrategia de construcción de árboles de decisión por niveles, LightGBM usa una estrategia de construcción por hojas y CatBoost aplica una estructura de árbol simétrica con árboles de decisión binarios completos. El SGDClassifier es un modelo de aprendizaje de descenso de gradiente estocástico con un método lineal regularizado. El gradiente de pérdida se estima para cada muestra a la vez, y el modelo se actualiza en el proceso mediante un programa de disminución de la intensidad. MLP es una red neuronal artificial estructurada hacia adelante, que puede resolver problemas complejos rápidamente. El procedimiento de búsqueda en cuadrícula también se realiza para encontrar los hiperparámetros óptimos para estos cinco clasificadores. Los parámetros candidatos y las combinaciones óptimas de parámetros se resumen en la Tabla complementaria 2.

Para evaluar el rendimiento de diferentes métodos computacionales, utilizamos la sensibilidad (TPR), la especificidad (TNR), la precisión (Pre), la exactitud (ACC), la puntuación F1 (F1), el coeficiente de correlación de Matthews (MCC), el área bajo el la curva característica operativa del receptor (AUROC) y la precisión promedio (AP) como criterios de medición, que se pueden formular de la siguiente manera:

donde los verdaderos positivos (TP) y los falsos positivos (FP) representan el número de sitios de unión pronosticados correctamente y sitios de unión pronosticados incorrectamente, respectivamente. Los verdaderos negativos (TN) y los falsos negativos (FN) representan el número de sitios no vinculantes predichos correctamente y sitios no vinculantes pronosticados incorrectamente, respectivamente. TPR describe la proporción de sitios de unión predichos correctamente en todas las muestras positivas, TNR indica la proporción de sitios de no unión predichos correctamente en el total de muestras negativas y Pre representa la probabilidad de predicción correcta en todas las muestras con sitios de unión predichos.

En datos desequilibrados, dado que ACC no puede capturar con precisión las fortalezas del modelo, adoptamos ACC como una métrica adicional para la evaluación. Además, se calculan otras dos métricas, AUROC y AP, relacionadas con la probabilidad prevista de cada aminoácido para medir los datos desequilibrados. AUROC no se ve afectado por el desequilibrio de la muestra y puede medir con precisión el rendimiento del modelo en datos desequilibrados61. AP es un promedio ponderado de la precisión de cada umbral en el conjunto de datos, con el cambio en la recuperación como el peso, que se puede definir de la siguiente manera:

donde Rn y Pn son la recuperación y la precisión en el umbral n-ésimo.

Los análisis estadísticos de los datos se realizaron utilizando el paquete de software Python. Utilizamos el algoritmo de embolsado asimétrico para centrarnos en el desequilibrio de los datos para reducir su impacto en los resultados experimentales. La reproducibilidad de los experimentos se aseguró realizando un mínimo de tres réplicas independientes para cada condición. Diferentes investigadores realizaron réplicas, y los datos se combinaron y analizaron utilizando pruebas estadísticas apropiadas. En general, nuestros experimentos fueron diseñados para ser altamente reproducibles. Todos los materiales y procedimientos se describieron claramente en la sección de métodos, y los datos se recopilaron y analizaron cuidadosamente utilizando métodos estadísticos estándar. Creemos que estas medidas han aumentado la fiabilidad y la reproducibilidad de nuestros resultados.

Más información sobre el diseño de la investigación está disponible en el Resumen de informes de Nature Portfolio vinculado a este artículo.

Recopilamos cuatro conjuntos de datos de referencia ampliamente utilizados, Dset_186, Dset_72, Dset_164 y Dset_1291. Dset_186, Dset_72 y Dset_164 se construyeron a partir de la base de datos PDB y contienen 422 secuencias de proteínas con una resolución de <3,0 Å y una homología de secuencia <25 %. Dset_1291 es un conjunto de datos de la base de datos BioLip, donde se define un sitio de unión si la distancia entre un átomo de un residuo y un átomo de una proteína asociada determinada es 0,5 Å más la suma de los radios de van der Waals de los dos átomos. Todos los conjuntos de datos están disponibles para descargar en http://www.edlmppi.top:5002/ o https://github.com/houzl3416/EDLMPPI.git. Además, los datos de origen numéricos para gráficos y cuadros se pueden descargar en https://doi.org/10.6084/m9.figshare.21778913.v1.

Todo el código está disponible en https://github.com/houzl3416/EDLMPPI.git.

Titeca, K., Lemmens, I., Tavernier, J. & Eyckerman, S. Descubriendo las interacciones proteína-proteína celular: estrategias y oportunidades tecnológicas. espectro de masas. Rev. 38, 79–111 (2019).

Artículo CAS Google Académico

Yang, J., Roy, A. y Zhang, Y. BioLiP: una base de datos curada semimanualmente para interacciones ligando-proteína biológicamente relevantes. Ácidos Nucleicos Res. 41, D1096–D1103 (2012).

Artículo Google Académico

Berman, HM et al. El banco de datos de proteínas. Ácidos Nucleicos Res. 28, 235–242 (2000).

Artículo CAS Google Académico

Zhang, J. & Kurgan, L. Revisión y evaluación comparativa de predictores basados en secuencias de residuos de unión a proteínas. Breve. Bioinforma. 19, 821–837 (2018).

Artículo Google Académico

Drewes, G. & Bouwmeester, T. Enfoques globales de las interacciones proteína-proteína. actual Opinión Biol celular. 15, 199–205 (2003).

Artículo CAS Google Académico

Zeng, M. et al. Predicción del sitio de interacción proteína-proteína mediante la combinación de características locales y globales con redes neuronales profundas. Bioinformática 36, 1114–1120 (2020).

CAS Google Académico

Xie, Z., Deng, X. & Shu, K. Predicción de sitios de interacción proteína-proteína utilizando redes neuronales convolucionales y conjuntos de datos mejorados. En t. J. Mol. ciencia 21, 467 (2020).

Artículo CAS Google Académico

Yang, L., Han, Y., Zhang, H., Li, W. y Dai, Y. Predicción de las interacciones proteína-proteína con el mecanismo local de reparto de peso en el aprendizaje profundo. Res. biomédica. En t. 2020, 1–11 (2020).

CAS Google Académico

Sun, J. & Frishman, D. Predicción mejorada basada en secuencias de sitios de interacción en proteínas transmembrana α-helicoidales mediante aprendizaje profundo. computar Estructura. Biotecnología. J. 19, 1512-1530 (2021).

Artículo CAS Google Académico

Zhang, B., Li, J., Quan, L., Chen, Y. & Lü, Q. Predicción basada en secuencias de sitios de interacción proteína-proteína mediante una red de memoria a corto plazo simplificada. Neurocomputación 357, 86–100 (2019).

Artículo Google Académico

Li, Y., Golding, GB e Ilie, L. Delphi: modelo preciso de conjunto profundo para la predicción de sitios de interacción de proteínas. Bioinformática 37, 896–904 (2021).

Artículo CAS Google Académico

CAS Google Académico

Zhang, J. & Kurgan, L. Scriber: predicción precisa y específica del tipo de socio de residuos de unión a proteínas de secuencias de proteínas. Bioinformática 35, i343–i353 (2019).

Artículo CAS Google Académico

Mikolov, T., Chen, K., Corrado, G. & Dean, J. Estimación eficiente de las representaciones de palabras en el espacio vectorial. Preimpresión en https://arxiv.org/abs/1301.3781 (2013).

Le, Q. & Mikolov, T. Representaciones distribuidas de sentencias y documentos. en Conferencia Internacional sobre Aprendizaje Automático 1188–1196 (PMLR, 2014).

Joulin, A., Grave, E., Bojanowski, P. & Mikolov, T. Bolsa de trucos para una clasificación de texto eficiente. Preimpresión en https://archives.org/abs/1607.01759 (2016).

Pennington, J., Socher, R. & Manning, CD Glove: Vectores globales para la representación de palabras. en Actas de la Conferencia de 2014 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP) 1532–1543 (2014).

Asgari, E. & Mofrad, MR Representación distribuida continua de secuencias biológicas para genómica y proteómica profunda. PLoS ONE 10, e0141287 (2015).

Artículo Google Académico

Yang, Y., Hou, Z., Ma, Z., Li, X. y Wong, K.-C. iCircRBP-DHN: identificación de sitios de interacción circRNA-RBP utilizando una red jerárquica profunda. Breve. Bioinforma. 22, bbaa274 (2021).

Artículo Google Académico

Min, X., Zeng, W., Chen, N., Chen, T. & Jiang, R. Predicción de accesibilidad a la cromatina a través de redes convolucionales de memoria a largo plazo con incrustación de k-mer. Bioinformática 33, i92–i101 (2017).

Artículo CAS Google Académico

Hamid, M.-N. & Friedberg, I. Identificación de péptidos antimicrobianos mediante la incrustación de palabras con redes neuronales recurrentes profundas. Bioinformática 35, 2009–2016 (2019).

Artículo CAS Google Académico

Mikolov, T., Sutskever, I., Kai, C., Corrado, G. & Dean, J. Representaciones distribuidas de palabras y frases y su composicionalidad. en Avances en Sistemas de Procesamiento de Información Neural (2013).

Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. Bert: Entrenamiento previo de transformadores bidireccionales profundos para la comprensión del lenguaje. Preimpresión en https://arxiv.org/abs/1810.04805 (2018).

Elnaggar, A. et al. Prottrans: hacia el descifrado del código del lenguaje de la vida a través del aprendizaje profundo autosupervisado y la computación de alto rendimiento. en IEEE Transactions on Pattern Analysis and Machine Intelligence (2021).

Heinzinger, M. et al. Modelado de aspectos del lenguaje de la vida a través de secuencias de proteínas de aprendizaje por transferencia. BMC Bioinforma. 20, 1–17 (2019).

Artículo Google Académico

Schuster, M. & Paliwal, KK Redes neuronales recurrentes bidireccionales. Trans. IEEE. Proceso de señal. 45, 2673–2681 (1997).

Artículo Google Académico

Sabour, S., Frosst, N. & Hinton, GE Enrutamiento dinámico entre cápsulas. en Avances en Sistemas de Procesamiento de Información Neural 30 (2017).

Rives, A. et al. La estructura y la función biológica surgen de escalar el aprendizaje no supervisado a 250 millones de secuencias de proteínas. proc. Academia Nacional. ciencia EE. UU. 118, e2016239118 (2021).

Artículo CAS Google Académico

Nijkamp, E., Ruffolo, J., Weinstein, EN, Naik, N. & Madani, A. Progen2: explorando los límites de los modelos de lenguaje de proteínas. Preimpresión en https://arxiv.org/abs/2206.13517 (2022).

Wang, B. et al. Estrategia de procesamiento de datos de desequilibrio para la predicción de sitios de interacción de proteínas. Trans. IEEE/ACM. computar Biol. Bioinforma. 18, 985–994 (2019).

Artículo Google Académico

Yu, C.-Y., Chou, L.-C. y Chang, DT-H. Predicción de interacciones proteína-proteína en datos no balanceados utilizando la estructura primaria de las proteínas. BMC Bioinforma. 11, 1–10 (2010).

Artículo CAS Google Académico

Hu, L., Wang, X., Huang, Y.-A., Hu, P. y You, Z.-H. Una encuesta sobre modelos computacionales para predecir interacciones proteína-proteína. Breve. Bioinforma. 22, bbab036 (2021).

Artículo Google Académico

Zhang, Z.-L., Luo, X.-G., García, S. & Herrera, F. Redes neuronales de retropropagación sensibles al costo con técnicas de binarización para abordar problemas de clases múltiples y clasificadores no competentes. aplicación Cómputo suave. 56, 357–367 (2017).

Artículo Google Académico

Lemaître, G., Nogueira, F. & Aridas, CK Aprendizaje desequilibrado: una caja de herramientas de Python para abordar la maldición de los conjuntos de datos desequilibrados en el aprendizaje automático. J. Mach. Aprender. Res. 18, 1–5 (2017).

Google Académico

Chen, T. & Guestrin, C. Xgboost: Un sistema escalable de refuerzo de árboles. en Actas de la 22.ª Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos 785–794 (2016).

Ke, G. et al. Lightgbm: un árbol de decisiones de aumento de gradiente altamente eficiente. Adv. Información neuronal Proceso. sist. 30, 3146–3154 (2017).

Google Académico

Dorogush, AV, Ershov, V. & Gulin, A. Catboost: aumento de gradiente con compatibilidad con características categóricas. Preimpresión en https://arxiv.org/abs/1810.11363 (2018).

Zhang, Y. & Wallace, B. Un análisis de sensibilidad de (y una guía para profesionales) redes neuronales convolucionales para la clasificación de oraciones. Preimpresión en https://arxiv.org/abs/1510.03820 (2015).

Hochreiter, S. & Schmidhuber, J. Memoria larga a corto plazo. Cómputo neuronal. 9, 1735-1780 (1997).

Artículo CAS Google Académico

Dey, R. & Salem, FM Gate-variantes de redes neuronales de unidades recurrentes (GRU). en 2017 IEEE 60th International Midwest Symposium on Circuits and Systems (MWSCAS) 1597–1600 (IEEE, 2017).

Vaswani, A. et al. La atención es todo lo que necesitas. en Avances en sistemas de procesamiento de información neuronal 5998–6008 (2017).

Porollo, A. & Meller, J. Huellas dactilares basadas en predicciones de interacciones proteína-proteína. Proteínas: Struct., Funct., Bioinforma. 66, 630–645 (2007).

Artículo CAS Google Académico

Taherzadeh, G., Yang, Y., Zhang, T., Liew, AW-C. & Zhou, Y. Predicción basada en secuencias de sitios de unión de proteínas y péptidos utilizando una máquina de vectores de soporte. J. Computat. química 37, 1223–1229 (2016).

Artículo CAS Google Académico

Murakami, Y. & Mizuguchi, K. Aplicación del clasificador ingenuo de Bayes con estimación de la densidad del kernel para la predicción de los sitios de interacción proteína-proteína. Bioinformática 26, 1841–1848 (2010).

Artículo CAS Google Académico

Singh, G., Dhole, K., Pai, PP y Mondal, S. Springs: predicción de sitios de interacción proteína-proteína mediante redes neuronales artificiales. tecnología Representante, PeerJ PrePrints (2014).

Dhole, K., Singh, G., Pai, PP y Mondal, S. Predicción basada en secuencias de sitios de interacción proteína-proteína con el clasificador L1-logreg. J. Teor. Biol. 348, 47–54 (2014).

Artículo CAS Google Académico

Wei, Z.-S., Yang, J.-Y., Shen, H.-B. & Yu, D.-J. Un algoritmo de bosques aleatorios en cascada para predecir sitios de interacción proteína-proteína. Trans. IEEE. Nanobiosci. 14, 746–760 (2015).

Artículo Google Académico

Wei, Z.-S., Han, K., Yang, J.-Y., Shen, H.-B. & Yu, D.-J. Predicción de sitios de interacción proteína-proteína mediante el ensamblaje de SVM y bosques aleatorios ponderados por muestra. Neurocomputación 193, 201–212 (2016).

Artículo Google Académico

Wang, Y., Zhang, H., Zhong, H. & Xue, Z. Métodos de identificación de dominios de proteínas y recursos en línea. computar Estructura. Biotecnología. J. 19, 1145 (2021).

Artículo Google Académico

Mistry, J. et al. Pfam: La base de datos de familias de proteínas en 2021. Nucleic Acids Res. 49, D412–D419 (2021).

Artículo CAS Google Académico

Sandhya, S. et al. Variaciones de longitud entre superfamilias de dominios de proteínas y consecuencias en la estructura y función. PLoS ONE 4, e4981 (2009).

Artículo Google Académico

Vig, J. Una visualización multiescala de la atención en el modelo transformador. Preimpresión en https://arxiv.org/abs/1906.05714 (2019).

Artículo CAS Google Académico

Dhole, K., Singh, G., Pai, PP y Mondal, S. Predicción basada en secuencias de sitios de interacción proteína-proteína con el clasificador L1-logreg. J. Teor. Biol. 348, 47–54 (2014).

Artículo CAS Google Académico

Altschul, SF et al. Gapped BLAST y PSI-BLAST: una nueva generación de programas de búsqueda de bases de datos de proteínas. Ácidos Nucleicos Res. 25, 3389-3402 (1997).

Artículo CAS Google Académico

Zhang, B., Li, J., Quan, L., Chen, Y. y Qiang, L. Predicción basada en secuencias de sitios de interacción proteína-proteína mediante una red de memoria simplificada a largo plazo. Neurocomputación 357, 86–100 (2019).

Artículo Google Académico

Tao, D., Tang, X., Li, X. y Wu, X. Embolsado asimétrico y subespacio aleatorio para la retroalimentación de relevancia basada en máquinas de vectores de soporte en la recuperación de imágenes. Trans. IEEE. Patrón Anal. Mach. Intel. 28, 1088–1099 (2006).

Artículo Google Académico

Breiman, L. Predictores de embolsado. Mach. Aprender. 24, 123–140 (1996).

Artículo Google Académico

Pedregosa, F. et al. Scikit-learn: aprendizaje automático en python. J. Mach. Aprender. Res. 12, 2825–2830 (2011).

Google Académico

Spackman, KA Teoría de detección de señales: herramientas valiosas para evaluar el aprendizaje inductivo (Morgan Kaufmann Publishers Inc., 1989).

Descargar referencias

El trabajo descrito en este documento fue apoyado sustancialmente por la Fundación Nacional de Ciencias Naturales de China bajo la subvención No. 62076109 y No. 61972174, y financiado por la Fundación de Ciencias Naturales de la provincia de Jilin bajo la subvención No. 20190103006JH. El trabajo descrito en este documento fue apoyado sustancialmente por una subvención del Consejo de Subvenciones de Investigación de la Región Administrativa Especial de Hong Kong [CityU 11200218], una subvención del Fondo de Investigación Médica y de Salud, la Oficina de Alimentos y Salud, el Gobierno de Hong Kong Región Administrativa Especial de Kong [07181426], y la financiación del Instituto de Ciencia de Datos de Hong Kong (HKIDS) en la Universidad de la Ciudad de Hong Kong. El trabajo descrito en este documento fue apoyado parcialmente por dos subvenciones de la Universidad de la Ciudad de Hong Kong (CityU 11202219, CityU 11203520). Esta investigación fue patrocinada sustancialmente por el proyecto de investigación (Subvención No. 32000464) respaldada por la Fundación Nacional de Ciencias Naturales de China y fue respaldada sustancialmente por el Instituto de Investigación de Shenzhen, Universidad de la Ciudad de Hong Kong.

Estos autores contribuyeron por igual: Zilong Hou, Yuning Yang.

Escuela de Inteligencia Artificial, Universidad de Jilin, Jilin, China

Zilong Hou y Xiangtao Li

Ciencia y Tecnología de la Información, Universidad Normal del Noreste, Jilin, China

Yuning Yang y Zhiqiang Ma

Departamento de Ciencias de la Computación, Universidad de la Ciudad de Hong Kong, RAE de Hong Kong, China

Ka-chun Wong

También puede buscar este autor en PubMed Google Scholar

ZLH, YNY, YSW y XTL diseñaron la investigación. ZLH e YNY desarrollaron códigos informáticos. KCW y ZQM llevaron a cabo las simulaciones. ZLH, YNY, YSW y XTL analizaron los datos. ZLH, YNY y XTL escribieron el artículo.

Correspondencia a Xiangtao Li.

Los autores declaran no tener conflictos de intereses.

Communications Biology agradece a los revisores anónimos por su contribución a la revisión por pares de este trabajo. Editores principales de manejo: Yuedong Yang y Gene Chong.

Nota del editor Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Hou, Z., Yang, Y., Ma, Z. et al. Aprendizaje del lenguaje proteico de los sitios de unión proteína-proteína de todo el proteoma a través del aprendizaje profundo de conjunto explicable. Comun Biol 6, 73 (2023). https://doi.org/10.1038/s42003-023-04462-5

Descargar cita

Recibido: 20 junio 2022

Aceptado: 11 de enero de 2023

Publicado: 19 enero 2023

DOI: https://doi.org/10.1038/s42003-023-04462-5

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.