banner
Centro de Noticias
Articulado y competente en su experiencia.

SVSBI: secuencia

Dec 08, 2023

Communications Biology volumen 6, Número de artículo: 536 (2023) Citar este artículo

549 Accesos

6 Altmetric

Detalles de métricas

La detección virtual (VS) es una técnica crítica para comprender las interacciones biomoleculares, particularmente en el diseño y descubrimiento de fármacos. Sin embargo, la precisión de los modelos VS actuales depende en gran medida de las estructuras tridimensionales (3D) obtenidas a través del acoplamiento molecular, que a menudo no es confiable debido a la baja precisión. Para abordar este problema, presentamos un cribado virtual basado en secuencias (SVS) como otra generación de modelos VS que utilizan algoritmos avanzados de procesamiento de lenguaje natural (NLP) y estrategias optimizadas de integración K profunda para codificar interacciones biomoleculares sin depender de estructuras 3D basadas en unión cósmica. Demostramos que SVS supera el rendimiento de última generación para cuatro conjuntos de datos de regresión que involucran unión proteína-ligando, proteína-proteína, unión proteína-ácido nucleico e inhibición de ligando de interacciones proteína-proteína y cinco conjuntos de datos de clasificación para interacciones proteína-proteína en cinco especies biológicas. SVS tiene el potencial de transformar las prácticas actuales en el descubrimiento de fármacos y la ingeniería de proteínas.

Las biomoléculas son los componentes básicos de la vida y se pueden clasificar en varias categorías, incluidos carbohidratos, lípidos, ácidos nucleicos y proteínas, según sus tamaños, estructuras, propiedades fisicoquímicas y/o funciones biológicas. Además, la realización de funciones biomoleculares suele ir acompañada de interacciones físicas/químicas directas con otras moléculas biológicas, pequeños ligandos, iones y/o cofactores1. Estas interacciones dependen en gran medida de las estructuras tridimensionales (3D) y la dinámica de las moléculas, así como de los cambios conformacionales biomoleculares, debido a su flexibilidad y alostería. La comprensión de las interacciones biomoleculares es el santo grial de la ciencia biológica.

La última década ha sido testigo del rápido avance en la biología computacional impulsado por el logro de la inteligencia artificial (IA) y el aumento de la potencia informática. Con técnicas avanzadas de recopilación, procesamiento, análisis y representación de datos, la biología computacional moderna puede estudiar procesos biológicos a escalas extraordinarias y múltiples dimensiones. Ha logrado un gran éxito para diversas tareas biológicas2,3,4. La capacidad de comprender las interacciones biomoleculares a través de enfoques avanzados de IA tiene un significado de gran alcance para una amplia gama de campos de investigación, incluido el descubrimiento de fármacos3, la prevención de virus5, la evolución dirigida4, etc. desafío.

Debido a la alta correlación inherente entre la información de la estructura y las funciones moleculares, los enfoques basados ​​en la estructura lograron una alta precisión y confiabilidad en el modelado y el aprendizaje de las interacciones biomoleculares6,7,8,9,10,11. Como resultado, el análisis y la predicción actuales de las interacciones biomoleculares dependen en gran medida de las estructuras 3D de alta calidad de los complejos biomoleculares interactivos. Desafortunadamente, la determinación experimental de estructuras 3D requiere mucho tiempo y es costosa, lo que lleva a la escasez de estructuras experimentales, en particular, las estructuras de complejos biomoleculares interactivos. Para superar esta dificultad, el acoplamiento molecular basado en algoritmos de búsqueda y puntuación está diseñado para generar estructuras 3D de los complejos interactivos, como los complejos anticuerpo-antígeno y los complejos proteína-ligando. El acoplamiento molecular está ampliamente incorporado en la detección virtual (VS) de interacciones biomoleculares, lo que ofrece un medio alternativo para construir estructuras 3D de complejos biomoleculares interactivos y es un paso crucial en el descubrimiento de fármacos asistido por computadora (CADD). Sin embargo, el acoplamiento molecular actual es propenso a errores, lo que genera estructuras 3D inexactas y conduce a una detección virtual poco confiable12. A pesar del gran avance en la predicción del plegamiento de proteínas (únicas no interactivas) por parte de Alphafold22, la predicción de la estructura de los complejos biomoleculares interactivos sigue siendo un gran desafío. Existe una necesidad apremiante de desarrollar estrategias innovadoras para la detección virtual de interacciones biomoleculares.

Alternativamente, los enfoques basados ​​en secuencias pueden proporcionar incrustaciones profundas eficientes, robustas y fácilmente accesibles de interacciones biomoleculares sin invocar el acoplamiento de estructuras 3D. Los enfoques basados ​​en secuencias son mucho más aplicables que los basados ​​en estructuras porque Genebank tiene más de 240 000 000 de secuencias, en comparación con solo 200 000 estructuras de proteínas 3D en Protein Data Bank (PDB), lo que otorga a los enfoques basados ​​en secuencias una gran aplicabilidad en el borde. Existen tres tipos principales de enfoques basados ​​en secuencias: (1) métodos basados ​​en la composición, como la composición de aminoácidos (AAC)13, la composición de ácidos nucleicos (NAC)14 y la pseudo AAC (PseAAC)15; (2) métodos basados ​​en la autocorrelación, como la autocovarianza16; y (3) métodos basados ​​en la evolución, como la matriz de frecuencia específica de la posición (PSFM) y las matrices de puntuación específicas de la posición (PSSM)15. Mientras tanto, el uso de modelos NLP para analizar la información oculta en secuencias moleculares, incluidos modelos de proteínas, ha tenido éxito en las últimas décadas17,18,19.

Los métodos basados ​​en composición construyen incrustaciones en función de la distribución de residuos individuales o subcadenas. Los métodos basados ​​en la autocorrelación se basan en la medición estadística de las propiedades fisicoquímicas de cada residuo, como la hidrofobicidad, la hidrofilicidad, la masa de la cadena lateral, la polaridad, el área superficial accesible al solvente, etc. Los métodos basados ​​en la evolución extraen la información evolutiva de grandes bases de datos evaluando la ocurrencia de cada residuo o la puntuación de ese residuo siendo mutado a otro tipo. Estos métodos suelen superar a los métodos basados ​​en la composición y en la autocorrelación debido a su uso eficiente de una gran cantidad de secuencias moleculares seleccionadas por miles de millones de años de evolución natural. Los métodos basados ​​en el procesamiento del lenguaje natural (NLP) se han utilizado ampliamente para incrustar moléculas. Entre ellos, los codificadores automáticos (AE), la memoria a corto plazo (LSTM) y el transformador son los más populares. Un modelo LSTM, UniRep, permite la ingeniería racional de proteínas basada en secuencias20. Se entrenó un codificador automático interno con 104 millones de secuencias21. El modelado a escala evolutiva (ESM) es un transformador a gran escala entrenado en 250 millones de secuencias de proteínas, que logró un rendimiento de vanguardia en muchas tareas, incluidas las predicciones de estructuras22. Para el ADN en el genoma, el modelo de representación de codificador bidireccional preentrenado DNABERT ha logrado el éxito en tareas de ADN no codificante, como la predicción de promotores, empalmes y sitios de unión de factores de transcripción23. Además, se entrenó un pequeño transformador molecular interno con más de 700 millones de datos de secuencia24. Sin embargo, ninguno de estos métodos fue diseñado para interacciones biomoleculares.

En este trabajo, propusimos un examen visual basado en secuencias (SVS) de interacciones biomoleculares que puede predecir una amplia variedad de interacciones biológicas con precisión a nivel de estructura sin invocar estructuras 3D. El módulo de procesamiento de lenguaje biológico en SVS consta de múltiples modelos NLP, extrae información evolutiva y contextual de diferentes biomoléculas simultáneamente para reconstruir representaciones de secuencias para moléculas interactivas, como proteínas, ácidos nucleicos y/o moléculas pequeñas. SVS tiene una gran capacidad de generalización a varios tipos de tareas para las propiedades e interacciones biomoleculares. En particular, SVS proporciona la estrategia óptima de incrustación de K para estudiar las interacciones entre múltiples (bio)moléculas con un costo computacional insignificante. Los patrones intramoleculares y los mecanismos intermoleculares pueden ser capturados de manera eficiente por nuestro SVS sin realizar el costoso y lento acoplamiento basado en estructuras 3D. Mostramos el rendimiento de vanguardia de SVS en nueve tareas de predicción, incluidas cuatro funciones de puntuación de afinidad de unión (es decir, proteína-ligando, proteína-proteína, proteína-ácido nucleico e inhibición de ligando de interacciones proteína-proteína) y cinco conjuntos de datos de clasificación para interacciones proteína-proteína (PPI). Las extensas validaciones indican que SVS es un método general, preciso, robusto y eficiente para la detección virtual de interacciones biomoleculares.

Nuestro SVS es un marco basado en secuencias que ofrece predicciones de aprendizaje profundo de interacciones biomoleculares (Fig. 1). Primero, el módulo de interacción biomolecular identifica tipos de socios biomoleculares interactivos y trata el problema en el flujo correspondiente. Luego, las secuencias relacionadas se recopilan y curan en el módulo de secuencias biomoleculares. Además, el módulo de procesamiento de lenguaje biomolecular genera las incrustaciones de NLP de moléculas interactivas individuales a partir de sus datos de secuencia. Además, el módulo de incrustación de K diseña aún más incrustaciones de K interactivas a partir de incrustaciones de NLP individuales para inferir su información interactiva. Por último, el módulo de algoritmo de aprendizaje automático posterior ofrece las predicciones de clasificación y regresión de última generación de varias interacciones biomoleculares.

un SVS está diseñado para una amplia variedad de interacciones biomoleculares que involucran proteínas, ADN, ARN, ligandos y sus combinaciones arbitrarias. b Las secuencias moleculares se extraen de proteínas, ácidos nucleicos y ligandos moleculares pequeños involucrados en complejos de interacción biomolecular. c El módulo de procesamiento de lenguaje biomolecular presenta las incrustaciones de NLP de complejos biomoleculares a partir de información de secuencia. d El módulo de incrustación K genera la representación óptima de las interacciones biomoleculares a partir de incrustaciones de orden inferior. Cada cuadrado en el panel representa un tipo de estrategias de 3 incrustaciones. Diferentes patrones representan diferentes incrustaciones de 1 (es decir, una incrustación de PNL) o una incrustación de orden inferior; los diferentes colores representan diferentes funciones de integración, que indican cómo se construye la incrustación K. e Los algoritmos de aprendizaje automático supervisados ​​aprenden del modelo de incrustación K óptimo de interacciones biomoleculares. En principio, no hay restricciones en la elección de algoritmos. Específicamente, en este trabajo usamos GBDT y ANN. f Los algoritmos de aprendizaje automático se aplican a diversas tareas de clasificación y regresión, incluidas clasificaciones de proteínas de membrana, identificaciones de péptidos terapéuticos, identificaciones de interacciones proteína-proteína, predicción de afinidad de unión de interacciones proteína-proteína, proteína-ligando, proteína-ácidos nucleicos e inhibición de proteína –interacción de proteínas.

En el módulo de procesamiento de lenguaje biológico, se generan incrustaciones de NLP para proteínas, ácidos nucleicos y moléculas pequeñas utilizando sus datos de secuencia (Fig. 1b). Empleamos varios tipos de modelos NLP, incluido el modelo LSTM de proteínas (UniRep)20, el transformador de proteínas (ESM)22, el transformador de ADN (DNABERT)23, el transformador de moléculas pequeñas24 y el autocodificador de moléculas pequeñas21. Nos enfocamos particularmente en los modelos de Transformador debido a su rendimiento de última generación con la consideración de dependencias de secuencia a través de un mecanismo de atención25,26,27. Los transformadores pueden inferir información enriquecida, como información evolutiva, estructura 3D y propiedades bioquímicas22,24.

El módulo de incrustación K (estrategias de incrustación K) toma múltiples incrustaciones de componentes moleculares interactivos como entradas y las integra en un modelo óptimo de incrustación K profunda para descifrar las propiedades biomoleculares y las interacciones intermoleculares (Fig. 1d). Los modelos tradicionales de cribado virtual basados ​​en estructuras 3D requieren un procedimiento de acoplamiento molecular para generar las estructuras moleculares 3D de los complejos interactivos, lo cual es ineficiente y poco fiable28. La precisión y la eficacia de un método de acoplamiento basado en la estructura están determinadas conjuntamente por múltiples subprocesos que incluyen la determinación de la estructura molecular1, la búsqueda de espacio de acoplamiento rígido y flexible1 y la construcción de funciones de puntuación29. Los estudios actuales han logrado el éxito en cada uno de estos subprocesos. Sin embargo, los errores menores en estos subprocesos pueden acumularse y dar como resultado un acoplamiento basado en la estructura no confiable. Alternativamente, en nuestro marco SVS, las estrategias de incrustación K pueden convertir la información de distribución de incrustaciones moleculares interactivas en la incrustación K óptima y extraer características esenciales de las interacciones biomoleculares, lo que mejora la modelabilidad de los algoritmos de aprendizaje automático en el aprendizaje de información interactiva molecular no lineal oculta. .

El módulo de aprendizaje automático toma las estrategias de incrustación de K del módulo de incrustación de K para predicciones de propiedades moleculares. Los algoritmos de aprendizaje automático posteriores incluyen una red neuronal artificial (ANN) y un árbol de decisión de aumento de gradiente (GBDT) para tareas predictivas. Los hiperparámetros de ambos modelos se optimizan sistemáticamente a través de la optimización bayesiana o la búsqueda de cuadrícula para adaptarse a diferentes tamaños de conjuntos de datos e incrustaciones K profundas, y diferentes tareas (algoritmos de aprendizaje automático y optimización bayesiana para el ajuste de hiperparámetros ANN). Para cada tarea, se elige la estrategia óptima de incrustación de K con los hiperparámetros de optimización anteriores que logran la mejor puntuación predictiva en precisión para la clasificación o en el coeficiente de correlación de Pearson para la regresión.

Cuantitativamente, la afinidad de unión, definida como la fuerza de las interacciones moleculares, se refleja en los términos fisicoquímicos de la constante de disociación (Kd), las constantes inhibidoras (Ki), la mitad de la concentración inhibidora máxima (IC50) o la energía libre de Gibbs correspondiente30. Las predicciones precisas de las afinidades de unión molecular no solo son un paso importante en el modelado de sistemas biológicos, sino también una cuestión fundamental para varios usos prácticos, incluido el descubrimiento de fármacos8,10,31, la ingeniería molecular y el análisis de mutagénesis4.

La puntuación de los complejos de unión proteína-ligando es el objetivo final de la detección virtual en el descubrimiento de fármacos. Por lo general, millones de candidatos a fármacos se analizan para un objetivo farmacológico determinado. La precisión y la eficiencia del cribado virtual son esenciales para el descubrimiento de fármacos8,32. Actualmente, el acoplamiento inexacto basado en la estructura 3D y la detección virtual poco confiable asociada son los principales obstáculos en el diseño y descubrimiento racional de fármacos.

En este estudio, aplicamos SVS para predecir la afinidad de unión proteína-ligando en el conjunto de datos PDBbind 201633, un popular conjunto de datos de referencia empleado por cientos de equipos de investigación para validar sus funciones de puntuación de unión proteína-ligando7,8,9,33,33,34 ,35,36,37,38. Tiene los datos de entrenamiento de 3772 complejos proteína-ligando del conjunto refinado PDBbind 2016 y los datos de prueba de 285 complejos del conjunto básico. La disponibilidad de estructuras complejas 3D en la base de datos PDBbind favorece las funciones de puntuación basadas en estructuras, como los modelos de aprendizaje automático basados ​​en topología algebraica, como TopBP10, PerSpect-ML31 y AA-score32.

El mejor rendimiento de los métodos basados ​​en huellas dactilares 2D, logrado por la huella dactilar de conectividad extendida proteína-ligando (PLEC)35, fue Rp = 0,817. De hecho, la información de la estructura 3D se utilizó en PLEC, lo que destaca la importancia de las estructuras 3D en las funciones de puntuación de unión proteína-ligando existentes. Seleccionamos este conjunto de datos para examinar si el SVS propuesto, sin recurrir a la información estructural, puede alcanzar el mismo nivel de precisión que las funciones de puntuación basadas en la estructura.

Como se muestra en la Fig. 2b, nuestro modelo SVS proporciona una predicción precisa de la afinidad de unión con Rp = 0,832 y RMSE 1,696 kcal mol−1 (Fig. 2b). Para los métodos basados ​​en la estructura, normalmente se puede lograr un Rp > 0,7 si se usan estructuras experimentales de complejos de proteína-ligando, mientras que se logra un Rp < 0,65 más bajo cuando se usa acoplamiento molecular, como ASP@GOLD y Autodock, para generar las estructuras de complejos proteína-ligando33. El método TopBP basado en la estructura, que usa topología algebraica para simplificar la complejidad de la estructura de los complejos proteína-ligando 3D, logró el mejor rendimiento con Rp/RMSE de 0,861/1,65 kcal mol−110 en la literatura. Excluyendo los métodos avanzados basados ​​en estructuras impulsados ​​por matemáticas, SVS supera a otros métodos basados ​​en estructuras, por ejemplo, AK-score7 (Rp: 0.827), NNScore + RDKit38 (Rp: 0.826) (Fig. 2b). Este logro es de enorme importancia ya que la calidad y la confiabilidad de la detección virtual actual pueden mejorarse drásticamente al nivel de los enfoques basados ​​en la estructura cristalina de rayos X sin depender de las estructuras experimentales en 3D. Nuestro resultado tiene una implicación de gran alcance: se puede realizar una detección virtual confiable en cualquier objetivo farmacológico sin depender de las estructuras 3D de los complejos fármaco-proteína.

a Una comparación de las afinidades de unión predichas escaladas y los resultados experimentales para las predicciones de afinidad de unión de conjuntos de datos de proteína-ligando (PL), proteína-ácido nucleico (PN), proteína-proteína (PP) y la inhibición de PPI (iPPI). Cada conjunto de datos se escala a una región específica con un rango igual para una visualización clara. b Comparación del coeficiente de correlación de Pearson (Rp) de nuestro modelo SVS y el de otros enfoques basados ​​en la estructura para la predicción de la afinidad de unión proteína-ligando del conjunto central PDBbind-201633. Los resultados en colores rojo, azul y verde se obtienen sin estructura (es decir, secuencia), estructuras experimentales y estructuras generadas por acoplamiento de complejos proteína-ligando, respectivamente. Nuestro SVS supera a los modelos de última generación, como AK-score7, NNScore+RDKit38 y muchos otros9,33,34,35,36,37. c Comparación de diferentes modelos NLP para los coeficientes de correlación de Pearson Rp de la predicción de unión proteína-ligando. d Las distribuciones de importancia relativa de diferentes modelos de PNL como se muestra en c. Cada fila consta de 512+1280/1900 líneas verticales de colores, y cada una representa la importancia de una característica generada por los modelos NLP. La línea discontinua negra es la línea divisoria de las características que pertenecen a diferentes tipos de moléculas. El porcentaje a la izquierda oa la derecha de la línea discontinua negra es la proporción de la suma de la importancia de las características para el mismo tipo de moléculas.

Se explora más a fondo el rendimiento de diferentes combinaciones de incrustaciones de proteínas y ligandos (Fig. 2c). Utilizamos el modelo ESM Transformer22 y UniRep LSTM20 para la incrustación de proteínas, y un modelo Transformer24 y autoencoder21 para la incrustación de ligandos. Nuestro análisis indica que el pequeño transformador molecular supera al autocodificador. Además, Transformer logra un mejor rendimiento que el modelo LSTM para la incorporación de proteínas. Se proporciona un análisis de características adicional del análisis de importancia de características de GBDT (Fig. 2d). Ambas incrustaciones de moléculas pequeñas tienen una dimensión de 512. Para las incrustaciones de proteínas, la dimensión del transformador es 1280 y LSTM es 1900. En primer lugar, las características moleculares pequeñas tienen otras más importantes. La importancia promedio de las características moleculares pequeñas es 0.082 (41.9/512), 0.074, 0.082 y 0.088 para cuatro casos de arriba a abajo (Fig. 2d). En contraste, la importancia promedio de las características de las proteínas es 0.045, 0.049, 0.031 y 0.028 para cuatro casos. Además, el transformador molecular pequeño ofrece características más importantes que el codificador automático. Para las incrustaciones de proteínas, el Transformador tiene características más importantes que el LSTM. Por lo tanto, la combinación del Transformador de ligando y el Transformador ESM de proteína logra la mejor predicción, como se muestra en la Fig. 2c.

La afinidad de unión proteína-proteína se refiere a la fuerza de la interacción atractiva entre dos proteínas, como un complejo anticuerpo-antígeno, cuando se unen entre sí. Es una métrica importante para evaluar la estabilidad y la especificidad de las interacciones proteína-proteína (PPI), que son vitales para muchos procesos biológicos.

Comprender la afinidad de unión proteína-proteína es importante para muchas aplicaciones, incluido el descubrimiento de fármacos, el diseño de anticuerpos, la ingeniería de proteínas y la biología molecular. Por ejemplo, sabiendo cómo la forma del anticuerpo, la carga y la hidratación del anticuerpo, y la presencia de sitios de unión o residuos específicos en el anticuerpo afectan la afinidad de unión antígeno-anticuerpo, se pueden diseñar anticuerpos con propiedades de unión específicas para neutralizar virus39,40.

La afinidad de unión proteína-proteína se puede cuantificar mediante energías libres de Gibbs. La resonancia de plasmones superficiales (SPR), la calorimetría de titulación isotérmica (ITC), el ensayo inmunoabsorbente ligado a enzimas (ELISA) y la transferencia Western se utilizan para determinar las afinidades de unión proteína-proteína. En nuestro trabajo, construimos un modelo SVS para predecir las afinidades de unión proteína-proteína a partir de secuencias de proteínas. Recopilamos y seleccionamos un conjunto de 1795 complejos PPI (conjuntos de datos) en la base de datos PDBbind41. Este conjunto de datos se emplea para mostrar la naturaleza versátil de SVS. Las secuencias de estos complejos PPI se extraen y se incrustan utilizando el Transformador. Los PPI están representados por la pila de sus incrustaciones de Transformador en nuestro estudio. Nuestro modelo SVS alcanzó el Rp de 0,743 y el RMSE de 1,219 kcal mol-1 a ​​través de una validación cruzada de 10 veces, y la comparación del valor predicho frente a la realidad fundamental se muestra en la Fig. 2a. Nuestro resultado indica que SVS es un enfoque sólido para predecir la afinidad de unión de los PPI.

Otra clase de interacciones biomoleculares es la unión de proteínas y ácidos nucleicos, que desempeña funciones importantes en la estructura y función de las células, incluida la catalización de reacciones químicas, el transporte de moléculas, la transducción de señales, la transcripción y la traducción. También participa en la regulación de la expresión génica y en el mantenimiento de la estructura y función cromosómica. La desregulación de la unión de proteínas y ácidos nucleicos puede provocar diversas enfermedades y trastornos, como cáncer, trastornos genéticos y enfermedades autoinmunes. La comprensión de los factores, como el enlace de hidrógeno, el dipolo, la electrostática, la interacción de Van der Waals, la hidrofobicidad, etc., que influyen en las afinidades de unión entre proteína y ácido nucleico, puede utilizarse para diseñar nuevas moléculas terapéuticas.

En este trabajo, aplicamos SVS para analizar y predecir la afinidad de unión entre proteína y ácido nucleico. Debido a la falta de conjuntos de datos de referencia existentes, extraemos un conjunto de datos de la base de datos PDBbind41. Se recolectó un total de 186 complejos de proteína-ácido nucleico (Conjuntos de datos). Este conjunto de datos se elige para demostrar que el SVS funciona bien para predecir interacciones biomoleculares relacionadas con ácidos nucleicos. Para este problema, nuestro SVS utiliza un Transformador (ESM) para incorporar secuencias de proteínas y otro Transformador (DNABERT) para incorporar secuencias de ácidos nucleicos. Nuestro modelo muestra un buen rendimiento con un Rp/RMSE medio de 0,669/1,45 kcal mol−1 en una validación cruzada de 10 veces. Nuestros resultados se representan en la Fig. 2a. Teniendo en cuenta el hecho de que el conjunto de datos es muy pequeño, nuestra predicción SVS es muy buena.

Habiendo demostrado SVS para predicciones de unión de proteína-ligando, proteína-proteína, proteína-ácido nucleico, consideramos un problema que involucra múltiples componentes moleculares. La inhibición de molécula pequeña de la predicción de la interacción proteína-proteína (iPPI) involucra al menos tres moléculas.

Las interacciones proteína-proteína son esenciales para los organismos vivos. La disfunción de los IBP puede provocar diversas enfermedades, como inmunodeficiencia, trastorno autoinmune, alergia, adicción a las drogas y cáncer42. Por lo tanto, la inhibición de los PPI (iPPI) es de gran interés en el diseño y descubrimiento de fármacos. Estudios recientes han demostrado un potencial biomédico sustancial para los iPPI con ligandos43.

Sin embargo, iPPI con ligandos es un desafío en una amplia gama de fases de investigación, incluida la validación de objetivos, la detección de ligandos y la optimización de prospectos44. Los métodos computacionales tradicionales para las predicciones iPPI tienen varias limitaciones. Por ejemplo, los enfoques basados ​​en estructuras tienen que superar la complejidad del acoplamiento de ligandos causado por las interfaces grandes y dinámicas de los PPI incluso con estructuras complejas experimentales estables y confiables45. Recientemente, Rodrigues et al.42 han desarrollado un modelo específico de interacción, llamado pdCSM-PPI, que utiliza representaciones basadas en gráficos de estructuras de ligandos en el marco de la detección virtual basada en ligandos. Una característica importante de su enfoque es que sus modelos se basan en ligandos y son específicos del objetivo: la entrada de cada modelo es un conjunto de ligandos que se dirigen a un PPI en particular. En lugar de explorar el mecanismo oculto de iPPI, sus modelos se basan en una comparación de ligandos asumiendo que los ligandos con estructuras similares exhiben un comportamiento similar, es decir, el principio de propiedad similar. Su enfoque evita las dificultades de carecer de estructuras iPPI y mecanismos moleculares mediante el uso de predicciones específicas del objetivo, en las que se construye un modelo de aprendizaje automático para ligandos que se dirigen al mismo sistema PPI. Por lo tanto, no se puede utilizar para la detección de nuevos objetivos. Por el contrario, SVS puede evitar esta dificultad mediante la incorporación de secuencias de objetivos PPI. Como resultado, SVS se puede aplicar directamente para explorar la inhibición de nuevos PPI sin coincidir con los objetivos en los conjuntos de datos de iPPI existentes.

En este trabajo, analizamos los PPI y los ligandos mediante el uso de varias estrategias de incrustación de K para predecir la concentración de inhibidor medio máxima (IC50) de la inhibición del ligando de PPI. Para cada complejo iPPI, se utilizan un Transformador molecular pequeño y un Transformador de proteína para incorporar una secuencia de ligando y dos secuencias de proteína en nuestro SVS. Probamos nuestro modelo en el conjunto de datos considerado por Rodrigues et al.42. Nuestro modelo muestra un Rp de 0,766 y un RMSE de 0,761 mol/L en la validación cruzada de 10 veces, mientras que el Rp y el RMSE del modelo pdCSM-PPI anterior son 0,74 y 0,95 mol/L, respectivamente. SVS muestra un mejor desempeño tanto en Rp como en RMSE, lo que ilustra la superioridad del método SVS. La comparación de los resultados predictivos frente al valor real de nuestro modelo se puede encontrar en la Fig. 2a.

Exploramos las estrategias de incrustación de K a través de varias incrustaciones profundas de NLP. Examinamos tres funciones de integración en este estudio, es decir, Stack, Prod y Diff, para generar estrategias de incrustación K con la incrustación de orden superior construida a partir de incrustaciones de orden inferior. Stack concatena dos incrustaciones de procesamiento de lenguaje biomolecular de dos proteínas en un complejo PPI en un solo vector de incrustación. Este método conserva la información completa proporcionada por el módulo de procesamiento de lenguaje biomolecular, pero la desventaja es su alta dimensionalidad. Dado que dos proteínas en un complejo PPI están codificadas por dos vectores de longitud idéntica, la incrustación 2 se puede realizar a través de las operaciones por componentes entre estos dos vectores. También probamos el producto por componentes (Prod) y el valor absoluto de la diferencia (Diff). Estos enfoques de 2 incrustaciones de componentes dan como resultado incrustaciones de 2 dimensiones más bajas para el módulo de aprendizaje automático posterior. Las fórmulas específicas correspondientes a estas tres estrategias se describen en las ecuaciones. (2), (3) y (4), respectivamente.

Aquí, elegimos 14 tipos de incrustaciones profundas de orden superior que tienen en cuenta la homogeneidad o heterogeneidad de los modelos NLP, que se muestran en la Fig. 3a con su rendimiento predictivo. Vale la pena señalar que este conjunto de datos iPPI es un conjunto de datos central de ligando que consta de múltiples ligandos que se dirigen al mismo PPI. Por lo tanto, la incrustación 1 para el procesamiento de información de secuencias de ligandos desempeñará el papel más importante. Nuestros experimentos muestran que el uso de modelos basados ​​en Transformer con los esquemas Stack brindará un rendimiento de última generación.

a Ilustración de los rendimientos (Rp) de varias estrategias de incrustación de K. b El análisis de la importancia de las características del ligando, la proteína 1 y la proteína 2 en las predicciones de iPPI utilizando la mejor estrategia de incrustación de K (es decir, la pila de tres transformadores). c La proporción de características del ligando en las características superiores de SVS para iPPI utilizando la mejor estrategia de incrustación de K (es decir, la pila de tres transformadores). El eje x indica la cantidad de características superiores a considerar y el eje y representa la proporción de características ligando en las características superiores.

Analizamos más a fondo la importancia de la característica de nuestros mejores esquemas de GBDT para características que codifican ligandos y proteínas. Curiosamente, las características de los ligandos son sustancialmente más importantes que las de las proteínas (Fig. 3b). Específicamente, la importancia de las características del ligando es mucho mayor, con un 84,2 %, mientras que la suma de la importancia de dos proteínas es solo del 15,8 %. Por otro lado, las características principales incluyen una alta proporción de características de ligando, por ejemplo, el 96,4% de las 512 características principales provienen de características de ligando (Fig. 3c). Una posible razón para tal desequilibrio de características puede ser que solo se incluyen unos pocos sistemas PPI en este conjunto de datos que tiene 1694 ligandos pero solo 31 PPI. A pesar de que las características de las proteínas son menos importantes, son necesarias para aprender iPPI sin objetivos coincidentes. Como se muestra en la Fig. 3a, sin información de PPI (sin codificación de PPI), o con solo información de clasificación trivial de PPI (codificación de un par de PPI), nuestros modelos muestran una disminución sustancial en la precisión predictiva. La única excepción es Diff del objetivo de PPI. Una razón es que muchas proteínas en este objetivo de PPI pertenecen a la misma familia de proteínas. Por lo tanto, la gran similitud de estas proteínas en la secuencia solo proporcionaría información muy limitada para los esquemas Diff. En general, las características de la proteína son componentes necesarios para el aprendizaje de iPPI no coincidentes con el objetivo.

Las interacciones proteína-proteína (IBP) regulan muchos procesos biológicos, incluida la transducción de señales, la respuesta inmunitaria y la organización celular46. Sin embargo, la selectividad y la potencia de los PPI dependen de la especie y del entorno celular. Identificar y estudiar los PPI puede ayudar a los investigadores a comprender el mecanismo molecular de las funciones de las proteínas y cómo las proteínas interactúan entre sí dentro de una célula u organismo.

Utilizamos el método SVS para identificar los PPI, donde nuestro modelo clasificó los pares de proteínas en un conjunto de datos dado siguiendo los protocolos estándar de entrenamiento y división de pruebas en la literatura14,47. Las muestras positivas se definieron como pares de proteínas que interactúan y están en contacto físico directo a través de fuerzas intermoleculares, mientras que las muestras negativas se generaron mediante la selección aleatoria de pares de proteínas en distintos compartimentos subcelulares14,47. Se emplean cinco conjuntos de datos de PPI con diferentes especies, incluidos Homo sapiens (HS), Mus musculus (MM), Saccharomyces cerevisiae (SC), Drosophila melanogaster (DM) y Helicobacter pylori (HP) para el punto de referencia. Aquí, exploramos tres estrategias de incrustación de K: Stack, Prod y Diff.

Dado que el rendimiento de los modelos de regresión es complicado, primero analizamos el rendimiento de las funciones interactivas sin modelos de regresión posteriores. En particular, empleamos el gráfico RS para visualizar la puntuación de residuos de características (R) frente a la puntuación de similitud (S)48. El puntaje R y el puntaje S de una muestra dada se calculan considerando las distancias de sus características con las de las muestras entre clases y las muestras intraclase, formuladas como Eqs. (10) y (11), respectivamente. Tanto la puntuación R como la puntuación S varían de 0 a 1. Una muestra con una puntuación R más alta indica que está lejos de las muestras de otras clases, y una puntuación S más alta indica que está cerca de otras muestras de la misma clase. clase. Se espera que un método de caracterización efectivo tenga puntajes R y puntajes S altos, a pesar de que existe una clara compensación entre los puntajes R y S (Fig. 4b). En particular, tal compensación también se puede cuantificar mediante el índice RS (ecuación (14)). El análisis de RS muestra que las características de Stack están ubicadas en la parte superior derecha de las incrustaciones de Prod y Diff, excepto para el conjunto de datos de H. pylori (ubicado en un área similar), aunque se superponen ampliamente en todos los conjuntos de datos. Además, desde la perspectiva del índice RS, Stack y Diff tienen ventajas en dos conjuntos de datos y Prod tiene ventajas en un conjunto de datos.

a–e Comparaciones de nuestro modelo predictivo (SVS) con algunos modelos anteriores de identificación de PPI. La comparación de cada conjunto de datos se muestra de forma independiente en una subparcela con el nombre del conjunto de datos en la parte superior. Para cada subparcela, el eje x representa las puntuaciones de precisión, que van de 0,75 a 1; el eje y enumera el nombre de cada modelo. Nuestro SVS supera a los modelos de última generación, como SVM-NVDT14, RF-NVDT14, PCVMZM58, TAGPPI47, etc. f Comparación de diferentes estrategias de incrustación de K, medidas por análisis RS de características. Se eligen tres estrategias de incrustación K, Prod, Diff y Stack, para la comparación. Esta parcela está compuesta verticalmente por cinco tramos similares. Cada sección representa un conjunto de datos con el nombre a la izquierda. Además, cada sección posee dos partes. La parte izquierda tiene dos subgráficos que muestran el gráfico RS de características positivas o negativas generadas por diferentes estrategias. La parte derecha muestra el Índice RS (RSI) de diferentes estrategias. g La precisión de la comparación de modelos predictivos de diferentes estrategias de incrustación de K.

Además, comparamos diferentes estrategias de incrustación de K mediante el acoplamiento con los modelos de regresión idénticos utilizando una validación cruzada de cinco veces (Fig. 4b). De manera consistente, la estrategia Stack mostró la puntuación de precisión más alta que otras en el rendimiento de su modelo posterior para todos los conjuntos de datos probados (Fig. 4c). En general, Stack proporciona una estrategia óptima de incrustación de K.

En general, nuestros modelos con la mejor pila de incorporaciones de procesamiento de lenguaje biomolecular mostraron puntajes de precisión de hasta 99,93 %, 99,28 %, 99,64 %, 99,22 % y 98,69 % para conjuntos de datos Helicobacter pylori, Mus musculus, Saccharomyces cerevisiae, Helicobacter pylori y Drosophila melanogaster, respectivamente (Fig. 4a y Tabla complementaria 1). En comparación, el método de última generación, SVM-NVDT14, proporciona 98,56 %, 94,83 %, 99,20 %, 95,41 % y 94,94 %, respectivamente, para estos conjuntos de datos. SVM-NVDT se basó en vectores naturales e información de dinucleótidos y tripletes de nucleótidos. Además, la Nota complementaria 2 muestra resultados adicionales de nuestros modelos SVS, incluidas las curvas AUC que se muestran en la Figura complementaria 1. Nuestros modelos superan a todos los modelos anteriores por un margen sustancial, lo que demuestra la superioridad de nuestro método sobre los métodos anteriores para identificar PPI.

En este estudio, utilizamos representaciones de modelos de lenguaje molecular tradicionales como punto de partida para definir inductivamente incrustaciones K de alto orden, que brindan una estrategia sistemática para representar interacciones biológicas que involucran un número arbitrario de moléculas. Al generar diferentes incrustaciones de K, podemos capturar de manera fácil y efectiva las representaciones de secuencias de los modelos NLP generados para una sola molécula. Estas incrustaciones K permiten una consideración exhaustiva de la heterogeneidad potencial de las biomoléculas interactivas, lo que mejora la representabilidad de las moléculas individuales. Además, el diseño de K-embedding permite que SVS optimice los algoritmos de aprendizaje automático/profundo posteriores. Para demostrar la utilidad de las incrustaciones K, diseñamos dos algoritmos de aprendizaje automático que logran resultados de última generación.

En la predicción de interacciones biomoleculares, los enfoques basados ​​en estructuras son populares y muy precisos cuando se emplean representaciones topológicas de estructuras 3D de alta calidad10. Sin embargo, su desempeño depende de la disponibilidad de estructuras experimentales confiables de alta resolución. El acoplamiento estructural es un protocolo necesario para los enfoques basados ​​en estructuras cuando no hay una estructura experimental disponible para el complejo interactivo. Además, el poder de los métodos basados ​​en estructuras radica en su capacidad para capturar con precisión la información geométrica de los complejos interactivos. Por lo tanto, la disparidad entre estructuras acopladas y estructuras experimentales también será heredada por modelos basados ​​en estructuras. Sin embargo, ningún estudio ha demostrado que los modelos de acoplamiento molecular actuales puedan controlar esta disparidad dentro de tolerancias aceptables. Por el contrario, nuestro método SVS proporciona un enfoque alternativo para el estudio de complejos moleculares interactivos utilizando solo datos de secuencia. Incrusta implícitamente información estructural, flexibilidad, evolución estructural y diversidad en el espacio latente, que está optimizado para modelos posteriores a través de estrategias de incrustación K. Vale la pena señalar que SVS alcanza el mismo nivel de precisión que el mejor enfoque basado en la estructura, como se muestra en la Fig. 2.

Los modelos de cribado virtual basados ​​en ligandos también sirven como otro enfoque eficaz que puede evitar el acoplamiento basado en estructuras para evaluar la interacción biomolecular con ligandos49. Sin embargo, el uso actual de modelos basados ​​en ligandos es bastante limitado ya que, en principio, estos modelos solo se pueden aplicar a conjuntos de datos específicos de objetivos y no se pueden usar para la detección de nuevos objetivos. Demostramos que al combinar incrustaciones profundas de objetivos y ligandos a través de estrategias de incrustaciones K, SVS da lugar a predicciones sólidas inespecíficas de objetivos con precisión basada en la estructura.

El módulo de procesamiento de lenguaje biológico y el módulo de incrustación de K son dos componentes principales en los modelos SVS. Convencionalmente, el rendimiento del modelo se basa tanto en módulos de caracterización como en algoritmos de aprendizaje automático. Para analizar únicamente la calidad de los módulos de caracterización, llevamos a cabo un análisis de similitud de residuos (RS) utilizando RS plot y RS index48 para tareas de clasificación (Fig. 4b). El análisis RS describe la calidad de las características en términos de puntajes de similitud y puntajes de residuos, así como la desviación entre diferentes clases.

Analizamos más a fondo los comportamientos de SVS en diferentes conjuntos de datos en términos de magnitudes y modelabilidad (Fig. 5a), donde la información básica de los conjuntos de datos de correspondencia se puede encontrar en la Tabla complementaria 3. Se emplean tres métricas: índice de modelabilidad, predictivo e índice de magnitud del índice. El índice de modelabilidad y el índice de magnitud se calculan en función de los datos de entrenamiento de cada conjunto de datos, mientras que el índice predictivo se calcula en función de nuestros resultados predictivos en los datos de prueba. Tenga en cuenta que si nuestro modelo se prueba mediante validación cruzada, se calculará todo el conjunto de datos para cada uno de los cinco índices. El índice predictivo se elige en función de los tipos de tareas: elegimos la puntuación de precisión para las tareas de clasificación y Rp para las tareas de regresión. El índice de modelabilidad, que representa la viabilidad de nuestro enfoque sobre los datos de entrenamiento de cada conjunto de datos, se evalúa calculando la relación ponderada por clase (clasificación) o el acantilado de actividad (regresión) entre los vecinos más cercanos de las muestras (ecuaciones (15). ) y (16)). Estudios previos50,51 han sugerido que 0,65 es el umbral para separar los conjuntos de datos modelables y no modelables. Nuestro modelo supera este umbral en todos los conjuntos de datos. En particular, los índices de modelabilidad superan 0,8, lo que confirma la robustez, estabilidad y viabilidad de nuestro SVS. Nuestro método es compatible con una amplia variedad de tamaños de conjuntos de datos, como lo muestra el índice de magnitud, que refleja el tamaño del conjunto de datos correspondiente en proporción al tamaño máximo de los 9 conjuntos de datos estudiados (el tamaño máximo de datos es 11.188). Nuestro análisis muestra que no existe una correlación sustancial entre el índice de magnitud y el índice de modelabilidad o el índice predictivo, con la única excepción del conjunto de datos PN. Este conjunto de datos, en comparación con otros conjuntos de datos de la misma tarea (es decir, conjuntos de datos PL, PP, iPPI), tiene el mismo nivel de índice de modelabilidad, pero con niveles más bajos del índice predictivo. Creemos que esto se debe a que el índice de magnitud es demasiado pequeño y este conjunto de datos se prueba mediante validación cruzada. Por lo tanto, los datos seleccionados al azar generan un vacío en el espacio de características, lo que dificulta que nuestro modelo se ajuste a este conjunto de datos. En conclusión, SVS se puede aplicar ampliamente para predicciones biomoleculares y es robusto frente a la variación del tamaño de los datos. Además, SVS tiene una fuerte adaptabilidad a moléculas con diferentes composiciones de secuencia. Dado que las proteínas estuvieron involucradas en cada uno de nuestros experimentos numéricos anteriores, mostramos la distribución de la longitud de las secuencias de proteínas en cada conjunto de datos (Fig. 5b), así como la distribución de la tasa de aparición de aminoácidos en las secuencias (Fig. 5c). En promedio, las longitudes de secuencia de PL, PP y PN son más cortas que las de Saccharomyces cerevisiae (SC), Drosophila melanogaster (DM), Helicobacter pylori (HP), Homo sapiens (HS) y Mus musculus (MM). Esto se debe a que las muestras en los conjuntos de datos anteriores también cuentan con estructuras determinadas experimentalmente. La disponibilidad y confiabilidad de las estructuras de proteínas de gran tamaño están sujetas a técnicas experimentales, así como a consideraciones prácticas, lo que conduce a un sesgo sistemático inevitable para los enfoques basados ​​en estructuras. Por otro lado, nuestros modelos SVS muestran un excelente desempeño para tareas que involucran varias distribuciones de longitud de secuencia. Además, la diversidad de la distribución de la tasa de aparición de aminoácidos respalda la adaptabilidad de nuestro modelo para abordar diferentes tareas biológicas, independientemente de si la composición de la secuencia involucrada tiene alguna especificidad. En conclusión, nuestros modelos SVS son robustos frente a la variación de longitud de secuencia y se adaptan a la variabilidad biomolecular, lo que revela el potencial de nuestro método SVS como enfoque universal para estudiar interacciones biológicas.

a Índice de modelabilidad, índice predictivo e índice de magnitud para nueve conjuntos de datos. El eje y de la izquierda representa la modelabilidad y los índices predictivos, mientras que el eje y de la derecha es el índice de magnitud. Nueve conjuntos de datos utilizados en nuestro trabajo son cuatro tareas de regresión de afinidad de unión (es decir, PL, PP, PN, iPPI) y cinco tareas de clasificación de interacción proteína-proteína, a saber, SC (Saccharomyces cerevisiae), DM (Drosophila melanogaster), HP (Helicobacter pylori ), HS (Homo sapiens) y MM (Mus musculus). b La distribución de la longitud de la secuencia para 9 conjuntos de datos. c La distribución normalizada de la tasa de aparición de aminoácidos. Esta subfigura tiene nueve canales horizontalmente, correspondientes a nueve conjuntos de datos descritos en a, b. Cada canal muestra la distribución de 20 tipos de tasas de aparición de aminoácidos en secuencias del conjunto de datos.

El éxito del SVS se debe al uso de modelos potentes de PNL, como LSTM, autoencoder y, en particular, transformadores entrenados con cientos de millones de moléculas. Estos modelos extraen las reglas constitucionales de moléculas y biomoléculas sin recurrir a etiquetas de propiedades moleculares. El SVS propuesto se volverá más poderoso a medida que estén disponibles modelos de PNL más avanzados.

Para mostrar el método SVS propuesto, elegimos nueve conjuntos de datos de interacción biomolecular representativos que incluyen cuatro conjuntos de datos de regresión para unión proteína-ligando, unión proteína-proteína, unión de ácido nucleico e inhibición de ligando de interacciones proteína-proteína y cinco conjuntos de datos de clasificación para la proteína-proteína. interacciones en cinco especies biológicas. SVS se puede aplicar a la detección virtual a gran escala de múltiples objetivos y múltiples componentes moleculares sin ninguna información estructural.

Recientemente, ha habido una creciente preocupación por la posible fuga de datos en los modelos de aprendizaje automático, donde el modelo puede depender demasiado de la similitud de secuencias para hacer predicciones52. Este problema socava la capacidad del modelo para aprender el patrón subyacente de interacciones entre biomoléculas. Sin embargo, nuestro enfoque, SVS, evita la fuga de datos mediante la utilización de incrustaciones K basadas en NLP. Al extraer una amplia gama de información oculta de las secuencias, incluida la información estructural, contextual, bioquímica y evolutiva, nuestro modelo SVS depende menos de la similitud de la secuencia. Estudios recientes también demuestran la efectividad de los métodos basados ​​en NLP para predecir mutaciones únicas o múltiples de interacciones de proteínas que pueden alterar o abandonar por completo las interacciones moleculares4,53, lo que confirma aún más la baja dependencia de SVS en la similitud de secuencia.

En este estudio, utilizamos conjuntos de datos PDBbind-201641 para predecir la afinidad de unión proteína-ligando. El conjunto de datos utilizado en la afinidad de unión proteína-proteína se construyó a partir de la base de datos PDBbind41. La versión original de PDBbind 2020 contiene datos de afinidad de unión de 2852 complejos proteína-proteína. Seleccionamos 1795 muestras con solo dos secuencias de subcadenas diferentes, como se muestra en la Tabla complementaria 5. Además, también construimos el conjunto de datos de afinidad de unión de ácido nucleico a proteína de PDBbind versión 2020. Sin embargo, a diferencia de las proteínas y los ligandos, los ácidos nucleicos deben convertirse a k-mers (en nuestros modelos, k es igual a 3) antes de alimentar el modelo de Transformador que usamos. Por lo tanto, una letra no convencional (p. ej., X, Y) en una secuencia dará como resultado k k-mers desconocidos. Además, los ácidos nucleicos que se unen a las proteínas son generalmente de corta duración. Por lo tanto, las letras no convencionales en sus secuencias pueden destruir completamente el contexto de las representaciones k-mer. Por ejemplo, una secuencia de ácido nucleico "ACXTG" se convertirá en tres 3-meros: "ACX", "CXT" y "XTG". Tenga en cuenta que estos tres 3-mers contienen una "X", por lo que el modelo de procesamiento de lenguaje biomolecular los tratará como tokens desconocidos y no podrá leer ninguna información de secuencia útil. Para garantizar la efectividad de la información de la secuencia, aplicamos un criterio de exclusión más estricto: 1) excluir aquellos complejos de proteína-ácido nucleico cuyos números de secuencia no sean iguales a dos; 2) excluir aquellos complejos de proteína-ácido nucleico que tienen etiquetas poco claras; 3) excluir aquellos complejos proteína-ácido nucleico que tienen letras anormales (las normales son A, C, T, G) en sus secuencias de ácido nucleico; 4) excluir aquellos complejos proteína-núcleo cuya longitud de secuencia de ácido nucleico es inferior a 6. El conjunto de datos resultante contiene 186 complejos proteína-ácido nucleico como se muestra en la Tabla complementaria 4. Además, para estos dos conjuntos de datos, las etiquetas se transforman a partir de la constante de disociación (Kd), la constante inhibidora (Ki) y la mitad de la concentración inhibitoria máxima (IC50) a la energía libre de Gibbs en función de la ecuación complementaria. 8.

El conjunto de datos original iPPI se centra en los ligandos, por lo que la disponibilidad de objetivos PPI es oscura y solo se proporcionan 31 objetivos a nivel de familia, mientras que 1694 ligandos están disponibles. Para cada familia de proteínas, seleccionamos una proteína para representar a toda la familia (p. ej., elegimos P10415/Q07812 para BCL2/BAK; O60885/P62805 para bromodominio/histona y O75475/P12497 para ledgf/in). Se pueden encontrar correspondencias más específicas en la Tabla complementaria 6.

La identificación de la interacción proteína-proteína involucra cinco conjuntos de datos de referencia, a saber, 2434 pares de proteínas de Homo sapiens, 694 pares de proteínas de Mus musculus, 11 188 pares de proteínas de Saccharomyces cerevisiae, 2140 pares de proteínas de Drosophila melanogaster y 2916 pares de proteínas de Helicobacter pylori14. Cada conjunto de datos consta de una cantidad igual de pares que interactúan y pares que no interactúan. Los pares de proteínas que interactúan, que sirven como muestras positivas, se recolectaron de la base de datos pública de proteínas que interactúan (DIP)54. Las muestras con menos de 50 aminoácidos y más del 40 % de identidad de secuencia por pares entre sí se excluyeron para reducir los fragmentos y la similitud de secuencia. Se generaron muestras negativas de cada conjunto de datos mediante la selección aleatoria de pares de proteínas en distintos compartimentos subcelulares. Las proteínas de diferentes compartimentos subcelulares generalmente no interactúan entre sí y, de hecho, esta construcción asegura una alta confianza en la identificación de muestras negativas14.

Toda la información adicional de los conjuntos de datos utilizados en este estudio se puede encontrar en la Nota complementaria 4.

Para un complejo molecular dado con m moléculas, denota Sm = {s1, s2, … , sm}(m ≥ 2) el conjunto de las secuencias correspondientes. El conjunto de incrustaciones 1 de PNL asociadas es \(\{{\tau }_{{u}_{1}}^{(1)}({s}_{1}),{\tau }_{{ u}_{2}}^{(1)}({s}_{2}),\ldots ,{\tau }_{{u}_{m}}^{(1)}({s} _{metro})\}\). Aquí el subíndice (ui) es la dimensión de incrustación, por ejemplo, 512 para la dimensión del espacio latente del Transformador molecular pequeño24. Nuestro objetivo es construir un modelo de incrustación m óptimo (\({\tau }_{z}^{(m)}({S}_{m})\)) a partir de \(\{{\tau }_ {{u}_{1}}^{(1)}({s}_{1}),{\tau}_{{u}_{2}}^{(1)}({s}_ {2}),\ldots ,{\tau }_{{u}_{m}}^{(1)}({s}_{m})\}\), para el complejo.

En general, una incrustación q se define en formas inferiores como la siguiente fórmula:

donde r + t = q, y \({S}_{r}=\{{s}_{{i}_{1}},{s}_{{i}_{2}},\ldots ,{s}_{{i}_{r}}\},{S}_{t}=\{{s}_{{j}_{1}},{s}_{{j}_ {2}},\ldots,{s}_{{j}_{t}}\},\,{{{{{{{\rm{and}}}}}}}}\,{S} _{q}=\{{s}_{{k}_{1}},{s}_{{k}_{2}},\ldots,{s}_{{k}_{q} }\}\) son tres subconjuntos de secuencias. Aquí, la H es la función integradora. En este estudio, aplicamos Stack, Prod y Diff en función de la homogeneidad o heterogeneidad de las estrategias de formas inferiores como nuestras elecciones de H.

Específicamente, la pila se puede definir de la siguiente manera:

donde ⊕ es la suma directa.

Además, si las estrategias de forma inferior son homogéneas (es decir, u = v, s = t), podemos definir Prod y Diff de la siguiente manera:

donde μ y σ son el valor medio y la desviación estándar, y

donde × y − es el producto y la resta por elementos, respectivamente.

En este trabajo, la optimización se realiza sobre incrustaciones de NLP individuales (\({\tau }_{{u}_{j}}^{(1)}({s}_{j})\)), tales como Transformador, codificador automático y LSTM, y todas las funciones de integración (H), es decir, Stack, Prod y Diff.

Utilizamos dos conjuntos de algoritmos de aprendizaje automático. El primer conjunto son las redes neuronales artificiales (ANN), un algoritmo de aprendizaje profundo que se inspiró en la complicada funcionalidad del cerebro humano. Para cada tarea, utilizamos la optimización bayesiana55 para buscar la mejor combinación de hiperparámetros, incluido el tamaño de la red, los parámetros de penalización L2, la tasa de aprendizaje, el tamaño del lote y la iteración máxima. El segundo modelo es el árbol de decisión de impulso de gradiente (GBDT), uno de los métodos de conjunto más populares. GBDT tiene las ventajas de robustez contra el sobreajuste, insensibilidad a los hiperparámetros, efectividad en el desempeño, posesión de interpretabilidad. GBDT se utilizó principalmente para implementar tareas de regresión. Los hiperparámetros que incluyen "n_estimators, max_ depth, min_sample_split, subsample, max_features" se eligen en función del tamaño de los datos y las dimensiones de incrustación de cada tarea. La Nota complementaria 3 presenta las estrategias de optimización utilizadas en nuestro estudio. La configuración detallada de los hiperparámetros se presenta en la Tabla complementaria 2.

La optimización bayesiana es un enfoque popular para optimizar secuencialmente los hiperparámetros de los algoritmos de aprendizaje automático. La optimización bayesiana es maximizar una función de caja negra f(x) en un espacio \({{{{{{\mathcal{S}}}}}}}}\):

En la optimización de hiperparámetros, \({{{{{{{\mathcal{S}}}}}}}}\) puede considerarse como el espacio de búsqueda de hiperparámetros, x* es el conjunto de hiperparámetros óptimos y f( x) es una métrica de evaluación para el rendimiento del aprendizaje automático.

Dados t puntos de datos Xt = (x1, x2, … , xt) y sus valores de evaluación de matrices Yt = (y1, y2, … , yt), el proceso gaussiano puede modelar el paisaje de f en todo el espacio \({{{ {{{{\mathcal{S}}}}}}}}\) ajustando (Xt, Yt)56. En cualquier punto nuevo x, f(x) se modela mediante una distribución posterior gaussiana: \(p(f(x)| {X}_{t},{Y}_{t}) \sim {{{{{ {{\mathcal{N}}}}}}}}({\mu }_{t}(x),{\sigma }_{t}^{2}(x))\), donde μt(x ) es la media y σ es la desviación estándar de f(x) predicha por el proceso de regresión gaussiana:

Aquí k es la función del kernel, K(x, Xt) es un vector fila de evaluaciones del kernel entre x y los elementos de Xt con \({[K(x,{X}_{t})]}_{i} =k(x,{x}_{i})\), y K(Xt, Xt) es la matriz kernel con \({[K({X}_{t},{X}_{t}) ]}_{ij}=k({x}_{i},{x}_{j})\). ϵn es el término de ruido, que se aprende de la regresión.

En la optimización bayesiana, tanto la media prevista como la desviación estándar se utilizan para la toma de decisiones para el siguiente punto de evaluación de datos. Se puede elegir el punto que maximice los valores medios de f(x) para una búsqueda codiciosa, o elegir el punto con la mayor desviación estándar para obtener nuevos conocimientos y mejorar la precisión del proceso gaussiano en el paisaje de f(x). La búsqueda codiciosa puede maximizar en gran medida f(x) en unas pocas iteraciones y la exploración de puntos inciertos puede ser beneficiosa para iteraciones a largo plazo. Para equilibrar tal compensación de explotación-exploración, se debe elegir una función de adquisición, α(x). La decisión para el siguiente punto de evaluación xn se elige de manera que maximice la función de adquisición

En este estudio, utilizamos la adquisición del límite de confianza superior (UCB) que puede manejar la compensación y tiene una tasa de convergencia rápida57 para la optimización de caja negra.

Además de las métricas de evaluación presentadas en la Nota complementaria 1 (de la ecuación complementaria 1 a la ecuación complementaria 7), las puntuaciones RS, el índice RS y el índice de modelabilidad se describen a continuación.

El gráfico de similitud de residuos (RS) es un nuevo tipo de método de visualización y análisis que se puede aplicar a un número arbitrario de clases propuesto por Hozumi et al.48. Una gráfica RS evalúa cada muestra de datos dados por dos componentes, las puntuaciones de residuos y similitud. Para el conjunto de datos dado \({\{({x}_{m},{y}_{m})| {x}_{m}\in {R}^{N},{y}_{m} \in {Z}_{L}\}}_{m = 1}^{M}\), la puntuación de residuos y la puntuación de similitud de una muestra (xm, ym) se definen de la siguiente manera:

donde l = ym, Cl = {xm∣ym = l} y \({d}_{\max }=\mathop{\max }\nolimits_{{x}_{i},{x}_{j }\en {C}_{l}}| | {x}_{i}-{x}_{j}| |\). Tenga en cuenta que 0 ≤ Rm ≤ 1 y 0 ≤ Sm ≤ 1. Si una muestra está lejos de otras clases, tendrá una puntuación de residuos mayor; si una muestra está bien agrupada, tendrá una puntuación de similitud mayor.

El índice de residuo de clase (CRI) y el índice de similitud de clase (CSI) para la l-ésima clase se pueden definir como \({{{\mbox{CRI}}}}_{l}=\frac{1}{| { C}_{l}| }{\sum }_{m}{R}_{m}\) y \({{{\mbox{CSI}}}}_{l}=\frac{1}{ | {C}_{l}| }{\sum }_{m}{S}_{m}\). Luego se puede definir el índice de residuo independiente de clase (RI) y el índice de similitud (SI):

Luego, se pueden definir los índices RS que pueden dar una evaluación independiente de la clase de las puntuaciones R y S de la desviación48:

Tenga en cuenta que el RSI varía de 0 a 1 y un RSI bajo indica una gran desviación entre la puntuación R y la puntuación S.

El índice de modelabilidad se define de forma independiente para tareas de clasificación y tareas de regresión, a saber, MODIcl y MODIreg, respectivamente, definidas de la siguiente manera50,51:

donde L representa el número de clases, Ni es el recuento de muestras en la i-ésima clase cuyo primer vecino más cercano también está en la i-ésima clase, Mi es el número de muestras en la i-ésima clase, M es el total número de muestras, \({C}_{i}^{1}\) es el vecino más cercano a la i-ésima muestra, Ki es el recuento de muestras en \({C}_{i}^{1 }\) excepto la i-ésima muestra, y yi representa la etiqueta normalizada de la i-ésima muestra.

Marcamos la desviación estándar de todos nuestros resultados de validación cruzada en la Tabla complementaria 1. Para la reproducibilidad, las repeticiones de nuestros experimentos se presentan en la Tabla complementaria 3.

Más información sobre el diseño de la investigación está disponible en el Resumen de informes de Nature Portfolio vinculado a este artículo.

Todos los conjuntos de datos están disponibles en https://weilab.math.msu.edu/DataLibrary/2D/. Los Datos complementarios 1 proporcionan archivos .xlsx para reproducir las Figs. 2, 3, 4 y 5.

Los códigos fuente están disponibles en https://github.com/WeilabMSU/SVS.

Bryant, P., Pozzati, G. & Elofsson, A. Predicción mejorada de interacciones proteína-proteína usando AlphaFold2. Nat. común 13, 1–11 (2022).

Google Académico

Jumper, J. et al. Predicción de estructura de proteínas de alta precisión con AlphaFold. Naturaleza 596, 583–589 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Otović, E., Njirjak, M., Kalafatovic, D. & Mauša, G. Esquema de representación de propiedades secuenciales para la predicción de péptidos terapéuticos basada en redes neuronales recurrentes. J. Chem. información Modelo. 62, 2961–2972 (2022).

Qiu, Y., Hu, J. y Wei, G.-W. Evolución dirigida asistida por aprendizaje en clúster. Nat. computar ciencia 1, 809–818 (2021).

Artículo PubMed PubMed Central Google Académico

Planas, D. et al. Escape considerable de SARS-CoV-2 omicron a la neutralización de anticuerpos. Naturaleza 602, 671–675 (2022).

Artículo CAS PubMed Google Académico

Zhang, QC, Petrey, D., Garzón, JI, Deng, L. & Honig, B. PrePPI: una base de datos de interacciones proteína-proteína informada por la estructura. Ácidos Nucleicos Res. 41, D828–D833 (2012).

Artículo PubMed PubMed Central Google Académico

Kwon, Y., Shin, W.-H., Ko, J. & Lee, J. Ak-score: predicción precisa de la afinidad de unión de proteína-ligando usando un conjunto de redes neuronales convolucionales 3d. En t. J. Mol. ciencia 21, 8424 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Ballester, PJ & Mitchell, JB Un enfoque de aprendizaje automático para predecir la afinidad de unión proteína-ligando con aplicaciones al acoplamiento molecular. Bioinformática 26, 1169–1175 (2010).

Artículo CAS PubMed Google Académico

Zheng, L., Fan, J. & Mu, Y. Onionnet: una red neuronal convolucional basada en contactos intermoleculares de múltiples capas para la predicción de la afinidad de unión proteína-ligando. ACS Omega 4, 15956–15965 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Cang, Z., Mu, L. y Wei, G.-W. Representabilidad de la topología algebraica para biomoléculas en la puntuación basada en el aprendizaje automático y la detección virtual. Cómputo PLoS. Biol. 14, e1005929 (2018).

Artículo PubMed PubMed Central Google Académico

Nguyen, DD, Cang, Z. y Wei, G.-W. Una revisión de las representaciones matemáticas de los datos biomoleculares. física química química física 22, 4343–4367 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Prieto-Martínez, F. D., Arciniega, M. & Medina-Franco, J. L. Molecular docking: current advances and challenges. TIP Revista Especializada en Ciencias Químico-Biológicas https://doi.org/10.22201/fesz.23958723e.2018.0.143 (2018).

Zhou, X.-X., Wang, Y.-B., Pan, Y.-J. & Li, W.-F. Diferencias en la composición de aminoácidos y patrones de acoplamiento entre proteínas mesófilas y termófilas. Aminoácidos 34, 25–33 (2008).

Artículo CAS PubMed Google Académico

Zhao, N., Zhuo, M., Tian, ​​K. & Gong, X. Interacción proteína-proteína y predicciones de no interacción utilizando un vector natural de secuencia génica. común Biol. 5, 1–11 (2022).

Artículo CAS Google Académico

Chou, K.-C. Composición de pseudoaminoácidos y sus aplicaciones en bioinformática, proteómica y biología de sistemas. actual Proteómica 6, 262–274 (2009).

Artículo CAS Google Académico

Zeng, Y.-h et al. Uso de la composición de pseudoaminoácidos de Chou aumentada para predecir las ubicaciones de las subcondrias de proteínas según el enfoque de covarianza automática. J. Teor. Biol. 259, 366–372 (2009).

Artículo CAS PubMed Google Académico

Friedman, C., Kra, P., Yu, H., Krauthammer, M. y Rzhetsky, A. Genies: un sistema de procesamiento de lenguaje natural para la extracción de vías moleculares de artículos de revistas. Bioinformática 17 (Suplemento 1), S74–S82 (2001).

Ono, T., Hishigaki, H., Tanigami, A. y Takagi, T. Extracción automatizada de información sobre interacciones proteína-proteína de la literatura biológica. Bioinformática 17, 155–161 (2001).

Artículo CAS PubMed Google Académico

Wang, Y. et al. Un modelo de lenguaje biológico de alta eficiencia para predecir las interacciones proteína-proteína. Celdas 8, 122 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Alley, EC, Khimulya, G., Biswas, S., AlQuraishi, M. & Church, GM Ingeniería racional unificada de proteínas con aprendizaje de representación profunda basado en secuencias. Nat. Métodos 16, 1315–1322 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Feng, H. et al. Análisis de aprendizaje automático de la adicción a la cocaína informado por redes de interactoma basadas en DAT, SERT y NET. J. Chem. Cálculo de la teoría. 18, 2703–2719 (2022).

Artículo CAS PubMed Google Académico

Rives, A. et al. La estructura y la función biológica surgen de escalar el aprendizaje no supervisado a 250 millones de secuencias de proteínas. proc. Academia Nacional. ciencia EE. UU. 118, e2016239118 (2021).

Ji, Y., Zhou, Z., Liu, H. y Davuluri, RV DNAbert: representaciones de codificador bidireccional preentrenadas del modelo de transformadores para el lenguaje de ADN en el genoma. Bioinformática 37, 2112–2120 (2021).

Artículo CAS PubMed Google Académico

Chen, D., Zheng, J., Wei, G.-W. & Pan, F. Extrayendo representaciones predictivas de cientos de millones de moléculas. J. física. química Letón. 12, 10793–10801 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Vaswani, A. et al. La atención es todo lo que necesitas. Adv. información neural proceso. sist. 30, (2017).

Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. Bert: entrenamiento previo de transformadores bidireccionales profundos para la comprensión del lenguaje. Preimpresión en arXiv https://arxiv.org/abs/1810.04805 (2018).

Chen, D. et al. Transformadores bidireccionales asistidos por gráficos algebraicos para la predicción de propiedades moleculares. Nat. común 12, 1–9 (2021).

Google Académico

Ramírez, D. & Caballero, J. ¿Es confiable usar métodos comunes de acoplamiento molecular para comparar las afinidades de unión de los pares de enantiómeros por su proteína diana? En t. J. Mol. ciencia 17, 525 (2016).

Artículo PubMed PubMed Central Google Académico

Jain, AN Funciones de puntuación para acoplamiento proteína-ligando. actual Pepto de Proteína ciencia 7, 407–420 (2006).

Artículo CAS PubMed Google Académico

Steinbrecher, T. & Labahn, A. Hacia cálculos precisos de energía libre en estudios de unión a proteínas de ligandos. actual Medicina. química 17, 767–785 (2010).

Artículo CAS PubMed Google Académico

Meng, Z. & Xia, K. Aprendizaje automático basado en espectros persistentes (PerSpect ML) para la predicción de la afinidad de unión de proteínas y ligandos. ciencia Adv. 7, eabc5329 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Pan, X. et al. Puntuación AA: una nueva función de puntuación basada en la interacción específica de aminoácidos para el acoplamiento molecular. J. Chem. información Modelo. 62, 2499–2509 (2022).

Artículo CAS PubMed Google Académico

Su, M et al. Evaluación comparativa de las funciones de puntuación: la actualización CASF-2016. J. Chem. información Modelo. 59, 895–913 (2018).

Artículo PubMed Google Académico

Jiménez, J., Skalic, M., Martinez-Rosell, G. & De Fabritiis, G. KDEEP: predicción de la afinidad de unión absoluta proteína-ligando a través de redes neuronales convolucionales 3D. J. Chem. información Modelo. 58, 287–296 (2018).

Artículo PubMed Google Académico

Wójcikowski, M., Kukiełka, M., Stepniewska-Dziubinska, MM y Siedlecki, P. Desarrollo de una huella digital de conectividad extendida proteína-ligando (PLEC) y su aplicación para predicciones de afinidad de unión. Bioinformática 35, 1334–1341 (2019).

Artículo PubMed Google Académico

Stepniewska-Dziubinska, MM, Zielenkiewicz, P. & Siedlecki, P. Desarrollo y evaluación de un modelo de aprendizaje profundo para la predicción de la afinidad de unión proteína-ligando. Bioinformática 34, 3666–3674 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Jones, D. et al. Predicción mejorada de la afinidad de unión proteína-ligando con inferencia de fusión profunda basada en la estructura. J. Chem. información Modelo. 61, 1583–1592 (2021).

Artículo CAS PubMed Google Académico

Boyles, F., Deane, CM y Morris, GM Aprendiendo del ligando: uso de características basadas en ligando para mejorar la predicción de la afinidad de unión. Bioinformática 36, ​​758–764 (2020).

Artículo CAS PubMed Google Académico

Wang, M., Cang, Z. y Wei, G.-W. Un árbol de red basado en topología para la predicción de cambios en la afinidad de unión proteína-proteína después de la mutación. Nat. Mach. Intel. 2, 116–123 (2020).

Artículo PubMed PubMed Central Google Académico

Liu, X., Feng, H., Wu, J. & Xia, K. Hom-aprendizaje automático basado en complejos (HCML) para la predicción de cambios en la afinidad de unión proteína-proteína tras la mutación. J. Chem. información Modelo. 62, 3961–3969 (2022).

Artículo CAS PubMed Google Académico

Liu, Z. et al. Recopilación de datos vinculantes en todo el PDB: estado actual de la base de datos pdbbind. Bioinformática 31, 405–412 (2015).

Artículo CAS PubMed Google Académico

Rodrigues, CH, Pires, DE & Ascher, DB PDCSM-PPI: uso de firmas basadas en gráficos para identificar inhibidores de interacción proteína-proteína. J. Chem. información Modelo. 61, 5438–5445 (2021).

Artículo CAS PubMed Google Académico

Jubb, H., Blundell, TL & Ascher, DB Flexibilidad y pequeños bolsillos en las interfaces proteína-proteína: nuevos conocimientos sobre la farmacoactividad. prog. Biografía. mol. Biol. 119, 2–9 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Laraia, L., McKenzie, G., Spring, DR, Venkitaraman, AR & Huggins, DJ Superar los desafíos químicos, biológicos y computacionales en el desarrollo de inhibidores dirigidos a las interacciones proteína-proteína. química Biol. 22, 689–703 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Watkins, AM & Arora, PS Estructura basada en la inhibición de las interacciones proteína-proteína. EUR. J.Med. química 94, 480–488 (2015).

Artículo CAS PubMed Google Académico

Sun, T., Zhou, B., Lai, L. & Pei, J. Predicción basada en secuencias de la interacción proteína proteína usando un algoritmo de aprendizaje profundo. BMC Bioinforme. 18, 1–8 (2017).

Artículo CAS Google Académico

Canción, B. et al. El aprendizaje de las estructuras espaciales de las proteínas mejora la predicción de la interacción proteína-proteína. Breve. Bioinformar. 23, bbab558 (2022).

Hozumi, Y., Wang, R. y Wei, G.-W. CCP: clustering correlacionado y proyección para reducción de dimensionalidad. Preimpresión en arXiv https://arxiv.org/abs/2206.04189 (2022).

Ripphausen, P., Nisius, B. & Bajorath, J. Estado del arte en la detección virtual basada en ligandos. Descubrimiento de drogas Hoy 16, 372–376 (2011).

Artículo CAS PubMed Google Académico

Luque Ruiz, I. & Gómez-Nieto, M. Á. Estudio de modelabilidad de conjuntos de datos: índices de modelabilidad, rivalidad y modelabilidad ponderada. J. Chem. información Modelo. 58, 1798–1814 (2018).

Artículo CAS PubMed Google Académico

Marcou, G., Horvath, D. y Varnek, A. Parámetro de alineación de destino del kernel: una nueva medida de modelabilidad para tareas de regresión. J. Chem. información Modelo. 56, 6–11 (2016).

Artículo CAS PubMed Google Académico

Bernett, J., Blumenthal, DB & List, M. Descifrando la caja negra de la predicción profunda de la interacción proteína-proteína basada en secuencias. Preimpresión en bioRxiv https://doi.org/10.1101/2023.01.18.524543 (2023).

Qiu, Y. y Wei, G.-W. Ingeniería de proteínas guiada por la teoría espectral persistente. Nat. computar ciencia 3, 149–163 (2023).

Xenarios, I. et al. Dip, la base de datos de proteínas que interactúan: una herramienta de investigación para estudiar redes celulares de interacciones de proteínas. Ácidos Nucleicos Res. 30, 303–305 (2002).

Artículo CAS PubMed PubMed Central Google Scholar

Snoek, J., Larochelle, H. & Adams, RP Optimización bayesiana práctica de algoritmos de aprendizaje automático. Adv. información neural proceso. sist. 25, (2012).

Williams, CK y Rasmussen, CE Procesos gaussianos para el aprendizaje automático, vol. 2 (Prensa del MIT, 2006).

Srinivas, N., Krause, A., Kakade, SM y Seeger, M. Optimización de procesos gaussiana en el entorno bandido: sin arrepentimiento y diseño experimental. Preimpresión de arXiv https://arxiv.org/abs/0912.3995 (2009).

Wang, Y. et al. PCVMZM: uso del modelo de máquinas de vectores de clasificación probabilística combinado con un descriptor de momentos zernike para predecir interacciones proteína-proteína a partir de secuencias de proteínas. En t. J. Mol. ciencia 18, 1029 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Descargar referencias

Este trabajo fue apoyado en parte por subvenciones NIH R01GM126189 y R01AI164266, subvenciones NSF DMS-2052983, DMS-1761320 e IIS-1900473, subvención NASA 80NSSC21M0023, MSU Foundation, Bristol-Myers Squibb 65109 y Pfizer.

Departamento de Matemáticas, Universidad Estatal de Michigan, East Lansing, MI, 48824, EE. UU.

Li Shen, Hongsong Feng, Yuchi Qiu y Guo-Wei Wei

Departamento de Ingeniería Eléctrica e Informática, Universidad Estatal de Michigan, East Lansing, MI, 48824, EE. UU.

Guo Wei Wei

Departamento de Bioquímica y Biología Molecular, Universidad Estatal de Michigan, East Lansing, MI, 48824, EE. UU.

Guo Wei Wei

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

Todos los autores concibieron este trabajo y contribuyeron al borrador original, revisión y edición. LS, HF y YQ realizaron experimentos y analizaron datos. G.-WW proporcionó supervisión y recursos y obtuvo financiación.

Correspondencia a Guo-Wei Wei.

Los autores declaran no tener conflictos de intereses.

Communications Biology agradece a Lurong Pan y a los otros revisores anónimos por su contribución a la revisión por pares de este trabajo. Editores de manejo principal: Yun Lyna Luo, Gene Chong. Un archivo de revisión por pares está disponible.

Nota del editor Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Shen, L., Feng, H., Qiu, Y. et al. SVSBI: cribado virtual basado en secuencias de interacciones biomoleculares. Comun Biol 6, 536 (2023). https://doi.org/10.1038/s42003-023-04866-3

Descargar cita

Recibido: 10 enero 2023

Aceptado: 24 abril 2023

Publicado: 18 mayo 2023

DOI: https://doi.org/10.1038/s42003-023-04866-3

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.