Investigadores del MIT logran un avance en la interpretabilidad de los modelos lingüísticos de proteínas
2026-04-17 09:21
Fuente:MIT
Favoritos

Investigadores del Instituto Tecnológico de Massachusetts (MIT) han desarrollado recientemente una nueva técnica capaz de analizar los mecanismos internos de toma de decisiones de los sistemas de predicción de proteínas basados en modelos lingüísticos de gran tamaño. Este estudio fue realizado por un equipo dirigido por la profesora de Matemáticas Simons del MIT, Bonnie Berger, con el estudiante de posgrado Onkar Gujral como primer autor. Los hallazgos relacionados se han publicado en la revista Proceedings of the National Academy of Sciences.

En los últimos años, los modelos lingüísticos de proteínas se han utilizado ampliamente en el campo biomédico, incluyendo la identificación de dianas farmacológicas y el diseño de anticuerpos terapéuticos. Aunque estos modelos tienen una alta precisión predictiva, su funcionamiento interno ha permanecido como una "caja negra", lo que dificulta a los investigadores comprender exactamente qué características de las proteínas utiliza el modelo para tomar decisiones.

El equipo de investigación empleó un algoritmo de autoencoder disperso para analizar con éxito, por primera vez, el proceso de toma de decisiones de un modelo lingüístico de proteínas. Esta técnica expandió la representación de las proteínas en la red neuronal de los 480 nodos habituales a 20.000 nodos, permitiendo que la información originalmente altamente comprimida se dispersara y presentara. De esta manera, cada nodo neuronal pudo corresponderse de manera más clara con características específicas de las proteínas.

Para validar la eficacia de esta técnica, los investigadores utilizaron el asistente de IA Claude para analizar las representaciones dispersas obtenidas. Claude logró correlacionar los patrones de activación neuronal con características proteicas conocidas, siendo capaz de describir con precisión las características funcionales biológicas correspondientes a los nodos. Por ejemplo: "Esta neurona parece estar detectando proteínas involucradas en el transporte transmembrana de iones o aminoácidos".

El estudio revela que estos modelos lingüísticos de proteínas se centran principalmente en la clasificación de familias de proteínas y en una variedad de características funcionales metabólicas. Este avance no solo mejora la interpretabilidad del modelo, sino que también proporciona una base científica para que los investigadores seleccionen el modelo más adecuado para tareas específicas. Bonnie Berger señaló: "Nuestro trabajo tiene implicaciones amplias para mejorar la interpretabilidad de las tareas posteriores que dependen de estas representaciones".

El avance en la técnica de interpretabilidad de los modelos lingüísticos de proteínas ayudará a acelerar el proceso de desarrollo de nuevos fármacos y diseño de vacunas. Al comprender la base de las decisiones del modelo, los investigadores pueden optimizar sus parámetros de manera más eficaz y mejorar la precisión predictiva. En el futuro, esta tecnología también podría ayudar a los biólogos a descubrir características funcionales de las proteínas aún no reconocidas.

Este boletín es una compilación y reproducción de información de Internet global y socios estratégicos, y está destinado únicamente a proporcionar a los lectores la comunicación. Si hay infracción u otros problemas, por favor infórmenos a tiempo, este sitio será modificado o eliminado. Toda reproducción de este artículo sin autorización formal está estrictamente prohibida. Correo electrónico: news@wedoany.com