El pasado 30 de noviembre, el equipo de DeepMind publicó unos resultados que han hecho temblar los cimientos de la biología estructural desde que Christian Anfinsen, premio nobel de química de 1972, pusiese un problema sobre la mesa que nadie había conseguido resolver hasta la fecha.

La verdad es que en este año tan Orwelliano hemos tenido varios hallazgos muy rompedores en distintos sectores conseguidos gracias a los avances en inteligencia artificial: desde nuevos modelos capaces de resolver ecuaciones diferenciales parciales en mucho menos tiempo a GPT-3.

De GPT-3 ya estuvimos hablando en pasados informes en profundidad sobre el cambio de paradigma que provocó en el mundo del procesamiento del lenguaje natural. Hoy entenderemos y reflexionaremos sobre Alphafold2.

Problema a resolver

Volviendo a las clases de bilología del instituto, recordaremos que las proteínas desempeñan un papel primordial en la célula ejecutando la información genética.

[Imagen] -

Tienen funciones muy diversas como transportar oxígeno (hemoglobina), actuar como anticuerpos ante posibles ataques (inmunoglogulinas) o regular los niveles de glucosa en sangre (insulina) entre otras muchas funciones.

Las proteínas están formadas por el enlace de muchas unidades llamadas aminoácidos, encadenadas entre sí y plegadas de forma que adquieren estructuras muy complejas. De esta manera las proteínas quedan determinadas no solo por la secuencia de aminoácidos si no por los pliegues y contorsiones que constituyen la estructura final, lo que les otorga la capacidad de realizar tareas vitales específicas.

Identificar la estructura de una proteína es muy difícil. Para la mayoría de las proteínas ya se conocen la secuencia de aminoácidos de la cadena que la componen, pero no su estructura, la forma doblada que se genera al plegarse.

CASP

La estructura de las proteínas lo es todo para entender la manera de trabajar de la proteína, por lo que los investigadores han pasado décadas tratando de encontrar una manera de determinar la estructura plegada final de una proteína basándose únicamente en los aminoácidos que forman su columna vertebral tal y como Christian Anfinsen planteó.

Para ello, en los años 70 se empezó el desarrollo de una base de datos abierta que sirviera como biblioteca digital de cada estructura de proteína ya determinada y por determinar.

Además, investigadores de todo el mundo pusieron especial esfuerzo en implementar controles y estándares de datos para garantizar la integridad y calidad de la base datos a sabiendas de que la calidad del dato sería clave en el futuro si se querían automatizar predicciones.

Con todo este caldo de cultivo nació CASP (Critical Assessment of Protein Structure Prediction) en 1994, una competición con el objetivo de predecir la estructura final de las proteínas usando computadoras.

Cada dos años, los organizadores publican alrededor de 100 secuencias de aminoácidos de proteínas cuyas estructuras se fueron identificando en laboratorios de manera minuciosa a base de prueba y error pero que aún no se han hecho públicas.

El modelo que más puntúe en base a una métrica muy concreta (GDT) definida por los expertos, gana.

Resultados obtenidos

Además, una puntuación superior a 90 GDT significa que cualquier diferencia entre la estructura predicha y la real podría deberse a errores experiementales en el laboratorio en vez de a un fallo en la predicción del modelo. O también podría significar que la estructura predicha es una configuración alternativa válida, dentro del rango de una variación natural de la proteína.

Alphafold2, a través de una arquitectura especialmente diseñada para el problema utilizando técnicas de aprendizaje profundo, consiguió una puntuación mediana de 92.4 GDT y para aquellas proteínas más dificiles de modelar consiguió una puntuación mediana de 87.0 GDT ¡Boom!

Consecuencias

De esta manera, hace dos semanas se consiguió un hito que los biólogos llevaban décadas persiguiendo. En sus palabras, este modelo predictivo ayudará a crear nuevos medicamentos, comprender mejor las enfermedades y desarrollar proteínas sintéticas útiles.

Además, evitará las actuales técnicas de identificación de estructuras de las proteínas que son costosas y lentas. Dichas técnicas pueden costar cientos de miles de euros y necesitan de años de prueba y error para cada proteína que se quiera descifrar. Ahora, Alphafold2 lo hace en cuestión de días.

No nos engañemos, a Alphafold2 le quedan varios años de refinamiento y de mejora hasta conseguir predecir correctamente aquellos escenarios donde hasta ahora no consiguen todavía los 90 GDT, sin embargo, se ha conseguido un salto cuántico en un problema que llevaba sin resolución desde hace 50 años.

Conclusiones

Alphafold2 ha sido desarrollado por DeepMind, una unidad adquirida por Google en 2014 cuyo objetivo es desarrollar una IA que nos ayude a comprener el mundo.

Es cierto que cada año la IA está demostrando ser la herramienta más poderosa en la actualidad para retos todavía no resueltos muy concretos, muy bien especificados y con una métrica bien definida, algo que en muchos escenarios no es tan sencillo.

Sin embargo, las IAs de caracter general no están terminando de llegar y parecen tener todavía un largo camino por delante. Por lo tanto, más lejos queda aún conseguir una IA que nos ayude a comprender el mundo.

La historia de Alphafold2 nos ha demostrado de nuevo la importancia de dos aspectos importantes en la gestión de los datos en el mundo de la inteligencia artificial:

  • Tener un conjunto de datos de calidad en la que haya profesionales que revisen cada una de las entradas de datos para que las predicciones sean válidas, es clave. Con la tecnología que poseemos hoy en día, para que una IA arroje resultados excelentes necesita una base de datos con un cuidado excelente.
  • Si dicha base de datos no hubiese sido abierta a todo el mundo, el equipo de DeepMind, un equipo totalmente externo al sector podría no haberse llegado a plantear este reto nunca. De nuevo, sale a relucir la importancia del open data en el progreso mundial.

El premio nobel de química, Christian Anfinsen, planteó hace 50 años que la estructura de las proteínas podía ser predicha a partir de la secuencia de aminoácidos y alphafold2 lo ha dejado patente.

¿Se le puede dar el Premio Nobel de química por primera vez en la historia a un modelo de inteligencia artificial?