Beca Leonardo 2023 en Tecnologías de la Información y la Comunicación

Noelia Ferruz recibe 1,5 millones de euros del Consejo Europeo de Investigación para desarrollar una inteligencia artificial capaz de diseñar proteínas a la carta

PABLO JÁUREGUI

Noelia Ferruz, Jefa de Grupo en el Centro de Regulación Genómica (CRG) de Barcelona y Beca Leonardo 2023 en Tecnologías de la Información y la Comunicación, ha recibido una ayuda Starting Grant de 1,5 millones de euros el Consejo Europeo de Investigación (ERC) para desarrollar una inteligencia artificial (IA) generativa capaz de diseñar nuevas proteínas a la carta. El potencial de este sistema –denominado ATHENA– para abordar los mayores retos actuales en campos como el medio ambiente y la biomedicina es inmenso, ya que podría abrir la puerta, por ejemplo, al desarrollo de estrategias para eliminar CO2 de la atmósfera, así como a tratamientos eficaces frente a enfermedades que hoy son incurables.

26 septiembre, 2024

Perfil

Noelia Ferruz

El sueño de esta investigadora, licenciada en Química por la Universidad de Zaragoza y doctora en Biomedicina por la Universitat Pompeu Fabra, es conseguir “un control total” sobre el diseño de proteínas: “Me gustaría que pudiésemos pedir a esta inteligencia artificial que diseñara una proteína específica para eliminar un agente contaminante o detener el crecimiento de un tumor cancerígeno. Sería una herramienta metodológica muy poderosa que podría utilizar cualquier usuario”.

Entre sus principales fuentes de inspiración, Ferruz reconoce las contribuciones transformadoras del Dr. David Baker, galardonado en 2023 con el Premio Fronteras del Conocimiento en Biología y Biomedicina y este año con el Premio Nobel de Química por impulsar el diseño de proteínas con inteligencia artificial: “Es sin lugar a dudas el gran pionero de mi campo, el impulsor de una auténtica revolución científica”.

Gracias al apoyo de su Beca Leonardo, Ferruz se encuentra ahora mismo inmersa en el desarrollo de una IA basada en el programa de traducción automática de Google, que sea capaz de diseñar proteínas con solo especificar la reacción química que se quiere conseguir.

“El traductor de Google”, explica, “ha mejorado mucho en los últimos años gracias a una arquitectura denominada transformer, cuyo código es abierto. El objetivo de mi proyecto Leonardo es aplicar esta tecnología al diseño de proteínas, de tal manera que se consiga una traducción de la química a la biología. Es decir, si en el Google Translate introducimos un input de texto en alemán para obtener un output de su traducción al español, lo que ahora queremos conseguir es introducir reacciones químicas con el objetivo de obtener secuencias biológicas de proteínas. Ya hemos entrenado un primer modelo con esta tecnología y ahora tenemos que testarlo para comprobar su funcionamiento”.

Un algoritmo entrenado con el ‘lenguaje’ de las proteínas

Ferruz considera que su proyecto Leonardo será un paso clave hacia el objetivo que quiere alcanzar a lo largo de los los próximos cinco años con el Starting Grant que le ha concedido el Consejo Europeo de Investigación: el desarrollo de ATHENA, una herramienta de inteligencia artificial generativa para diseñar nuevas proteínas.

“Aunque el conjunto de proteínas que existen en la naturaleza es vasto y asombroso, no siempre proporciona las soluciones precisas que necesitamos”, señala. “Las proteínas que puedan ayudar a hacer frente a retos como la eliminación de los gases de efecto invernadero que causan el cambio climático u otros contaminantes ambientales siguen sin descubrirse o simplemente no existen. Queremos construir herramientas que puedan fabricar estas proteínas, proporcionando formas completamente nuevas de abordar estos desafíos”.

El ejemplo más conocido de la IA generativa es ChatGPT, que es capaz de procesar y generar lenguaje escrito, tras un proceso de aprendizaje automático alimentado por conjuntos masivos de textos. ATHENA se entrenará de forma parecida, pero utilizando el “lenguaje” de las proteínas. En lugar de solo texto, se utilizarán múltiples tipos de datos de las proteínas, incluida su secuencia (el orden de los aminoácidos), estructuras tridimensionales (cómo se forman las proteínas), dinámica (cómo se mueven) e información funcional (qué hacen).

“El proceso es comparable a construir una IA con texto, imágenes y videos a la vez”, explica Ferruz. “Los diferentes tipos de datos ayudarán a ATHENA a comprender y trabajar con proteínas de una manera que no es posible en este momento, lo que lo hace mucho más versátil y potente en el diseño de nuevas proteínas con propiedades específicas para afrontar retos en terrenos como la lucha contra el cambio climático o el desarrollo de nuevas terapias”.

De la ‘caja negra’ a un sistema ‘transparente y explicable’

Además, Ferruz también quiere abordar en este proyecto uno de los mayores desafíos actuales en el campo de la IA: el hecho de que los algoritmos suelen funcionar como “cajas negras”, lo que significa que no sabemos exactamente cómo obtienen los resultados que generan y toman sus decisiones. El equipo que lidera la investigadora en su laboratorio del CRG pretende que ATHENA se diseñe utilizando “IA explicable”, para lograr que el sistema sea más transparente y comprensible.

“Queremos poder entender cómo la IA toma decisiones”, recalca, “en lugar de limitarse a aceptar sus resultados. Esto es importante porque permite a las personas confiar en la tecnología, aprender de ella y asegurarse de que está tomando decisiones por las razones correctas. Creo que la opacidad actual de los algoritmos está detrás de muchos de los temores que está provocando ahora mismo la IA. Uno de los mayores desafíos del proyecto será construir una IA explicable y confiable”.