Esta nueva IA de Google ayuda a científicos a entender mejor el origen genético de enfermedades raras
Hace seis meses, Google DeepMind puso a disposición de la comunidad científica AlphaGenome, un modelo de aprendizaje profundo capaz de predecir la función de secuencias de ADN de hasta un millón de pares de bases en una sola lectura. Desde su lanzamiento, cerca de 3,000 investigadores de 160 países han utilizado esta herramienta, y ahora sus desarrolladores detallan los alcances de esta inteligencia artificial (IA) que promete transformar la investigación genómica.
Los genes constituyen apenas alrededor del 2% del ADN humano. Su función principal es almacenar y transmitir la información necesaria para producir moléculas funcionales, sobre todo proteínas, que determinan rasgos físicos y regulan procesos celulares. Estos mecanismos conforman la base de la herencia y del funcionamiento de los organismos. El 98% restante del genoma no codifica proteínas, pero desempeña un papel fundamental en la regulación de la actividad genética. A pesar de su relevancia, la comprensión de esta porción reguladora del ADN es limitada.
Lluís Montoliu, investigador del Centro Nacional de Biotecnología (CNB-CSIC), explica en una declaración retomada por SMC España que “una alteración en alguno de estos elementos reguladores, que impida la activación o el silenciamiento de un gen cuando debería ocurrir, puede tener como consecuencia un cambio en el patrón de desarrollo embrionario o la aparición de síntomas de alguna patología asociada precisamente al funcionamiento anómalo de ese gen”.
AlphaGenome busca cerrar esta brecha de conocimiento. El modelo es capaz de interpretar secuencias del genoma no codificante y de anticipar múltiples efectos biológicos de manera simultánea. Esto abre la puerta a comprender cómo variaciones en el ADN regulador pueden desencadenar enfermedades raras o contribuir al desarrollo de distintos tipos de cáncer, un desafío central para la genómica moderna.
De acuerdo con el estudio publicado hoy en la revista Nature, el sistema fue entrenado en dos etapas. En la primera fase, los desarrolladores alimentaron al algoritmo con datos experimentales reales obtenidos de humanos y ratones, organizados en 5,930 pistas genómicas. Este enfoque permitió que el modelo no solo memorizara ejemplos específicos, sino que adquiriera capacidad de generalización para reconocer patrones más amplios en el genoma.
En una segunda etapa, el modelo final aprendió a reproducir las salidas de varios sistemas especializados previamente entrenados. Este proceso contribuyó a mejorar la estabilidad, la velocidad de procesamiento y la precisión de AlphaGenome al analizar variantes genéticas diversas, incluidas aquellas que no habían sido observadas por el modelo con anterioridad.
