El cáncer no vive solo. Alrededor de cada tumor existe un vecindario complejo, denso de señales moleculares y disputas celulares, donde el sistema inmune del paciente y las células malignas negocian constantemente quién domina el territorio. Entender esa dinámica es, hoy, una de las fronteras más decisivas de la oncología moderna. Lo que no se había logrado hasta ahora era estudiarla a escala masiva, en decenas de miles de pacientes simultáneamente, porque los instrumentos necesarios para hacerlo costaban una fortuna. Un equipo de Microsoft Research acaba de cambiar eso con un software.
El proyecto se llama GigaTIME, fue publicado en diciembre de 2025 en la revista Cell, y su lógica es casi desconcertantemente directa: una lámina histológica teñida con hematoxilina y eosina, la que cualquier hospital produce por entre cinco y diez dólares como parte de un diagnóstico de rutina, ya contiene información sobre el estado molecular interno de cada célula. Está cifrada en la morfología: en la forma del núcleo, en la textura del citoplasma, en la densidad de las poblaciones celulares. GigaTIME aprendió a leer ese cifrado y a producir, como salida, mapas proteicos de alta resolución que antes sólo era posible obtener mediante una técnica de laboratorio entre cien y cuatrocientas veces más costosa.
El vecindario que nadie podía cartografiar a escala
La técnica que GigaTIME viene a reemplazar computacionalmente se llama inmunofluorescencia múltiple, o mIF por su abreviatura en inglés. Es una herramienta formidable: permite marcar simultáneamente decenas de proteínas en un tejido y ubicar cada una de ellas célula por célula, conservando su posición espacial exacta dentro del tumor. Esa resolución espacial es clave porque la biología inmune del tumor no depende sólo de qué proteínas están presentes, sino de dónde están y junto a cuáles otras células. Un linfocito T agresivo que no puede alcanzar físicamente a las células cancerosas porque el tumor ha construido una barrera de tejido conectivo equivale, funcionalmente, a ningún linfocito T en absoluto.
El problema es que procesar una muestra con mIF para dos docenas de canales proteicos puede superar los dos mil dólares por paciente, y escalar ese proceso a miles de muestras simultáneas está fuera del alcance de prácticamente todos los centros de investigación del mundo. El resultado ha sido una ciencia fragmentada: estudios pequeños, difíciles de replicar, basados en cohortes de apenas decenas o pocos cientos de pacientes, sin la potencia estadística necesaria para detectar patrones sutiles entre subtipos de cáncer o perfiles genómicos específicos.
GigaTIME fue construido precisamente para resolver esa escasez estructural. Desarrollado en colaboración entre Microsoft Research, la red hospitalaria Providence y la Escuela de Ciencias de la Computación Paul G. Allen de la Universidad de Washington, el modelo fue entrenado con 40 millones de células que tenían imágenes pareadas, es decir, tejidos donde se habían obtenido tanto la lámina H&E convencional como la imagen mIF correspondiente, en 21 canales de proteínas distintos. Esa correspondencia célula a célula entre las dos modalidades fue el material con el que el sistema aprendió su gramática de traducción.
Cuarenta millones de células como diccionario de traducción
Lo que diferencia a GigaTIME de los trabajos anteriores en patología computacional no es sólo la magnitud del entrenamiento, sino la naturaleza de lo que predice. Modelos como GigaPath, el precursor de Microsoft Research publicado en 2024, también analizaban láminas H&E para inferir información molecular, pero producían un valor promedio por muestra: si el marcador está presente o ausente en el tejido como un todo. GigaTIME opera en otra dimensión: predice el estado proteico de cada célula individual y preserva su localización espacial dentro del tumor. La diferencia es equivalente a conocer la temperatura promedio de una ciudad versus tener un mapa térmico de cada calle, esquina y edificio.
Carlo Bifulco, director médico de Providence Genomics y director de oncología de precisión del Providence Cancer Institute, sintetizó el potencial de la herramienta con claridad: "Al analizar el microambiente tumoral de miles de pacientes, GigaTIME tiene el potencial de acelerar descubrimientos que darán forma al futuro de la oncología de precisión y mejorarán los resultados de los pacientes." No es retórica de comunicado de prensa. Entre las 1.234 asociaciones identificadas por la población virtual, muchas confirman hipótesis que estudios anteriores habían sugerido pero nunca podido demostrar con suficiente poder estadístico. Hay, por ejemplo, vínculos bien documentados entre los marcadores de alta carga mutacional tumoral y la activación de proteínas inmunes como CD138; GigaTIME los reproduce con fidelidad sobre decenas de miles de casos.
Pero hay también hallazgos genuinamente nuevos. El sistema identificó asociaciones pan-cáncer, es decir, presentes en múltiples tipos de tumor simultáneamente, entre patrones de activación inmune y genes como KMT2D, un supresor tumoral, y KRAS, uno de los oncogenes más estudiados en medicina. Ninguna de esas conexiones había podido documentarse antes a esta escala porque sencillamente no existían bases de datos de mIF suficientemente grandes y diversas. El modelo también descubrió interacciones no lineales entre canales proteicos: combinaciones de proteínas que, en conjunto, predicen la supervivencia del paciente mejor que cualquiera de ellas por separado. Ese tipo de patrón combinatorio estaba, hasta ahora, técnicamente fuera de alcance.
El horizonte del paciente virtual
Los autores son explícitos en que GigaTIME es un paso inicial hacia algo mucho más ambicioso: el "paciente virtual". La idea consiste en construir un gemelo digital de alta fidelidad de un individuo concreto, capaz de simular cómo progresaría su enfermedad bajo distintos escenarios terapéuticos antes de que el médico deba tomar ninguna decisión real. Para llegar ahí es necesario aprender a traducir entre muchas modalidades de datos biológicos, desde imágenes hasta secuencias genómicas y registros clínicos. GigaTIME demuestra que esa traducción entre modalidades es técnicamente posible y que los patrones que emergen de ella son reproducibles en poblaciones independientes.
La validación sobre el Cancer Genome Atlas, la base de datos genómica construida por el Instituto Nacional del Cáncer de los Estados Unidos, fue un paso crítico en ese sentido. Una correlación de Spearman de 0,88 entre las activaciones proteicas virtuales generadas a partir de la cohorte Providence y las obtenidas sobre los datos de TCGA indica que el sistema no memorizó características particulares de una red hospitalaria específica, sino que aprendió patrones biológicos genuinos y transferibles. La cohorte Providence, además, produjo un 33% más de asociaciones significativas que TCGA, lo que señala el valor añadido de los datos clínicos del mundo real, con su heterogeneidad demográfica y oncológica, frente a conjuntos construidos con criterios de investigación más restrictivos.
El modelo está disponible de manera abierta en Microsoft Foundry Labs y en Hugging Face, lo que significa que cualquier laboratorio con acceso a láminas de patología digitalizadas puede comenzar a utilizarlo sin inversión adicional en equipamiento. Esta decisión tiene consecuencias prácticas para centros oncológicos en países con recursos limitados, donde la distancia entre el conocimiento disponible en la literatura científica y la capacidad local de generar datos de calidad ha sido, históricamente, una de las mayores restricciones al avance clínico.
Según los propios autores, el sistema puede extenderse para incorporar más modalidades espaciales y más canales proteicos. También está prevista su integración con marcos multimodales más amplios como LLaVA-Med, que permitiría interactuar con los datos de forma conversacional, lo que los investigadores describen como "hablar con los datos". El camino hacia esa visión todavía es largo. Pero la distancia entre el punto de partida y el destino acaba de acortarse de manera considerable. Una lámina de cinco dólares guardaba, todo este tiempo, más información de la que nadie había podido leer.
Referencias
Valanarasu, J.M.J., Xu, H., Usuyama, N., et al. "Multimodal AI generates virtual population for tumor microenvironment modeling." Cell, 9 de diciembre de 2025.
Microsoft Research Blog. "GigaTIME: Scaling tumor microenvironment modeling using virtual population generated by multimodal AI." 8 de diciembre de 2025. microsoft.com/en-us/research
Microsoft News Signal. "GigaTIME AI tool advances cancer research and could unlock new insights on tumor environments." 25 de febrero de 2026. news.microsoft.com/signal
Bifulco, Carlo. Declaraciones como director médico de Providence Genomics, Providence Cancer Institute. Citado en Microsoft Research Blog, diciembre de 2025.
GigaTIME. Modelo de código abierto disponible en Microsoft Foundry Labs y Hugging Face: huggingface.co/prov-gigatime/GigaTIME
The Cancer Genome Atlas (TCGA). Utilizado para validación externa independiente. Instituto Nacional del Cáncer de los Estados Unidos. cancer.gov/tcga
Guedes, J. et al. "A perspective on integrating digital pathology, proteomics, and advanced AI-driven analytics." PubMed, septiembre de 2025. PMID: 40680990
Leica Microsystems Science Lab. "Mapping Tumor Immune Landscape with AI-Powered Spatial Proteomics." 20 de enero de 2025. leica-microsystems.com
GigaPath: primer modelo fundacional de patología digital de Microsoft Research, publicado en 2024. Antecedente técnico directo de GigaTIME.
Berkowitz, J. "GigaTIME and Multimodal AI Are Transforming Tumor Microenvironment Modeling." 15 de diciembre de 2025. joshuaberkowitz.us
GitHub repositorio oficial del proyecto: github.com/prov-gigatime/GigaTIME



