El arte invisible de verificar conocimiento
Nadie piensa en las ontologías. Al menos, no fuera de los estrechos pasillos donde se modelan formalmente los mundos. Pero todo lo que hoy llamamos “inteligencia artificial” reposa sobre un subsuelo semántico que rara vez se ve: estructuras lógicas que definen las entidades, relaciones y axiomas de un dominio. Una IA puede reconocer patrones, traducir idiomas, resumir textos, pero no sabría lo que significa “un tumor benigno” o “un recurso hídrico vulnerable” sin un andamiaje ontológico que establezca los límites de esas categorías.
El problema es que construir una ontología sólida (una buena, útil, coherente y mantenible) no es una tarea menor. Requiere no solo precisión lógica, sino también sensibilidad epistemológica, dominio experto y una capacidad poco común para formalizar lo informal sin traicionar su complejidad. Y aún más difícil es verificar que esa ontología haga lo que dice hacer.
Ahí entra en escena el concepto de competency questions (CQs): preguntas que una ontología debería poder responder si está correctamente diseñada. Son como pruebas de fuego: “¿Puede el sistema distinguir entre un virus y una bacteria?”, “¿Sabe que un bosque primario no equivale a una plantación?”, “¿Puede deducir que un trasplante de riñón es un procedimiento médico y no un diagnóstico?”. Pero esas preguntas deben validarse una a una, y el proceso de validación es lento, fatigoso, propenso al error humano y poco escalable. Hasta ahora.
En julio de 2025, un grupo de investigadores presentó en arXiv el paper “Large Language Models Assisting Ontology Evaluation”, en el que se introduce OE-Assist, un marco semiautomático basado en modelos de lenguaje para asistir —e incluso sustituir— parte del trabajo experto en la validación de ontologías. Su propuesta no es revolucionaria por lo espectacular, sino por lo preciso: demostrar que un modelo de IA bien calibrado puede verificar preguntas de competencia con una precisión equiparable a la de un humano promedio. No porque reemplace el juicio experto, sino porque lo asiste, lo guía, lo amplifica.
Ontologías en el quirófano
Para entender la dimensión del aporte, conviene adentrarse en el proceso habitual de validación ontológica. Cuando se crea una nueva ontología —por ejemplo, para una enfermedad rara o una red logística— los desarrolladores formulan una serie de preguntas que el sistema debería poder responder. Estas no son queries triviales, sino interrogantes funcionales que reflejan los requerimientos del dominio. Si la ontología no puede responderlos, entonces está incompleta o mal diseñada. Pero evaluar manualmente cada pregunta es costoso: requiere entender la semántica del dominio, conocer la lógica de descripción (OWL, RDF), y leer a contrapelo la red de axiomas para verificar si la inferencia ocurre correctamente.
Lo que OE-Assist propone es un cambio de plano: trasladar esa tarea de validación parcial al terreno de los modelos de lenguaje. Para ello, el equipo construyó un corpus de más de 1.300 pares de preguntas de competencia y fragmentos ontológicos, lo suficientemente variados como para entrenar al sistema en el tipo de razonamiento requerido. Luego se aplicó un motor automático (alimentado por versiones avanzadas de LLMs como o1-preview y o3-mini) que intenta responder, para cada CQ, si la ontología la satisface o no.
La respuesta no es binaria, sino que incluye matices: razonamientos, justificaciones, contraejemplos, dudas. Y eso es clave, porque en muchos casos las preguntas no son sí/no, sino condicionales, ambiguas o dependientes del contexto. El motor aprende a navegar esas zonas grises, no con certeza absoluta, sino con una capacidad probabilística de interpretación que, al compararse con evaluadores humanos, muestra una congruencia sorprendente.
Más aún: el sistema no sólo funciona en modo automático. También cuenta con un módulo semiautomático, integrado con Protégé (la principal plataforma de edición ontológica) que permite al experto interactuar con el modelo, pedir sugerencias, recibir explicaciones o reformular preguntas. Este modo híbrido convierte a OE-Assist en una suerte de copiloto para ingenieros del conocimiento: no dicta sentencia, pero ofrece caminos, reduce el margen de error y acorta tiempos de iteración.
Cuando la IA asiste sin usurpar
Lo que vuelve valioso a este enfoque no es sólo su eficacia, sino su humildad metodológica. En lugar de postular una inteligencia superior, OE-Assist se ubica como una herramienta de apoyo, no de reemplazo. Sabe que el diseño ontológico es demasiado frágil para ser automatizado sin mediación, pero también sabe que la repetición de tareas de verificación puede delegarse sin sacrificar criterio. Esa combinación —prudencia más automatización estratégica— es lo que lo convierte en un avance real y no en una promesa hueca.
Además, el marco deja abierta la posibilidad de extender este modelo a otras tareas del ciclo de vida ontológico: alineación entre distintas ontologías, detección de redundancias, análisis de inconsistencias, generación de axiomas sugeridos. Todo aquello que hoy demanda horas de lectura técnica, revisión cruzada y pruebas exhaustivas podría, en un futuro próximo, encontrar en los modelos de lenguaje un asistente atento, razonable y explicativo.
Esto marca un punto de inflexión no solo técnico, sino cultural: por primera vez, los ingenieros del conocimiento (una tribu silenciosa, olvidada en el boom mediático de la IA) encuentran herramientas que los miran de frente, que entienden su lenguaje y que dialogan en su mismo código. Porque sí, los modelos generativos ya pueden pintar, componer, conversar, pero ahora también pueden verificar conocimiento estructurado. Y eso tiene implicancias mucho más duraderas que un poema generado al azar.
Pensar con modelos que dudan
Lo más fascinante de OE‑Assist no es que funcione —sino que lo haga reconociendo su propia incerteza. A diferencia de otros enfoques que usan modelos de lenguaje para dictaminar respuestas, aquí el sistema se entrena para operar en una zona intermedia: no la de la certeza técnica, sino la de la verosimilitud justificable. No responde simplemente “sí” o “no” a una pregunta de competencia, sino que intenta razonar por qué una ontología podría o no responderla adecuadamente. Y en ese intento, deja ver el tipo de inteligencia que puede ejercer un LLM cuando no se le exige ser infalible, sino útil.
Este punto es central. Las preguntas de competencia no son triviales. Formuladas en lenguaje natural, condensan supuestos implícitos, variantes terminológicas, relaciones jerárquicas o lógicas que pueden no estar explícitamente representadas en la ontología. Por ejemplo: “¿Puede la ontología inferir que todos los pacientes con diabetes tipo 1 deben realizarse un control periódico de glucosa?” no es simplemente una cuestión de entidades. Es una prueba de inferencia contextual, de asociación de conceptos, de interpretación normativa.
Lo que OE‑Assist demuestra es que un modelo de lenguaje puede participar en ese proceso no porque comprenda los conceptos en un sentido humano, sino porque sabe simular los patrones de inferencia esperados en esos contextos, a partir de entrenamiento sobre pares CQ‑ontología. Es decir: no deduce desde axiomas universales, sino desde ejemplos cuidadosamente curados. Y esa curaduría es la clave.
La arquitectura de un asistente razonador
El sistema se organiza en dos grandes bloques funcionales. Por un lado, el motor automático que opera sobre pares codificados (la pregunta de competencia y la representación de la ontología, que puede estar en OWL o lenguaje natural formalizado). Este motor, en esencia, predice si la CQ está satisfecha por la ontología. Pero no lo hace como un clasificador binario. En lugar de emitir un juicio seco, produce una respuesta elaborada que incluye:
- interpretación de la pregunta,
- rastreo de los conceptos relevantes en la ontología,
- explicación sobre si la inferencia está o no respaldada por los axiomas disponibles.
Por otro lado, está el modo semiautomático, donde OE‑Assist se integra con Protégé mediante una extensión que permite a los usuarios interactuar directamente con el sistema. Aquí, el modelo actúa como copiloto: sugiere cómo podría reformularse una CQ mal planteada, ofrece posibles relaciones faltantes, anticipa conflictos lógicos y, sobre todo, permite iterar de forma ágil entre hipótesis y estructura. Esta interfaz es más que un complemento visual: es una pedagogía técnica, que transforma el proceso de modelado en una conversación razonada entre humano y máquina.
Esa conversación tiene un formato nuevo: no se trata de pedir y obtener, sino de razonar a dúo. El experto formula una CQ, el modelo la devuelve interpretada, el experto ajusta la ontología, el modelo propone otra verificación. En ese ciclo (que puede durar minutos o horas, según la complejidad) se gesta una forma inédita de trabajo ontológico: un circuito de revisión compartida entre inteligencias distintas, que no compiten sino que se afinan mutuamente.
Entre la intuición y la forma
El uso de lenguaje natural en este tipo de tareas tiene un efecto secundario muy positivo: democratiza parcialmente el acceso al modelado ontológico. Aunque Protégé y OWL siguen siendo complejos para el público general, el hecho de poder interactuar con las preguntas de competencia en forma dialogada —y no solo como expresiones lógicas— permite que actores no técnicos (epidemiólogos, agrónomos, expertos en legislación ambiental, por ejemplo) puedan aportar contenido válido sin necesidad de conocer toda la sintaxis formal.
Esto implica que OE‑Assist podría funcionar como puente entre dominio y formalización, es decir, entre quienes entienden el contenido y quienes dominan la estructura lógica. En muchas áreas del conocimiento, esa brecha ha impedido que se desarrollen ontologías ricas, simplemente porque los expertos no saben cómo traducir su saber al lenguaje de clases, propiedades y axiomas. Ahora, con un sistema que interpreta en ambos sentidos —de la ontología al lenguaje natural y viceversa—, se abre la posibilidad de co-diseñar sistemas de conocimiento más fieles a las necesidades del mundo real.
Pero hay que ser prudentes: esta apertura no significa trivializar el proceso. De hecho, uno de los desafíos que OE‑Assist enfrenta es el de mantener un equilibrio entre intuición y forma. Si bien los modelos de lenguaje pueden razonar sobre preguntas complejas, siguen dependiendo de marcos estructurados para operar. No basta con que una CQ tenga sentido para un humano: debe estar formulada de manera tal que el modelo pueda interpretarla según los conceptos disponibles. Y ahí reside uno de los nudos más difíciles del sistema: la codificación del sentido.
¿Puede una IA evaluar conocimiento?
Lo que está en juego en este tipo de propuestas no es simplemente la aceleración del trabajo técnico. Es una pregunta más antigua y más inquietante: ¿puede una inteligencia no humana evaluar la consistencia de un sistema de representación del mundo? ¿Puede, sin haber vivido ninguna experiencia concreta, decidir si una red de conceptos refleja adecuadamente un dominio?
La respuesta que OE‑Assist sugiere es pragmática: no necesita haber vivido, sino haber leído lo suficiente como para razonar por analogía con modelos anteriores. La IA no entiende qué es una política sanitaria o un agroecosistema, pero puede inferir cómo se comportan esos términos en otras ontologías y aplicar ese patrón. No hay comprensión en sentido fuerte, pero sí una forma operativa de coherencia contextualizada. Y en muchos casos, eso alcanza para mejorar el proceso de evaluación.
Esta capacidad de inferir sin experiencia es quizás la contribución más desconcertante de los LLMs al campo del conocimiento estructurado. Lo que antes exigía años de formación, ahora puede ser esbozado, corregido y refinado por una máquina que nunca ha visto el mundo, pero que ha leído todos los mundos posibles.
Ontologías asistidas, saberes intervenidos
Aceptar que un modelo de lenguaje pueda contribuir a la evaluación de una ontología es admitir que la frontera entre representar el mundo y razonar sobre esa representación ya no está custodiada exclusivamente por el pensamiento humano. Esta herramienta de verificación no produce conocimiento nuevo, pero participa activamente en confirmar que el conocimiento codificado funcione. Y esa función, en los sistemas formales, no es otra cosa que coherencia operativa. En este punto, la IA no reemplaza la experiencia, pero sí la estructura, y eso ya basta para transformar la práctica.
Aquí surge un problema clásico: si un sistema automatizado valida una ontología construida por humanos, ¿quién valida al sistema que valida? La arquitectura desarrollada se apoya en corpus entrenados, en interpretaciones previas, en muestras cuidadosamente seleccionadas de preguntas de competencia. Pero todo ese material tiene sesgos, omisiones, estilos específicos de construcción del saber. Si una comunidad médica formula sus CQs de manera inductiva y una comunidad jurídica lo hace de forma deductiva, ¿podrá el modelo ajustarse a ambos sin colapsar en inconsistencias metodológicas?
Esta es una de las tensiones más profundas del paper: la tensión entre el horizonte de generalización del LLM y la localidad epistémica de cada comunidad que construye ontologías. Los autores no lo eluden. Reconocen que el sistema funciona mejor cuando las CQs están bien formuladas, cuando las ontologías se estructuran según estándares compatibles, y cuando el dominio es claro. Pero admiten que, fuera de ese perímetro, la eficacia disminuye. En otras palabras: la IA puede asistir la evaluación del conocimiento, pero no su pluralidad. Todavía.
Sin embargo, incluso con esa limitación, la solución automatizada ofrece una herramienta poderosa para estabilizar procesos que antes dependían exclusivamente del esfuerzo manual. La verificación de CQs deja de ser una tarea heroica, y pasa a formar parte de un ciclo iterativo más fluido, donde la revisión constante, el refinamiento progresivo y la comparación entre versiones son posibles sin agotamiento cognitivo.
Usos posibles en territorios no explorados
El potencial de este tipo de sistemas no se agota en el modelado formal de dominios técnicos. Al contrario, abre posibilidades inéditas para campos donde la representación estructurada del conocimiento ha sido históricamente marginal. Uno de ellos es la biomedicina. Allí, las ontologías proliferan: desde el Gene Ontology hasta SNOMED-CT, pasando por modelos de enfermedades raras o interacciones farmacológicas. Pero la validación de esas estructuras es lenta, costosa y depende del trabajo de expertos que suelen estar abrumados por tareas clínicas o investigativas.
Con interfaces inteligentes como la que proponen los autores, se podría automatizar parte del proceso de revisión, detectar incoherencias semánticas antes de que escalen, y facilitar la creación de módulos interoperables entre distintas ontologías médicas. Esto no solo haría más eficientes los sistemas clínicos basados en conocimiento, sino que reduciría errores que, en contextos sanitarios, pueden tener consecuencias graves.
Otro campo fértil es el de las ciencias sociales. Aunque menos formales, muchos proyectos buscan hoy representar constructos sociales (ciudadanía, exclusión, movilidad, gobernanza) en términos estructurados. Estas representaciones suelen estar fragmentadas, cargadas de valoraciones y difíciles de validar. Pero justamente por eso, un asistente basado en lenguaje que proponga múltiples caminos de verificación, que detecte ambigüedades o que sugiera axiomas alternativos, puede ayudar a robustecer esos modelos sin imponer una epistemología dominante.
Incluso en contextos educativos, este tipo de tecnología podría servir como guía para enseñar a pensar ontológicamente. En lugar de aprender OWL o lógica descriptiva de forma abstracta, los estudiantes podrían formular preguntas de competencia en lenguaje natural y recibir retroalimentación sobre cómo esas preguntas se representan formalmente. Así, la IA no sólo evalúa conocimiento, sino que enseña a construirlo mejor.
El límite invisible: comprensión vs. simulación
A esta altura, la tentación es clara: imaginar que un modelo de lenguaje, si puede evaluar preguntas complejas, puede también entender el dominio que representa. Pero ahí conviene volver a poner las piezas sobre la mesa. Este mecanismo de verificación no comprende. No sabe qué es el cáncer de páncreas ni por qué es distinto de una inflamación. No ha vivido, no ha sufrido, no ha estudiado medicina ni dialogado con pacientes. Lo que tiene es acceso a patrones de lenguaje, a estructuras recurrentes, a regularidades en cómo ciertos conceptos se relacionan en textos, bases de datos, representaciones previas.
Y eso es muchísimo. Pero no es comprensión.
La pregunta, entonces, no es si el modelo entiende, sino si su simulación de la comprensión alcanza para asistir una tarea técnica con criterios de fiabilidad suficientes. El estudio responde que sí, con matices. En pruebas controladas, el rendimiento del sistema automático es comparable al de evaluadores humanos promedio. No al de expertos altamente entrenados, pero sí al de personas competentes que realizan el trabajo con cuidado. Esto ubica al modelo en una zona de utilidad práctica que no exige perfección, sino desempeño confiable.
Desde esa perspectiva, el valor del marco asistido no reside en su capacidad ontológica (en el sentido fuerte), sino en su habilidad para operar como filtro cognitivo, como ayudante paciente y bien entrenado que anticipa problemas, sugiere alternativas y reduce el margen de error en tareas repetitivas. Y esa combinación, en muchos contextos, puede marcar una diferencia decisiva entre una ontología funcional y una inútil.
Máquinas que razonan sobre razonamientos
Hasta ahora, la inteligencia artificial había demostrado su destreza en tareas específicas: traducir, clasificar, predecir, generar texto, reconocer imágenes. Pero evaluar si una estructura lógica satisface criterios epistémicos ya no es solo una cuestión técnica. Es una incursión en el territorio del metarazonamiento, donde la IA no actúa sobre el mundo, sino sobre representaciones del mundo diseñadas por otros.
Lo que hace especial al sistema desarrollado en este estudio no es su capacidad de responder, sino su disposición a juzgar —y a hacerlo desde una posición que no simula autoridad, sino que propone hipótesis argumentadas. Este gesto cambia por completo el lugar de los modelos generativos en el ecosistema del conocimiento. Ya no son solo motores de síntesis, sino evaluadores blandos de estructuras duras.
Aquí es donde emerge una paradoja fascinante: el sistema no posee conciencia ni comprensión, pero puede ejercer un tipo de juicio técnico sobre saberes cuidadosamente formalizados. No inventa axiomas, pero puede señalar cuándo no bastan. No escribe nuevas ontologías, pero advierte si las existentes no responden bien a sus propias preguntas funcionales. En otras palabras, se convierte en un auditor sin experiencia, cuya fuerza no radica en haber vivido, sino en haber aprendido a detectar patrones de insuficiencia.
Este tipo de auditoría no se apoya en la intuición, sino en la estadística contextualizada: el modelo ha visto suficientes pares pregunta-ontología como para saber qué combinaciones suelen fallar, qué formulaciones inducen ambigüedad, qué ausencias provocan inferencias rotas. Eso no equivale a pensar, pero sí a razonar por recurrencia significativa, lo que, en muchos casos, es todo lo que se necesita para mejorar un sistema.
Saber que se sabe: IA como verificador externo
En filosofía, la noción de metacognición suele reservarse para seres capaces de tener pensamientos sobre sus propios pensamientos. Las máquinas aún no entran en esa categoría. Pero cuando un modelo de lenguaje puede detectar que una estructura conceptual no satisface una pregunta que debería (y explicar por qué) estamos, de hecho, ante una forma débil pero funcional de metacognición algorítmica.
Este modelo no “sabe” que sabe, pero puede simular el saber sobre el saber. Es una imitación productiva, una forma de razonamiento de segundo orden que no requiere conciencia, pero sí consistencia. Y cuando esa consistencia se despliega sobre artefactos creados por humanos, como las ontologías, el resultado es una colaboración inusual: una mente estadística trabajando con una mente lógica, sin que ninguna de las dos domine completamente a la otra.
Esto podría marcar el inicio de una nueva categoría de herramientas: los verificadores epistémicos automáticos, capaces de acompañar procesos de construcción del conocimiento estructurado no solo desde la ejecución, sino desde la crítica. Una IA que no solo responde preguntas, sino que ayuda a afinar la manera en que las formulamos. Una tecnología que se vuelve metacognitiva sin dejar de ser predictiva.
La utilidad de este enfoque no se limita a lo técnico. También introduce una capa de responsabilidad distribuida. Cuando una comunidad construye una ontología y luego la somete a evaluación mediante un modelo de este tipo, no está delegando juicio, sino ensanchando el proceso de revisión. La IA no reemplaza la deliberación colectiva, pero la tensiona. Obliga a los expertos a repensar sus criterios, a justificar sus ausencias, a dialogar con un interlocutor inhumano que no tiene intereses, pero sí memoria acumulada.
Un futuro de conocimiento auditado por máquinas
En el horizonte, no es difícil imaginar que este tipo de herramientas se integren como parte de los ciclos regulares de producción científica, técnica e institucional. Así como hoy se aplican validadores de sintaxis, chequeadores de consistencia o frameworks de testing lógico, podríamos pronto contar con asistentes de revisión semántica que acompañen la evolución de estructuras de conocimiento complejo.
En grandes consorcios científicos (por ejemplo, aquellos que desarrollan modelos compartidos en climatología, epidemiología o políticas públicas), la posibilidad de contar con un agente que detecte incoherencias antes de que estas escalen puede tener un impacto sustantivo en la confiabilidad del producto final. Especialmente en campos donde las ontologías son multiactorales, multilingües o atraviesan contextos sociohistóricos diversos.
Pero este futuro también exige reglas. La aparición de agentes que evalúan estructuras del saber debe ir acompañada de normas éticas de interpretación y revisión, para evitar que se impongan patrones estadísticos sobre criterios epistémicos sensibles. Una IA que funciona bien en dominios biomédicos puede no ser adecuada para marcos jurídicos. Una herramienta calibrada sobre textos europeos puede fallar en representar sistemas indígenas de clasificación ecológica.
Por eso, el desafío no es solo tecnológico, sino político: ¿quién ajusta al ajustador? ¿quién verifica al verificador? ¿qué epistemologías se privilegian en los corpus que entrenan estos sistemas?. Si el futuro del conocimiento estructurado se construye con la ayuda de estas máquinas, entonces también debe ser construido con vigilancia crítica sobre sus marcos operativos.
La validación como práctica compartida
Lo que este paper propone, al fin y al cabo, no es una revolución, sino una evolución profunda del modo en que trabajamos con saberes formales. La evaluación deja de ser una tarea pesada e invisible, y pasa a convertirse en un diálogo técnico entre inteligencias distintas, cada una con sus fortalezas y límites. El humano aporta contexto, criterio, experiencia. El modelo aporta memoria, consistencia, agilidad inferencial.
En ese reparto de tareas, surge una práctica nueva: la validación como colaboración. Un modo de construir confianza no a pesar de las máquinas, sino con su ayuda —sin que eso implique renunciar a la vigilancia, a la interpretación, ni a la complejidad.
Porque al final, ninguna ontología es perfecta. Pero puede ser mejorada si alguien (o algo) nos ayuda a ver dónde no cumple con lo que prometía.