En los laboratorios de Mila, el prestigioso instituto de inteligencia artificial de Quebec, un equipo de investigadores ha logrado algo que parecía reservado exclusivamente a los seres humanos: enseñar a una máquina a reconocer y manipular con precisión los elementos de una interfaz gráfica de escritorio. No se trata simplemente de hacer clic en botones predefinidos o seguir scripts programados. El avance, plasmado en el proyecto GROUNDCUA, representa un salto cualitativo en la capacidad de los sistemas artificiales para comprender y navegar por el complejo mundo visual de las aplicaciones informáticas tal como lo haríamos nosotros.
La problemática que aborda este trabajo es engañosamente simple pero técnicamente formidable. Cuando un usuario humano recibe la instrucción "abre el selector de color en FreeCAD", su cerebro realiza instantáneamente una serie de operaciones cognitivas extraordinarias: identifica visualmente el icono correcto entre docenas de elementos similares, comprende el contexto de la aplicación, y ejecuta la acción precisa. Para una inteligencia artificial, esta tarea aparentemente trivial se convierte en un desafío monumental de percepción visual, comprensión del lenguaje y coordinación motora digital.
El concepto central de este desarrollo es lo que los investigadores denominan "grounding", un término técnico que describe el proceso de conectar instrucciones expresadas en lenguaje natural con elementos específicos en una pantalla. Es el puente fundamental entre lo que decimos y lo que la máquina debe hacer, entre la abstracción del lenguaje y la concreción de los píxeles en una interfaz. Sin un grounding preciso, incluso el plan más perfecto fracasa estrepitosamente, como un arquitecto brillante incapaz de señalar dónde debe colocarse el primer ladrillo.
Los investigadores de ServiceNow Research, McGill University, la Universidad de Montreal y otras instituciones colaboradoras han construido GROUNDCUA, un conjunto de datos masivo que comprende más de 56,000 capturas de pantalla meticulosamente anotadas, con cada elemento visible identificado y etiquetado. En total, el dataset contiene más de 3.56 millones de anotaciones verificadas por humanos, cubriendo 87 aplicaciones de código abierto distribuidas en doce categorías diferentes, desde herramientas de desarrollo hasta software de diseño gráfico.
Lo revolucionario de este enfoque radica en su metodología de recolección de datos. Mientras que proyectos anteriores dependían de métodos automatizados propensos a errores o de interfaces sintéticas que no reflejaban la complejidad real del software de escritorio, el equipo de GROUNDCUA optó por un camino más laborioso pero significativamente más efectivo: grabaron a expertos humanos realizando tareas reales en aplicaciones genuinas.
Cada captura de pantalla en el dataset corresponde a un momento crítico en una interacción real, el instante justo antes de que un usuario ejecutara una acción significativa. Los anotadores no solo identificaron cada elemento visible, sino que también proporcionaron etiquetas textuales descriptivas, información categórica y, cuando era relevante, el texto extraído mediante reconocimiento óptico de caracteres. Esta riqueza de información contextual permite que los modelos entrenados comprendan no solo qué hay en la pantalla, sino también para qué sirve cada componente y cómo se relaciona con los demás.
La arquitectura de una nueva generación de agentes digitales
Sobre esta sólida base de datos, los investigadores construyeron la familia de modelos GROUNDNEXT, sistemas de inteligencia artificial diseñados específicamente para el grounding visual en interfaces de escritorio. Estos modelos, disponibles en versiones de 3 mil millones y 7 mil millones de parámetros, representan un equilibrio cuidadosamente calibrado entre capacidad computacional y precisión operativa.
El entrenamiento de estos sistemas siguió un proceso de dos etapas meticulosamente orquestado. En la primera fase, conocida como ajuste fino supervisado o SFT por sus siglas en inglés, los modelos aprendieron de 700,000 pares de instrucciones e imágenes cuidadosamente seleccionados del dataset GROUNDCUA. Cada ejemplo enseñaba al sistema a asociar una instrucción específica con su correspondiente elemento visual en la pantalla.
La segunda etapa empleó aprendizaje por refuerzo, una técnica más sofisticada donde el modelo refina su comportamiento basándose en recompensas y penalizaciones. Los investigadores diseñaron un sistema de recompensas discreto que distingue entre diferentes grados de error: una predicción ligeramente fuera del objetivo recibe una penalización menor que una completamente errada, mientras que las predicciones dentro del elemento correcto son recompensadas proporcionalmente a su proximidad al centro del mismo.
Los resultados obtenidos por GROUNDNEXT son notables por varias razones. En primer lugar, el sistema alcanza el estado del arte en múltiples benchmarks establecidos, superando modelos que fueron entrenados con conjuntos de datos hasta diez veces más grandes. En la evaluación ScreenSpotPro, por ejemplo, GROUNDNEXT-7B logra una precisión del 52.9%, significativamente superior al 39.5% del modelo JEDI-7B, que había sido entrenado con 9 millones de ejemplos frente a los 700,000 utilizados por GROUNDNEXT.
Esta eficiencia en el uso de datos no es casualidad. Refleja la superioridad fundamental de los datos de alta calidad sobre la cantidad bruta. Mientras otros proyectos han apostado por la escala masiva, recopilando millones de ejemplos mediante métodos automatizados propensos a errores, el enfoque de GROUNDCUA demuestra que un conjunto más pequeño pero meticulosamente curado puede producir resultados superiores.
Un aspecto particularmente fascinante del rendimiento de GROUNDNEXT es su capacidad para manejar elementos diminutos en interfaces densas. El sistema sobresale especialmente en el reconocimiento de iconos, esos pequeños símbolos visuales que son omnipresentes en el software moderno pero notoriamente difíciles de identificar para las máquinas. En las pruebas de ScreenSpotPro, GROUNDNEXT demostró una mejora promedio del 10.7% sobre sus competidores en tareas de reconocimiento de iconos.
El desafío de la generalización entre plataformas
Uno de los aspectos más intrigantes de esta investigación es cómo un modelo entrenado exclusivamente con interfaces de escritorio puede desempeñarse en entornos móviles y web. Los investigadores evaluaron GROUNDNEXT en estos dominios alternativos y descubrieron patrones reveladores sobre la transferencia de conocimiento entre diferentes tipos de interfaces.
En interfaces móviles, el modelo mantiene un rendimiento competitivo, logrando una precisión del 88.5% en el benchmark ScreenSpot-v2. Esta capacidad de generalización sugiere que los principios fundamentales del diseño de interfaces son suficientemente consistentes entre plataformas como para permitir cierto grado de transferencia de aprendizaje. Sin embargo, en interfaces web, el rendimiento es más variable, lo que refleja las diferencias estructurales más profundas entre aplicaciones de escritorio y páginas web.
Los investigadores identificaron patrones específicos de error que iluminan las limitaciones actuales del sistema. En algunos casos, el modelo tiende a seleccionar la etiqueta de texto de un elemento en lugar del elemento completo, un comportamiento que probablemente surge de la estrategia de selección de datos durante el entrenamiento, que enfatizaba elementos más pequeños y precisos. Este tipo de sesgo sutil pero sistemático ilustra los desafíos inherentes en el diseño de sistemas de IA que deben operar en entornos visuales complejos y variables.
La evaluación en tareas agénticas, donde el modelo debe ejecutar secuencias de acciones para completar objetivos complejos, reveló capacidades aún más impresionantes. En el benchmark OSWorld-Verified, GROUNDNEXT-3B alcanzó un rendimiento del 50.6%, comparable al del modelo JEDI-7B que tiene más del doble de parámetros. Esta eficiencia paramétrica tiene implicaciones prácticas significativas para el despliegue de estos sistemas en entornos con recursos limitados.
La importancia del software de código abierto
Una decisión estratégica clave en el desarrollo de GROUNDCUA fue centrarse exclusivamente en aplicaciones de código abierto. Esta elección no fue meramente pragmatica, aunque ciertamente facilitó la distribución libre del dataset. Los investigadores descubrieron que las aplicaciones de código abierto como LibreOffice, GIMP y FreeCAD comparten patrones de diseño y elementos de interfaz con sus contrapartes comerciales, lo que hace que el conocimiento adquirido sea ampliamente transferible.
El análisis detallado del rendimiento por categorías de aplicaciones revela insights fascinantes. En suites ofimáticas, donde LibreOffice sirve como proxy para Microsoft Office, GROUNDNEXT demuestra un dominio particular, superando consistentemente a sus competidores. De manera similar, en herramientas de desarrollo y software creativo, la diversidad de aplicaciones de código abierto en el dataset proporciona una base robusta para la generalización.
Este enfoque en software libre también tiene implicaciones éticas y prácticas importantes. Permite a investigadores de todo el mundo acceder y construir sobre este trabajo sin restricciones legales, democratizando el acceso a tecnologías avanzadas de automatización de interfaces. Además, la naturaleza abierta del software facilita la reproducibilidad de los experimentos y la verificación independiente de los resultados.
Las técnicas de entrenamiento: más allá del aprendizaje supervisado
El proceso de entrenamiento de GROUNDNEXT ilustra una tendencia emergente en el desarrollo de sistemas de IA: la combinación sinérgica de diferentes paradigmas de aprendizaje. El ajuste fino supervisado inicial proporciona una base sólida de conocimiento, enseñando al modelo las asociaciones fundamentales entre lenguaje e imagen. Sin embargo, es la fase de aprendizaje por refuerzo la que realmente refina las capacidades del sistema.
Los investigadores experimentaron con varios esquemas de recompensa antes de establecerse en su diseño final. Un esquema binario simple, que solo distingue entre aciertos y errores, demostró ser demasiado burdo para capturar las sutilezas de la tarea. Un esquema continuo basado en distancia, aunque teóricamente más informativo, sufría de señales de gradiente débiles que dificultaban el aprendizaje. La solución final, un esquema discreto de múltiples niveles, logra el equilibrio óptimo entre granularidad y estabilidad de entrenamiento.
El método RLOO (Relative Leave-One-Out) utilizado para la optimización de políticas merece atención especial. A diferencia de los métodos tradicionales que requieren un modelo crítico separado para evaluar las acciones, RLOO compara cada predicción con el promedio de otras predicciones en el mismo lote. Esta elegante solución reduce la complejidad computacional mientras mantiene la efectividad del entrenamiento.
Un hallazgo particularmente revelador es que los modelos entrenados inicialmente con datos de GROUNDCUA muestran mejoras mínimas con el aprendizaje por refuerzo adicional, mientras que aquellos entrenados con datasets de menor calidad experimentan ganancias sustanciales. Esto sugiere que el ajuste fino supervisado con datos de alta calidad ya captura la mayoría de los patrones necesarios para un rendimiento óptimo, dejando poco margen para mejoras posteriores.
Aplicaciones prácticas y el futuro de la automatización
Las implicaciones prácticas de este trabajo se extienden mucho más allá del laboratorio de investigación. Los agentes capaces de interactuar con interfaces gráficas como lo hacen los humanos podrían transformar fundamentalmente cómo trabajamos con las computadoras. Imaginemos asistentes digitales que puedan navegar por software complejo siguiendo instrucciones en lenguaje natural, automatizando tareas repetitivas sin necesidad de programación especializada o APIs dedicadas.
En el contexto empresarial, estos sistemas podrían revolucionar los procesos de negocio. Un empleado podría instruir a un agente para que "revise todos los documentos en la carpeta de proyectos, extraiga las fechas de entrega y actualice la hoja de cálculo de seguimiento", y el sistema ejecutaría esta tarea compleja de manera autónoma, navegando entre múltiples aplicaciones y formatos de archivo.
Para usuarios con discapacidades, la tecnología promete nuevos niveles de accesibilidad. Un sistema que puede entender y ejecutar instrucciones verbales complexas en cualquier aplicación podría eliminar barreras significativas para personas con limitaciones motoras o visuales. La capacidad de GROUNDNEXT para identificar elementos pequeños y distinguir entre componentes visualmente similares es particularmente relevante en este contexto.
Sin embargo, los investigadores son transparentes sobre las limitaciones actuales. El sistema funciona con capturas de pantalla estáticas y no puede manejar elementos dinámicos como animaciones o actualizaciones en tiempo real. La generalización a nuevas aplicaciones o versiones actualizadas de software existente sigue siendo un desafío. Además, aunque el rendimiento es impresionante en benchmarks controlados, la robustez en entornos del mundo real con interfaces cambiantes requiere más investigación.
La carrera por la automatización inteligente
GROUNDCUA y GROUNDNEXT no existen en un vacío. Forman parte de un esfuerzo global más amplio para crear agentes digitales verdaderamente autónomos. Empresas como OpenAI con su Computer Use Agent, Anthropic con Claude, y numerosos laboratorios académicos están persiguiendo objetivos similares, cada uno con su enfoque único.
Lo que distingue al trabajo del equipo de Mila y ServiceNow es su énfasis en la calidad sobre la cantidad y su compromiso con la ciencia abierta. Mientras otros proyectos han mantenido sus datasets y modelos propietarios, GROUNDCUA está disponible libremente para la comunidad investigadora. Esta apertura no solo acelera el progreso científico sino que también permite un escrutinio crítico que mejora la robustez y confiabilidad de la tecnología.
La competencia en este espacio es feroz pero saludable. Cada nuevo benchmark superado, cada mejora incremental en precisión, nos acerca a un futuro donde la interacción con las computadoras sea tan natural como conversar con un colega. Sin embargo, también plantea preguntas importantes sobre el futuro del trabajo, la privacidad y la autonomía humana que la sociedad deberá abordar.
Los desafíos técnicos subyacentes
Profundizar en los aspectos técnicos de GROUNDCUA revela la complejidad extraordinaria de lo que superficialmente parece una tarea simple. El proceso de anotación, por ejemplo, requirió el desarrollo de herramientas especializadas y protocolos rigurosos. Los anotadores no solo dibujaron cajas delimitadoras alrededor de elementos visibles; tuvieron que tomar decisiones sutiles sobre qué constituye un "elemento" en interfaces donde los componentes se superponen, anidan y combinan de formas complexas.
Consideremos el caso de un menú desplegable. ¿Es un solo elemento o múltiples elementos individuales? ¿Cómo se manejan los submenús? ¿Qué sucede con los elementos que son parcialmente visibles o están deshabilitados? Cada una de estas decisiones tiene implicaciones para cómo el modelo aprende y qué puede hacer. Los investigadores desarrollaron un conjunto detallado de directrices que los anotadores siguieron, asegurando consistencia a través de miles de horas de trabajo humano.
La diversidad de resoluciones de pantalla en el dataset, que van desde 0.39 hasta 7 megapíxeles, presenta otro conjunto de desafíos. Un elemento que es claramente visible en una pantalla de alta resolución puede ser apenas perceptible en una de menor resolución. El modelo debe aprender a ser robusto ante estas variaciones, manteniendo la precisión independientemente de la calidad de la imagen de entrada.
El manejo de texto dentro de las interfaces añade otra capa de complejidad. Mientras que algunos elementos contienen texto corto y legible que puede ser extraído directamente, otros contienen bloques de código, documentos largos o texto en idiomas no latinos. Los investigadores emplearon OCR selectivamente, proporcionando transcripciones completas solo cuando era relevante para la tarea de grounding.
La arquitectura de los modelos GROUNDNEXT
Los modelos GROUNDNEXT están construidos sobre la arquitectura Qwen2.5-VL, una base sólida para tareas de visión y lenguaje. Sin embargo, los investigadores no se limitaron a aplicar estos modelos preexistentes tal cual. Realizaron modificaciones significativas y ajustes finos tanto en el codificador visual como en el modelo de lenguaje, optimizando específicamente para la tarea de grounding en interfaces.
Una decisión arquitectónica clave fue entrenar el modelo completo en lugar de solo ajustar las capas superiores. Experimentos preliminares mostraron que este enfoque holístico producía mejoras sustanciales en el rendimiento, sugiriendo que la tarea de grounding requiere adaptaciones profundas en la forma en que el modelo procesa tanto información visual como lingüística.
La elección de tamaños de modelo (3B y 7B parámetros) refleja consideraciones prácticas sobre el despliegue. Mientras que modelos más grandes podrían ofrecer mejoras marginales en precisión, el costo computacional adicional los hace imprácticos para muchas aplicaciones del mundo real. El hecho de que GROUNDNEXT-3B supere a modelos mucho más grandes entrenados con datasets menos curados valida esta filosofía de diseño.
Implicaciones para la investigación futura
El trabajo presentado en GROUNDCUA abre numerosas avenidas para investigación futura. Una dirección obvia es la extensión a interfaces dinámicas, capturando no solo estados estáticos sino también transiciones y animaciones. Esto requeriría nuevos métodos de anotación y arquitecturas de modelo capaces de procesar secuencias de video.
Otra área prometedora es la personalización. Los usuarios tienen preferencias y patrones de trabajo únicos. Un sistema que pueda aprender y adaptarse a los hábitos individuales sería significativamente más útil que uno que opera con un modelo único para todos. Esto podría lograrse mediante técnicas de aprendizaje continuo o meta-aprendizaje.
La integración con otras modalidades también presenta oportunidades fascinantes. Combinar el grounding visual con comprensión de audio permitiría sistemas que respondan a comandos de voz mientras observan la pantalla, creando una experiencia de interacción verdaderamente multimodal.
Los investigadores también señalan la necesidad de mejores métricas de evaluación. Mientras que la precisión de grounding es importante, no captura completamente la utilidad de un sistema en tareas del mundo real. Métricas que consideren la eficiencia de la tarea, la recuperación de errores y la satisfacción del usuario proporcionarían una imagen más completa del rendimiento del sistema.
Consideraciones éticas y sociales
Como toda tecnología poderosa, los agentes de uso de computadora plantean consideraciones éticas importantes. La capacidad de automatizar interacciones con cualquier software tiene implicaciones obvias para el empleo, particularmente en roles que involucran tareas repetitivas de procesamiento de información.
Sin embargo, la historia sugiere que la automatización, aunque disruptiva a corto plazo, a menudo crea nuevas oportunidades a largo plazo. Los agentes digitales podrían liberar a los trabajadores humanos de tareas tediosas, permitiéndoles enfocarse en trabajo creativo y estratégico que requiere juicio humano y empatía.
La privacidad es otra preocupación crítica. Un sistema que puede ver y entender todo en la pantalla de un usuario tiene acceso a información potencialmente sensible. Los desarrolladores e implementadores de esta tecnología deben establecer salvaguardas robustas para proteger la privacidad del usuario y prevenir el mal uso.
También existe el riesgo de dependencia excesiva. A medida que los sistemas se vuelven más capaces, los usuarios podrían perder habilidades importantes de navegación digital. Mantener un equilibrio entre automatización y agencia humana será crucial para el despliegue saludable de esta tecnología.
El panorama competitivo
El campo del grounding visual para interfaces está experimentando una explosión de actividad. Además de GROUNDCUA, proyectos como JEDI, OS-ATLAS, UGround y otros están abordando aspectos similares del problema. Cada uno aporta innovaciones únicas: JEDI con su generación sintética de interfaces, OS-ATLAS con su enfoque en la traversía del árbol de accesibilidad, UGround con su escala masiva de datos web.
Esta diversidad de enfoques es saludable para el campo. Diferentes métodos pueden ser más apropiados para diferentes aplicaciones, y la competencia impulsa la innovación. El hecho de que GROUNDNEXT supere a muchos de estos sistemas a pesar de usar menos datos sugiere que hay espacio para múltiples paradigmas en este espacio.
Las empresas tecnológicas grandes también están invirtiendo fuertemente en esta área. OpenAI, Google, Microsoft y otras tienen proyectos activos en automatización de interfaces. La ventaja de los proyectos académicos como GROUNDCUA es su apertura y transparencia, que permiten a la comunidad investigadora global construir sobre su trabajo.
Perspectivas futuras
El proyecto GROUNDCUA representa un hito significativo en la búsqueda de agentes digitales verdaderamente autónomos. Al demostrar que datos de alta calidad cuidadosamente curados pueden superar a conjuntos de datos masivos pero ruidosos, los investigadores han establecido un nuevo paradigma para el desarrollo de sistemas de IA para interacción con interfaces.
La disponibilidad pública tanto del dataset como de los modelos democratiza el acceso a esta tecnología, permitiendo que investigadores y desarrolladores de todo el mundo construyan sobre este foundation. Esto es particularmente importante dado el potencial transformador de la tecnología para mejorar la accesibilidad, aumentar la productividad y crear nuevas formas de interacción humano-computadora.
Las limitaciones actuales del sistema, lejos de ser desalentadoras, señalan direcciones claras para investigación futura. La extensión a interfaces dinámicas, la mejora de la generalización entre dominios, y la integración con otras modalidades son todos problemas solubles que la comunidad investigadora está bien posicionada para abordar.
Más allá de los aspectos técnicos, este trabajo nos invita a reflexionar sobre el futuro de la interacción humano-computadora. En un mundo donde las máquinas pueden entender y navegar interfaces diseñadas para humanos, la distinción entre usuario y herramienta se vuelve cada vez más borrosa. Los agentes digitales no son simplemente herramientas más sofisticadas; representan un nuevo paradigma de colaboración entre humanos y máquinas.
A medida que estos sistemas se vuelven más capaces y ubicuos, será crucial mantener un diálogo social sobre cómo queremos que se desarrolle y despliegue esta tecnología. Las decisiones que tomemos hoy sobre privacidad, autonomía, y la división del trabajo entre humanos y máquinas darán forma al futuro del trabajo y la vida digital para las generaciones venideras.
El trabajo del equipo de GROUNDCUA nos muestra que este futuro no es una fantasía distante sino una realidad emergente. Con cada mejora en la precisión del grounding, cada nueva aplicación dominada, cada barrera de accesibilidad derribada, nos acercamos a un mundo donde la tecnología verdaderamente trabaja para nosotros, entendiendo nuestras intenciones y ejecutando nuestras voluntades con la misma facilidad con la que entendemos las suyas. Es un futuro que promete tanto oportunidades extraordinarias como desafíos significativos, y depende de nosotros navegarlo sabiamente.
Referencias
Feizi, A., Nayak, S., Jian, X., Lin, K. Q., Li, K., Awal, R., Lu, X. H., Obando-Ceron, J., Rodriguez, J. A., Chapados, N., Vazquez, D., Romero-Soriano, A., Rabbany, R., Taslakian, P., Pal, C., Gella, S., & Rajeswar, S. (2025). Grounding Computer Use Agents on Human Demonstrations. arXiv preprint arXiv:2511.07332. https://arxiv.org/pdf/2511.07332
Ahmadian, A., Cremer, C., Gallé, M., Fadaee, M., Kreutzer, J., Pietquin, O., Üstün, A., & Hooker, S. (2024). Back to basics: Revisiting reinforce style optimization for learning from human feedback in LLMs. arXiv preprint arXiv:2402.14740.
Anthropic. (2024). Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku. Anthropic Blog.
Bai, J., Bai, S., Yang, S., Wang, S., Tan, S., Wang, P., Lin, J., Zhou, C., & Zhou, J. (2023). Qwen-VL: A frontier large vision-language model with versatile abilities. arXiv preprint arXiv:2308.12966.
Cheng, K., Sun, Q., Chu, Y., Xu, F., Li, Y., Zhang, J., & Wu, Z. (2024). SeeClick: Harnessing GUI grounding for advanced visual GUI agents. arXiv preprint arXiv:2401.10935.
Gou, B., Wang, R., Zheng, B., Xie, Y., Chang, C., Shu, Y., Sun, H., & Su, Y. (2024). Navigating the digital world as humans do: Universal visual grounding for GUI agents. arXiv preprint arXiv:2410.05243.
Hong, W., Wang, W., Lv, Q., Xu, J., Yu, W., Ji, J., Wang, Y., Wang, Z., Dong, Y., Ding, M., et al. (2023). CogAgent: A visual language model for GUI agents. arXiv preprint arXiv:2312.08914.
Li, K., Meng, Z., Lin, H., Luo, Z., Tian, Y., Ma, J., Huang, Z., & Chua, T. S. (2025). ScreenSpot-Pro: GUI grounding for professional high-resolution computer use. arXiv preprint.
Liu, Y., Li, P., Xie, C., Hu, X., Han, X., Zhang, S., Yang, H., & Wu, F. (2025). InfiGUI-G1: Advancing GUI grounding with adaptive exploration policy optimization. arXiv preprint arXiv:2508.05731.
Nayak, S., Jian, X., Lin, K. Q., Rodriguez, J. A., Kalsi, M., Awal, R., Chapados, N., Özsu, M. T., Agrawal, A., Vazquez, D., Pal, C., Taslakian, P., Gella, S., & Rajeswar, S. (2025). UI-Vision: A desktop-centric GUI benchmark for visual perception and interaction. arXiv preprint arXiv:2503.15661.
OpenAI. (2025). Computer-using agent. OpenAI Blog.
Qin, Y., Ye, Y., Fang, J., Wang, H., Liang, S., Tian, S., Zhang, J., Li, J., Li, Y., Huang, S., et al. (2025). UI-TARS: Pioneering automated GUI interaction with native agents. arXiv preprint arXiv:2501.12326.
Wang, X., Wang, B., Lu, D., Yang, J., Xie, T., Wang, J., Deng, J., Guo, X., Xu, Y., Wu, C. H., et al. (2025). OpenCUA: Open foundations for computer-use agents. arXiv preprint.
Wu, Z., Wu, Z., Xu, F., Wang, Y., Sun, Q., Jia, C., Cheng, K., Ding, Z., Chen, L., Liang, P. P., & Qiao, Y. (2024). OS-Atlas: A foundation action model for generalist GUI agents. arXiv preprint arXiv:2410.23218.
Xie, T., Deng, J., Li, X., Yang, J., Wu, H., Chen, J., Hu, W., Wang, X., Xu, Y., Wang, Z., et al. (2025). Scaling computer-use grounding via user interface decomposition and synthesis. arXiv preprint arXiv:2505.13227.
Xu, Y., Wang, Z., Wang, J., Lu, D., Xie, T., Saha, A., Sahoo, D., Yu, T., & Xiong, C. (2024). Aguvis: Unified pure vision agents for autonomous GUI interaction. arXiv preprint arXiv:2412.04454.



