Imaginemos por un momento a Alice. No es una ingeniera de software ni una investigadora de inteligencia artificial. Es una persona común, quizás una hija o una hermana, sentada frente a una pantalla con el corazón encogido. Acaba de recibir noticias preocupantes sobre la salud de un ser querido y, en un intento por comprender, recurre a una de las mentes artificiales más avanzadas del planeta. Le presenta un caso clínico complejo, una descripción de síntomas y un diagnóstico preliminar. La respuesta de la inteligencia artificial (IA) llega en segundos: es precisa, enumera los procedimientos correctos, cita las probabilidades estadísticas y utiliza una terminología médica impecable. Es, en todos los sentidos objetivos, una respuesta correcta. Sin embargo, para Alice, es un fracaso absoluto. La explicación es un muro de jerga incomprensible, frío como el acero quirúrgico y desprovisto de la más mínima traza de empatía. No la tranquiliza, no la orienta, no la acompaña. Simplemente, la abruma.
Esta escena, extraída del corazón de un trabajo de investigación revolucionario, captura a la perfección la paradoja que define a la inteligencia artificial en nuestra era. Hemos construido sistemas capaces de superar a los humanos en innumerables tareas de lógica, cálculo y conocimiento, pero que a menudo fallan estrepitosamente en el terreno más fundamental de la interacción humana: la capacidad de adaptar su comunicación a las necesidades del interlocutor. Este no es un defecto menor o un simple detalle de estilo. Es una grieta profunda en los cimientos de cómo concebimos y desarrollamos estas tecnologías, una que amenaza con limitar su utilidad en los dominios donde más las necesitamos, como la sanidad, la educación y el soporte técnico.
Para entender el origen de esta fractura, es necesario asomarse a la sala de máquinas de los grandes modelos de lenguaje (LLM), los cerebros detrás de herramientas como ChatGPT, Claude o Gemini. Su desarrollo, tal como lo describe el trabajo de investigación «Personalized reasoning: just-in-time personalization and why llms fail at it», sigue un paradigma secuencial, una especie de línea de montaje cognitiva. Primero, los modelos son entrenados con cantidades astronómicas de texto e información para adquirir una capacidad fundamental: resolver tareas. Se les enseña a programar, a traducir, a resumir, a responder preguntas factuales. En esta fase, el objetivo es la corrección objetiva. Una vez que el modelo es competente, pasa a una segunda fase, un proceso de «pulido» o alineamiento, donde se le enseña a comportarse de una manera que sea útil y segura para los humanos.
El mecanismo principal de este pulido es una técnica conocida como Aprendizaje por Refuerzo con Retroalimentación Humana, o RLHF por sus siglas en inglés. El proceso es ingenioso. Se le pide a un gran número de evaluadores humanos que califiquen y comparen miles de respuestas generadas por el modelo ante diversas preguntas. ¿Cuál de estas dos explicaciones es más clara? ¿Cuál de estas respuestas es más útil? ¿Cuál es menos ofensiva? Estas preferencias humanas se utilizan para entrenar un segundo modelo, un «modelo de recompensa», cuyo único propósito es actuar como un juez interno, prediciendo qué tipo de respuesta le gustaría a un humano promedio. Finalmente, el modelo de lenguaje original es reentrenado para que sus respuestas obtengan la máxima puntuación posible de este juez artificial. En esencia, se le enseña a perseguir la aprobación humana a escala.
El RLHF ha sido fundamental para transformar a los LLM de simples predictores de texto a asistentes conversacionales coherentes y, en general, seguros. Sin embargo, en este mismo proceso de refinamiento se esconde una falacia fundamental: la del «usuario promedio». Al agregar las preferencias de miles de evaluadores, el RLHF optimiza el modelo para un consenso estadístico, para un ideal platónico de usuario que, en la práctica, no existe. El resultado es una IA que se vuelve extraordinariamente buena en dar respuestas genéricas y aceptables para la mayoría, pero terriblemente inepta para desviarse de ese camino trillado y satisfacer las necesidades únicas, contextuales y emocionales de un individuo como Alice. La herramienta diseñada para hacer a la IA más humana es, paradójicamente, la fuente de su rigidez e inhumanidad a nivel personal. Se crea una especie de «tiranía del promedio» que borra las particularidades que definen la comunicación auténtica.
Es aquí donde el trabajo de investigación, liderado por Shuyue Stella Li y un equipo de la Universidad de Washington y el Allen Institute for AI, introduce un concepto transformador: el razonamiento personalizado (personalized reasoning). No se trata de un mero ajuste superficial del tono o del estilo. Es algo mucho más profundo: la capacidad de una IA para adaptar su propio proceso cognitivo, su cadena de razonamiento interno, en función de las preferencias que descubre sobre el usuario en tiempo real. No es solo cambiar las palabras de la respuesta, es cambiar la forma en que se llega a esa respuesta. Este estudio no solo define esta capacidad como la verdadera frontera de la interacción humano-IA, sino que demuestra, con una contundencia abrumadora, por qué los modelos más avanzados de hoy fracasan sistemáticamente en alcanzarla.
El problema de la talla única: Por qué la personalización actual es una ilusión
La personalización que ofrecen los sistemas de IA actuales es, en gran medida, una fachada. Podemos pedirle a un asistente que nos hable con un acento diferente o que adopte un tono más formal, pero esto es un cambio puramente cosmético. Es como un guía turístico que puede cambiar el idioma de su discurso, pero sigue recitando el mismo guion memorizado, sin importar si su audiencia está compuesta por historiadores, niños o arquitectos. La personalización superficial altera la presentación, pero no el contenido ni la estructura lógica subyacente.
El razonamiento personalizado, en cambio, sería el equivalente a un guía experto que, al descubrir que nos apasiona la arquitectura, abandona por completo la ruta turística estándar. En lugar de llevarnos a los monumentos más famosos, nos guía por callejones ocultos para mostrarnos detalles estructurales únicos, nos habla de los materiales de construcción de la época y adapta toda su narrativa para satisfacer esa curiosidad específica. No solo ha cambiado su tono; ha alterado fundamentalmente su cadena de razonamiento y su plan de acción. Esta es la diferencia entre una personalización cosmética y una personalización cognitiva profunda.
Este desafío se vuelve particularmente agudo en lo que el estudio denomina escenarios de personalización justo a tiempo (just-in-time personalization). Se trata de situaciones de «arranque en frío», donde el sistema no tiene un historial de interacciones previas con el usuario. Esto puede deberse a normativas de privacidad que impiden almacenar datos, o simplemente porque es la primera vez que esa persona utiliza el servicio. En estos casos, la IA no puede inferir nuestras preferencias a partir de conversaciones pasadas. Debe tener la capacidad proactiva de descubrirlas en el momento, a través del diálogo.
Sin embargo, los sistemas actuales funcionan bajo un paradigma opuesto. Colocan la carga cognitiva de la personalización enteramente sobre el usuario. Se espera que nosotros, a través de un proceso de ensayo y error conocido como «ingeniería de prompts», formulemos la pregunta perfecta que extraiga la respuesta deseada. El estudio señala una verdad incómoda: los usuarios a menudo no saben, o no pueden articular, lo que necesitan exactamente. Alice, en su estado de angustia, probablemente no sabría pedir «una explicación del diagnóstico que utilice analogías sencillas, muestre empatía y me proporcione recursos fiables para legos». Un sistema verdaderamente avanzado no debería esperar a que se lo pidan. Debería ser capaz de identificar las lagunas en su conocimiento sobre el usuario y preguntar estratégicamente para llenarlas. Debería preguntar: «¿Está familiarizado con la terminología médica? ¿Prefiere que nos centremos en los siguientes pasos prácticos o en entender el mecanismo de la enfermedad?».
La razón por la que esta capacidad no ha sido una prioridad en el desarrollo de la IA es, en parte, porque las formas en que medimos el progreso de estos sistemas no la capturan. Los benchmarks o marcos de evaluación existentes, como señalan los autores, tienden a centrarse en la consistencia de un modelo con un perfil de usuario estático y predefinido.1 Miden si una IA puede mantener una «personalidad» coherente a lo largo del tiempo, pero no evalúan su habilidad para descubrir interactivamente las necesidades de un nuevo usuario en un contexto desconocido. Esta capacidad de descubrimiento dinámico es precisamente la habilidad que el estudio se propone medir.
Canal de construcción de benchmarks de PREFDISCO.
PREFDISCO: Creando un laboratorio para medir la empatía de las máquinas
Para poner a prueba una capacidad tan esquiva como el razonamiento personalizado, no basta con las pruebas estandarizadas. Se necesita un entorno que simule la complejidad y la sutileza de la interacción humana. Esto es exactamente lo que los investigadores crearon con PREFDISCO, un ingenioso «laboratorio virtual» diseñado no solo para evaluar a los modelos de IA, sino para obligarlos a enfrentarse a sus propias limitaciones.
El primer pilar de este laboratorio son sus habitantes: las «personas» digitales. No se trata de simples avatares con un par de intereses definidos, como «le gusta el cine de ciencia ficción». Los investigadores generaron perfiles con una base psicológica sólida, utilizando el International Personality Item Pool, un modelo que incorpora dimensiones de personalidad como la extraversión o la amabilidad, junto con datos demográficos, niveles de experiencia en un dominio y aficiones. Esto crea usuarios virtuales con una coherencia interna y un realismo que van mucho más allá de los perfiles de usuario típicos. Tenemos, por ejemplo, a un arqueólogo de 42 años de Yellowknife, preciso y apasionado por la narración, o a una diseñadora floral vietnamita de 70 años que valora la comunidad y la tradición.
El segundo y quizás más brillante elemento de PREFDISCO es cómo modela las preferencias humanas. El marco rechaza la idea simplista de que nuestras preferencias son un conjunto fijo de reglas que aplicamos en todo momento. En su lugar, se basa en dos conceptos psicológicamente mucho más realistas. Primero, las preferencias son dependientes del contexto. Una misma persona, como se mencionó anteriormente, puede desear una explicación muy técnica de un concepto médico mientras estudia para un examen, pero preferir un lenguaje sencillo y tranquilizador si se enfrenta a esa misma condición como paciente en una emergencia.1 Nuestras necesidades cambian con la situación.
Segundo, las preferencias son dispersas (sparse). Esto significa que, de un universo de docenas de posibles atributos de una respuesta (como el nivel de jerga, el uso de analogías, el grado de empatía, el formato visual o la profundidad de la explicación), solo un pequeño subconjunto es realmente importante para una persona concreta en una tarea específica. Para Alice, la empatía y la simplicidad pueden ser cruciales, mientras que el uso de datos estadísticos puede ser irrelevante. Para un estudiante de medicina, la precisión terminológica y la profundidad conceptual serán lo más importante, y la empatía podría tener un peso menor.
Con estos elementos, la tarea para los 21 modelos de IA de vanguardia evaluados en el estudio quedaba claramente definida. Debían interactuar con una de estas personas virtuales durante un máximo de cinco turnos de conversación. En ese breve lapso, tenían que hacer preguntas estratégicas para descubrir ese pequeño conjunto oculto de preferencias relevantes y, lo que es más importante, entender su peso relativo. Finalmente, debían generar una respuesta que no solo fuera objetivamente correcta para la tarea propuesta (que podía ser un problema de matemáticas, una pregunta de ciencia o un dilema de razonamiento social), sino que también estuviera perfectamente alineada con las necesidades ponderadas del usuario que acababan de descubrir. Era, en esencia, una prueba de empatía computacional.
El veredicto: Un fracaso sistemático en la frontera de la IA
Los resultados del experimento PREFDISCO no son simplemente una crítica a las capacidades de la IA actual; son una llamada de atención para toda la industria. El hallazgo más contundente y alarmante es que los intentos de personalización a menudo son contraproducentes. En un asombroso 29% de los casos, las respuestas de los modelos más avanzados del mundo, después de intentar personalizar, resultaron estar peor alineadas con las preferencias del usuario que las respuestas genéricas que no hacían ningún intento de adaptación. Es como si el guía turístico, al intentar improvisar una ruta personalizada, acabara perdiendo al grupo en un callejón sin salida, ofreciendo una experiencia peor que si se hubiera ceñido al guion. Esto sugiere que los modelos, en su torpeza, tienden a «sobrecorregir», alterando aspectos de la respuesta que ya eran aceptables y empeorando el resultado final.
Una de las razones principales de este fracaso es la pasividad de las máquinas. A pesar de tener un margen de cinco turnos para dialogar y sondear al usuario, los modelos hicieron, en promedio, tan solo 1.48 preguntas. Esta «timidez» revela una falta fundamental de estrategia inquisitiva. No saben qué preguntar, cuándo preguntar o cómo utilizar las respuestas para construir un modelo mental del usuario. La mayoría de las interacciones se quedan en la superficie, sin la indagación necesaria para lograr una personalización significativa. Aunque el estudio demuestra que hacer más preguntas se correlaciona positivamente con una mejor alineación, los modelos parecen incapaces de tomar la iniciativa.
Sin embargo, el hallazgo más profundo y revelador del estudio es lo que los autores denominan el coste cognitivo de la personalización. Intuitivamente, podríamos pensar que personalizar una respuesta es una capa estilística que se añade una vez que se ha resuelto el problema principal. El estudio demuestra que esta idea es errónea. La personalización no es una capa externa; es una restricción fundamental que compite por los mismos recursos de razonamiento que se necesitan para resolver la tarea original. Y esta competencia tiene un precio: la precisión.
Los datos son elocuentes. La precisión media de los modelos en las diez tareas evaluadas fue del 65.2% en el modo base (sin personalización). Cuando se les pidió que descubrieran las preferencias del usuario e interactuaran (modo Descubrimiento), la precisión cayó al 60.1%. Lo más revelador es lo que ocurrió en el modo «Oráculo», una condición experimental en la que a los modelos se les proporcionaba el perfil de preferencias completo del usuario desde el principio, eliminando la necesidad de dialogar. Incluso en este escenario ideal, la precisión se redujo al 61.8%. Esta caída demuestra que el problema no reside únicamente en la dificultad de la conversación, sino en el simple hecho de tener que procesar y adherirse a las preferencias del usuario.
Esto se debe a que un modelo de IA, entrenado intensivamente para resolver un problema de una manera específica y eficiente, ha aprendido una ruta de razonamiento óptima. Cuando se le imponen restricciones adicionales, como «explica este concepto matemático sin usar cálculo avanzado», se le obliga a abandonar esa ruta óptima y a buscar un camino alternativo. Dado que el entrenamiento ha reforzado abrumadoramente la ruta principal, estas vías secundarias están menos «practicadas» y son, por tanto, más propensas a errores. El simple acto de considerar las necesidades del usuario impone una carga cognitiva que desvía al modelo hacia procesos de razonamiento más frágiles, resultando en una mayor probabilidad de fallar en la tarea principal. La siguiente tabla ilustra cómo este coste no es uniforme, sino que varía drásticamente según el tipo de razonamiento requerido.
El coste de la personalización por dominio de razonamiento
Dominio de Razonamiento | Impacto en la Precisión al Personalizar |
Matemático y Lógico | Caída severa: hasta un 12.1% menos de respuestas correctas. |
Científico | Caída moderada. |
Social y Sentido Común | Robusto: hasta un 5.4% más de respuestas correctas. |
Esta disparidad es la clave para entender la naturaleza de la grieta en la mente de la IA.
El razonamiento frágil: Por qué las IA de matemáticas se rompen bajo presión
Como muestra la tabla, la degradación de la precisión es más severa en dominios formales como las matemáticas y la lógica, mientras que el razonamiento social parece no solo resistir la presión de la personalización, sino incluso beneficiarse de ella. Esta divergencia expone un fenómeno conocido como razonamiento frágil (brittle reasoning).
Un sistema con razonamiento frágil es aquel que puede parecer extremadamente inteligente en tareas específicas y bien definidas, pero que se desmorona ante la más mínima variación o contexto inesperado. Depende de correlaciones superficiales o de cadenas lógicas muy rígidas aprendidas durante su entrenamiento. El ejemplo clásico es el de un modelo de IA entrenado para distinguir entre lobos y perros huskies que, sin que sus creadores lo supieran, no aprendió a reconocer las características de los animales, sino a detectar la presencia de nieve en el fondo de las imágenes, ya que la mayoría de las fotos de lobos en su conjunto de datos estaban en paisajes nevados. El modelo era brillante en su tarea original, pero su conocimiento era superficial y frágil; fallaría estrepitosamente si se le mostrara un lobo en un bosque o un husky en la nieve.
Los autores del estudio proponen una hipótesis convincente que conecta este concepto con sus hallazgos. El entrenamiento intensivo de los modelos de IA, especialmente mediante RLHF, en benchmarks con respuestas objetivamente verificables (como los problemas de matemáticas, donde una solución es correcta o incorrecta) crea estas rutas de razonamiento optimizadas pero frágiles. Para maximizar su puntuación en estas pruebas, los modelos aprenden «la mejor manera» de resolver un problema, el camino más directo y eficiente hacia la solución. Sin embargo, no aprenden a resolverlo de maneras alternativas. Se convierten en especialistas de vía única, incapaces de tomar un desvío cuando las preferencias del usuario bloquean su camino habitual.
Por el contrario, el razonamiento social y de sentido común es inherentemente más ambiguo y contextual. No existe una única «respuesta correcta» a un dilema social, ni una única forma de interpretar una interacción humana. Los modelos, por tanto, no son entrenados para seguir una única ruta de solución en estos dominios. Esta flexibilidad intrínseca, esta falta de una «mejor manera» predefinida, los hace mucho más adaptables a las restricciones que impone la personalización. Pueden navegar por diferentes enfoques sin que su capacidad de razonamiento fundamental se degrade.
Aquí se revela una verdad profunda sobre el estado actual de la inteligencia artificial. La fragilidad de la IA en dominios formales no es un defecto inherente de la tecnología, sino un reflejo directo de cómo la propia industria mide y define el progreso. La obsesión por mejorar las puntuaciones en benchmarks objetivos y cuantificables ha creado un sistema de incentivos que premia la rigidez y la especialización, y penaliza la flexibilidad cognitiva. Hemos estado entrenando a nuestras IA para ser brillantes en los exámenes, pero ineptas en la conversación. La propia estructura de incentivos de la industria ha moldeado la arquitectura cognitiva de la IA, favoreciendo una inteligencia que es poderosa pero quebradiza.
Las implicaciones: De las aulas a las salas de hospital
Las conclusiones de este estudio trascienden los laboratorios de investigación y tienen consecuencias directas en los ámbitos más críticos de nuestra sociedad. En el campo de la educación, por ejemplo, se ha depositado una gran esperanza en la IA como una herramienta para ofrecer una enseñanza personalizada a cada estudiante. Sin embargo, los hallazgos del paper pintan un cuadro preocupante. Un tutor de IA que no puede adaptar su explicación al nivel de conocimiento, al estilo de aprendizaje o a las dudas específicas de un alumno no está proporcionando el «andamiaje cognitivo» necesario para un aprendizaje real; simplemente está ofreciendo una versión digital de un libro de texto estático. Peor aún, como demuestra la investigación, si se le obliga a desviarse de su método de explicación estándar, no solo puede ser menos eficaz, sino que podría incluso proporcionar una respuesta incorrecta, socavando activamente el proceso de aprendizaje y la confianza del estudiante.
Las consecuencias en el ámbito de la sanidad son aún más graves. Volvamos a la historia de Alice. Una comunicación médica eficaz no consiste solo en transmitir datos precisos; se trata de construir confianza, gestionar la ansiedad y asegurar la comprensión en un momento de vulnerabilidad. Una IA que proporciona una explicación técnicamente correcta pero humanamente inadecuada puede causar un daño real. Puede llevar a malentendidos sobre un tratamiento, a una falta de adherencia a las indicaciones médicas o a una profunda desconfianza en el sistema sanitario. El estudio demuestra que los modelos actuales no están equipados para navegar esta complejidad. No pueden inferir la necesidad de empatía de un paciente ni adaptar su lenguaje para reducir la ansiedad. En un campo donde la comunicación es una parte integral del tratamiento, esta incapacidad no es un fallo técnico, es un riesgo para la seguridad del paciente.
Esta lógica se extiende a prácticamente cualquier dominio de alta criticidad. En el soporte técnico, una explicación que no se ajusta al nivel de pericia del usuario es inútil. En el análisis jurídico, la capacidad de adaptar un argumento al contexto específico de un caso es fundamental. En la ciberseguridad, una alerta que no es comprensible para el operador que debe actuar es un fallo de seguridad en sí misma. En todos estos campos, la utilidad de una respuesta no depende solo de su corrección, sino de su adecuación al receptor. La falta de razonamiento personalizado no es un inconveniente, es una barrera fundamental para el despliegue efectivo y seguro de la IA en el mundo real.
Rumbo a una inteligencia artificial que realmente nos entienda
El trabajo de Shuyue Stella Li y su equipo nos obliga a reconsiderar nuestras suposiciones más básicas sobre el progreso de la inteligencia artificial. La conclusión más importante de su investigación es que el razonamiento personalizado no es una característica de lujo que «emergerá» de forma natural a medida que los modelos se hagan más grandes y potentes. Es una capacidad cognitiva distinta y fundamental que debe ser investigada, desarrollada y evaluada de forma deliberada. Los modelos actuales no están en el camino correcto para adquirirla por sí solos; de hecho, las prácticas de entrenamiento actuales los están empujando en la dirección opuesta, hacia una mayor especialización y fragilidad.
De este modo, PREFDISCO trasciende su rol como mero instrumento de diagnóstico para convertirse en una auténtica hoja de ruta hacia el futuro. Su marco ofrece un método versátil y escalable para convertir cualquier examen de conocimiento estático, antes impersonal, en un diálogo dinámico centrado en la personalización. Esta transformación abre la puerta a paradigmas de entrenamiento radicalmente nuevos; se podría, por ejemplo, utilizar la propia estructura de este «simulador de perfiles de usuario» para enseñar a los modelos el arte de la indagación estratégica o para que aprendan a construir representaciones internas del usuario mucho más fieles mediante el aprendizaje por refuerzo. Asimismo, permite explorar cuestiones de una complejidad mayor, como la capacidad de transferir el conocimiento de una preferencia de un ámbito a otro. Este es un paso crucial para pasar de una IA que solo resuelve tareas aisladas a una que desarrolla un modelo coherente y persistente de quiénes somos, logrando así una adaptabilidad mucho más profunda y genuina.
Al final, la búsqueda de una inteligencia artificial verdaderamente útil nos devuelve a una pregunta sobre nosotros mismos. Las fallas de la IA a menudo reflejan las limitaciones de cómo nosotros definimos y medimos la inteligencia. Hemos priorizado la corrección medible sobre la comprensión contextual, la velocidad de respuesta sobre la calidad de la interacción. Este estudio nos muestra el coste de ese desequilibrio.
La verdadera meta no debería ser construir una IA que simplemente sepa más cosas que nosotros, sino una que pueda colaborar con nosotros de una manera adaptativa y sinérgica. No necesitamos un oráculo que nos dé respuestas definitivas, sino un compañero de razonamiento que nos ayude a navegar la complejidad. El trabajo de Li y su equipo es un paso fundamental en esa dirección. No es solo una crítica, es un mapa que nos guía hacia una inteligencia artificial que, algún día, no solo nos dé respuestas, sino que finalmente nos entienda.
Referencias
Afzoon, S., Naseem, U., Beheshti, A., & Jamali, Z. (2024). Persobench: Benchmarking personalized response generation in large language models. arXiv preprint arXiv:2410.03198.
Bose, A., Xiong, Z., Chi, Y., Du, S. S., Xiao, L., & Fazel, M. (2025). Lore: Personalizing llms via low-rank reward modeling. arXiv preprint arXiv:2504.14439.
Chen, D., Chen, Y., Rege, A., & Vinayak, R. K. (2024). Pal: Pluralistic alignment framework for learning from heterogeneous preferences. arXiv preprint arXiv:2406.08469.
Chrysafiadi, K., & Virvou, M. (2015). Advances in personalized web-based education. Springer.
Jiang, B., Hao, Z., Cho, Y. M., Li, B., Yuan, Y., Chen, S., Ungar, L., Taylor, C. J., & Roth, D. (2025). Know me, respond to me: Benchmarking llms for dynamic user profiling and personalized responses at scale. arXiv preprint arXiv:2504.14225.
Lee, Y., Williams, J., Marklund, H., Sharma, A., Mitchell, E., Singh, A., & Finn, C. (2024). Test-time alignment via hypothesis reweighting. arXiv preprint arXiv:2412.08812.
Li, B. Z., Tamkin, A., Goodman, N., & Andreas, J. (2023). Eliciting human preferences with language models. arXiv preprint arXiv:2310.11589.
Li, L., Cai, P., Rossi, R. A., Dernoncourt, F., Kveton, B., Wu, J., Yu, T., Song, L., Yang, T., Qin, Y., et al. (2025a). A personalized conversational benchmark: Towards simulating personalized conversations. arXiv preprint arXiv:2505.14106.
Li, S. S., Bose, A., Brahman, F., Du, S. S., Koh, P. W., Fazel, M., & Tsvetkov, Y. (2025). Personalized reasoning: just-in-time personalization and why llms fail at it. arXiv preprint arXiv:2510.00177v1.
Li, S. S., Sclar, M., Lang, H., Ni, A., He, J., Xu, P., Cohen, A., Park, C. Y., Tsvetkov, Y., & Celikyilmaz, A. (2025b). Prefpalette: Personalized preference modeling with latent attributes. arXiv preprint arXiv:2507.13541.
Li, S., Balachandran, V., Feng, S., Ilgen, J., Pierson, E., Koh, P. W. W., & Tsvetkov, Y. (2024). Mediq: Question-asking Ilms and a benchmark for reliable interactive clinical reasoning. Advances in Neural Information Processing Systems, 37, 28858-28888.
Liu, J., Cui, L., Liu, H., Huang, D., Wang, Y., & Zhang, Y. (2020). Logiqa: A challenge dataset for machine reading comprehension with logical reasoning. arXiv preprint arXiv:2007.08124.
Poddar, S., Wan, Y., Ivison, H., Gupta, A., & Jaques, N. (2024). Personalizing reinforcement learning from human feedback with variational preference learning. arXiv preprint arXiv:2408.10075.
Sap, M., Rashkin, H., Chen, D., LeBras, R., & Choi, Y. (2019). Socialiqa: Commonsense reasoning about social interactions. arXiv preprint arXiv:1904.09728.
Talmor, A., Herzig, J., Lourie, N., & Berant, J. (2018). Commonsenseqa: A question answering challenge targeting commonsense knowledge. arXiv preprint arXiv:1811.00937.
Zhao, S., Hong, M., Liu, Y., Hazarika, D., & Lin, K. (2025). Do llms recognize your preferences? evaluating personalized preference following in llms. arXiv preprint arXiv:2502.09597.
Zhu, M., Yang, L., & Zhang, Y. (2024). Personality alignment of large language models. arXiv preprint arXiv:2408.11779.