2025-11-21T21:40:15.836321

Comparative Analysis of Large Language Models for the Machine-Assisted Resolution of User Intentions

Flerlage, Acker, Kao

Large Language Models (LLMs) have emerged as transformative tools for natural language understanding and user intent resolution, enabling tasks such as translation, summarization, and, increasingly, the orchestration of complex workflows. This development signifies a paradigm shift from conventional, GUI-driven user interfaces toward intuitive, language-first interaction paradigms. Rather than manually navigating applications, users can articulate their objectives in natural language, enabling LLMs to orchestrate actions across multiple applications in a dynamic and contextual manner. However, extant implementations frequently rely on cloud-based proprietary models, which introduce limitations in terms of privacy, autonomy, and scalability. For language-first interaction to become a truly robust and trusted interface paradigm, local deployment is not merely a convenience; it is an imperative. This limitation underscores the importance of evaluating the feasibility of locally deployable, open-source, and open-access LLMs as foundational components for future intent-based operating systems. In this study, we examine the capabilities of several open-source and open-access models in facilitating user intention resolution through machine assistance. A comparative analysis is conducted against OpenAI's proprietary GPT-4-based systems to assess performance in generating workflows for various user intentions. The present study offers empirical insights into the practical viability, performance trade-offs, and potential of open LLMs as autonomous, locally operable components in next-generation operating systems. The results of this study inform the broader discussion on the decentralization and democratization of AI infrastructure and point toward a future where user-device interaction becomes more seamless, adaptive, and privacy-conscious through locally embedded intelligence.

academic

Análisis Comparativo de Modelos de Lenguaje Grande para la Resolución Asistida por Máquina de Intenciones del Usuario

Información Básica

ID del Artículo: 2510.08576
Título: Comparative Analysis of Large Language Models for the Machine-Assisted Resolution of User Intentions
Autores: Justus Flerlage (Technische Universität Berlin), Alexander Acker (logsight.ai GmbH), Odej Kao (Technische Universität Berlin)
Clasificación: cs.SE cs.AI cs.CL cs.HC
Conferencia de Publicación: HAIC 2025: First International Workshop on Human-AI Collaborative Systems
Enlace del Artículo: https://arxiv.org/abs/2510.08576

Resumen

Este estudio explora el papel transformador de los modelos de lenguaje grande (LLMs) en la comprensión del lenguaje natural y el análisis de intenciones del usuario, particularmente en la capacidad de orquestar flujos de trabajo complejos. La investigación se enfoca en la transición de interfaces tradicionales impulsadas por GUI hacia paradigmas intuitivos de interacción basados en lenguaje. Sin embargo, las implementaciones existentes a menudo dependen de modelos propietarios basados en la nube, que presentan limitaciones en privacidad, autonomía y escalabilidad. Este artículo evalúa la viabilidad de LLMs de código abierto desplegados localmente como componentes fundamentales de futuros sistemas operativos basados en intenciones, mediante un análisis comparativo del desempeño de modelos de acceso abierto y de código abierto frente al sistema propietario GPT-4 de OpenAI.

Contexto de Investigación y Motivación

Problemas Centrales

Necesidad de Cambio de Paradigma de Interacción: Los sistemas operativos tradicionales basados en GUI, gestión jerárquica de archivos y shell requieren que los usuarios coordinen manualmente múltiples aplicaciones, un proceso tedioso y que consume tiempo
Desafíos de Privacidad y Autonomía: Los modelos propietarios basados en la nube existentes presentan limitaciones en privacidad, autonomía y escalabilidad
Necesidad de Despliegue Local: Para lograr un verdadero paradigma de interacción basado en lenguaje robusto y confiable, el despliegue local no es solo una conveniencia, sino una necesidad

Significado de la Investigación

Impulsar la transición de interacción impulsada por GUI hacia paradigmas basados en lenguaje
Evaluar la viabilidad de LLMs de código abierto en futuros sistemas operativos impulsados por intenciones
Promover la descentralización y democratización de la infraestructura de IA

Limitaciones de Métodos Existentes

Dependencia de infraestructura externa en la nube, falta de autonomía
Problemas de privacidad y seguridad de datos
Dependencia de red que limita los escenarios de aplicación

Contribuciones Principales

Primera Comparación Sistemática: Análisis comparativo integral del desempeño de LLMs de código abierto/acceso abierto versus modelos propietarios GPT-4 en tareas de análisis de intenciones del usuario
Arquitectura de Sistema Práctico: Diseño e implementación de una arquitectura de sistema basada en Controller que soporta la ejecución dinámica de flujos de trabajo generados por LLM
Marco de Evaluación Multidimensional: Establecimiento de un sistema de evaluación que incluye múltiples dimensiones como tiempo de respuesta, tiempo del primer token y calidad del código
Verificación de Viabilidad de LLMs de Código Abierto: Demostración de que los modelos de código abierto alcanzan niveles de desempeño cercanos a los modelos propietarios en tareas de análisis de intenciones del usuario

Detalles Metodológicos

Definición de Tarea

Conversión de intenciones del usuario en lenguaje natural a flujos de trabajo ejecutables, manifestado específicamente como:

Entrada: Descripción de intención del usuario en lenguaje natural
Salida: Flujo de trabajo ejecutable en forma de código Python
Restricciones: El código debe invocar un conjunto predefinido de funciones API

Arquitectura del Sistema

Componentes Principales

Controller: Unidad de coordinación central que gestiona la comunicación con el LLM y la ejecución del flujo de trabajo
Tabla de Funciones: Catálogo que contiene funciones disponibles y sus especificaciones, proporcionando firmas de función y devoluciones de llamada de implementación
Formateador de Indicaciones: Genera indicaciones de LLM basadas en la intención del usuario y la Tabla de Funciones
Ejecutor: Ejecuta el código generado por LLM en un entorno controlado
Servicio LLM: Interfaz de LLM alojada externamente

Modelado de Flujos de Trabajo

Conceptualización de flujos de trabajo como máquinas de estado deterministas
Modelado mediante lenguaje de programación imperativo (Python)
Soporte para pasos secuenciales y estructuras de control de flujo complejas (bucles, ramificaciones)
Permite interrupción de pasos, desalojo y gestión de tareas asincrónicas

Puntos de Innovación Técnica

Equivalencia de Máquina de Estado y Código: Modelado innovador de flujos de trabajo como máquinas de estado, implementando transiciones de estado mediante ejecución de código Python
Entorno de Ejecución Controlado: Restricción de funciones ejecutables mediante Tabla de Funciones para garantizar seguridad
Interfaz Unificada Multimodelo: Diseño de marco de evaluación unificado que soporta múltiples LLMs

Configuración Experimental

Modelos Probados

Modelos de Código Abierto/Acceso Abierto:

falcon-3-10b-instruct
qwen-2.5-14b-instruct
phi-4

Modelos Propietarios:

gpt-4o
gpt-4o-mini
gpt-4-turbo
gpt-4.5-preview-2025-02-27

Conjunto de Intenciones de Prueba

Se diseñaron 9 intenciones de usuario de diferentes niveles de complejidad:

Funcionalidad de línea base simple (como "por favor, duerme 5 segundos")
Solicitudes de información externa (como consultar temperatura, resumen de Wikipedia)
Tareas orientadas al sistema (como listar archivos, instalación remota)
Interacción con medios (como reproducir una canción aleatoria)
Tareas compuestas (como enviar archivo a compañía de seguros)

Métricas de Evaluación

Corrección Funcional: Tasa de éxito en análisis de intenciones
Tiempo de Respuesta: Tiempo total para recibir salida completa
Tiempo del Primer Token: Tiempo para recibir salida inicial
Calidad del Código: Si incluye preámbulo, epílogo y comentarios de código

Detalles de Implementación

Implementación de Controller basada en Python 3
Ejecución en dispositivo Android, utilizando entorno Termux
Temperatura del modelo establecida en 0.0 para garantizar resultados deterministas
Cada intención probada una vez para cada LLM

Resultados Experimentales

Resultados Principales

Tasa de Éxito en Análisis de Intenciones

Categoría de Modelo	Cantidad de Análisis Exitosos	Desempeño General
Modelos de Código Abierto	7/9	Comparable a gpt-4-turbo
Modelos Propietarios (Nivel Superior)	8/9	Ligeramente superior a modelos de código abierto

Desempeño Específico:

falcon-3-10b-instruct: 7/9 exitosos
phi-4: 7/9 exitosos
qwen-2.5-14b-instruct: 7/9 exitosos
gpt-4o, gpt-4o-mini, gpt-4.5-preview: 8/9 exitosos
gpt-4-turbo: 7/9 exitosos

Comparación de Métricas de Desempeño

Tiempo de Respuesta Promedio:

Más rápido: gpt-4o (1.75s)
Más rápido de código abierto: qwen-2.5-14b-instruct (3.42s)
Más lento: gpt-4.5-preview-2025-02-27 (7.24s)

Tiempo Promedio del Primer Token:

Más rápido: falcon-3-10b-instruct (353.4ms)
Más lento: gpt-4.5-preview-2025-02-27 (900.1ms)

Análisis Detallado

Análisis de Casos de Fallo

Intención 8 (Resumen de Wikipedia): Casi todos los modelos fallaron porque el contenido excedía la ventana de contexto
Problemas de Formato: falcon-3-10b-instruct utilizó marcas de bloque de código incorrectas en la intención 7
Error en Selección de Función: Algunos modelos seleccionaron funciones API inadecuadas en intenciones complejas

Características de Calidad del Código

Preámbulo/Epílogo: Los modelos de código abierto generalmente no incluyen, desempeño variable en modelos propietarios
Comentarios de Código: phi-4 y la mayoría de modelos propietarios tienden a incluir comentarios
Corrección del Código: La mayoría del código generado es sintáctica y lógicamente correcto

Trabajo Relacionado

Fundamentos Técnicos Principales

Arquitectura Transformer: Base de todos los LLMs modernos, soporta entrenamiento paralelizado y NLP de alta calidad
Generación de Código: Aplicaciones de herramientas como GitHub Copilot en asistencia de código
Reconocimiento de Intenciones: Investigación relacionada en reconocimiento de intenciones del usuario en sistemas de diálogo

Expansión de Campos de Aplicación

Asistentes Personales: Soluciones existentes como Siri, Cortana, Alexa
Integración del Sistema Operativo: Investigación en sistemas operativos orientados a agentes LLM como AIOS
Automatización de GUI: Investigación en operación directa de aplicaciones GUI existentes por IA

Seguridad y Privacidad

Privacidad de Datos: Problemas de privacidad en el manejo de datos de entrenamiento e información del usuario
Riesgos de IA: Análisis sistemático de problemas incluyendo alucinaciones y generación de código erróneo

Conclusiones y Discusión

Conclusiones Principales

Proximidad de Desempeño: Los LLMs de código abierto muestran desempeño cercano a los modelos propietarios en tareas de análisis de intenciones del usuario, con una tasa de éxito del 77.8% (7/9)
Tiempo de Respuesta Aceptable: Aunque los modelos propietarios tienen ventaja en tiempo de respuesta, el desempeño de los modelos de código abierto sigue siendo aceptable
Viabilidad de Despliegue Local: Se verificó la viabilidad de construir sistemas impulsados por intenciones utilizando modelos de código abierto autohospedados

Limitaciones

Limitación de Prueba Única: Cada intención se probó solo una vez, careciendo de verificación de significancia estadística
Requisitos de Recursos Computacionales: Los modelos actuales aún requieren recursos computacionales significativos, limitando el verdadero despliegue local
Riesgos de Seguridad: La ejecución directa de código generado presenta vulnerabilidades de seguridad, requiriendo mecanismos de sandbox más robustos
Cobertura de API: El conjunto de API actual es relativamente limitado, dificultando el manejo de intenciones de usuario más complejas

Direcciones Futuras

Optimización de Modelos: Reducción del tamaño del modelo y requisitos computacionales mediante técnicas de poda, destilación y cuantización
Mecanismos de Seguridad: Desarrollo de mecanismos de aislamiento y sandbox más robustos
Expansión de API: Construcción de API más completa para manejar intenciones de usuario diversificadas
Problemas de Alineación: Resolución de problemas de cierre y enmascaramiento de alineación en sistemas de IA

Evaluación Profunda

Fortalezas

Significado de Investigación Importante: Primera evaluación sistemática del potencial de aplicación de LLMs de código abierto en sistemas operativos impulsados por intenciones
Diseño Experimental Razonable: Incluye casos de prueba de diferentes niveles de complejidad, dimensiones de evaluación completas
Solución Técnica Innovadora: El modelado equivalente de máquina de estado y ejecución de código es innovador
Valor Práctico Alto: Proporciona referencias importantes para el diseño futuro de sistemas operativos

Deficiencias

Escala de Prueba Limitada: Solo 9 casos de prueba, tamaño de muestra relativamente pequeño
Análisis Estadístico Faltante: Carencia de intervalos de confianza y pruebas de significancia
Consideración Insuficiente de Seguridad: Discusión relativamente superficial de riesgos de seguridad en ejecución de código
Confiabilidad a Largo Plazo No Verificada: No se consideró la estabilidad del modelo en uso prolongado

Impacto

Contribución Académica: Proporciona un punto de referencia importante para la integración de LLM en el campo de sistemas operativos
Valor Práctico: Demuestra la viabilidad de soluciones de código abierto, promoviendo la democratización tecnológica
Orientación Futura: Señala la dirección para el diseño de interfaces de interacción humano-máquina de próxima generación

Escenarios Aplicables

Entornos Sensibles a Privacidad: Aplicaciones empresariales y personales que requieren procesamiento local
Dispositivos con Recursos Limitados: Escenarios de dispositivos móviles y computación perimetral
Requisitos de Personalización: Dominios profesionales que requieren optimización de funcionalidad específica
Prototipos de Investigación: Sistemas de investigación académica y verificación de conceptos

Referencias

Este artículo cita 38 referencias importantes que abarcan arquitectura Transformer, aplicaciones de LLM, generación de código, interacción humano-máquina, seguridad de IA y otros campos relacionados, proporcionando una base teórica sólida para la investigación.

Evaluación General: Este es un artículo de investigación prospectivo y de alto valor práctico que evalúa sistemáticamente por primera vez el potencial de aplicación de LLMs de código abierto en futuros sistemas operativos. Aunque presenta ciertas limitaciones en escala experimental y análisis de seguridad, sus conclusiones de investigación tienen un significado importante para promover la democratización de tecnología de IA y el desarrollo de interfaces de interacción humano-máquina de próxima generación.