Large Language Models (LLMs) have emerged as transformative tools for natural language understanding and user intent resolution, enabling tasks such as translation, summarization, and, increasingly, the orchestration of complex workflows. This development signifies a paradigm shift from conventional, GUI-driven user interfaces toward intuitive, language-first interaction paradigms. Rather than manually navigating applications, users can articulate their objectives in natural language, enabling LLMs to orchestrate actions across multiple applications in a dynamic and contextual manner. However, extant implementations frequently rely on cloud-based proprietary models, which introduce limitations in terms of privacy, autonomy, and scalability. For language-first interaction to become a truly robust and trusted interface paradigm, local deployment is not merely a convenience; it is an imperative. This limitation underscores the importance of evaluating the feasibility of locally deployable, open-source, and open-access LLMs as foundational components for future intent-based operating systems. In this study, we examine the capabilities of several open-source and open-access models in facilitating user intention resolution through machine assistance. A comparative analysis is conducted against OpenAI's proprietary GPT-4-based systems to assess performance in generating workflows for various user intentions. The present study offers empirical insights into the practical viability, performance trade-offs, and potential of open LLMs as autonomous, locally operable components in next-generation operating systems. The results of this study inform the broader discussion on the decentralization and democratization of AI infrastructure and point toward a future where user-device interaction becomes more seamless, adaptive, and privacy-conscious through locally embedded intelligence.
academicAnálisis Comparativo de Modelos de Lenguaje Grande para la Resolución Asistida por Máquina de Intenciones del Usuario
- ID del Artículo: 2510.08576
- Título: Comparative Analysis of Large Language Models for the Machine-Assisted Resolution of User Intentions
- Autores: Justus Flerlage (Technische Universität Berlin), Alexander Acker (logsight.ai GmbH), Odej Kao (Technische Universität Berlin)
- Clasificación: cs.SE cs.AI cs.CL cs.HC
- Conferencia de Publicación: HAIC 2025: First International Workshop on Human-AI Collaborative Systems
- Enlace del Artículo: https://arxiv.org/abs/2510.08576
Este estudio explora el papel transformador de los modelos de lenguaje grande (LLMs) en la comprensión del lenguaje natural y el análisis de intenciones del usuario, particularmente en la capacidad de orquestar flujos de trabajo complejos. La investigación se enfoca en la transición de interfaces tradicionales impulsadas por GUI hacia paradigmas intuitivos de interacción basados en lenguaje. Sin embargo, las implementaciones existentes a menudo dependen de modelos propietarios basados en la nube, que presentan limitaciones en privacidad, autonomía y escalabilidad. Este artículo evalúa la viabilidad de LLMs de código abierto desplegados localmente como componentes fundamentales de futuros sistemas operativos basados en intenciones, mediante un análisis comparativo del desempeño de modelos de acceso abierto y de código abierto frente al sistema propietario GPT-4 de OpenAI.
- Necesidad de Cambio de Paradigma de Interacción: Los sistemas operativos tradicionales basados en GUI, gestión jerárquica de archivos y shell requieren que los usuarios coordinen manualmente múltiples aplicaciones, un proceso tedioso y que consume tiempo
- Desafíos de Privacidad y Autonomía: Los modelos propietarios basados en la nube existentes presentan limitaciones en privacidad, autonomía y escalabilidad
- Necesidad de Despliegue Local: Para lograr un verdadero paradigma de interacción basado en lenguaje robusto y confiable, el despliegue local no es solo una conveniencia, sino una necesidad
- Impulsar la transición de interacción impulsada por GUI hacia paradigmas basados en lenguaje
- Evaluar la viabilidad de LLMs de código abierto en futuros sistemas operativos impulsados por intenciones
- Promover la descentralización y democratización de la infraestructura de IA
- Dependencia de infraestructura externa en la nube, falta de autonomía
- Problemas de privacidad y seguridad de datos
- Dependencia de red que limita los escenarios de aplicación
- Primera Comparación Sistemática: Análisis comparativo integral del desempeño de LLMs de código abierto/acceso abierto versus modelos propietarios GPT-4 en tareas de análisis de intenciones del usuario
- Arquitectura de Sistema Práctico: Diseño e implementación de una arquitectura de sistema basada en Controller que soporta la ejecución dinámica de flujos de trabajo generados por LLM
- Marco de Evaluación Multidimensional: Establecimiento de un sistema de evaluación que incluye múltiples dimensiones como tiempo de respuesta, tiempo del primer token y calidad del código
- Verificación de Viabilidad de LLMs de Código Abierto: Demostración de que los modelos de código abierto alcanzan niveles de desempeño cercanos a los modelos propietarios en tareas de análisis de intenciones del usuario
Conversión de intenciones del usuario en lenguaje natural a flujos de trabajo ejecutables, manifestado específicamente como:
- Entrada: Descripción de intención del usuario en lenguaje natural
- Salida: Flujo de trabajo ejecutable en forma de código Python
- Restricciones: El código debe invocar un conjunto predefinido de funciones API
- Controller: Unidad de coordinación central que gestiona la comunicación con el LLM y la ejecución del flujo de trabajo
- Tabla de Funciones: Catálogo que contiene funciones disponibles y sus especificaciones, proporcionando firmas de función y devoluciones de llamada de implementación
- Formateador de Indicaciones: Genera indicaciones de LLM basadas en la intención del usuario y la Tabla de Funciones
- Ejecutor: Ejecuta el código generado por LLM en un entorno controlado
- Servicio LLM: Interfaz de LLM alojada externamente
- Conceptualización de flujos de trabajo como máquinas de estado deterministas
- Modelado mediante lenguaje de programación imperativo (Python)
- Soporte para pasos secuenciales y estructuras de control de flujo complejas (bucles, ramificaciones)
- Permite interrupción de pasos, desalojo y gestión de tareas asincrónicas
- Equivalencia de Máquina de Estado y Código: Modelado innovador de flujos de trabajo como máquinas de estado, implementando transiciones de estado mediante ejecución de código Python
- Entorno de Ejecución Controlado: Restricción de funciones ejecutables mediante Tabla de Funciones para garantizar seguridad
- Interfaz Unificada Multimodelo: Diseño de marco de evaluación unificado que soporta múltiples LLMs
Modelos de Código Abierto/Acceso Abierto:
- falcon-3-10b-instruct
- qwen-2.5-14b-instruct
- phi-4
Modelos Propietarios:
- gpt-4o
- gpt-4o-mini
- gpt-4-turbo
- gpt-4.5-preview-2025-02-27
Se diseñaron 9 intenciones de usuario de diferentes niveles de complejidad:
- Funcionalidad de línea base simple (como "por favor, duerme 5 segundos")
- Solicitudes de información externa (como consultar temperatura, resumen de Wikipedia)
- Tareas orientadas al sistema (como listar archivos, instalación remota)
- Interacción con medios (como reproducir una canción aleatoria)
- Tareas compuestas (como enviar archivo a compañía de seguros)
- Corrección Funcional: Tasa de éxito en análisis de intenciones
- Tiempo de Respuesta: Tiempo total para recibir salida completa
- Tiempo del Primer Token: Tiempo para recibir salida inicial
- Calidad del Código: Si incluye preámbulo, epílogo y comentarios de código
- Implementación de Controller basada en Python 3
- Ejecución en dispositivo Android, utilizando entorno Termux
- Temperatura del modelo establecida en 0.0 para garantizar resultados deterministas
- Cada intención probada una vez para cada LLM
| Categoría de Modelo | Cantidad de Análisis Exitosos | Desempeño General |
|---|
| Modelos de Código Abierto | 7/9 | Comparable a gpt-4-turbo |
| Modelos Propietarios (Nivel Superior) | 8/9 | Ligeramente superior a modelos de código abierto |
Desempeño Específico:
- falcon-3-10b-instruct: 7/9 exitosos
- phi-4: 7/9 exitosos
- qwen-2.5-14b-instruct: 7/9 exitosos
- gpt-4o, gpt-4o-mini, gpt-4.5-preview: 8/9 exitosos
- gpt-4-turbo: 7/9 exitosos
Tiempo de Respuesta Promedio:
- Más rápido: gpt-4o (1.75s)
- Más rápido de código abierto: qwen-2.5-14b-instruct (3.42s)
- Más lento: gpt-4.5-preview-2025-02-27 (7.24s)
Tiempo Promedio del Primer Token:
- Más rápido: falcon-3-10b-instruct (353.4ms)
- Más lento: gpt-4.5-preview-2025-02-27 (900.1ms)
- Intención 8 (Resumen de Wikipedia): Casi todos los modelos fallaron porque el contenido excedía la ventana de contexto
- Problemas de Formato: falcon-3-10b-instruct utilizó marcas de bloque de código incorrectas en la intención 7
- Error en Selección de Función: Algunos modelos seleccionaron funciones API inadecuadas en intenciones complejas
- Preámbulo/Epílogo: Los modelos de código abierto generalmente no incluyen, desempeño variable en modelos propietarios
- Comentarios de Código: phi-4 y la mayoría de modelos propietarios tienden a incluir comentarios
- Corrección del Código: La mayoría del código generado es sintáctica y lógicamente correcto
- Arquitectura Transformer: Base de todos los LLMs modernos, soporta entrenamiento paralelizado y NLP de alta calidad
- Generación de Código: Aplicaciones de herramientas como GitHub Copilot en asistencia de código
- Reconocimiento de Intenciones: Investigación relacionada en reconocimiento de intenciones del usuario en sistemas de diálogo
- Asistentes Personales: Soluciones existentes como Siri, Cortana, Alexa
- Integración del Sistema Operativo: Investigación en sistemas operativos orientados a agentes LLM como AIOS
- Automatización de GUI: Investigación en operación directa de aplicaciones GUI existentes por IA
- Privacidad de Datos: Problemas de privacidad en el manejo de datos de entrenamiento e información del usuario
- Riesgos de IA: Análisis sistemático de problemas incluyendo alucinaciones y generación de código erróneo
- Proximidad de Desempeño: Los LLMs de código abierto muestran desempeño cercano a los modelos propietarios en tareas de análisis de intenciones del usuario, con una tasa de éxito del 77.8% (7/9)
- Tiempo de Respuesta Aceptable: Aunque los modelos propietarios tienen ventaja en tiempo de respuesta, el desempeño de los modelos de código abierto sigue siendo aceptable
- Viabilidad de Despliegue Local: Se verificó la viabilidad de construir sistemas impulsados por intenciones utilizando modelos de código abierto autohospedados
- Limitación de Prueba Única: Cada intención se probó solo una vez, careciendo de verificación de significancia estadística
- Requisitos de Recursos Computacionales: Los modelos actuales aún requieren recursos computacionales significativos, limitando el verdadero despliegue local
- Riesgos de Seguridad: La ejecución directa de código generado presenta vulnerabilidades de seguridad, requiriendo mecanismos de sandbox más robustos
- Cobertura de API: El conjunto de API actual es relativamente limitado, dificultando el manejo de intenciones de usuario más complejas
- Optimización de Modelos: Reducción del tamaño del modelo y requisitos computacionales mediante técnicas de poda, destilación y cuantización
- Mecanismos de Seguridad: Desarrollo de mecanismos de aislamiento y sandbox más robustos
- Expansión de API: Construcción de API más completa para manejar intenciones de usuario diversificadas
- Problemas de Alineación: Resolución de problemas de cierre y enmascaramiento de alineación en sistemas de IA
- Significado de Investigación Importante: Primera evaluación sistemática del potencial de aplicación de LLMs de código abierto en sistemas operativos impulsados por intenciones
- Diseño Experimental Razonable: Incluye casos de prueba de diferentes niveles de complejidad, dimensiones de evaluación completas
- Solución Técnica Innovadora: El modelado equivalente de máquina de estado y ejecución de código es innovador
- Valor Práctico Alto: Proporciona referencias importantes para el diseño futuro de sistemas operativos
- Escala de Prueba Limitada: Solo 9 casos de prueba, tamaño de muestra relativamente pequeño
- Análisis Estadístico Faltante: Carencia de intervalos de confianza y pruebas de significancia
- Consideración Insuficiente de Seguridad: Discusión relativamente superficial de riesgos de seguridad en ejecución de código
- Confiabilidad a Largo Plazo No Verificada: No se consideró la estabilidad del modelo en uso prolongado
- Contribución Académica: Proporciona un punto de referencia importante para la integración de LLM en el campo de sistemas operativos
- Valor Práctico: Demuestra la viabilidad de soluciones de código abierto, promoviendo la democratización tecnológica
- Orientación Futura: Señala la dirección para el diseño de interfaces de interacción humano-máquina de próxima generación
- Entornos Sensibles a Privacidad: Aplicaciones empresariales y personales que requieren procesamiento local
- Dispositivos con Recursos Limitados: Escenarios de dispositivos móviles y computación perimetral
- Requisitos de Personalización: Dominios profesionales que requieren optimización de funcionalidad específica
- Prototipos de Investigación: Sistemas de investigación académica y verificación de conceptos
Este artículo cita 38 referencias importantes que abarcan arquitectura Transformer, aplicaciones de LLM, generación de código, interacción humano-máquina, seguridad de IA y otros campos relacionados, proporcionando una base teórica sólida para la investigación.
Evaluación General: Este es un artículo de investigación prospectivo y de alto valor práctico que evalúa sistemáticamente por primera vez el potencial de aplicación de LLMs de código abierto en futuros sistemas operativos. Aunque presenta ciertas limitaciones en escala experimental y análisis de seguridad, sus conclusiones de investigación tienen un significado importante para promover la democratización de tecnología de IA y el desarrollo de interfaces de interacción humano-máquina de próxima generación.