Large Language Models (LLMs) have emerged as transformative tools for natural language understanding and user intent resolution, enabling tasks such as translation, summarization, and, increasingly, the orchestration of complex workflows. This development signifies a paradigm shift from conventional, GUI-driven user interfaces toward intuitive, language-first interaction paradigms. Rather than manually navigating applications, users can articulate their objectives in natural language, enabling LLMs to orchestrate actions across multiple applications in a dynamic and contextual manner. However, extant implementations frequently rely on cloud-based proprietary models, which introduce limitations in terms of privacy, autonomy, and scalability. For language-first interaction to become a truly robust and trusted interface paradigm, local deployment is not merely a convenience; it is an imperative. This limitation underscores the importance of evaluating the feasibility of locally deployable, open-source, and open-access LLMs as foundational components for future intent-based operating systems. In this study, we examine the capabilities of several open-source and open-access models in facilitating user intention resolution through machine assistance. A comparative analysis is conducted against OpenAI's proprietary GPT-4-based systems to assess performance in generating workflows for various user intentions. The present study offers empirical insights into the practical viability, performance trade-offs, and potential of open LLMs as autonomous, locally operable components in next-generation operating systems. The results of this study inform the broader discussion on the decentralization and democratization of AI infrastructure and point toward a future where user-device interaction becomes more seamless, adaptive, and privacy-conscious through locally embedded intelligence.
academicAnalyse Comparative des Grands Modèles de Langage pour la Résolution Assistée par Machine des Intentions Utilisateur
- ID de l'article : 2510.08576
- Titre : Comparative Analysis of Large Language Models for the Machine-Assisted Resolution of User Intentions
- Auteurs : Justus Flerlage (Technische Universität Berlin), Alexander Acker (logsight.ai GmbH), Odej Kao (Technische Universität Berlin)
- Classification : cs.SE cs.AI cs.CL cs.HC
- Conférence de publication : HAIC 2025: First International Workshop on Human-AI Collaborative Systems
- Lien de l'article : https://arxiv.org/abs/2510.08576
Cette étude explore le rôle transformateur des grands modèles de langage (LLMs) dans la compréhension du langage naturel et l'analyse des intentions utilisateur, en particulier leur capacité à orchestrer des flux de travail complexes. L'étude se concentre sur la transition des interfaces traditionnelles pilotées par GUI vers des paradigmes d'interaction intuitifs et centrés sur le langage. Cependant, les implémentations existantes s'appuient souvent sur des modèles propriétaires basés sur le cloud, présentant des limitations en matière de confidentialité, d'autonomie et d'évolutivité. Cet article évalue la faisabilité du déploiement local de LLMs open-source en tant que composants fondamentaux des futurs systèmes d'exploitation basés sur les intentions, par une analyse comparative des performances des modèles open-source et d'accès ouvert par rapport au système propriétaire GPT-4 d'OpenAI.
- Besoin de transformation du paradigme d'interaction : Les systèmes d'exploitation traditionnels basés sur GUI, la gestion hiérarchique des fichiers et les shells nécessitent que les utilisateurs coordonnent manuellement plusieurs applications, processus fastidieux et chronophage
- Défis de confidentialité et d'autonomie : Les modèles propriétaires basés sur le cloud existants présentent des limitations en matière de confidentialité, d'autonomie et d'évolutivité
- Nécessité du déploiement local : Pour réaliser un véritable paradigme d'interaction centré sur le langage robuste et fiable, le déploiement local n'est pas seulement une commodité, mais une nécessité
- Promouvoir la transition d'une interaction pilotée par GUI vers un paradigme centré sur le langage
- Évaluer la faisabilité des LLMs open-source dans les futurs systèmes d'exploitation pilotés par intentions
- Favoriser la décentralisation et la démocratisation de l'infrastructure IA
- Dépendance à l'infrastructure cloud externe, manque d'autonomie
- Problèmes de confidentialité et de sécurité des données
- Dépendance réseau limitant les cas d'application
- Première comparaison systématique : Analyse comparative complète des performances des LLMs open-source/d'accès ouvert par rapport aux modèles propriétaires GPT-4 sur les tâches d'analyse des intentions utilisateur
- Architecture système pratique : Conception et implémentation d'une architecture système basée sur Controller, supportant l'exécution dynamique des flux de travail générés par LLM
- Cadre d'évaluation multidimensionnel : Établissement d'un système d'évaluation comprenant plusieurs dimensions telles que le temps de réponse, le temps du premier token et la qualité du code
- Vérification de la faisabilité des LLMs open-source : Démonstration que les modèles open-source atteignent des niveaux de performance proches des modèles propriétaires sur les tâches d'analyse des intentions utilisateur
Conversion des intentions utilisateur en langage naturel en flux de travail exécutables, se manifestant concrètement par :
- Entrée : Description en langage naturel de l'intention utilisateur
- Sortie : Flux de travail exécutable sous forme de code Python
- Contraintes : Le code doit invoquer un ensemble prédéfini de fonctions API
- Controller : Unité de coordination centrale gérant la communication avec le LLM et l'exécution des flux de travail
- Function Table : Répertoire contenant les fonctions disponibles et leurs spécifications, fournissant les signatures de fonction et les callbacks d'implémentation
- Prompt Formatter : Génère les invites LLM en fonction de l'intention utilisateur et de la Function Table
- Executor : Exécute le code généré par LLM dans un environnement contrôlé
- LLM Service : Interface LLM hébergée en externe
- Conceptualisation des flux de travail en tant que machines à états déterministes
- Modélisation utilisant un langage de programmation impératif (Python)
- Support des étapes séquentielles et des structures de contrôle complexes (boucles, branches)
- Permet l'interruption d'étapes, la préemption et la gestion des tâches asynchrones
- Équivalence Machine à États et Code : Modélisation innovante des flux de travail en tant que machines à états, réalisant les transitions d'état par l'exécution de code Python
- Environnement d'Exécution Contrôlé : Restriction des fonctions exécutables via Function Table, assurant la sécurité
- Interface Unifiée Multi-Modèles : Conception d'un cadre d'évaluation unifié supportant plusieurs LLMs
Modèles open-source/d'accès ouvert :
- falcon-3-10b-instruct
- qwen-2.5-14b-instruct
- phi-4
Modèles propriétaires :
- gpt-4o
- gpt-4o-mini
- gpt-4-turbo
- gpt-4.5-preview-2025-02-27
Conception de 9 intentions utilisateur de complexités différentes :
- Fonctionnalités de base simples (par exemple, « veuillez dormir 5 secondes »)
- Demandes d'informations externes (par exemple, requête de température, résumé Wikipedia)
- Tâches orientées système (par exemple, liste de fichiers, installation à distance)
- Interaction multimédia (par exemple, lire une chanson aléatoire)
- Tâches composites (par exemple, envoyer un fichier à une compagnie d'assurance)
- Exactitude Fonctionnelle : Taux de réussite de l'analyse des intentions
- Temps de Réponse : Temps total pour recevoir la sortie complète
- Temps du Premier Token : Temps pour recevoir la sortie initiale
- Qualité du Code : Présence de préambule, postambule et commentaires de code
- Implémentation du Controller basée sur Python 3
- Exécution sur appareil Android, utilisant l'environnement Termux
- Température du modèle définie à 0.0 pour assurer la déterminabilité des résultats
- Chaque intention testée une fois pour chaque LLM
| Catégorie de Modèle | Nombre d'Analyses Réussies | Performance Globale |
|---|
| Modèles open-source | 7/9 | Comparable à gpt-4-turbo |
| Modèles propriétaires (haut de gamme) | 8/9 | Légèrement supérieur aux modèles open-source |
Performances Spécifiques :
- falcon-3-10b-instruct : 7/9 réussis
- phi-4 : 7/9 réussis
- qwen-2.5-14b-instruct : 7/9 réussis
- gpt-4o, gpt-4o-mini, gpt-4.5-preview : 8/9 réussis
- gpt-4-turbo : 7/9 réussis
Temps de Réponse Moyen :
- Plus rapide : gpt-4o (1,75s)
- Plus rapide open-source : qwen-2.5-14b-instruct (3,42s)
- Plus lent : gpt-4.5-preview-2025-02-27 (7,24s)
Temps Moyen du Premier Token :
- Plus rapide : falcon-3-10b-instruct (353,4ms)
- Plus lent : gpt-4.5-preview-2025-02-27 (900,1ms)
- Intention 8 (Résumé Wikipedia) : Presque tous les modèles ont échoué, le contenu dépassant la fenêtre de contexte
- Problèmes de Format : falcon-3-10b-instruct utilisant des marqueurs de bloc de code incorrects dans l'intention 7
- Erreurs de Sélection de Fonction : Certains modèles sélectionnant des fonctions API inappropriées pour les intentions complexes
- Préambule/Postambule : Les modèles open-source ne les incluent généralement pas, performances inégales des modèles propriétaires
- Commentaires de Code : phi-4 et la plupart des modèles propriétaires tendant à inclure des commentaires
- Exactitude du Code : La plupart du code généré étant syntaxiquement et logiquement correct
- Architecture Transformer : Base de tous les LLMs modernes, supportant la parallélisation de l'entraînement et le NLP de haute qualité
- Génération de Code : Applications d'outils comme GitHub Copilot dans l'assistance au code
- Reconnaissance d'Intentions : Recherches connexes sur la reconnaissance des intentions utilisateur dans les systèmes de dialogue
- Assistants Personnels : Solutions existantes comme Siri, Cortana, Alexa
- Intégration Système d'Exploitation : Recherches sur les systèmes d'exploitation orientés agents LLM comme AIOS
- Automatisation GUI : Recherches sur l'opération directe des applications GUI existantes par l'IA
- Confidentialité des Données : Problèmes de confidentialité dans le traitement des données d'entraînement et des informations utilisateur
- Risques IA : Analyse systématique des problèmes incluant les hallucinations et la génération de code erroné
- Proximité de Performance : Les LLMs open-source présentent des performances proches des modèles propriétaires sur les tâches d'analyse des intentions utilisateur, avec un taux de réussite de 77,8% (7/9)
- Temps de Réponse Acceptable : Bien que les modèles propriétaires aient un avantage en temps de réponse, les performances des modèles open-source restent acceptables
- Faisabilité du Déploiement Local : Vérification de la faisabilité de la construction de systèmes pilotés par intentions utilisant des modèles open-source auto-hébergés
- Limitation des Tests Uniques : Chaque intention testée une seule fois, manque de vérification de la signification statistique
- Besoins en Ressources Informatiques : Les modèles actuels nécessitant toujours d'importantes ressources informatiques, limitant le véritable déploiement local
- Risques de Sécurité : L'exécution directe du code généré présentant des vulnérabilités de sécurité, nécessitant des mécanismes de bac à sable plus robustes
- Couverture API Limitée : L'ensemble API actuel étant relativement limité, difficile de traiter les intentions utilisateur plus complexes
- Optimisation des Modèles : Réduction de la taille et des besoins informatiques des modèles par élagage, distillation et quantification
- Mécanismes de Sécurité : Développement de mécanismes d'isolation et de bac à sable plus robustes
- Extension API : Construction d'une API plus complète pour traiter les intentions utilisateur diversifiées
- Problèmes d'Alignement : Résolution des problèmes d'arrêt des systèmes IA et des problèmes d'alignement contrefait
- Signification Majeure de la Recherche : Première évaluation systématique du potentiel d'application des LLMs open-source dans les systèmes d'exploitation pilotés par intentions
- Conception Expérimentale Raisonnable : Couverture de cas de test de complexités différentes, dimensions d'évaluation complètes
- Innovation Technique : Modélisation innovante de l'équivalence entre machines à états et exécution de code
- Valeur Pratique Élevée : Fourniture de références importantes pour la conception des futurs systèmes d'exploitation
- Échelle de Test Limitée : Seulement 9 cas de test, taille d'échantillon relativement petite
- Analyse Statistique Manquante : Absence d'intervalles de confiance et de tests de signification
- Considération Insuffisante de la Sécurité : Discussion relativement superficielle des risques de sécurité de l'exécution de code
- Fiabilité à Long Terme Non Vérifiée : Absence de considération de la stabilité du modèle lors d'une utilisation prolongée
- Contribution Académique : Fourniture d'un benchmark important pour l'intégration des LLMs dans le domaine des systèmes d'exploitation
- Valeur Pratique : Démonstration de la faisabilité des solutions open-source, promotion de la démocratisation technologique
- Orientation Future : Indication de la direction pour la conception des interfaces homme-machine de prochaine génération
- Environnements Sensibles à la Confidentialité : Applications d'entreprise et personnelles nécessitant un traitement local
- Appareils aux Ressources Limitées : Scénarios d'appareils mobiles et d'informatique en périphérie
- Besoins de Personnalisation : Domaines professionnels nécessitant une optimisation de fonctionnalités spécifiques
- Prototypes de Recherche : Systèmes de recherche académique et de validation de concepts
Cet article cite 38 références importantes, couvrant les domaines connexes clés tels que l'architecture Transformer, les applications LLM, la génération de code, l'interaction homme-machine et la sécurité IA, fournissant une base théorique solide à la recherche.
Évaluation Globale : Cet article de recherche est une étude avant-gardiste et pratique qui évalue systématiquement pour la première fois le potentiel d'application des LLMs open-source dans les futurs systèmes d'exploitation. Bien que présentant certaines limitations en matière d'échelle expérimentale et d'analyse de sécurité, ses conclusions de recherche revêtent une importance majeure pour promouvoir la démocratisation de la technologie IA et le développement des interfaces homme-machine de prochaine génération.