2025-11-21T21:40:15.836321

Comparative Analysis of Large Language Models for the Machine-Assisted Resolution of User Intentions

Flerlage, Acker, Kao

Large Language Models (LLMs) have emerged as transformative tools for natural language understanding and user intent resolution, enabling tasks such as translation, summarization, and, increasingly, the orchestration of complex workflows. This development signifies a paradigm shift from conventional, GUI-driven user interfaces toward intuitive, language-first interaction paradigms. Rather than manually navigating applications, users can articulate their objectives in natural language, enabling LLMs to orchestrate actions across multiple applications in a dynamic and contextual manner. However, extant implementations frequently rely on cloud-based proprietary models, which introduce limitations in terms of privacy, autonomy, and scalability. For language-first interaction to become a truly robust and trusted interface paradigm, local deployment is not merely a convenience; it is an imperative. This limitation underscores the importance of evaluating the feasibility of locally deployable, open-source, and open-access LLMs as foundational components for future intent-based operating systems. In this study, we examine the capabilities of several open-source and open-access models in facilitating user intention resolution through machine assistance. A comparative analysis is conducted against OpenAI's proprietary GPT-4-based systems to assess performance in generating workflows for various user intentions. The present study offers empirical insights into the practical viability, performance trade-offs, and potential of open LLMs as autonomous, locally operable components in next-generation operating systems. The results of this study inform the broader discussion on the decentralization and democratization of AI infrastructure and point toward a future where user-device interaction becomes more seamless, adaptive, and privacy-conscious through locally embedded intelligence.

academic

Analyse Comparative des Grands Modèles de Langage pour la Résolution Assistée par Machine des Intentions Utilisateur

Informations Fondamentales

ID de l'article : 2510.08576
Titre : Comparative Analysis of Large Language Models for the Machine-Assisted Resolution of User Intentions
Auteurs : Justus Flerlage (Technische Universität Berlin), Alexander Acker (logsight.ai GmbH), Odej Kao (Technische Universität Berlin)
Classification : cs.SE cs.AI cs.CL cs.HC
Conférence de publication : HAIC 2025: First International Workshop on Human-AI Collaborative Systems
Lien de l'article : https://arxiv.org/abs/2510.08576

Résumé

Cette étude explore le rôle transformateur des grands modèles de langage (LLMs) dans la compréhension du langage naturel et l'analyse des intentions utilisateur, en particulier leur capacité à orchestrer des flux de travail complexes. L'étude se concentre sur la transition des interfaces traditionnelles pilotées par GUI vers des paradigmes d'interaction intuitifs et centrés sur le langage. Cependant, les implémentations existantes s'appuient souvent sur des modèles propriétaires basés sur le cloud, présentant des limitations en matière de confidentialité, d'autonomie et d'évolutivité. Cet article évalue la faisabilité du déploiement local de LLMs open-source en tant que composants fondamentaux des futurs systèmes d'exploitation basés sur les intentions, par une analyse comparative des performances des modèles open-source et d'accès ouvert par rapport au système propriétaire GPT-4 d'OpenAI.

Contexte et Motivation de la Recherche

Problèmes Fondamentaux

Besoin de transformation du paradigme d'interaction : Les systèmes d'exploitation traditionnels basés sur GUI, la gestion hiérarchique des fichiers et les shells nécessitent que les utilisateurs coordonnent manuellement plusieurs applications, processus fastidieux et chronophage
Défis de confidentialité et d'autonomie : Les modèles propriétaires basés sur le cloud existants présentent des limitations en matière de confidentialité, d'autonomie et d'évolutivité
Nécessité du déploiement local : Pour réaliser un véritable paradigme d'interaction centré sur le langage robuste et fiable, le déploiement local n'est pas seulement une commodité, mais une nécessité

Signification de la Recherche

Promouvoir la transition d'une interaction pilotée par GUI vers un paradigme centré sur le langage
Évaluer la faisabilité des LLMs open-source dans les futurs systèmes d'exploitation pilotés par intentions
Favoriser la décentralisation et la démocratisation de l'infrastructure IA

Limitations des Approches Existantes

Dépendance à l'infrastructure cloud externe, manque d'autonomie
Problèmes de confidentialité et de sécurité des données
Dépendance réseau limitant les cas d'application

Contributions Principales

Première comparaison systématique : Analyse comparative complète des performances des LLMs open-source/d'accès ouvert par rapport aux modèles propriétaires GPT-4 sur les tâches d'analyse des intentions utilisateur
Architecture système pratique : Conception et implémentation d'une architecture système basée sur Controller, supportant l'exécution dynamique des flux de travail générés par LLM
Cadre d'évaluation multidimensionnel : Établissement d'un système d'évaluation comprenant plusieurs dimensions telles que le temps de réponse, le temps du premier token et la qualité du code
Vérification de la faisabilité des LLMs open-source : Démonstration que les modèles open-source atteignent des niveaux de performance proches des modèles propriétaires sur les tâches d'analyse des intentions utilisateur

Détails Méthodologiques

Définition de la Tâche

Conversion des intentions utilisateur en langage naturel en flux de travail exécutables, se manifestant concrètement par :

Entrée : Description en langage naturel de l'intention utilisateur
Sortie : Flux de travail exécutable sous forme de code Python
Contraintes : Le code doit invoquer un ensemble prédéfini de fonctions API

Architecture Système

Composants Principaux

Controller : Unité de coordination centrale gérant la communication avec le LLM et l'exécution des flux de travail
Function Table : Répertoire contenant les fonctions disponibles et leurs spécifications, fournissant les signatures de fonction et les callbacks d'implémentation
Prompt Formatter : Génère les invites LLM en fonction de l'intention utilisateur et de la Function Table
Executor : Exécute le code généré par LLM dans un environnement contrôlé
LLM Service : Interface LLM hébergée en externe

Modélisation des Flux de Travail

Conceptualisation des flux de travail en tant que machines à états déterministes
Modélisation utilisant un langage de programmation impératif (Python)
Support des étapes séquentielles et des structures de contrôle complexes (boucles, branches)
Permet l'interruption d'étapes, la préemption et la gestion des tâches asynchrones

Points d'Innovation Technique

Équivalence Machine à États et Code : Modélisation innovante des flux de travail en tant que machines à états, réalisant les transitions d'état par l'exécution de code Python
Environnement d'Exécution Contrôlé : Restriction des fonctions exécutables via Function Table, assurant la sécurité
Interface Unifiée Multi-Modèles : Conception d'un cadre d'évaluation unifié supportant plusieurs LLMs

Configuration Expérimentale

Modèles Testés

Modèles open-source/d'accès ouvert :

falcon-3-10b-instruct
qwen-2.5-14b-instruct
phi-4

Modèles propriétaires :

gpt-4o
gpt-4o-mini
gpt-4-turbo
gpt-4.5-preview-2025-02-27

Ensemble d'Intentions de Test

Conception de 9 intentions utilisateur de complexités différentes :

Fonctionnalités de base simples (par exemple, « veuillez dormir 5 secondes »)
Demandes d'informations externes (par exemple, requête de température, résumé Wikipedia)
Tâches orientées système (par exemple, liste de fichiers, installation à distance)
Interaction multimédia (par exemple, lire une chanson aléatoire)
Tâches composites (par exemple, envoyer un fichier à une compagnie d'assurance)

Métriques d'Évaluation

Exactitude Fonctionnelle : Taux de réussite de l'analyse des intentions
Temps de Réponse : Temps total pour recevoir la sortie complète
Temps du Premier Token : Temps pour recevoir la sortie initiale
Qualité du Code : Présence de préambule, postambule et commentaires de code

Détails d'Implémentation

Implémentation du Controller basée sur Python 3
Exécution sur appareil Android, utilisant l'environnement Termux
Température du modèle définie à 0.0 pour assurer la déterminabilité des résultats
Chaque intention testée une fois pour chaque LLM

Résultats Expérimentaux

Résultats Principaux

Taux de Réussite de l'Analyse des Intentions

Catégorie de Modèle	Nombre d'Analyses Réussies	Performance Globale
Modèles open-source	7/9	Comparable à gpt-4-turbo
Modèles propriétaires (haut de gamme)	8/9	Légèrement supérieur aux modèles open-source

Performances Spécifiques :

falcon-3-10b-instruct : 7/9 réussis
phi-4 : 7/9 réussis
qwen-2.5-14b-instruct : 7/9 réussis
gpt-4o, gpt-4o-mini, gpt-4.5-preview : 8/9 réussis
gpt-4-turbo : 7/9 réussis

Comparaison des Indicateurs de Performance

Temps de Réponse Moyen :

Plus rapide : gpt-4o (1,75s)
Plus rapide open-source : qwen-2.5-14b-instruct (3,42s)
Plus lent : gpt-4.5-preview-2025-02-27 (7,24s)

Temps Moyen du Premier Token :

Plus rapide : falcon-3-10b-instruct (353,4ms)
Plus lent : gpt-4.5-preview-2025-02-27 (900,1ms)

Analyse Détaillée

Analyse des Cas d'Échec

Intention 8 (Résumé Wikipedia) : Presque tous les modèles ont échoué, le contenu dépassant la fenêtre de contexte
Problèmes de Format : falcon-3-10b-instruct utilisant des marqueurs de bloc de code incorrects dans l'intention 7
Erreurs de Sélection de Fonction : Certains modèles sélectionnant des fonctions API inappropriées pour les intentions complexes

Caractéristiques de Qualité du Code

Préambule/Postambule : Les modèles open-source ne les incluent généralement pas, performances inégales des modèles propriétaires
Commentaires de Code : phi-4 et la plupart des modèles propriétaires tendant à inclure des commentaires
Exactitude du Code : La plupart du code généré étant syntaxiquement et logiquement correct

Travaux Connexes

Fondements Technologiques Principaux

Architecture Transformer : Base de tous les LLMs modernes, supportant la parallélisation de l'entraînement et le NLP de haute qualité
Génération de Code : Applications d'outils comme GitHub Copilot dans l'assistance au code
Reconnaissance d'Intentions : Recherches connexes sur la reconnaissance des intentions utilisateur dans les systèmes de dialogue

Extension des Domaines d'Application

Assistants Personnels : Solutions existantes comme Siri, Cortana, Alexa
Intégration Système d'Exploitation : Recherches sur les systèmes d'exploitation orientés agents LLM comme AIOS
Automatisation GUI : Recherches sur l'opération directe des applications GUI existantes par l'IA

Sécurité et Confidentialité

Confidentialité des Données : Problèmes de confidentialité dans le traitement des données d'entraînement et des informations utilisateur
Risques IA : Analyse systématique des problèmes incluant les hallucinations et la génération de code erroné

Conclusions et Discussion

Conclusions Principales

Proximité de Performance : Les LLMs open-source présentent des performances proches des modèles propriétaires sur les tâches d'analyse des intentions utilisateur, avec un taux de réussite de 77,8% (7/9)
Temps de Réponse Acceptable : Bien que les modèles propriétaires aient un avantage en temps de réponse, les performances des modèles open-source restent acceptables
Faisabilité du Déploiement Local : Vérification de la faisabilité de la construction de systèmes pilotés par intentions utilisant des modèles open-source auto-hébergés

Limitations

Limitation des Tests Uniques : Chaque intention testée une seule fois, manque de vérification de la signification statistique
Besoins en Ressources Informatiques : Les modèles actuels nécessitant toujours d'importantes ressources informatiques, limitant le véritable déploiement local
Risques de Sécurité : L'exécution directe du code généré présentant des vulnérabilités de sécurité, nécessitant des mécanismes de bac à sable plus robustes
Couverture API Limitée : L'ensemble API actuel étant relativement limité, difficile de traiter les intentions utilisateur plus complexes

Directions Futures

Optimisation des Modèles : Réduction de la taille et des besoins informatiques des modèles par élagage, distillation et quantification
Mécanismes de Sécurité : Développement de mécanismes d'isolation et de bac à sable plus robustes
Extension API : Construction d'une API plus complète pour traiter les intentions utilisateur diversifiées
Problèmes d'Alignement : Résolution des problèmes d'arrêt des systèmes IA et des problèmes d'alignement contrefait

Évaluation Approfondie

Points Forts

Signification Majeure de la Recherche : Première évaluation systématique du potentiel d'application des LLMs open-source dans les systèmes d'exploitation pilotés par intentions
Conception Expérimentale Raisonnable : Couverture de cas de test de complexités différentes, dimensions d'évaluation complètes
Innovation Technique : Modélisation innovante de l'équivalence entre machines à états et exécution de code
Valeur Pratique Élevée : Fourniture de références importantes pour la conception des futurs systèmes d'exploitation

Insuffisances

Échelle de Test Limitée : Seulement 9 cas de test, taille d'échantillon relativement petite
Analyse Statistique Manquante : Absence d'intervalles de confiance et de tests de signification
Considération Insuffisante de la Sécurité : Discussion relativement superficielle des risques de sécurité de l'exécution de code
Fiabilité à Long Terme Non Vérifiée : Absence de considération de la stabilité du modèle lors d'une utilisation prolongée

Impact

Contribution Académique : Fourniture d'un benchmark important pour l'intégration des LLMs dans le domaine des systèmes d'exploitation
Valeur Pratique : Démonstration de la faisabilité des solutions open-source, promotion de la démocratisation technologique
Orientation Future : Indication de la direction pour la conception des interfaces homme-machine de prochaine génération

Scénarios Applicables

Environnements Sensibles à la Confidentialité : Applications d'entreprise et personnelles nécessitant un traitement local
Appareils aux Ressources Limitées : Scénarios d'appareils mobiles et d'informatique en périphérie
Besoins de Personnalisation : Domaines professionnels nécessitant une optimisation de fonctionnalités spécifiques
Prototypes de Recherche : Systèmes de recherche académique et de validation de concepts

Références Bibliographiques

Cet article cite 38 références importantes, couvrant les domaines connexes clés tels que l'architecture Transformer, les applications LLM, la génération de code, l'interaction homme-machine et la sécurité IA, fournissant une base théorique solide à la recherche.

Évaluation Globale : Cet article de recherche est une étude avant-gardiste et pratique qui évalue systématiquement pour la première fois le potentiel d'application des LLMs open-source dans les futurs systèmes d'exploitation. Bien que présentant certaines limitations en matière d'échelle expérimentale et d'analyse de sécurité, ses conclusions de recherche revêtent une importance majeure pour promouvoir la démocratisation de la technologie IA et le développement des interfaces homme-machine de prochaine génération.