2025-11-21T21:40:15.836321

Comparative Analysis of Large Language Models for the Machine-Assisted Resolution of User Intentions

Flerlage, Acker, Kao
Large Language Models (LLMs) have emerged as transformative tools for natural language understanding and user intent resolution, enabling tasks such as translation, summarization, and, increasingly, the orchestration of complex workflows. This development signifies a paradigm shift from conventional, GUI-driven user interfaces toward intuitive, language-first interaction paradigms. Rather than manually navigating applications, users can articulate their objectives in natural language, enabling LLMs to orchestrate actions across multiple applications in a dynamic and contextual manner. However, extant implementations frequently rely on cloud-based proprietary models, which introduce limitations in terms of privacy, autonomy, and scalability. For language-first interaction to become a truly robust and trusted interface paradigm, local deployment is not merely a convenience; it is an imperative. This limitation underscores the importance of evaluating the feasibility of locally deployable, open-source, and open-access LLMs as foundational components for future intent-based operating systems. In this study, we examine the capabilities of several open-source and open-access models in facilitating user intention resolution through machine assistance. A comparative analysis is conducted against OpenAI's proprietary GPT-4-based systems to assess performance in generating workflows for various user intentions. The present study offers empirical insights into the practical viability, performance trade-offs, and potential of open LLMs as autonomous, locally operable components in next-generation operating systems. The results of this study inform the broader discussion on the decentralization and democratization of AI infrastructure and point toward a future where user-device interaction becomes more seamless, adaptive, and privacy-conscious through locally embedded intelligence.
academic

Analyse Comparative des Grands Modèles de Langage pour la Résolution Assistée par Machine des Intentions Utilisateur

Informations Fondamentales

  • ID de l'article : 2510.08576
  • Titre : Comparative Analysis of Large Language Models for the Machine-Assisted Resolution of User Intentions
  • Auteurs : Justus Flerlage (Technische Universität Berlin), Alexander Acker (logsight.ai GmbH), Odej Kao (Technische Universität Berlin)
  • Classification : cs.SE cs.AI cs.CL cs.HC
  • Conférence de publication : HAIC 2025: First International Workshop on Human-AI Collaborative Systems
  • Lien de l'article : https://arxiv.org/abs/2510.08576

Résumé

Cette étude explore le rôle transformateur des grands modèles de langage (LLMs) dans la compréhension du langage naturel et l'analyse des intentions utilisateur, en particulier leur capacité à orchestrer des flux de travail complexes. L'étude se concentre sur la transition des interfaces traditionnelles pilotées par GUI vers des paradigmes d'interaction intuitifs et centrés sur le langage. Cependant, les implémentations existantes s'appuient souvent sur des modèles propriétaires basés sur le cloud, présentant des limitations en matière de confidentialité, d'autonomie et d'évolutivité. Cet article évalue la faisabilité du déploiement local de LLMs open-source en tant que composants fondamentaux des futurs systèmes d'exploitation basés sur les intentions, par une analyse comparative des performances des modèles open-source et d'accès ouvert par rapport au système propriétaire GPT-4 d'OpenAI.

Contexte et Motivation de la Recherche

Problèmes Fondamentaux

  1. Besoin de transformation du paradigme d'interaction : Les systèmes d'exploitation traditionnels basés sur GUI, la gestion hiérarchique des fichiers et les shells nécessitent que les utilisateurs coordonnent manuellement plusieurs applications, processus fastidieux et chronophage
  2. Défis de confidentialité et d'autonomie : Les modèles propriétaires basés sur le cloud existants présentent des limitations en matière de confidentialité, d'autonomie et d'évolutivité
  3. Nécessité du déploiement local : Pour réaliser un véritable paradigme d'interaction centré sur le langage robuste et fiable, le déploiement local n'est pas seulement une commodité, mais une nécessité

Signification de la Recherche

  • Promouvoir la transition d'une interaction pilotée par GUI vers un paradigme centré sur le langage
  • Évaluer la faisabilité des LLMs open-source dans les futurs systèmes d'exploitation pilotés par intentions
  • Favoriser la décentralisation et la démocratisation de l'infrastructure IA

Limitations des Approches Existantes

  • Dépendance à l'infrastructure cloud externe, manque d'autonomie
  • Problèmes de confidentialité et de sécurité des données
  • Dépendance réseau limitant les cas d'application

Contributions Principales

  1. Première comparaison systématique : Analyse comparative complète des performances des LLMs open-source/d'accès ouvert par rapport aux modèles propriétaires GPT-4 sur les tâches d'analyse des intentions utilisateur
  2. Architecture système pratique : Conception et implémentation d'une architecture système basée sur Controller, supportant l'exécution dynamique des flux de travail générés par LLM
  3. Cadre d'évaluation multidimensionnel : Établissement d'un système d'évaluation comprenant plusieurs dimensions telles que le temps de réponse, le temps du premier token et la qualité du code
  4. Vérification de la faisabilité des LLMs open-source : Démonstration que les modèles open-source atteignent des niveaux de performance proches des modèles propriétaires sur les tâches d'analyse des intentions utilisateur

Détails Méthodologiques

Définition de la Tâche

Conversion des intentions utilisateur en langage naturel en flux de travail exécutables, se manifestant concrètement par :

  • Entrée : Description en langage naturel de l'intention utilisateur
  • Sortie : Flux de travail exécutable sous forme de code Python
  • Contraintes : Le code doit invoquer un ensemble prédéfini de fonctions API

Architecture Système

Composants Principaux

  1. Controller : Unité de coordination centrale gérant la communication avec le LLM et l'exécution des flux de travail
  2. Function Table : Répertoire contenant les fonctions disponibles et leurs spécifications, fournissant les signatures de fonction et les callbacks d'implémentation
  3. Prompt Formatter : Génère les invites LLM en fonction de l'intention utilisateur et de la Function Table
  4. Executor : Exécute le code généré par LLM dans un environnement contrôlé
  5. LLM Service : Interface LLM hébergée en externe

Modélisation des Flux de Travail

  • Conceptualisation des flux de travail en tant que machines à états déterministes
  • Modélisation utilisant un langage de programmation impératif (Python)
  • Support des étapes séquentielles et des structures de contrôle complexes (boucles, branches)
  • Permet l'interruption d'étapes, la préemption et la gestion des tâches asynchrones

Points d'Innovation Technique

  1. Équivalence Machine à États et Code : Modélisation innovante des flux de travail en tant que machines à états, réalisant les transitions d'état par l'exécution de code Python
  2. Environnement d'Exécution Contrôlé : Restriction des fonctions exécutables via Function Table, assurant la sécurité
  3. Interface Unifiée Multi-Modèles : Conception d'un cadre d'évaluation unifié supportant plusieurs LLMs

Configuration Expérimentale

Modèles Testés

Modèles open-source/d'accès ouvert :

  • falcon-3-10b-instruct
  • qwen-2.5-14b-instruct
  • phi-4

Modèles propriétaires :

  • gpt-4o
  • gpt-4o-mini
  • gpt-4-turbo
  • gpt-4.5-preview-2025-02-27

Ensemble d'Intentions de Test

Conception de 9 intentions utilisateur de complexités différentes :

  1. Fonctionnalités de base simples (par exemple, « veuillez dormir 5 secondes »)
  2. Demandes d'informations externes (par exemple, requête de température, résumé Wikipedia)
  3. Tâches orientées système (par exemple, liste de fichiers, installation à distance)
  4. Interaction multimédia (par exemple, lire une chanson aléatoire)
  5. Tâches composites (par exemple, envoyer un fichier à une compagnie d'assurance)

Métriques d'Évaluation

  1. Exactitude Fonctionnelle : Taux de réussite de l'analyse des intentions
  2. Temps de Réponse : Temps total pour recevoir la sortie complète
  3. Temps du Premier Token : Temps pour recevoir la sortie initiale
  4. Qualité du Code : Présence de préambule, postambule et commentaires de code

Détails d'Implémentation

  • Implémentation du Controller basée sur Python 3
  • Exécution sur appareil Android, utilisant l'environnement Termux
  • Température du modèle définie à 0.0 pour assurer la déterminabilité des résultats
  • Chaque intention testée une fois pour chaque LLM

Résultats Expérimentaux

Résultats Principaux

Taux de Réussite de l'Analyse des Intentions

Catégorie de ModèleNombre d'Analyses RéussiesPerformance Globale
Modèles open-source7/9Comparable à gpt-4-turbo
Modèles propriétaires (haut de gamme)8/9Légèrement supérieur aux modèles open-source

Performances Spécifiques :

  • falcon-3-10b-instruct : 7/9 réussis
  • phi-4 : 7/9 réussis
  • qwen-2.5-14b-instruct : 7/9 réussis
  • gpt-4o, gpt-4o-mini, gpt-4.5-preview : 8/9 réussis
  • gpt-4-turbo : 7/9 réussis

Comparaison des Indicateurs de Performance

Temps de Réponse Moyen :

  • Plus rapide : gpt-4o (1,75s)
  • Plus rapide open-source : qwen-2.5-14b-instruct (3,42s)
  • Plus lent : gpt-4.5-preview-2025-02-27 (7,24s)

Temps Moyen du Premier Token :

  • Plus rapide : falcon-3-10b-instruct (353,4ms)
  • Plus lent : gpt-4.5-preview-2025-02-27 (900,1ms)

Analyse Détaillée

Analyse des Cas d'Échec

  1. Intention 8 (Résumé Wikipedia) : Presque tous les modèles ont échoué, le contenu dépassant la fenêtre de contexte
  2. Problèmes de Format : falcon-3-10b-instruct utilisant des marqueurs de bloc de code incorrects dans l'intention 7
  3. Erreurs de Sélection de Fonction : Certains modèles sélectionnant des fonctions API inappropriées pour les intentions complexes

Caractéristiques de Qualité du Code

  • Préambule/Postambule : Les modèles open-source ne les incluent généralement pas, performances inégales des modèles propriétaires
  • Commentaires de Code : phi-4 et la plupart des modèles propriétaires tendant à inclure des commentaires
  • Exactitude du Code : La plupart du code généré étant syntaxiquement et logiquement correct

Travaux Connexes

Fondements Technologiques Principaux

  1. Architecture Transformer : Base de tous les LLMs modernes, supportant la parallélisation de l'entraînement et le NLP de haute qualité
  2. Génération de Code : Applications d'outils comme GitHub Copilot dans l'assistance au code
  3. Reconnaissance d'Intentions : Recherches connexes sur la reconnaissance des intentions utilisateur dans les systèmes de dialogue

Extension des Domaines d'Application

  • Assistants Personnels : Solutions existantes comme Siri, Cortana, Alexa
  • Intégration Système d'Exploitation : Recherches sur les systèmes d'exploitation orientés agents LLM comme AIOS
  • Automatisation GUI : Recherches sur l'opération directe des applications GUI existantes par l'IA

Sécurité et Confidentialité

  • Confidentialité des Données : Problèmes de confidentialité dans le traitement des données d'entraînement et des informations utilisateur
  • Risques IA : Analyse systématique des problèmes incluant les hallucinations et la génération de code erroné

Conclusions et Discussion

Conclusions Principales

  1. Proximité de Performance : Les LLMs open-source présentent des performances proches des modèles propriétaires sur les tâches d'analyse des intentions utilisateur, avec un taux de réussite de 77,8% (7/9)
  2. Temps de Réponse Acceptable : Bien que les modèles propriétaires aient un avantage en temps de réponse, les performances des modèles open-source restent acceptables
  3. Faisabilité du Déploiement Local : Vérification de la faisabilité de la construction de systèmes pilotés par intentions utilisant des modèles open-source auto-hébergés

Limitations

  1. Limitation des Tests Uniques : Chaque intention testée une seule fois, manque de vérification de la signification statistique
  2. Besoins en Ressources Informatiques : Les modèles actuels nécessitant toujours d'importantes ressources informatiques, limitant le véritable déploiement local
  3. Risques de Sécurité : L'exécution directe du code généré présentant des vulnérabilités de sécurité, nécessitant des mécanismes de bac à sable plus robustes
  4. Couverture API Limitée : L'ensemble API actuel étant relativement limité, difficile de traiter les intentions utilisateur plus complexes

Directions Futures

  1. Optimisation des Modèles : Réduction de la taille et des besoins informatiques des modèles par élagage, distillation et quantification
  2. Mécanismes de Sécurité : Développement de mécanismes d'isolation et de bac à sable plus robustes
  3. Extension API : Construction d'une API plus complète pour traiter les intentions utilisateur diversifiées
  4. Problèmes d'Alignement : Résolution des problèmes d'arrêt des systèmes IA et des problèmes d'alignement contrefait

Évaluation Approfondie

Points Forts

  1. Signification Majeure de la Recherche : Première évaluation systématique du potentiel d'application des LLMs open-source dans les systèmes d'exploitation pilotés par intentions
  2. Conception Expérimentale Raisonnable : Couverture de cas de test de complexités différentes, dimensions d'évaluation complètes
  3. Innovation Technique : Modélisation innovante de l'équivalence entre machines à états et exécution de code
  4. Valeur Pratique Élevée : Fourniture de références importantes pour la conception des futurs systèmes d'exploitation

Insuffisances

  1. Échelle de Test Limitée : Seulement 9 cas de test, taille d'échantillon relativement petite
  2. Analyse Statistique Manquante : Absence d'intervalles de confiance et de tests de signification
  3. Considération Insuffisante de la Sécurité : Discussion relativement superficielle des risques de sécurité de l'exécution de code
  4. Fiabilité à Long Terme Non Vérifiée : Absence de considération de la stabilité du modèle lors d'une utilisation prolongée

Impact

  1. Contribution Académique : Fourniture d'un benchmark important pour l'intégration des LLMs dans le domaine des systèmes d'exploitation
  2. Valeur Pratique : Démonstration de la faisabilité des solutions open-source, promotion de la démocratisation technologique
  3. Orientation Future : Indication de la direction pour la conception des interfaces homme-machine de prochaine génération

Scénarios Applicables

  1. Environnements Sensibles à la Confidentialité : Applications d'entreprise et personnelles nécessitant un traitement local
  2. Appareils aux Ressources Limitées : Scénarios d'appareils mobiles et d'informatique en périphérie
  3. Besoins de Personnalisation : Domaines professionnels nécessitant une optimisation de fonctionnalités spécifiques
  4. Prototypes de Recherche : Systèmes de recherche académique et de validation de concepts

Références Bibliographiques

Cet article cite 38 références importantes, couvrant les domaines connexes clés tels que l'architecture Transformer, les applications LLM, la génération de code, l'interaction homme-machine et la sécurité IA, fournissant une base théorique solide à la recherche.


Évaluation Globale : Cet article de recherche est une étude avant-gardiste et pratique qui évalue systématiquement pour la première fois le potentiel d'application des LLMs open-source dans les futurs systèmes d'exploitation. Bien que présentant certaines limitations en matière d'échelle expérimentale et d'analyse de sécurité, ses conclusions de recherche revêtent une importance majeure pour promouvoir la démocratisation de la technologie IA et le développement des interfaces homme-machine de prochaine génération.