2025-11-21T21:40:15.836321

Comparative Analysis of Large Language Models for the Machine-Assisted Resolution of User Intentions

Flerlage, Acker, Kao
Large Language Models (LLMs) have emerged as transformative tools for natural language understanding and user intent resolution, enabling tasks such as translation, summarization, and, increasingly, the orchestration of complex workflows. This development signifies a paradigm shift from conventional, GUI-driven user interfaces toward intuitive, language-first interaction paradigms. Rather than manually navigating applications, users can articulate their objectives in natural language, enabling LLMs to orchestrate actions across multiple applications in a dynamic and contextual manner. However, extant implementations frequently rely on cloud-based proprietary models, which introduce limitations in terms of privacy, autonomy, and scalability. For language-first interaction to become a truly robust and trusted interface paradigm, local deployment is not merely a convenience; it is an imperative. This limitation underscores the importance of evaluating the feasibility of locally deployable, open-source, and open-access LLMs as foundational components for future intent-based operating systems. In this study, we examine the capabilities of several open-source and open-access models in facilitating user intention resolution through machine assistance. A comparative analysis is conducted against OpenAI's proprietary GPT-4-based systems to assess performance in generating workflows for various user intentions. The present study offers empirical insights into the practical viability, performance trade-offs, and potential of open LLMs as autonomous, locally operable components in next-generation operating systems. The results of this study inform the broader discussion on the decentralization and democratization of AI infrastructure and point toward a future where user-device interaction becomes more seamless, adaptive, and privacy-conscious through locally embedded intelligence.
academic

Vergleichende Analyse großer Sprachmodelle zur maschinengestützten Auflösung von Benutzerintentionen

Grundinformationen

  • Paper-ID: 2510.08576
  • Titel: Comparative Analysis of Large Language Models for the Machine-Assisted Resolution of User Intentions
  • Autoren: Justus Flerlage (Technische Universität Berlin), Alexander Acker (logsight.ai GmbH), Odej Kao (Technische Universität Berlin)
  • Klassifizierung: cs.SE cs.AI cs.CL cs.HC
  • Veröffentlichungskonferenz: HAIC 2025: First International Workshop on Human-AI Collaborative Systems
  • Paper-Link: https://arxiv.org/abs/2510.08576

Zusammenfassung

Diese Studie untersucht die transformative Rolle großer Sprachmodelle (LLMs) beim natürlichsprachlichen Verständnis und der Analyse von Benutzerintentionen, insbesondere bei der Orchestrierung komplexer Arbeitsabläufe. Die Forschung konzentriert sich auf den Übergang von traditionellen GUI-gesteuerten Schnittstellen zu intuitiven, sprachgesteuerten Interaktionsparadigmen. Allerdings verlassen sich bestehende Implementierungen häufig auf cloudbasierte proprietäre Modelle, die Einschränkungen in Bezug auf Datenschutz, Autonomie und Skalierbarkeit aufweisen. Dieser Artikel bewertet die Machbarkeit lokal bereitgestellter Open-Source-LLMs als Grundkomponenten zukünftiger intentionsbasierter Betriebssysteme durch eine vergleichende Analyse der Leistung von Open-Source- und offenen Zugangsmodellen im Vergleich zum proprietären GPT-4-System von OpenAI.

Forschungshintergrund und Motivation

Kernprobleme

  1. Bedarf für Paradigmenwechsel in der Interaktion: Traditionelle Betriebssysteme basieren auf GUI-, hierarchischer Dateiverwaltung und Shell-Interaktionsmechanismen, die Benutzer dazu zwingen, mehrere Anwendungen manuell zu koordinieren – ein mühsamer und zeitaufwändiger Prozess
  2. Herausforderungen bei Datenschutz und Autonomie: Bestehende cloudbasierte proprietäre Modelle weisen Einschränkungen in Bezug auf Datenschutz, Autonomie und Skalierbarkeit auf
  3. Notwendigkeit lokaler Bereitstellung: Um ein wirklich robustes und vertrauenswürdiges sprachgesteuertes Interaktionsparadigma zu realisieren, ist lokale Bereitstellung nicht nur praktisch, sondern notwendig

Forschungsbedeutung

  • Förderung des Übergangs von GUI-gesteuert zu sprachgesteuerten Interaktionsparadigmen
  • Bewertung der Machbarkeit von Open-Source-LLMs in zukünftigen intentionsgesteuerten Betriebssystemen
  • Förderung der Dezentralisierung und Demokratisierung der KI-Infrastruktur

Einschränkungen bestehender Ansätze

  • Abhängigkeit von externer Cloud-Infrastruktur, mangelnde Autonomie
  • Datenschutz- und Datensicherheitsprobleme
  • Netzwerkabhängigkeit begrenzt Anwendungsszenarien

Kernbeiträge

  1. Erste systematische Vergleichsstudie: Umfassende vergleichende Analyse der Leistung von Open-Source-/offenen Zugangs-LLMs gegenüber proprietären GPT-4-Modellen bei Aufgaben zur Benutzerintentionsanalyse
  2. Praktische Systemarchitektur: Entwurf und Implementierung einer Controller-basierten Systemarchitektur, die die dynamische Ausführung von LLM-generierten Arbeitsabläufen unterstützt
  3. Mehrdimensionales Bewertungsframework: Etablierung eines Bewertungssystems mit mehreren Dimensionen einschließlich Antwortzeit, First-Token-Zeit und Codequalität
  4. Validierung der Machbarkeit von Open-Source-LLMs: Nachweis, dass Open-Source-Modelle bei Aufgaben zur Benutzerintentionsanalyse eine ähnliche Leistung wie proprietäre Modelle erreichen

Methodische Details

Aufgabendefinition

Umwandlung von natürlichsprachlichen Benutzerintentionen in ausführbare Arbeitsabläufe, konkret ausgedrückt als:

  • Eingabe: Natürlichsprachliche Beschreibung der Benutzerintention
  • Ausgabe: Ausführbarer Arbeitsablauf in Form von Python-Code
  • Einschränkungen: Code muss einen vordefinierten Satz von API-Funktionen aufrufen

Systemarchitektur

Kernkomponenten

  1. Controller: Zentrale Koordinierungseinheit, verwaltet die Kommunikation mit dem LLM und die Arbeitsablaufausführung
  2. Function Table: Katalog verfügbarer Funktionen und deren Spezifikationen, bietet Funktionssignaturen und Implementierungs-Callbacks
  3. Prompt Formatter: Generiert LLM-Prompts basierend auf Benutzerintention und Function Table
  4. Executor: Führt LLM-generierten Code in einer kontrollierten Umgebung aus
  5. LLM Service: Extern gehostete LLM-Schnittstelle

Arbeitsablauf-Modellierung

  • Konzeptualisierung von Arbeitsabläufen als deterministische Zustandsmaschinen
  • Modellierung mit imperativer Programmiersprache (Python)
  • Unterstützung für sequenzielle Schritte und komplexe Kontrollflussstrukturen (Schleifen, Verzweigungen)
  • Ermöglichung von Schrittunterbrechung, Preemption und asynchroner Aufgabenverwaltung

Technische Innovationen

  1. Zustandsmaschinen- und Code-Äquivalenz: Innovative Modellierung von Arbeitsabläufen als Zustandsmaschinen, Realisierung von Zustandsübergängen durch Python-Code-Ausführung
  2. Kontrollierte Ausführungsumgebung: Sicherheit durch Einschränkung ausführbarer Funktionen über Function Table
  3. Einheitliche Schnittstelle für mehrere Modelle: Entwurf eines einheitlichen Bewertungsframeworks, das mehrere LLMs unterstützt

Experimentelle Einrichtung

Getestete Modelle

Open-Source-/offene Zugangsmodelle:

  • falcon-3-10b-instruct
  • qwen-2.5-14b-instruct
  • phi-4

Proprietäre Modelle:

  • gpt-4o
  • gpt-4o-mini
  • gpt-4-turbo
  • gpt-4.5-preview-2025-02-27

Testintentionssatz

Entwurf von 9 Benutzerintentionen unterschiedlicher Komplexität:

  1. Einfache Baseline-Funktionalität (z.B. "Bitte 5 Sekunden schlafen")
  2. Anfragen zu externen Informationen (z.B. Temperaturabfrage, Wikipedia-Zusammenfassung)
  3. Systemorientierte Aufgaben (z.B. Dateiauflistung, Remote-Installation)
  4. Medieninteraktion (z.B. zufälligen Song abspielen)
  5. Zusammengesetzte Aufgaben (z.B. Datei an Versicherungsunternehmen senden)

Bewertungsmetriken

  1. Funktionale Korrektheit: Erfolgsquote der Intentionsanalyse
  2. Antwortzeit: Gesamtzeit zum Empfang der vollständigen Ausgabe
  3. First-Token-Zeit: Zeit zum Empfang der initialen Ausgabe
  4. Codequalität: Vorhandensein von Präambel, Postambel und Code-Kommentaren

Implementierungsdetails

  • Controller-Implementierung basierend auf Python 3
  • Ausführung auf Android-Gerät mit Termux-Umgebung
  • Modelltemperatur auf 0,0 eingestellt für deterministische Ergebnisse
  • Jede Intention wurde einmal pro LLM getestet

Experimentelle Ergebnisse

Hauptergebnisse

Erfolgsquote der Intentionsanalyse

ModellkategorieErfolgreiche AnalysenGesamtleistung
Open-Source-Modelle7/9Vergleichbar mit gpt-4-turbo
Proprietäre Modelle (Top-Tier)8/9Leicht besser als Open-Source-Modelle

Spezifische Leistung:

  • falcon-3-10b-instruct: 7/9 erfolgreich
  • phi-4: 7/9 erfolgreich
  • qwen-2.5-14b-instruct: 7/9 erfolgreich
  • gpt-4o, gpt-4o-mini, gpt-4.5-preview: 8/9 erfolgreich
  • gpt-4-turbo: 7/9 erfolgreich

Leistungsmetriken-Vergleich

Durchschnittliche Antwortzeit:

  • Schnellstes: gpt-4o (1,75s)
  • Schnellstes Open-Source: qwen-2.5-14b-instruct (3,42s)
  • Langsamste: gpt-4.5-preview-2025-02-27 (7,24s)

Durchschnittliche First-Token-Zeit:

  • Schnellstes: falcon-3-10b-instruct (353,4ms)
  • Langsamste: gpt-4.5-preview-2025-02-27 (900,1ms)

Detaillierte Analyse

Analyse fehlgeschlagener Fälle

  1. Intention 8 (Wikipedia-Zusammenfassung): Fast alle Modelle schlugen fehl, da der Inhalt das Kontextfenster überschritt
  2. Formatierungsprobleme: falcon-3-10b-instruct verwendete bei Intention 7 falsche Code-Block-Markierungen
  3. Fehlerhafte Funktionswahl: Einige Modelle wählten bei komplexen Intentionen unangemessene API-Funktionen

Codequalitätsmerkmale

  • Präambel/Postambel: Open-Source-Modelle enthalten diese üblicherweise nicht, proprietäre Modelle zeigen unterschiedliche Leistung
  • Code-Kommentare: phi-4 und die meisten proprietären Modelle neigen dazu, Kommentare einzubeziehen
  • Code-Korrektheit: Der meiste generierte Code ist syntaktisch und logisch korrekt

Verwandte Arbeiten

Technologische Grundlagen

  1. Transformer-Architektur: Grundlage aller modernen LLMs, unterstützt parallelisiertes Training und hochwertige NLP
  2. Code-Generierung: Anwendung von Tools wie GitHub Copilot bei der Code-Unterstützung
  3. Intentionserkennung: Verwandte Forschung zur Benutzerintentionserkennung in Dialogsystemen

Anwendungsbereichserweiterung

  • Persönliche Assistenten: Bestehende Lösungen wie Siri, Cortana, Alexa
  • Betriebssystemintegration: Forschung zu LLM-Agent-orientierten Betriebssystemen wie AIOS
  • GUI-Automatisierung: Forschung zur direkten KI-Steuerung bestehender GUI-Anwendungen

Sicherheit und Datenschutz

  • Datenschutz: Datenschutzprobleme bei der Verarbeitung von Trainingsdaten und Benutzerinformationen
  • KI-Risiken: Systematische Analyse von Problemen einschließlich Halluzinationen und fehlerhafter Code-Generierung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Leistungsähnlichkeit: Open-Source-LLMs zeigen bei Aufgaben zur Benutzerintentionsanalyse ähnliche Leistung wie proprietäre Modelle mit einer Erfolgsquote von 77,8% (7/9)
  2. Akzeptable Antwortzeiten: Obwohl proprietäre Modelle Vorteile bei der Antwortzeit haben, ist die Leistung von Open-Source-Modellen immer noch akzeptabel
  3. Machbarkeit lokaler Bereitstellung: Validierung der Machbarkeit, intentionsgesteuerte Systeme mit selbstgehosteten Open-Source-Modellen zu konstruieren

Einschränkungen

  1. Einmalige Testlimitierung: Jede Intention wurde nur einmal getestet, es fehlt die statistische Signifikanzvalidierung
  2. Rechnerische Ressourcennanforderungen: Aktuelle Modelle erfordern immer noch erhebliche Rechenressourcen, was echte lokale Bereitstellung begrenzt
  3. Sicherheitsrisiken: Direkte Ausführung generierten Codes birgt Sicherheitslücken, erfordert bessere Sandbox-Mechanismen
  4. API-Abdeckungsbereich: Der aktuelle API-Satz ist relativ begrenzt und kann komplexere Benutzerintentionen schwer bewältigen

Zukünftige Richtungen

  1. Modelloptimierung: Reduktion von Modellgröße und Rechenbedarf durch Pruning, Destillation und Quantisierung
  2. Sicherheitsmechanismen: Entwicklung besserer Isolations- und Sandbox-Mechanismen
  3. API-Erweiterung: Aufbau umfassenderer APIs zur Bewältigung vielfältiger Benutzerintentionen
  4. Alignment-Probleme: Lösung von Shutdown-Problemen und Alignment-Täuschungsproblemen von KI-Systemen

Tiefgreifende Bewertung

Stärken

  1. Bedeutende Forschung: Erste systematische Bewertung des Anwendungspotenzials von Open-Source-LLMs in intentionsgesteuerten Betriebssystemen
  2. Angemessenes Experimentdesign: Umfasst Testfälle unterschiedlicher Komplexität mit umfassenden Bewertungsdimensionen
  3. Innovative technische Lösung: Die äquivalente Modellierung von Zustandsmaschinen und Code-Ausführung ist innovativ
  4. Hoher praktischer Wert: Bietet wichtige Referenzen für zukünftiges Betriebssystemdesign

Mängel

  1. Begrenzte Testgröße: Nur 9 Testfälle, relativ kleine Stichprobengröße
  2. Fehlende statistische Analyse: Mangel an Konfidenzintervallen und Signifikanztests
  3. Unzureichende Sicherheitsüberlegungen: Oberflächlichere Diskussion von Sicherheitsrisiken bei Code-Ausführung
  4. Langzeitverlässlichkeit nicht validiert: Modellstabilität bei Langzeitnutzung nicht berücksichtigt

Auswirkungen

  1. Akademischer Beitrag: Bietet wichtige Benchmarks für LLM-Integration in Betriebssystemen
  2. Praktischer Wert: Beweist Machbarkeit von Open-Source-Lösungen, fördert Technologiedemokratisierung
  3. Zukunftsorientierung: Weist Richtung für Design zukünftiger Mensch-Maschine-Schnittstellen

Anwendbare Szenarien

  1. Datenschutzsensitive Umgebungen: Unternehmens- und Privatanwendungen, die lokale Verarbeitung erfordern
  2. Ressourcenbegrenzte Geräte: Mobile Geräte und Edge-Computing-Szenarien
  3. Individualisierte Anforderungen: Spezialisierte Bereiche mit Bedarf für funktionsspezifische Optimierung
  4. Forschungsprototypen: Akademische Forschung und Proof-of-Concept-Systeme

Literaturverzeichnis

Dieser Artikel zitiert 38 wichtige Literaturquellen, die Transformer-Architektur, LLM-Anwendungen, Code-Generierung, Mensch-Maschine-Interaktion, KI-Sicherheit und andere verwandte Forschungsbereiche abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Gesamtbewertung: Dies ist eine zukunftsweisende und praktisch wertvolle Forschungsarbeit, die erstmals systematisch das Anwendungspotenzial von Open-Source-LLMs in zukünftigen Betriebssystemen bewertet. Obwohl es in Bezug auf Experimentgröße und Sicherheitsanalyse gewisse Einschränkungen gibt, haben ihre Forschungsergebnisse wichtige Bedeutung für die Förderung der KI-Technologiedemokratisierung und die Entwicklung von Mensch-Maschine-Schnittstellen der nächsten Generation.