2025-11-21T21:40:15.836321

Comparative Analysis of Large Language Models for the Machine-Assisted Resolution of User Intentions

Flerlage, Acker, Kao

Large Language Models (LLMs) have emerged as transformative tools for natural language understanding and user intent resolution, enabling tasks such as translation, summarization, and, increasingly, the orchestration of complex workflows. This development signifies a paradigm shift from conventional, GUI-driven user interfaces toward intuitive, language-first interaction paradigms. Rather than manually navigating applications, users can articulate their objectives in natural language, enabling LLMs to orchestrate actions across multiple applications in a dynamic and contextual manner. However, extant implementations frequently rely on cloud-based proprietary models, which introduce limitations in terms of privacy, autonomy, and scalability. For language-first interaction to become a truly robust and trusted interface paradigm, local deployment is not merely a convenience; it is an imperative. This limitation underscores the importance of evaluating the feasibility of locally deployable, open-source, and open-access LLMs as foundational components for future intent-based operating systems. In this study, we examine the capabilities of several open-source and open-access models in facilitating user intention resolution through machine assistance. A comparative analysis is conducted against OpenAI's proprietary GPT-4-based systems to assess performance in generating workflows for various user intentions. The present study offers empirical insights into the practical viability, performance trade-offs, and potential of open LLMs as autonomous, locally operable components in next-generation operating systems. The results of this study inform the broader discussion on the decentralization and democratization of AI infrastructure and point toward a future where user-device interaction becomes more seamless, adaptive, and privacy-conscious through locally embedded intelligence.

academic

Vergleichende Analyse großer Sprachmodelle zur maschinengestützten Auflösung von Benutzerintentionen

Grundinformationen

Paper-ID: 2510.08576
Titel: Comparative Analysis of Large Language Models for the Machine-Assisted Resolution of User Intentions
Autoren: Justus Flerlage (Technische Universität Berlin), Alexander Acker (logsight.ai GmbH), Odej Kao (Technische Universität Berlin)
Klassifizierung: cs.SE cs.AI cs.CL cs.HC
Veröffentlichungskonferenz: HAIC 2025: First International Workshop on Human-AI Collaborative Systems
Paper-Link: https://arxiv.org/abs/2510.08576

Zusammenfassung

Diese Studie untersucht die transformative Rolle großer Sprachmodelle (LLMs) beim natürlichsprachlichen Verständnis und der Analyse von Benutzerintentionen, insbesondere bei der Orchestrierung komplexer Arbeitsabläufe. Die Forschung konzentriert sich auf den Übergang von traditionellen GUI-gesteuerten Schnittstellen zu intuitiven, sprachgesteuerten Interaktionsparadigmen. Allerdings verlassen sich bestehende Implementierungen häufig auf cloudbasierte proprietäre Modelle, die Einschränkungen in Bezug auf Datenschutz, Autonomie und Skalierbarkeit aufweisen. Dieser Artikel bewertet die Machbarkeit lokal bereitgestellter Open-Source-LLMs als Grundkomponenten zukünftiger intentionsbasierter Betriebssysteme durch eine vergleichende Analyse der Leistung von Open-Source- und offenen Zugangsmodellen im Vergleich zum proprietären GPT-4-System von OpenAI.

Forschungshintergrund und Motivation

Kernprobleme

Bedarf für Paradigmenwechsel in der Interaktion: Traditionelle Betriebssysteme basieren auf GUI-, hierarchischer Dateiverwaltung und Shell-Interaktionsmechanismen, die Benutzer dazu zwingen, mehrere Anwendungen manuell zu koordinieren – ein mühsamer und zeitaufwändiger Prozess
Herausforderungen bei Datenschutz und Autonomie: Bestehende cloudbasierte proprietäre Modelle weisen Einschränkungen in Bezug auf Datenschutz, Autonomie und Skalierbarkeit auf
Notwendigkeit lokaler Bereitstellung: Um ein wirklich robustes und vertrauenswürdiges sprachgesteuertes Interaktionsparadigma zu realisieren, ist lokale Bereitstellung nicht nur praktisch, sondern notwendig

Forschungsbedeutung

Förderung des Übergangs von GUI-gesteuert zu sprachgesteuerten Interaktionsparadigmen
Bewertung der Machbarkeit von Open-Source-LLMs in zukünftigen intentionsgesteuerten Betriebssystemen
Förderung der Dezentralisierung und Demokratisierung der KI-Infrastruktur

Einschränkungen bestehender Ansätze

Abhängigkeit von externer Cloud-Infrastruktur, mangelnde Autonomie
Datenschutz- und Datensicherheitsprobleme
Netzwerkabhängigkeit begrenzt Anwendungsszenarien

Kernbeiträge

Erste systematische Vergleichsstudie: Umfassende vergleichende Analyse der Leistung von Open-Source-/offenen Zugangs-LLMs gegenüber proprietären GPT-4-Modellen bei Aufgaben zur Benutzerintentionsanalyse
Praktische Systemarchitektur: Entwurf und Implementierung einer Controller-basierten Systemarchitektur, die die dynamische Ausführung von LLM-generierten Arbeitsabläufen unterstützt
Mehrdimensionales Bewertungsframework: Etablierung eines Bewertungssystems mit mehreren Dimensionen einschließlich Antwortzeit, First-Token-Zeit und Codequalität
Validierung der Machbarkeit von Open-Source-LLMs: Nachweis, dass Open-Source-Modelle bei Aufgaben zur Benutzerintentionsanalyse eine ähnliche Leistung wie proprietäre Modelle erreichen

Methodische Details

Aufgabendefinition

Umwandlung von natürlichsprachlichen Benutzerintentionen in ausführbare Arbeitsabläufe, konkret ausgedrückt als:

Eingabe: Natürlichsprachliche Beschreibung der Benutzerintention
Ausgabe: Ausführbarer Arbeitsablauf in Form von Python-Code
Einschränkungen: Code muss einen vordefinierten Satz von API-Funktionen aufrufen

Systemarchitektur

Kernkomponenten

Controller: Zentrale Koordinierungseinheit, verwaltet die Kommunikation mit dem LLM und die Arbeitsablaufausführung
Function Table: Katalog verfügbarer Funktionen und deren Spezifikationen, bietet Funktionssignaturen und Implementierungs-Callbacks
Prompt Formatter: Generiert LLM-Prompts basierend auf Benutzerintention und Function Table
Executor: Führt LLM-generierten Code in einer kontrollierten Umgebung aus
LLM Service: Extern gehostete LLM-Schnittstelle

Arbeitsablauf-Modellierung

Konzeptualisierung von Arbeitsabläufen als deterministische Zustandsmaschinen
Modellierung mit imperativer Programmiersprache (Python)
Unterstützung für sequenzielle Schritte und komplexe Kontrollflussstrukturen (Schleifen, Verzweigungen)
Ermöglichung von Schrittunterbrechung, Preemption und asynchroner Aufgabenverwaltung

Technische Innovationen

Zustandsmaschinen- und Code-Äquivalenz: Innovative Modellierung von Arbeitsabläufen als Zustandsmaschinen, Realisierung von Zustandsübergängen durch Python-Code-Ausführung
Kontrollierte Ausführungsumgebung: Sicherheit durch Einschränkung ausführbarer Funktionen über Function Table
Einheitliche Schnittstelle für mehrere Modelle: Entwurf eines einheitlichen Bewertungsframeworks, das mehrere LLMs unterstützt

Experimentelle Einrichtung

Getestete Modelle

Open-Source-/offene Zugangsmodelle:

falcon-3-10b-instruct
qwen-2.5-14b-instruct
phi-4

Proprietäre Modelle:

gpt-4o
gpt-4o-mini
gpt-4-turbo
gpt-4.5-preview-2025-02-27

Testintentionssatz

Entwurf von 9 Benutzerintentionen unterschiedlicher Komplexität:

Einfache Baseline-Funktionalität (z.B. "Bitte 5 Sekunden schlafen")
Anfragen zu externen Informationen (z.B. Temperaturabfrage, Wikipedia-Zusammenfassung)
Systemorientierte Aufgaben (z.B. Dateiauflistung, Remote-Installation)
Medieninteraktion (z.B. zufälligen Song abspielen)
Zusammengesetzte Aufgaben (z.B. Datei an Versicherungsunternehmen senden)

Bewertungsmetriken

Funktionale Korrektheit: Erfolgsquote der Intentionsanalyse
Antwortzeit: Gesamtzeit zum Empfang der vollständigen Ausgabe
First-Token-Zeit: Zeit zum Empfang der initialen Ausgabe
Codequalität: Vorhandensein von Präambel, Postambel und Code-Kommentaren

Implementierungsdetails

Controller-Implementierung basierend auf Python 3
Ausführung auf Android-Gerät mit Termux-Umgebung
Modelltemperatur auf 0,0 eingestellt für deterministische Ergebnisse
Jede Intention wurde einmal pro LLM getestet

Experimentelle Ergebnisse

Hauptergebnisse

Erfolgsquote der Intentionsanalyse

Modellkategorie	Erfolgreiche Analysen	Gesamtleistung
Open-Source-Modelle	7/9	Vergleichbar mit gpt-4-turbo
Proprietäre Modelle (Top-Tier)	8/9	Leicht besser als Open-Source-Modelle

Spezifische Leistung:

falcon-3-10b-instruct: 7/9 erfolgreich
phi-4: 7/9 erfolgreich
qwen-2.5-14b-instruct: 7/9 erfolgreich
gpt-4o, gpt-4o-mini, gpt-4.5-preview: 8/9 erfolgreich
gpt-4-turbo: 7/9 erfolgreich

Leistungsmetriken-Vergleich

Durchschnittliche Antwortzeit:

Schnellstes: gpt-4o (1,75s)
Schnellstes Open-Source: qwen-2.5-14b-instruct (3,42s)
Langsamste: gpt-4.5-preview-2025-02-27 (7,24s)

Durchschnittliche First-Token-Zeit:

Schnellstes: falcon-3-10b-instruct (353,4ms)
Langsamste: gpt-4.5-preview-2025-02-27 (900,1ms)

Detaillierte Analyse

Analyse fehlgeschlagener Fälle

Intention 8 (Wikipedia-Zusammenfassung): Fast alle Modelle schlugen fehl, da der Inhalt das Kontextfenster überschritt
Formatierungsprobleme: falcon-3-10b-instruct verwendete bei Intention 7 falsche Code-Block-Markierungen
Fehlerhafte Funktionswahl: Einige Modelle wählten bei komplexen Intentionen unangemessene API-Funktionen

Codequalitätsmerkmale

Präambel/Postambel: Open-Source-Modelle enthalten diese üblicherweise nicht, proprietäre Modelle zeigen unterschiedliche Leistung
Code-Kommentare: phi-4 und die meisten proprietären Modelle neigen dazu, Kommentare einzubeziehen
Code-Korrektheit: Der meiste generierte Code ist syntaktisch und logisch korrekt

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Leistungsähnlichkeit: Open-Source-LLMs zeigen bei Aufgaben zur Benutzerintentionsanalyse ähnliche Leistung wie proprietäre Modelle mit einer Erfolgsquote von 77,8% (7/9)
Akzeptable Antwortzeiten: Obwohl proprietäre Modelle Vorteile bei der Antwortzeit haben, ist die Leistung von Open-Source-Modellen immer noch akzeptabel
Machbarkeit lokaler Bereitstellung: Validierung der Machbarkeit, intentionsgesteuerte Systeme mit selbstgehosteten Open-Source-Modellen zu konstruieren

Einschränkungen

Einmalige Testlimitierung: Jede Intention wurde nur einmal getestet, es fehlt die statistische Signifikanzvalidierung
Rechnerische Ressourcennanforderungen: Aktuelle Modelle erfordern immer noch erhebliche Rechenressourcen, was echte lokale Bereitstellung begrenzt
Sicherheitsrisiken: Direkte Ausführung generierten Codes birgt Sicherheitslücken, erfordert bessere Sandbox-Mechanismen
API-Abdeckungsbereich: Der aktuelle API-Satz ist relativ begrenzt und kann komplexere Benutzerintentionen schwer bewältigen

Zukünftige Richtungen

Modelloptimierung: Reduktion von Modellgröße und Rechenbedarf durch Pruning, Destillation und Quantisierung
Sicherheitsmechanismen: Entwicklung besserer Isolations- und Sandbox-Mechanismen
API-Erweiterung: Aufbau umfassenderer APIs zur Bewältigung vielfältiger Benutzerintentionen
Alignment-Probleme: Lösung von Shutdown-Problemen und Alignment-Täuschungsproblemen von KI-Systemen

Tiefgreifende Bewertung

Stärken

Bedeutende Forschung: Erste systematische Bewertung des Anwendungspotenzials von Open-Source-LLMs in intentionsgesteuerten Betriebssystemen
Angemessenes Experimentdesign: Umfasst Testfälle unterschiedlicher Komplexität mit umfassenden Bewertungsdimensionen
Innovative technische Lösung: Die äquivalente Modellierung von Zustandsmaschinen und Code-Ausführung ist innovativ
Hoher praktischer Wert: Bietet wichtige Referenzen für zukünftiges Betriebssystemdesign

Mängel

Begrenzte Testgröße: Nur 9 Testfälle, relativ kleine Stichprobengröße
Fehlende statistische Analyse: Mangel an Konfidenzintervallen und Signifikanztests
Unzureichende Sicherheitsüberlegungen: Oberflächlichere Diskussion von Sicherheitsrisiken bei Code-Ausführung
Langzeitverlässlichkeit nicht validiert: Modellstabilität bei Langzeitnutzung nicht berücksichtigt

Auswirkungen

Akademischer Beitrag: Bietet wichtige Benchmarks für LLM-Integration in Betriebssystemen
Praktischer Wert: Beweist Machbarkeit von Open-Source-Lösungen, fördert Technologiedemokratisierung
Zukunftsorientierung: Weist Richtung für Design zukünftiger Mensch-Maschine-Schnittstellen

Anwendbare Szenarien

Datenschutzsensitive Umgebungen: Unternehmens- und Privatanwendungen, die lokale Verarbeitung erfordern
Ressourcenbegrenzte Geräte: Mobile Geräte und Edge-Computing-Szenarien
Individualisierte Anforderungen: Spezialisierte Bereiche mit Bedarf für funktionsspezifische Optimierung
Forschungsprototypen: Akademische Forschung und Proof-of-Concept-Systeme

Literaturverzeichnis

Dieser Artikel zitiert 38 wichtige Literaturquellen, die Transformer-Architektur, LLM-Anwendungen, Code-Generierung, Mensch-Maschine-Interaktion, KI-Sicherheit und andere verwandte Forschungsbereiche abdecken und eine solide theoretische Grundlage für die Forschung bieten.

Gesamtbewertung: Dies ist eine zukunftsweisende und praktisch wertvolle Forschungsarbeit, die erstmals systematisch das Anwendungspotenzial von Open-Source-LLMs in zukünftigen Betriebssystemen bewertet. Obwohl es in Bezug auf Experimentgröße und Sicherheitsanalyse gewisse Einschränkungen gibt, haben ihre Forschungsergebnisse wichtige Bedeutung für die Förderung der KI-Technologiedemokratisierung und die Entwicklung von Mensch-Maschine-Schnittstellen der nächsten Generation.