Large Language Models (LLMs) have emerged as transformative tools for natural language understanding and user intent resolution, enabling tasks such as translation, summarization, and, increasingly, the orchestration of complex workflows. This development signifies a paradigm shift from conventional, GUI-driven user interfaces toward intuitive, language-first interaction paradigms. Rather than manually navigating applications, users can articulate their objectives in natural language, enabling LLMs to orchestrate actions across multiple applications in a dynamic and contextual manner. However, extant implementations frequently rely on cloud-based proprietary models, which introduce limitations in terms of privacy, autonomy, and scalability. For language-first interaction to become a truly robust and trusted interface paradigm, local deployment is not merely a convenience; it is an imperative. This limitation underscores the importance of evaluating the feasibility of locally deployable, open-source, and open-access LLMs as foundational components for future intent-based operating systems. In this study, we examine the capabilities of several open-source and open-access models in facilitating user intention resolution through machine assistance. A comparative analysis is conducted against OpenAI's proprietary GPT-4-based systems to assess performance in generating workflows for various user intentions. The present study offers empirical insights into the practical viability, performance trade-offs, and potential of open LLMs as autonomous, locally operable components in next-generation operating systems. The results of this study inform the broader discussion on the decentralization and democratization of AI infrastructure and point toward a future where user-device interaction becomes more seamless, adaptive, and privacy-conscious through locally embedded intelligence.
academic- Paper-ID: 2510.08576
- Titel: Comparative Analysis of Large Language Models for the Machine-Assisted Resolution of User Intentions
- Autoren: Justus Flerlage (Technische Universität Berlin), Alexander Acker (logsight.ai GmbH), Odej Kao (Technische Universität Berlin)
- Klassifizierung: cs.SE cs.AI cs.CL cs.HC
- Veröffentlichungskonferenz: HAIC 2025: First International Workshop on Human-AI Collaborative Systems
- Paper-Link: https://arxiv.org/abs/2510.08576
Diese Studie untersucht die transformative Rolle großer Sprachmodelle (LLMs) beim natürlichsprachlichen Verständnis und der Analyse von Benutzerintentionen, insbesondere bei der Orchestrierung komplexer Arbeitsabläufe. Die Forschung konzentriert sich auf den Übergang von traditionellen GUI-gesteuerten Schnittstellen zu intuitiven, sprachgesteuerten Interaktionsparadigmen. Allerdings verlassen sich bestehende Implementierungen häufig auf cloudbasierte proprietäre Modelle, die Einschränkungen in Bezug auf Datenschutz, Autonomie und Skalierbarkeit aufweisen. Dieser Artikel bewertet die Machbarkeit lokal bereitgestellter Open-Source-LLMs als Grundkomponenten zukünftiger intentionsbasierter Betriebssysteme durch eine vergleichende Analyse der Leistung von Open-Source- und offenen Zugangsmodellen im Vergleich zum proprietären GPT-4-System von OpenAI.
- Bedarf für Paradigmenwechsel in der Interaktion: Traditionelle Betriebssysteme basieren auf GUI-, hierarchischer Dateiverwaltung und Shell-Interaktionsmechanismen, die Benutzer dazu zwingen, mehrere Anwendungen manuell zu koordinieren – ein mühsamer und zeitaufwändiger Prozess
- Herausforderungen bei Datenschutz und Autonomie: Bestehende cloudbasierte proprietäre Modelle weisen Einschränkungen in Bezug auf Datenschutz, Autonomie und Skalierbarkeit auf
- Notwendigkeit lokaler Bereitstellung: Um ein wirklich robustes und vertrauenswürdiges sprachgesteuertes Interaktionsparadigma zu realisieren, ist lokale Bereitstellung nicht nur praktisch, sondern notwendig
- Förderung des Übergangs von GUI-gesteuert zu sprachgesteuerten Interaktionsparadigmen
- Bewertung der Machbarkeit von Open-Source-LLMs in zukünftigen intentionsgesteuerten Betriebssystemen
- Förderung der Dezentralisierung und Demokratisierung der KI-Infrastruktur
- Abhängigkeit von externer Cloud-Infrastruktur, mangelnde Autonomie
- Datenschutz- und Datensicherheitsprobleme
- Netzwerkabhängigkeit begrenzt Anwendungsszenarien
- Erste systematische Vergleichsstudie: Umfassende vergleichende Analyse der Leistung von Open-Source-/offenen Zugangs-LLMs gegenüber proprietären GPT-4-Modellen bei Aufgaben zur Benutzerintentionsanalyse
- Praktische Systemarchitektur: Entwurf und Implementierung einer Controller-basierten Systemarchitektur, die die dynamische Ausführung von LLM-generierten Arbeitsabläufen unterstützt
- Mehrdimensionales Bewertungsframework: Etablierung eines Bewertungssystems mit mehreren Dimensionen einschließlich Antwortzeit, First-Token-Zeit und Codequalität
- Validierung der Machbarkeit von Open-Source-LLMs: Nachweis, dass Open-Source-Modelle bei Aufgaben zur Benutzerintentionsanalyse eine ähnliche Leistung wie proprietäre Modelle erreichen
Umwandlung von natürlichsprachlichen Benutzerintentionen in ausführbare Arbeitsabläufe, konkret ausgedrückt als:
- Eingabe: Natürlichsprachliche Beschreibung der Benutzerintention
- Ausgabe: Ausführbarer Arbeitsablauf in Form von Python-Code
- Einschränkungen: Code muss einen vordefinierten Satz von API-Funktionen aufrufen
- Controller: Zentrale Koordinierungseinheit, verwaltet die Kommunikation mit dem LLM und die Arbeitsablaufausführung
- Function Table: Katalog verfügbarer Funktionen und deren Spezifikationen, bietet Funktionssignaturen und Implementierungs-Callbacks
- Prompt Formatter: Generiert LLM-Prompts basierend auf Benutzerintention und Function Table
- Executor: Führt LLM-generierten Code in einer kontrollierten Umgebung aus
- LLM Service: Extern gehostete LLM-Schnittstelle
- Konzeptualisierung von Arbeitsabläufen als deterministische Zustandsmaschinen
- Modellierung mit imperativer Programmiersprache (Python)
- Unterstützung für sequenzielle Schritte und komplexe Kontrollflussstrukturen (Schleifen, Verzweigungen)
- Ermöglichung von Schrittunterbrechung, Preemption und asynchroner Aufgabenverwaltung
- Zustandsmaschinen- und Code-Äquivalenz: Innovative Modellierung von Arbeitsabläufen als Zustandsmaschinen, Realisierung von Zustandsübergängen durch Python-Code-Ausführung
- Kontrollierte Ausführungsumgebung: Sicherheit durch Einschränkung ausführbarer Funktionen über Function Table
- Einheitliche Schnittstelle für mehrere Modelle: Entwurf eines einheitlichen Bewertungsframeworks, das mehrere LLMs unterstützt
Open-Source-/offene Zugangsmodelle:
- falcon-3-10b-instruct
- qwen-2.5-14b-instruct
- phi-4
Proprietäre Modelle:
- gpt-4o
- gpt-4o-mini
- gpt-4-turbo
- gpt-4.5-preview-2025-02-27
Entwurf von 9 Benutzerintentionen unterschiedlicher Komplexität:
- Einfache Baseline-Funktionalität (z.B. "Bitte 5 Sekunden schlafen")
- Anfragen zu externen Informationen (z.B. Temperaturabfrage, Wikipedia-Zusammenfassung)
- Systemorientierte Aufgaben (z.B. Dateiauflistung, Remote-Installation)
- Medieninteraktion (z.B. zufälligen Song abspielen)
- Zusammengesetzte Aufgaben (z.B. Datei an Versicherungsunternehmen senden)
- Funktionale Korrektheit: Erfolgsquote der Intentionsanalyse
- Antwortzeit: Gesamtzeit zum Empfang der vollständigen Ausgabe
- First-Token-Zeit: Zeit zum Empfang der initialen Ausgabe
- Codequalität: Vorhandensein von Präambel, Postambel und Code-Kommentaren
- Controller-Implementierung basierend auf Python 3
- Ausführung auf Android-Gerät mit Termux-Umgebung
- Modelltemperatur auf 0,0 eingestellt für deterministische Ergebnisse
- Jede Intention wurde einmal pro LLM getestet
| Modellkategorie | Erfolgreiche Analysen | Gesamtleistung |
|---|
| Open-Source-Modelle | 7/9 | Vergleichbar mit gpt-4-turbo |
| Proprietäre Modelle (Top-Tier) | 8/9 | Leicht besser als Open-Source-Modelle |
Spezifische Leistung:
- falcon-3-10b-instruct: 7/9 erfolgreich
- phi-4: 7/9 erfolgreich
- qwen-2.5-14b-instruct: 7/9 erfolgreich
- gpt-4o, gpt-4o-mini, gpt-4.5-preview: 8/9 erfolgreich
- gpt-4-turbo: 7/9 erfolgreich
Durchschnittliche Antwortzeit:
- Schnellstes: gpt-4o (1,75s)
- Schnellstes Open-Source: qwen-2.5-14b-instruct (3,42s)
- Langsamste: gpt-4.5-preview-2025-02-27 (7,24s)
Durchschnittliche First-Token-Zeit:
- Schnellstes: falcon-3-10b-instruct (353,4ms)
- Langsamste: gpt-4.5-preview-2025-02-27 (900,1ms)
- Intention 8 (Wikipedia-Zusammenfassung): Fast alle Modelle schlugen fehl, da der Inhalt das Kontextfenster überschritt
- Formatierungsprobleme: falcon-3-10b-instruct verwendete bei Intention 7 falsche Code-Block-Markierungen
- Fehlerhafte Funktionswahl: Einige Modelle wählten bei komplexen Intentionen unangemessene API-Funktionen
- Präambel/Postambel: Open-Source-Modelle enthalten diese üblicherweise nicht, proprietäre Modelle zeigen unterschiedliche Leistung
- Code-Kommentare: phi-4 und die meisten proprietären Modelle neigen dazu, Kommentare einzubeziehen
- Code-Korrektheit: Der meiste generierte Code ist syntaktisch und logisch korrekt
- Transformer-Architektur: Grundlage aller modernen LLMs, unterstützt parallelisiertes Training und hochwertige NLP
- Code-Generierung: Anwendung von Tools wie GitHub Copilot bei der Code-Unterstützung
- Intentionserkennung: Verwandte Forschung zur Benutzerintentionserkennung in Dialogsystemen
- Persönliche Assistenten: Bestehende Lösungen wie Siri, Cortana, Alexa
- Betriebssystemintegration: Forschung zu LLM-Agent-orientierten Betriebssystemen wie AIOS
- GUI-Automatisierung: Forschung zur direkten KI-Steuerung bestehender GUI-Anwendungen
- Datenschutz: Datenschutzprobleme bei der Verarbeitung von Trainingsdaten und Benutzerinformationen
- KI-Risiken: Systematische Analyse von Problemen einschließlich Halluzinationen und fehlerhafter Code-Generierung
- Leistungsähnlichkeit: Open-Source-LLMs zeigen bei Aufgaben zur Benutzerintentionsanalyse ähnliche Leistung wie proprietäre Modelle mit einer Erfolgsquote von 77,8% (7/9)
- Akzeptable Antwortzeiten: Obwohl proprietäre Modelle Vorteile bei der Antwortzeit haben, ist die Leistung von Open-Source-Modellen immer noch akzeptabel
- Machbarkeit lokaler Bereitstellung: Validierung der Machbarkeit, intentionsgesteuerte Systeme mit selbstgehosteten Open-Source-Modellen zu konstruieren
- Einmalige Testlimitierung: Jede Intention wurde nur einmal getestet, es fehlt die statistische Signifikanzvalidierung
- Rechnerische Ressourcennanforderungen: Aktuelle Modelle erfordern immer noch erhebliche Rechenressourcen, was echte lokale Bereitstellung begrenzt
- Sicherheitsrisiken: Direkte Ausführung generierten Codes birgt Sicherheitslücken, erfordert bessere Sandbox-Mechanismen
- API-Abdeckungsbereich: Der aktuelle API-Satz ist relativ begrenzt und kann komplexere Benutzerintentionen schwer bewältigen
- Modelloptimierung: Reduktion von Modellgröße und Rechenbedarf durch Pruning, Destillation und Quantisierung
- Sicherheitsmechanismen: Entwicklung besserer Isolations- und Sandbox-Mechanismen
- API-Erweiterung: Aufbau umfassenderer APIs zur Bewältigung vielfältiger Benutzerintentionen
- Alignment-Probleme: Lösung von Shutdown-Problemen und Alignment-Täuschungsproblemen von KI-Systemen
- Bedeutende Forschung: Erste systematische Bewertung des Anwendungspotenzials von Open-Source-LLMs in intentionsgesteuerten Betriebssystemen
- Angemessenes Experimentdesign: Umfasst Testfälle unterschiedlicher Komplexität mit umfassenden Bewertungsdimensionen
- Innovative technische Lösung: Die äquivalente Modellierung von Zustandsmaschinen und Code-Ausführung ist innovativ
- Hoher praktischer Wert: Bietet wichtige Referenzen für zukünftiges Betriebssystemdesign
- Begrenzte Testgröße: Nur 9 Testfälle, relativ kleine Stichprobengröße
- Fehlende statistische Analyse: Mangel an Konfidenzintervallen und Signifikanztests
- Unzureichende Sicherheitsüberlegungen: Oberflächlichere Diskussion von Sicherheitsrisiken bei Code-Ausführung
- Langzeitverlässlichkeit nicht validiert: Modellstabilität bei Langzeitnutzung nicht berücksichtigt
- Akademischer Beitrag: Bietet wichtige Benchmarks für LLM-Integration in Betriebssystemen
- Praktischer Wert: Beweist Machbarkeit von Open-Source-Lösungen, fördert Technologiedemokratisierung
- Zukunftsorientierung: Weist Richtung für Design zukünftiger Mensch-Maschine-Schnittstellen
- Datenschutzsensitive Umgebungen: Unternehmens- und Privatanwendungen, die lokale Verarbeitung erfordern
- Ressourcenbegrenzte Geräte: Mobile Geräte und Edge-Computing-Szenarien
- Individualisierte Anforderungen: Spezialisierte Bereiche mit Bedarf für funktionsspezifische Optimierung
- Forschungsprototypen: Akademische Forschung und Proof-of-Concept-Systeme
Dieser Artikel zitiert 38 wichtige Literaturquellen, die Transformer-Architektur, LLM-Anwendungen, Code-Generierung, Mensch-Maschine-Interaktion, KI-Sicherheit und andere verwandte Forschungsbereiche abdecken und eine solide theoretische Grundlage für die Forschung bieten.
Gesamtbewertung: Dies ist eine zukunftsweisende und praktisch wertvolle Forschungsarbeit, die erstmals systematisch das Anwendungspotenzial von Open-Source-LLMs in zukünftigen Betriebssystemen bewertet. Obwohl es in Bezug auf Experimentgröße und Sicherheitsanalyse gewisse Einschränkungen gibt, haben ihre Forschungsergebnisse wichtige Bedeutung für die Förderung der KI-Technologiedemokratisierung und die Entwicklung von Mensch-Maschine-Schnittstellen der nächsten Generation.