Large Language Models (LLMs) have emerged as transformative tools for natural language understanding and user intent resolution, enabling tasks such as translation, summarization, and, increasingly, the orchestration of complex workflows. This development signifies a paradigm shift from conventional, GUI-driven user interfaces toward intuitive, language-first interaction paradigms. Rather than manually navigating applications, users can articulate their objectives in natural language, enabling LLMs to orchestrate actions across multiple applications in a dynamic and contextual manner. However, extant implementations frequently rely on cloud-based proprietary models, which introduce limitations in terms of privacy, autonomy, and scalability. For language-first interaction to become a truly robust and trusted interface paradigm, local deployment is not merely a convenience; it is an imperative. This limitation underscores the importance of evaluating the feasibility of locally deployable, open-source, and open-access LLMs as foundational components for future intent-based operating systems. In this study, we examine the capabilities of several open-source and open-access models in facilitating user intention resolution through machine assistance. A comparative analysis is conducted against OpenAI's proprietary GPT-4-based systems to assess performance in generating workflows for various user intentions. The present study offers empirical insights into the practical viability, performance trade-offs, and potential of open LLMs as autonomous, locally operable components in next-generation operating systems. The results of this study inform the broader discussion on the decentralization and democratization of AI infrastructure and point toward a future where user-device interaction becomes more seamless, adaptive, and privacy-conscious through locally embedded intelligence.
academic- ID статьи: 2510.08576
- Название: Comparative Analysis of Large Language Models for the Machine-Assisted Resolution of User Intentions
- Авторы: Justus Flerlage (Technische Universität Berlin), Alexander Acker (logsight.ai GmbH), Odej Kao (Technische Universität Berlin)
- Классификация: cs.SE cs.AI cs.CL cs.HC
- Конференция: HAIC 2025: First International Workshop on Human-AI Collaborative Systems
- Ссылка на статью: https://arxiv.org/abs/2510.08576
В данном исследовании рассматривается трансформационная роль больших языковых моделей (LLMs) в понимании естественного языка и анализе пользовательских намерений, особенно в контексте управления сложными рабочими процессами. Исследование сосредоточено на переходе от традиционных интерфейсов, управляемых графическим интерфейсом, к интуитивным парадигмам взаимодействия, ориентированным на язык. Однако существующие реализации часто полагаются на облачные проприетарные модели, которые имеют ограничения в отношении конфиденциальности, автономности и масштабируемости. В данной статье проводится сравнительный анализ производительности открытых и открытых моделей доступа с проприетарной системой GPT-4 от OpenAI, оценивая осуществимость локального развертывания открытых LLMs в качестве основных компонентов будущих операционных систем, основанных на намерениях.
- Необходимость изменения парадигмы взаимодействия: Традиционные операционные системы, основанные на графическом интерфейсе, иерархическом управлении файлами и оболочке, требуют от пользователей ручной координации нескольких приложений, что является утомительным и отнимает много времени
- Проблемы конфиденциальности и автономности: Существующие облачные проприетарные модели имеют ограничения в отношении конфиденциальности, автономности и масштабируемости
- Необходимость локального развертывания: Для реализации действительно надежной и доверенной парадигмы взаимодействия, ориентированной на язык, локальное развертывание является не только удобством, но и необходимостью
- Содействие переходу от парадигмы, управляемой графическим интерфейсом, к парадигме, ориентированной на язык
- Оценка осуществимости открытых LLMs в будущих операционных системах, управляемых намерениями
- Содействие децентрализации и демократизации инфраструктуры искусственного интеллекта
- Зависимость от внешней облачной инфраструктуры, отсутствие автономности
- Проблемы конфиденциальности и безопасности данных
- Сетевые зависимости ограничивают сценарии применения
- Первый систематический сравнительный анализ: Проведен комплексный сравнительный анализ производительности открытых/открытых моделей доступа и проприетарной модели GPT-4 в задачах анализа пользовательских намерений
- Практическая архитектура системы: Разработана и реализована архитектура системы на основе Controller, поддерживающая динамическое выполнение рабочих процессов, генерируемых LLM
- Многомерная оценочная система: Установлена система оценки, включающая время отклика, время первого токена, качество кода и другие измерения
- Проверка осуществимости открытых LLMs: Доказано, что открытые модели достигают уровня производительности, близкого к проприетарным моделям в задачах анализа пользовательских намерений
Преобразование естественного языкового намерения пользователя в исполняемый рабочий процесс, конкретно выраженное как:
- Входные данные: Описание пользовательского намерения на естественном языке
- Выходные данные: Исполняемый рабочий процесс в виде кода на Python
- Ограничения: Код должен вызывать предопределенный набор функций API
- Controller: Центральный координирующий блок, управляющий коммуникацией с LLM и выполнением рабочего процесса
- Function Table: Каталог доступных функций и их спецификаций, предоставляющий сигнатуры функций и обратные вызовы реализации
- Prompt Formatter: Генерирует подсказки LLM на основе пользовательского намерения и Function Table
- Executor: Выполняет код, генерируемый LLM, в контролируемой среде
- LLM Service: Внешний интерфейс размещенной LLM
- Концептуализация рабочего процесса как детерминированного конечного автомата
- Моделирование с использованием императивного языка программирования (Python)
- Поддержка последовательных шагов и сложных структур управления потоком (циклы, ветвления)
- Допуск прерывания шагов, вытеснения и управления асинхронными задачами
- Эквивалентность конечного автомата и кода: Инновационное моделирование рабочего процесса как конечного автомата, реализующего переходы состояний посредством выполнения кода Python
- Контролируемая среда выполнения: Ограничение исполняемых функций через Function Table обеспечивает безопасность
- Унифицированный интерфейс для нескольких моделей: Разработана унифицированная оценочная система, поддерживающая различные LLMs
Открытые/открытые модели доступа:
- falcon-3-10b-instruct
- qwen-2.5-14b-instruct
- phi-4
Проприетарные модели:
- gpt-4o
- gpt-4o-mini
- gpt-4-turbo
- gpt-4.5-preview-2025-02-27
Разработано 9 пользовательских намерений различной сложности:
- Простые базовые функции (например, "пожалуйста, спите 5 секунд")
- Запросы внешней информации (например, запрос температуры, резюме Wikipedia)
- Системно-ориентированные задачи (например, список файлов, удаленная установка)
- Взаимодействие с медиа (например, воспроизведение случайной песни)
- Составные задачи (например, отправка файла страховой компании)
- Функциональная корректность: Коэффициент успешного анализа намерения
- Время отклика: Общее время получения полного вывода
- Время первого токена: Время получения начального вывода
- Качество кода: Наличие введения, заключения и комментариев к коду
- Реализация Controller на основе Python 3
- Запуск на устройстве Android с использованием среды Termux
- Температура модели установлена на 0.0 для обеспечения детерминированных результатов
- Каждое намерение протестировано один раз для каждой LLM
| Категория модели | Количество успешных анализов | Общая производительность |
|---|
| Открытые модели | 7/9 | Сравнима с gpt-4-turbo |
| Проприетарные модели (верхний уровень) | 8/9 | Немного лучше открытых моделей |
Конкретная производительность:
- falcon-3-10b-instruct: 7/9 успешных
- phi-4: 7/9 успешных
- qwen-2.5-14b-instruct: 7/9 успешных
- gpt-4o, gpt-4o-mini, gpt-4.5-preview: 8/9 успешных
- gpt-4-turbo: 7/9 успешных
Среднее время отклика:
- Самое быстрое: gpt-4o (1.75s)
- Самое быстрое среди открытых: qwen-2.5-14b-instruct (3.42s)
- Самое медленное: gpt-4.5-preview-2025-02-27 (7.24s)
Среднее время первого токена:
- Самое быстрое: falcon-3-10b-instruct (353.4ms)
- Самое медленное: gpt-4.5-preview-2025-02-27 (900.1ms)
- Намерение 8 (резюме Wikipedia): Почти все модели не прошли, так как содержание превышало размер окна контекста
- Проблемы форматирования: falcon-3-10b-instruct использовал неправильные теги блока кода в намерении 7
- Ошибки выбора функции: Некоторые модели выбрали неподходящие функции API для сложных намерений
- Введение/Заключение: Открытые модели обычно не включают, проприетарные модели показывают неоднородные результаты
- Комментарии к коду: phi-4 и большинство проприетарных моделей склонны включать комментарии
- Корректность кода: Большинство сгенерированного кода синтаксически и логически корректно
- Архитектура Transformer: Основа всех современных LLMs, поддерживающая параллелизацию обучения и высокое качество NLP
- Генерация кода: Применение инструментов, таких как GitHub Copilot, в помощи при кодировании
- Распознавание намерений: Соответствующие исследования распознавания пользовательских намерений в диалоговых системах
- Персональные помощники: Существующие решения, такие как Siri, Cortana, Alexa
- Интеграция операционной системы: Исследования операционных систем, ориентированных на агентов LLM, таких как AIOS
- Автоматизация графического интерфейса: Исследования прямого управления существующими приложениями графического интерфейса с помощью искусственного интеллекта
- Конфиденциальность данных: Проблемы конфиденциальности при обработке данных обучения и информации пользователя
- Риски искусственного интеллекта: Систематический анализ проблем, включая галлюцинации и ошибочную генерацию кода
- Близость производительности: Открытые LLMs демонстрируют производительность, близкую к проприетарным моделям в задачах анализа пользовательских намерений, с коэффициентом успеха 77.8% (7/9)
- Приемлемое время отклика: Хотя проприетарные модели имеют преимущество во времени отклика, производительность открытых моделей остается в приемлемом диапазоне
- Осуществимость локального развертывания: Подтверждена осуществимость построения систем, управляемых намерениями, с использованием самостоятельно размещаемых открытых моделей
- Ограничение однократного тестирования: Каждое намерение протестировано только один раз, отсутствует проверка статистической значимости
- Требования к вычислительным ресурсам: Текущие модели по-прежнему требуют значительных вычислительных ресурсов, что ограничивает действительно локальное развертывание
- Риски безопасности: Прямое выполнение сгенерированного кода создает уязвимости безопасности, требующие более совершенных механизмов изоляции
- Охват API: Текущий набор API относительно ограничен, что затрудняет обработку более сложных пользовательских намерений
- Оптимизация моделей: Сокращение размера модели и требований к вычислениям посредством обрезки, дистилляции и квантизации
- Механизмы безопасности: Разработка более совершенных механизмов изоляции и изоляции
- Расширение API: Построение более полного набора API для обработки разнообразных пользовательских намерений
- Проблемы выравнивания: Решение проблем отключения и маскировки выравнивания систем искусственного интеллекта
- Значительное исследовательское значение: Первая систематическая оценка потенциала применения открытых LLMs в операционных системах, управляемых намерениями
- Разумный дизайн экспериментов: Охватывает тестовые случаи различной сложности с комплексными измерениями оценки
- Инновационное техническое решение: Эквивалентное моделирование конечного автомата и выполнения кода является инновационным
- Высокая практическая ценность: Предоставляет важные справочные материалы для проектирования будущих операционных систем
- Ограниченный масштаб тестирования: Всего 9 тестовых случаев, относительно небольшой размер выборки
- Отсутствие статистического анализа: Отсутствуют доверительные интервалы и проверка значимости
- Недостаточное рассмотрение безопасности: Обсуждение рисков безопасности при выполнении кода является поверхностным
- Непроверенная долгосрочная надежность: Не рассмотрена стабильность модели при длительном использовании
- Научный вклад: Предоставляет важный эталон для интеграции LLM в область операционных систем
- Практическая ценность: Доказывает осуществимость открытых решений, способствуя демократизации технологии
- Ориентированность на будущее: Указывает направление для проектирования интерфейсов человеко-машинного взаимодействия следующего поколения
- Среды, чувствительные к конфиденциальности: Корпоративные и личные приложения, требующие локальной обработки
- Устройства с ограниченными ресурсами: Сценарии мобильных устройств и пограничных вычислений
- Требования к настройке: Специализированные области, требующие оптимизации конкретных функций
- Исследовательские прототипы: Академические исследования и системы проверки концепции
В данной статье цитируется 38 важных работ, охватывающих архитектуру Transformer, приложения LLM, генерацию кода, взаимодействие человека и машины, безопасность искусственного интеллекта и другие связанные области исследований, обеспечивая прочную теоретическую основу для исследования.
Общая оценка: Это перспективная и практически ценная исследовательская статья, которая впервые систематически оценивает потенциал применения открытых LLMs в будущих операционных системах. Хотя существуют определенные ограничения в масштабе экспериментов и анализе безопасности, выводы исследования имеют важное значение для содействия демократизации технологии искусственного интеллекта и развития интерфейсов человеко-машинного взаимодействия следующего поколения.