2025-11-21T21:40:15.836321

Comparative Analysis of Large Language Models for the Machine-Assisted Resolution of User Intentions

Flerlage, Acker, Kao

Large Language Models (LLMs) have emerged as transformative tools for natural language understanding and user intent resolution, enabling tasks such as translation, summarization, and, increasingly, the orchestration of complex workflows. This development signifies a paradigm shift from conventional, GUI-driven user interfaces toward intuitive, language-first interaction paradigms. Rather than manually navigating applications, users can articulate their objectives in natural language, enabling LLMs to orchestrate actions across multiple applications in a dynamic and contextual manner. However, extant implementations frequently rely on cloud-based proprietary models, which introduce limitations in terms of privacy, autonomy, and scalability. For language-first interaction to become a truly robust and trusted interface paradigm, local deployment is not merely a convenience; it is an imperative. This limitation underscores the importance of evaluating the feasibility of locally deployable, open-source, and open-access LLMs as foundational components for future intent-based operating systems. In this study, we examine the capabilities of several open-source and open-access models in facilitating user intention resolution through machine assistance. A comparative analysis is conducted against OpenAI's proprietary GPT-4-based systems to assess performance in generating workflows for various user intentions. The present study offers empirical insights into the practical viability, performance trade-offs, and potential of open LLMs as autonomous, locally operable components in next-generation operating systems. The results of this study inform the broader discussion on the decentralization and democratization of AI infrastructure and point toward a future where user-device interaction becomes more seamless, adaptive, and privacy-conscious through locally embedded intelligence.

academic

Сравнительный анализ больших языковых моделей для машинного разрешения пользовательских намерений

Основная информация

ID статьи: 2510.08576
Название: Comparative Analysis of Large Language Models for the Machine-Assisted Resolution of User Intentions
Авторы: Justus Flerlage (Technische Universität Berlin), Alexander Acker (logsight.ai GmbH), Odej Kao (Technische Universität Berlin)
Классификация: cs.SE cs.AI cs.CL cs.HC
Конференция: HAIC 2025: First International Workshop on Human-AI Collaborative Systems
Ссылка на статью: https://arxiv.org/abs/2510.08576

Аннотация

В данном исследовании рассматривается трансформационная роль больших языковых моделей (LLMs) в понимании естественного языка и анализе пользовательских намерений, особенно в контексте управления сложными рабочими процессами. Исследование сосредоточено на переходе от традиционных интерфейсов, управляемых графическим интерфейсом, к интуитивным парадигмам взаимодействия, ориентированным на язык. Однако существующие реализации часто полагаются на облачные проприетарные модели, которые имеют ограничения в отношении конфиденциальности, автономности и масштабируемости. В данной статье проводится сравнительный анализ производительности открытых и открытых моделей доступа с проприетарной системой GPT-4 от OpenAI, оценивая осуществимость локального развертывания открытых LLMs в качестве основных компонентов будущих операционных систем, основанных на намерениях.

Исследовательский контекст и мотивация

Основные проблемы

Необходимость изменения парадигмы взаимодействия: Традиционные операционные системы, основанные на графическом интерфейсе, иерархическом управлении файлами и оболочке, требуют от пользователей ручной координации нескольких приложений, что является утомительным и отнимает много времени
Проблемы конфиденциальности и автономности: Существующие облачные проприетарные модели имеют ограничения в отношении конфиденциальности, автономности и масштабируемости
Необходимость локального развертывания: Для реализации действительно надежной и доверенной парадигмы взаимодействия, ориентированной на язык, локальное развертывание является не только удобством, но и необходимостью

Значимость исследования

Содействие переходу от парадигмы, управляемой графическим интерфейсом, к парадигме, ориентированной на язык
Оценка осуществимости открытых LLMs в будущих операционных системах, управляемых намерениями
Содействие децентрализации и демократизации инфраструктуры искусственного интеллекта

Ограничения существующих подходов

Зависимость от внешней облачной инфраструктуры, отсутствие автономности
Проблемы конфиденциальности и безопасности данных
Сетевые зависимости ограничивают сценарии применения

Основной вклад

Первый систематический сравнительный анализ: Проведен комплексный сравнительный анализ производительности открытых/открытых моделей доступа и проприетарной модели GPT-4 в задачах анализа пользовательских намерений
Практическая архитектура системы: Разработана и реализована архитектура системы на основе Controller, поддерживающая динамическое выполнение рабочих процессов, генерируемых LLM
Многомерная оценочная система: Установлена система оценки, включающая время отклика, время первого токена, качество кода и другие измерения
Проверка осуществимости открытых LLMs: Доказано, что открытые модели достигают уровня производительности, близкого к проприетарным моделям в задачах анализа пользовательских намерений

Подробное описание методологии

Определение задачи

Преобразование естественного языкового намерения пользователя в исполняемый рабочий процесс, конкретно выраженное как:

Входные данные: Описание пользовательского намерения на естественном языке
Выходные данные: Исполняемый рабочий процесс в виде кода на Python
Ограничения: Код должен вызывать предопределенный набор функций API

Архитектура системы

Основные компоненты

Controller: Центральный координирующий блок, управляющий коммуникацией с LLM и выполнением рабочего процесса
Function Table: Каталог доступных функций и их спецификаций, предоставляющий сигнатуры функций и обратные вызовы реализации
Prompt Formatter: Генерирует подсказки LLM на основе пользовательского намерения и Function Table
Executor: Выполняет код, генерируемый LLM, в контролируемой среде
LLM Service: Внешний интерфейс размещенной LLM

Моделирование рабочего процесса

Концептуализация рабочего процесса как детерминированного конечного автомата
Моделирование с использованием императивного языка программирования (Python)
Поддержка последовательных шагов и сложных структур управления потоком (циклы, ветвления)
Допуск прерывания шагов, вытеснения и управления асинхронными задачами

Технические инновации

Эквивалентность конечного автомата и кода: Инновационное моделирование рабочего процесса как конечного автомата, реализующего переходы состояний посредством выполнения кода Python
Контролируемая среда выполнения: Ограничение исполняемых функций через Function Table обеспечивает безопасность
Унифицированный интерфейс для нескольких моделей: Разработана унифицированная оценочная система, поддерживающая различные LLMs

Экспериментальная установка

Тестируемые модели

Открытые/открытые модели доступа:

falcon-3-10b-instruct
qwen-2.5-14b-instruct
phi-4

Проприетарные модели:

gpt-4o
gpt-4o-mini
gpt-4-turbo
gpt-4.5-preview-2025-02-27

Набор тестовых намерений

Разработано 9 пользовательских намерений различной сложности:

Простые базовые функции (например, "пожалуйста, спите 5 секунд")
Запросы внешней информации (например, запрос температуры, резюме Wikipedia)
Системно-ориентированные задачи (например, список файлов, удаленная установка)
Взаимодействие с медиа (например, воспроизведение случайной песни)
Составные задачи (например, отправка файла страховой компании)

Показатели оценки

Функциональная корректность: Коэффициент успешного анализа намерения
Время отклика: Общее время получения полного вывода
Время первого токена: Время получения начального вывода
Качество кода: Наличие введения, заключения и комментариев к коду

Детали реализации

Реализация Controller на основе Python 3
Запуск на устройстве Android с использованием среды Termux
Температура модели установлена на 0.0 для обеспечения детерминированных результатов
Каждое намерение протестировано один раз для каждой LLM

Результаты экспериментов

Основные результаты

Коэффициент успешного анализа намерения

Категория модели	Количество успешных анализов	Общая производительность
Открытые модели	7/9	Сравнима с gpt-4-turbo
Проприетарные модели (верхний уровень)	8/9	Немного лучше открытых моделей

Конкретная производительность:

falcon-3-10b-instruct: 7/9 успешных
phi-4: 7/9 успешных
qwen-2.5-14b-instruct: 7/9 успешных
gpt-4o, gpt-4o-mini, gpt-4.5-preview: 8/9 успешных
gpt-4-turbo: 7/9 успешных

Сравнение показателей производительности

Среднее время отклика:

Самое быстрое: gpt-4o (1.75s)
Самое быстрое среди открытых: qwen-2.5-14b-instruct (3.42s)
Самое медленное: gpt-4.5-preview-2025-02-27 (7.24s)

Среднее время первого токена:

Самое быстрое: falcon-3-10b-instruct (353.4ms)
Самое медленное: gpt-4.5-preview-2025-02-27 (900.1ms)

Детальный анализ

Анализ случаев отказа

Намерение 8 (резюме Wikipedia): Почти все модели не прошли, так как содержание превышало размер окна контекста
Проблемы форматирования: falcon-3-10b-instruct использовал неправильные теги блока кода в намерении 7
Ошибки выбора функции: Некоторые модели выбрали неподходящие функции API для сложных намерений

Характеристики качества кода

Введение/Заключение: Открытые модели обычно не включают, проприетарные модели показывают неоднородные результаты
Комментарии к коду: phi-4 и большинство проприетарных моделей склонны включать комментарии
Корректность кода: Большинство сгенерированного кода синтаксически и логически корректно

Связанные работы

Основы технологии

Архитектура Transformer: Основа всех современных LLMs, поддерживающая параллелизацию обучения и высокое качество NLP
Генерация кода: Применение инструментов, таких как GitHub Copilot, в помощи при кодировании
Распознавание намерений: Соответствующие исследования распознавания пользовательских намерений в диалоговых системах

Расширение областей применения

Персональные помощники: Существующие решения, такие как Siri, Cortana, Alexa
Интеграция операционной системы: Исследования операционных систем, ориентированных на агентов LLM, таких как AIOS
Автоматизация графического интерфейса: Исследования прямого управления существующими приложениями графического интерфейса с помощью искусственного интеллекта

Безопасность и конфиденциальность

Конфиденциальность данных: Проблемы конфиденциальности при обработке данных обучения и информации пользователя
Риски искусственного интеллекта: Систематический анализ проблем, включая галлюцинации и ошибочную генерацию кода

Выводы и обсуждение

Основные выводы

Близость производительности: Открытые LLMs демонстрируют производительность, близкую к проприетарным моделям в задачах анализа пользовательских намерений, с коэффициентом успеха 77.8% (7/9)
Приемлемое время отклика: Хотя проприетарные модели имеют преимущество во времени отклика, производительность открытых моделей остается в приемлемом диапазоне
Осуществимость локального развертывания: Подтверждена осуществимость построения систем, управляемых намерениями, с использованием самостоятельно размещаемых открытых моделей

Ограничения

Ограничение однократного тестирования: Каждое намерение протестировано только один раз, отсутствует проверка статистической значимости
Требования к вычислительным ресурсам: Текущие модели по-прежнему требуют значительных вычислительных ресурсов, что ограничивает действительно локальное развертывание
Риски безопасности: Прямое выполнение сгенерированного кода создает уязвимости безопасности, требующие более совершенных механизмов изоляции
Охват API: Текущий набор API относительно ограничен, что затрудняет обработку более сложных пользовательских намерений

Будущие направления

Оптимизация моделей: Сокращение размера модели и требований к вычислениям посредством обрезки, дистилляции и квантизации
Механизмы безопасности: Разработка более совершенных механизмов изоляции и изоляции
Расширение API: Построение более полного набора API для обработки разнообразных пользовательских намерений
Проблемы выравнивания: Решение проблем отключения и маскировки выравнивания систем искусственного интеллекта

Глубокая оценка

Преимущества

Значительное исследовательское значение: Первая систематическая оценка потенциала применения открытых LLMs в операционных системах, управляемых намерениями
Разумный дизайн экспериментов: Охватывает тестовые случаи различной сложности с комплексными измерениями оценки
Инновационное техническое решение: Эквивалентное моделирование конечного автомата и выполнения кода является инновационным
Высокая практическая ценность: Предоставляет важные справочные материалы для проектирования будущих операционных систем

Недостатки

Ограниченный масштаб тестирования: Всего 9 тестовых случаев, относительно небольшой размер выборки
Отсутствие статистического анализа: Отсутствуют доверительные интервалы и проверка значимости
Недостаточное рассмотрение безопасности: Обсуждение рисков безопасности при выполнении кода является поверхностным
Непроверенная долгосрочная надежность: Не рассмотрена стабильность модели при длительном использовании

Влияние

Научный вклад: Предоставляет важный эталон для интеграции LLM в область операционных систем
Практическая ценность: Доказывает осуществимость открытых решений, способствуя демократизации технологии
Ориентированность на будущее: Указывает направление для проектирования интерфейсов человеко-машинного взаимодействия следующего поколения

Применимые сценарии

Среды, чувствительные к конфиденциальности: Корпоративные и личные приложения, требующие локальной обработки
Устройства с ограниченными ресурсами: Сценарии мобильных устройств и пограничных вычислений
Требования к настройке: Специализированные области, требующие оптимизации конкретных функций
Исследовательские прототипы: Академические исследования и системы проверки концепции

Библиография

В данной статье цитируется 38 важных работ, охватывающих архитектуру Transformer, приложения LLM, генерацию кода, взаимодействие человека и машины, безопасность искусственного интеллекта и другие связанные области исследований, обеспечивая прочную теоретическую основу для исследования.

Общая оценка: Это перспективная и практически ценная исследовательская статья, которая впервые систематически оценивает потенциал применения открытых LLMs в будущих операционных системах. Хотя существуют определенные ограничения в масштабе экспериментов и анализе безопасности, выводы исследования имеют важное значение для содействия демократизации технологии искусственного интеллекта и развития интерфейсов человеко-машинного взаимодействия следующего поколения.