2025-11-21T15:34:16.184333

Formalizing Style in Personal Narratives

Cortal, Finkel
Personal narratives are stories authors construct to make meaning of their experiences. Style, the distinctive way authors use language to express themselves, is fundamental to how these narratives convey subjective experiences. Yet there is a lack of a formal framework for systematically analyzing these stylistic choices. We present a novel approach that formalizes style in personal narratives as patterns in the linguistic choices authors make when communicating subjective experiences. Our framework integrates three domains: functional linguistics establishes language as a system of meaningful choices, computer science provides methods for automatically extracting and analyzing sequential patterns, and these patterns are linked to psychological observations. Using language models, we automatically extract linguistic features such as processes, participants, and circumstances. We apply our framework to hundreds of dream narratives, including a case study on a war veteran with post-traumatic stress disorder. Analysis of his narratives uncovers distinctive patterns, particularly how verbal processes dominate over mental ones, illustrating the relationship between linguistic choices and psychological states.
academic

Формализация стиля в личных нарративах

Основная информация

  • ID статьи: 2510.08649
  • Название: Formalizing Style in Personal Narratives
  • Авторы: Gustave Cortal, Alain Finkel (Université Paris-Saclay, CNRS)
  • Категория: cs.CL (Вычислительная лингвистика), cs.AI
  • Дата публикации: 13 октября 2025 г. (arXiv v2)
  • Ссылка на статью: https://arxiv.org/abs/2510.08649

Аннотация

Личные нарративы — это истории, которые авторы конструируют для понимания своего опыта. Стиль, то есть уникальный способ, которым автор использует язык для самовыражения, является основой передачи субъективного опыта в этих нарративах. Однако отсутствует систематическая формальная база для анализа этих стилистических выборов. В данной статье предлагается новый подход к формализации стиля в личных нарративах как совокупности языковых выборов, которые авторы делают при передаче субъективного опыта. Предложенная структура интегрирует три области: функциональная лингвистика устанавливает язык как систему осмысленных выборов, компьютерная наука предоставляет методы автоматического извлечения и анализа паттернов последовательностей, которые связаны с психологическими наблюдениями. С использованием языковых моделей автоматически извлекаются языковые признаки, такие как процессы, участники и обстоятельства. Структура применяется к сотням нарративов о снах, включая тематическое исследование ветерана войны во Вьетнаме с посттравматическим стрессовым расстройством. Анализ его нарративов выявляет уникальные паттерны, особенно то, как речевые процессы доминируют над психическими процессами, что иллюстрирует связь между языковыми выборами и психическим состоянием.

Исследовательский контекст и мотивация

Определение проблемы

  1. Основная проблема: Отсутствие систематической формальной базы для анализа стилистических выборов в личных нарративах. Хотя существующие исследования в области стилометрии и стилистики обширны, им не хватает операциональных инструментов для захвата проявления личных мыслительных паттернов в языковых формах.
  2. Значимость проблемы:
    • Личные нарративы — это важный способ, которым люди понимают мир и формируют свою идентичность
    • В терапевтической среде реконструкция нарративов может способствовать восстановлению, а формализованная структура позволяет более точно выявлять языковые паттерны, связанные с психическим состоянием
    • Поддержка целевых вмешательств и терапевтических приложений
  3. Ограничения существующих подходов:
    • Традиционные качественные структуры (такие как феноменология Гуссерля, анализ когнитивных процессов Адамара), хотя и богаты описанием, не предоставляют операциональных инструментов для захвата проявления стиля в языковых формах
    • Существующие парсеры системной функциональной лингвистики «экспериментальны, чувствительны к предметной области и требуют трудоёмкой адаптации»
    • Отсутствие автоматизированных методов крупномасштабного анализа
  4. Исследовательская мотивация: На основе работы Tellier и Finkel (1995), которые определяют языковой стиль как лексические и синтаксические паттерны выражения намерения, разработать последовательностную структуру для анализа того, как личные нарративы передают субъективный опыт.

Основные вклады

  1. Теоретический вклад: Предложена последовательностная структура на основе системной функциональной лингвистики, определяющая стиль как паттерны в последовательностях языковых выборов
  2. Методологическое инновация: Разработана методология для автоматического выявления паттернов с использованием анализа последовательностей
  3. Эмпирическое исследование: Демонстрация того, как анализ паттернов через тематическое исследование нарративов о снах выявляет психологические инсайты и поддерживает терапевтические приложения
  4. Техническая реализация: Первая попытка использования больших языковых моделей для автоматизации анализа системной функциональной лингвистики

Подробное описание методологии

Определение задачи

Входные данные: Текст личного нарратива Выходные данные: Последовательностные паттерны языковых выборов, выявляющие стилистические характеристики того, как автор кодирует субъективный опыт Ограничения: На основе системы переходности системной функциональной лингвистики (процессы, участники, обстоятельства)

Архитектура модели

1. Система классификации языковых признаков

На основе системной функциональной лингвистики Халлидея, в частности системы переходности:

Типы процессов (Processes):

  • Действие (Action): Действия и события в физическом мире
  • Психический процесс (Mental): Внутренний опыт — мысли, восприятие и эмоции
  • Речевой процесс (Verbal): Коммуникативное поведение
  • Состояние (State): Существование, обладание или состояние

Участники (Participants): Реализуются через именные группы Обстоятельства (Circumstances): Реализуются через наречные группы или предложные фразы

2. Структура представления последовательностей

Каждая система языковых признаков представляется как конечное множество Σ (алфавит):

Σprocess = {action, mental, verbal, state}

Множественные алфавиты комбинируются через декартово произведение:

Σ = Σprocess × Σtense × Σaspect

3. Методы анализа последовательностей

Анализ подстрок: Выявление повторяющихся паттернов непрерывных блоков символов Анализ подпоследовательностей: Выявление паттернов, сохраняющих относительный порядок, но не требующих непрерывности

Метрика сходства: Использование косинусного сходства

cos(s1, s2) = (Σi xiyi) / (√(Σi xi²) × √(Σi yi²))

Метод кластеризации: Иерархическая агломеративная кластеризация (связь Уорда)

Технологические инновации

  1. Автоматизированное извлечение: Использование модели Llama 3.1 8B с инструкциями, извлечение языковых признаков через контекстное обучение, избегая ручных правил и экспертной аннотации
  2. Представление в виде последовательностей: Отображение нарративов в символические последовательности, поддерживающие анализ паттернов, вдохновленный вычислительной биологией
  3. Многомасштабный анализ: Многоуровневое выявление паттернов от отдельных символов до сложных подстрок
  4. Психологическая связь: Установление связи между языковыми паттернами и психическим состоянием

Экспериментальная установка

Набор данных

Корпус DreamBank:

  • Тысячи нарративов о снах, собранные в США
  • Анализ пяти серий: blind (люди с длительной слепотой, n=361), ed (вдовцы, n=139), izzy (подростки, n=1091), merri (художники, n=202), viet (ветераны войны во Вьетнаме с ПТСР, n=566)
  • Построение эталона: случайная выборка 10 нарративов из каждой серии, всего 720 нарративов о снах

Метрики оценки

  • Отношение шансов (Odds Ratio): Измерение относительной вероятности появления конкретной подстроки в разных сериях
  • Точный тест Фишера (коррекция Холма-Бонферрони): Проверка статистической значимости
  • Коэффициент силуэта (Silhouette Score): Оценка качества кластеризации
  • Косинусное сходство: Мера сходства последовательностей

Методы сравнения

  • Сравнительный анализ с эталоном (norm)
  • Сравнение паттернов между разными сериями

Детали реализации

  • Модель: Llama 3.1 8B Instruct
  • Оборудование: Tesla V100 32GB, время выполнения 80 часов
  • Предварительная обработка: Разбиение предложений SpaCy, разбиение предложений языковой моделью
  • Валидация: Количественная валидация на 50 золотых стандартных предложениях, точность предсказания 100%

Результаты экспериментов

Основные результаты

Анализ случая ветеранов войны во Вьетнаме (viet):

Выявления распределения подстрок:

  • Речевые процессы на 40% выше эталона (OR=1.4, p<0.05)
  • Психические процессы на 40% ниже эталона (OR=0.6, p<0.05)
  • Значимые паттерны непрерывных речевых процессов: verbal.verbal (OR=2.00), verbal.verbal.verbal (OR=1.75)

Анализ кластеризации:

  • Оптимальная кластеризация: 2 кластера с максимальным коэффициентом силуэта
  • Репрезентативная последовательность кластера 1: Высокая ориентация на действие (действие 23 раза, психический процесс 2 раза), охватывает 274 последовательности
  • Репрезентативная последовательность кластера 2: Баланс действия и состояния (действие 13 раз, состояние 16 раз, психический процесс 4 раза), охватывает 179 последовательностей

Анализ случаев

Пример преобразования последовательности:

"I wake in a dark room. I feel a cold wind. I tell myself to move."
→ Анализ предложений → Извлечение признаков → Последовательность: amv
→ Подстроки: {am, mv}

Экспериментальные выявления

  1. Связь с психическим состоянием: Серия viet конструирует опыт в основном через действие и речь, а не через психические процессы, что может быть связано с тем, как травма влияет на когнитивную и эмоциональную обработку
  2. Согласованность паттернов: Ветераны следуют двум шаблонам: структуре с высокой ориентацией на действие или чередованию состояния и действия
  3. Эффективность автоматизации: Языковая модель достигает 100% точности на стандартном тестовом наборе

Связанные работы

Парсинг системной функциональной лингвистики

  • Ранние методы на основе правил: ограниченное покрытие, чувствительность к предметной области
  • Конвейеры на основе графов: преобразование деревьев зависимостей в сети SFL
  • Контролируемые методы: требуют аннотированных экспертами данных
  • Инновация в данной работе: Подход с малым количеством примеров на основе языковых моделей, без ручной грамматики или словарей глаголов

Вычислительный анализ нарративов о снах

  • Традиционные методы: системы ручного кодирования на основе словарей
  • Распределённые методы: встраивания в семантическое пространство и кластеризация тем
  • Гибридные системы: оценка словарей + классификаторы
  • Методы языковых моделей: обнаружение эмоций и предсказание символов
  • Отличие данной работы: Фокус на «как говорится» вместо «что говорится»

Заключение и обсуждение

Основные выводы

  1. Теоретический вклад: Успешная формализация стиля как последовательностных паттернов языковых выборов на основе системной функциональной лингвистики
  2. Эффективность методологии: Автоматизированная структура способна выявлять психологически значимые паттерны
  3. Потенциал приложений: Поддержка реконструкции нарративов и целевых вмешательств в терапевтической среде

Ограничения

  1. Ошибки автоматизированного извлечения: Языковая модель может неправильно классифицировать процессы или участников, влияя на надёжность паттернов
  2. Психологическая интерпретация: Связь между языковыми выборами и психическим состоянием остаётся корреляционной и описательной, требуя клинической валидации
  3. Диапазон признаков: Текущий анализ сосредоточен только на типах процессов, будущие работы должны расширить охват более детальными языковыми признаками

Направления будущих исследований

  1. Профилирование авторов: Вывод характеристик авторов на основе паттернов субъективного опыта
  2. Условная генерация стиля: Генерация нарративов из последовательностей выборов, поддерживающая терапевтические вмешательства
  3. Методы сложных систем: Применение метрик, таких как сложность Лемпеля-Зива, для количественной оценки избыточности последовательностей
  4. Клиническая валидация: Сочетание с клинической оценкой для валидации психологических интерпретаций

Глубокая оценка

Преимущества

  1. Междисциплинарная инновация: Успешная интеграция функциональной лингвистики, компьютерной науки и психологии
  2. Передовая методология: Первое использование больших языковых моделей для автоматизации анализа SFL
  3. Практическая ценность: Предоставление операциональных инструментов для терапевтических приложений
  4. Теоретическая строгость: Основание на зрелой теории системной функциональной лингвистики
  5. Масштабируемость: Структура может адаптироваться к различным языковым признакам и сценариям приложений

Недостатки

  1. Ограниченная валидация: Валидация только на 50 стандартных образцах, требуется более крупномасштабная валидация с экспертной аннотацией
  2. Психологическая связь: Отсутствие прямой валидации с клиническими диагнозами
  3. Языковое покрытие: Тестирование только на английских нарративах о снах, кроссязыковая применимость неизвестна
  4. Упрощение признаков: Текущий анализ относительно прост, не полностью использует богатство SFL

Влияние

  1. Академический вклад: Предоставление новой исследовательской парадигмы для пересечения вычислительной лингвистики и психологии
  2. Перспективы приложений: Широкие перспективы приложений в цифровой терапии, анализе авторства, генерации стиля и других областях
  3. Воспроизводимость: Авторы предоставляют полные подсказки, гиперпараметры и извлечённые последовательности, поддерживающие воспроизведение исследований

Применимые сценарии

  1. Клиническая психология: Помощь терапевтам в анализе паттернов нарративов пациентов
  2. Судебная лингвистика: Идентификация авторства и анализ характеристик
  3. Литературоведение: Количественный анализ стиля писателей
  4. Цифровое здравоохранение: Мониторинг психического здоровья личных дневников и нарративов
  5. Образовательные приложения: Руководство по стилю письма и персонализированная обратная связь

Библиография

Статья цитирует обширную междисциплинарную литературу, включая:

  • Halliday et al. (2014): Теоретическая основа системной функциональной лингвистики
  • Tellier and Finkel (1995): Ранние работы по формализации языкового стиля
  • Banks (2019): Практическое руководство по SFL
  • Domhoff and Schneider (2008): Методы количественного анализа снов
  • А также обширную литературу по вычислительной лингвистике, психологии и когнитивной науке

Данная статья демонстрирует превосходные результаты в теоретических инновациях, методологической передовости и перспективах приложений, открывая новые направления исследований в области вычислительного анализа личных нарративов и обладает значительной академической ценностью и практической значимостью.