2025-11-21T15:34:16.184333

Formalizing Style in Personal Narratives

Cortal, Finkel
Personal narratives are stories authors construct to make meaning of their experiences. Style, the distinctive way authors use language to express themselves, is fundamental to how these narratives convey subjective experiences. Yet there is a lack of a formal framework for systematically analyzing these stylistic choices. We present a novel approach that formalizes style in personal narratives as patterns in the linguistic choices authors make when communicating subjective experiences. Our framework integrates three domains: functional linguistics establishes language as a system of meaningful choices, computer science provides methods for automatically extracting and analyzing sequential patterns, and these patterns are linked to psychological observations. Using language models, we automatically extract linguistic features such as processes, participants, and circumstances. We apply our framework to hundreds of dream narratives, including a case study on a war veteran with post-traumatic stress disorder. Analysis of his narratives uncovers distinctive patterns, particularly how verbal processes dominate over mental ones, illustrating the relationship between linguistic choices and psychological states.
academic

Formalizing Style in Personal Narratives

基本信息

  • 论文ID: 2510.08649
  • 标题: Formalizing Style in Personal Narratives
  • 作者: Gustave Cortal, Alain Finkel (Université Paris-Saclay, CNRS)
  • 分类: cs.CL (Computational Linguistics), cs.AI
  • 发表时间: 2025年10月13日 (arXiv v2)
  • 论文链接: https://arxiv.org/abs/2510.08649

摘要

个人叙述是作者为理解其经历而构建的故事。风格,即作者使用语言表达自己的独特方式,是这些叙述传达主观体验的基础。然而,缺乏系统分析这些风格选择的正式框架。本文提出了一种新颖的方法,将个人叙述中的风格形式化为作者在传达主观体验时所做的语言选择模式。该框架整合三个领域:功能语言学将语言确立为有意义选择的系统,计算机科学提供自动提取和分析序列模式的方法,这些模式与心理学观察相关联。使用语言模型,自动提取过程、参与者和环境等语言特征。将框架应用于数百个梦境叙述,包括一个患有创伤后应激障碍的退伍军人的案例研究。对其叙述的分析揭示了独特的模式,特别是言语过程如何主导心理过程,说明了语言选择与心理状态之间的关系。

研究背景与动机

问题定义

  1. 核心问题:缺乏系统分析个人叙述中风格选择的正式框架。现有的文体学和风格计量学研究虽然丰富,但缺乏操作性工具来捕捉个人思维模式在语言形式中的体现。
  2. 问题重要性
    • 个人叙述是人类理解世界和塑造身份的重要方式
    • 在治疗环境中,叙述重构可以促进康复,形式化框架能够更精确地识别与心理状态相关的语言模式
    • 支持针对性干预和治疗应用
  3. 现有方法局限性
    • 传统的定性框架(如胡塞尔现象学、阿达马德的认知过程分析)虽然描述丰富,但不提供捕捉风格在语言形式中体现的操作工具
    • 现有的系统功能语言学解析器"实验性、领域敏感且适应性劳动密集"
    • 缺乏自动化的大规模分析方法
  4. 研究动机:基于Tellier和Finkel (1995)的工作,将语言风格定义为表达意图的词汇和句法模式,开发基于序列的框架来分析个人叙述如何传达主观体验。

核心贡献

  1. 理论贡献:提出了基于系统功能语言学的序列框架,将风格定义为语言选择序列中的模式
  2. 方法创新:开发了使用序列分析自动识别模式的方法论
  3. 实证研究:通过梦境叙述案例研究展示了模式分析如何揭示心理洞察并支持治疗应用
  4. 技术实现:首次尝试使用大语言模型自动化系统功能语言学分析

方法详解

任务定义

输入:个人叙述文本 输出:语言选择的序列模式,揭示作者编码主观体验的风格特征 约束:基于系统功能语言学的及物性系统(过程、参与者、环境)

模型架构

1. 语言特征分类系统

基于Halliday的系统功能语言学,特别是及物性系统:

过程类型(Processes)

  • 行动过程(Action):物理世界中的行动和事件
  • 心理过程(Mental):思想、感知和情感等内在体验
  • 言语过程(Verbal):交流行为
  • 状态过程(State):存在、拥有或状态

参与者(Participants):通过名词短语实现 环境(Circumstances):通过副词组或介词短语实现

2. 序列表示框架

将每个语言特征系统表示为有限集合Σ(字母表):

Σprocess = {action, mental, verbal, state}

通过笛卡尔积组合多个字母表:

Σ = Σprocess × Σtense × Σaspect

3. 序列分析方法

子串分析:识别连续符号块的重复模式 子序列分析:识别保持相对顺序但不要求连续的模式

相似度度量:使用余弦相似度

cos(s1, s2) = (Σi xiyi) / (√(Σi xi²) × √(Σi yi²))

聚类方法:层次聚合聚类(Ward连接)

技术创新点

  1. 自动化提取:使用Llama 3.1 8B指令调优模型,通过上下文学习提取语言特征,避免手工规则和专家标注
  2. 序列化表示:将叙述映射为符号序列,支持计算生物学启发的模式分析
  3. 多尺度分析:从单个符号到复杂子串的多层次模式识别
  4. 心理学关联:将语言模式与心理状态建立联系

实验设置

数据集

DreamBank语料库

  • 数千个美国收集的梦境叙述
  • 分析五个系列:blind(长期失明梦者,n=361)、ed(鳏夫,n=139)、izzy(青少年,n=1091)、merri(艺术家,n=202)、viet(越战退伍军人,PTSD,n=566)
  • 构建基准:每个系列随机抽样10个叙述,共720个梦境叙述

评价指标

  • Odds Ratio:衡量特定子串在不同系列中出现的相对可能性
  • Fisher精确检验(Holm-Bonferroni校正):统计显著性检验
  • 轮廓系数(Silhouette Score):聚类质量评估
  • 余弦相似度:序列相似性度量

对比方法

  • 与基准(norm)的对比分析
  • 不同系列间的模式对比

实现细节

  • 模型:Llama 3.1 8B Instruct
  • 硬件:Tesla V100 32GB,运行80小时
  • 预处理:SpaCy分句,语言模型分句
  • 验证:50个金标准句子的定量验证,预测准确率100%

实验结果

主要结果

越战退伍军人(viet)案例分析:

子串分布发现

  • 言语过程比基准高40%(OR=1.4,p<0.05)
  • 心理过程比基准低40%(OR=0.6,p<0.05)
  • 连续言语过程模式显著:verbal.verbal(OR=2.00)、verbal.verbal.verbal(OR=1.75)

聚类分析

  • 最优聚类:2个簇,轮廓系数最大
  • 簇1代表序列:高度行动导向(行动过程23次,心理过程2次),覆盖274个序列
  • 簇2代表序列:行动-状态平衡(行动过程13次,状态过程16次,心理过程4次),覆盖179个序列

案例分析

示例序列转换

"I wake in a dark room. I feel a cold wind. I tell myself to move."
→ Clause分析 → 特征提取 → 序列:amv
→ 子串:{am, mv}

实验发现

  1. 心理状态关联:viet主要通过行动和言语而非心理过程构建体验,可能与创伤如何影响认知和情感处理相关
  2. 模式一致性:退伍军人遵循两种模板:高度行动导向结构或状态-行动交替结构
  3. 自动化有效性:语言模型在标准测试集上达到100%准确率

相关工作

系统功能语言学解析

  • 早期基于规则的方法:覆盖范围有限,领域敏感
  • 基于图的管道:将依存树转换为SFL网络
  • 监督方法:需要专家标注数据
  • 本文创新:少样本语言模型方法,无需手工语法或动词词典

梦境叙述计算分析

  • 传统方法:基于词典的手工编码系统
  • 分布式方法:语义空间嵌入和主题聚类
  • 混合系统:词典评分+分类器
  • 语言模型方法:情感检测和字符预测
  • 本文区别:关注"如何说"而非"说什么"

结论与讨论

主要结论

  1. 理论贡献:成功将风格形式化为基于系统功能语言学的语言选择序列模式
  2. 方法有效性:自动化框架能够揭示心理学意义的模式
  3. 应用潜力:在治疗环境中支持叙述重构和针对性干预

局限性

  1. 自动提取误差:语言模型可能误分类过程或参与者,影响模式可靠性
  2. 心理学解释:语言选择与心理状态的关联仍是相关性和描述性的,需要临床评估验证
  3. 特征范围:当前仅关注过程类型,未来需扩展到更细粒度的语言特征

未来方向

  1. 作者画像:基于主观体验模式的作者特征推断
  2. 风格条件生成:从选择序列生成叙述,支持治疗干预
  3. 复杂性科学方法:应用Lempel-Ziv复杂度等度量量化序列冗余
  4. 临床验证:与临床评估结合验证心理学解释

深度评价

优点

  1. 跨学科创新:成功整合功能语言学、计算机科学和心理学
  2. 方法先进性:首次使用大语言模型自动化SFL分析
  3. 实用价值:为治疗应用提供操作性工具
  4. 理论严谨:基于成熟的系统功能语言学理论
  5. 可扩展性:框架可适应不同语言特征和应用场景

不足

  1. 验证有限:仅在50个标准样本上验证,需要更大规模的专家标注验证
  2. 心理学关联:缺乏与临床诊断的直接验证
  3. 语言覆盖:仅测试英语梦境叙述,跨语言适用性未知
  4. 特征简化:当前分析相对简单,未充分利用SFL的丰富性

影响力

  1. 学术贡献:为计算语言学和心理学交叉领域提供新的研究范式
  2. 应用前景:在数字治疗、作者分析、风格生成等领域具有广阔应用前景
  3. 可复现性:作者提供完整的提示词、超参数和提取序列,支持研究复现

适用场景

  1. 临床心理学:辅助治疗师分析患者叙述模式
  2. 法医语言学:作者身份识别和特征分析
  3. 文学研究:作家风格的定量分析
  4. 数字健康:个人日记和叙述的心理健康监测
  5. 教育应用:写作风格指导和个性化反馈

参考文献

论文引用了丰富的跨学科文献,包括:

  • Halliday et al. (2014): 系统功能语言学理论基础
  • Tellier and Finkel (1995): 语言风格形式化的早期工作
  • Banks (2019): SFL实践指导
  • Domhoff and Schneider (2008): 梦境定量分析方法
  • 以及大量计算语言学、心理学和认知科学相关文献

这篇论文在理论创新、方法先进性和应用前景方面都表现出色,为个人叙述的计算分析开辟了新的研究方向,具有重要的学术价值和实用意义。