2025-11-21T15:34:16.184333

Formalizing Style in Personal Narratives

Cortal, Finkel

Personal narratives are stories authors construct to make meaning of their experiences. Style, the distinctive way authors use language to express themselves, is fundamental to how these narratives convey subjective experiences. Yet there is a lack of a formal framework for systematically analyzing these stylistic choices. We present a novel approach that formalizes style in personal narratives as patterns in the linguistic choices authors make when communicating subjective experiences. Our framework integrates three domains: functional linguistics establishes language as a system of meaningful choices, computer science provides methods for automatically extracting and analyzing sequential patterns, and these patterns are linked to psychological observations. Using language models, we automatically extract linguistic features such as processes, participants, and circumstances. We apply our framework to hundreds of dream narratives, including a case study on a war veteran with post-traumatic stress disorder. Analysis of his narratives uncovers distinctive patterns, particularly how verbal processes dominate over mental ones, illustrating the relationship between linguistic choices and psychological states.

academic

개인 서사에서의 문체 형식화

기본 정보

논문 ID: 2510.08649
제목: Formalizing Style in Personal Narratives
저자: Gustave Cortal, Alain Finkel (Université Paris-Saclay, CNRS)
분류: cs.CL (계산 언어학), cs.AI
발표 시간: 2025년 10월 13일 (arXiv v2)
논문 링크: https://arxiv.org/abs/2510.08649

초록

개인 서사는 저자가 자신의 경험을 이해하기 위해 구성한 이야기이다. 문체, 즉 저자가 자신을 표현하기 위해 언어를 사용하는 독특한 방식은 이러한 서사가 주관적 경험을 전달하는 기초이다. 그러나 이러한 문체 선택을 체계적으로 분석하는 형식적 틀이 부족하다. 본 논문은 개인 서사에서의 문체를 저자가 주관적 경험을 전달할 때 하는 언어 선택 패턴으로 형식화하는 새로운 접근 방식을 제시한다. 본 프레임워크는 세 가지 영역을 통합한다: 기능 언어학은 언어를 의미 있는 선택의 체계로 확립하고, 컴퓨터 과학은 수열 패턴의 자동 추출 및 분석 방법을 제공하며, 이는 심리학 관찰과 연관된다. 언어 모델을 사용하여 과정, 참여자, 환경 등의 언어적 특징을 자동으로 추출한다. 본 프레임워크를 수백 개의 꿈 서사에 적용하며, 외상후 스트레스 장애를 앓고 있는 베트남 전쟁 참전 용사의 사례 연구를 포함한다. 그의 서사 분석은 독특한 패턴을 드러내며, 특히 언어 과정이 심리 과정을 어떻게 지배하는지를 보여주어 언어 선택과 심리 상태 간의 관계를 설명한다.

연구 배경 및 동기

문제 정의

핵심 문제: 개인 서사에서 문체 선택을 체계적으로 분석하는 형식적 틀이 부족하다. 기존의 문체론 및 문체 계량학 연구는 풍부하지만, 개인의 사고 패턴이 언어 형식에 어떻게 나타나는지를 포착하는 운영 도구가 부족하다.
문제의 중요성:
- 개인 서사는 인간이 세계를 이해하고 정체성을 형성하는 중요한 방식이다
- 치료 환경에서 서사 재구성은 회복을 촉진할 수 있으며, 형식화된 프레임워크는 심리 상태와 관련된 언어 패턴을 더 정확하게 식별할 수 있다
- 표적화된 개입 및 치료 응용을 지원한다
기존 방법의 한계:
- 전통적 정성 프레임워크(예: 후설 현상학, 아다마드의 인지 과정 분석)는 풍부한 설명을 제공하지만 언어 형식에 나타나는 문체를 포착하는 운영 도구를 제공하지 않는다
- 기존의 체계 기능 언어학 파서는 "실험적이고, 영역에 민감하며, 적응에 노동 집약적이다"
- 자동화된 대규모 분석 방법이 부족하다
연구 동기: Tellier와 Finkel (1995)의 작업을 기반으로 언어 문체를 의도 표현의 어휘 및 통사 패턴으로 정의하고, 개인 서사가 주관적 경험을 어떻게 전달하는지 분석하기 위한 수열 기반 프레임워크를 개발한다.

핵심 기여

이론적 기여: 체계 기능 언어학을 기반으로 한 수열 프레임워크를 제시하며, 문체를 언어 선택 수열의 패턴으로 정의한다
방법론적 혁신: 수열 분석을 사용하여 패턴을 자동으로 식별하는 방법론을 개발한다
실증 연구: 꿈 서사 사례 연구를 통해 패턴 분석이 어떻게 심리학적 통찰을 드러내고 치료 응용을 지원하는지 보여준다
기술 구현: 대규모 언어 모델을 사용하여 체계 기능 언어학 분석을 자동화하는 첫 시도이다

방법론 상세 설명

작업 정의

입력: 개인 서사 텍스트 출력: 저자가 주관적 경험을 인코딩하는 문체적 특징을 드러내는 언어 선택의 수열 패턴 제약: 체계 기능 언어학의 이행성 체계(과정, 참여자, 환경)를 기반으로 함

모델 아키텍처

1. 언어 특징 분류 체계

Halliday의 체계 기능 언어학, 특히 이행성 체계를 기반으로 함:

과정 유형(Processes):

행동 과정(Action): 물리적 세계의 행동 및 사건
심리 과정(Mental): 생각, 지각, 감정 등의 내적 경험
언어 과정(Verbal): 의사소통 행동
상태 과정(State): 존재, 소유 또는 상태

참여자(Participants): 명사구를 통해 실현됨 환경(Circumstances): 부사구 또는 전치사구를 통해 실현됨

2. 수열 표현 프레임워크

각 언어 특징 체계를 유한 집합 Σ(알파벳)으로 표현:

Σprocess = {action, mental, verbal, state}

여러 알파벳을 데카르트 곱으로 결합:

Σ = Σprocess × Σtense × Σaspect

3. 수열 분석 방법

부분 문자열 분석: 연속 기호 블록의 반복 패턴 식별 부분 수열 분석: 상대적 순서는 유지하지만 연속성이 필요 없는 패턴 식별

유사도 척도: 코사인 유사도 사용

cos(s1, s2) = (Σi xiyi) / (√(Σi xi²) × √(Σi yi²))

클러스터링 방법: 계층적 응집 클러스터링(Ward 연결)

기술 혁신점

자동화 추출: Llama 3.1 8B 명령 조정 모델을 사용하여 문맥 학습을 통해 언어 특징을 추출하며, 수동 규칙 및 전문가 주석을 회피한다
수열화 표현: 서사를 기호 수열로 매핑하여 계산 생물학에서 영감을 받은 패턴 분석을 지원한다
다중 스케일 분석: 단일 기호에서 복잡한 부분 문자열까지의 다층 패턴 인식
심리학적 연관: 언어 패턴과 심리 상태 간의 연결 구축

실험 설정

데이터셋

DreamBank 코퍼스:

미국에서 수집한 수천 개의 꿈 서사
다섯 가지 시리즈 분석: blind(장기 시각 장애 꿈 보는 사람, n=361), ed(홀아비, n=139), izzy(청소년, n=1091), merri(예술가, n=202), viet(베트남 전쟁 참전 용사, PTSD, n=566)
벤치마크 구성: 각 시리즈에서 무작위로 10개 서사 샘플링, 총 720개 꿈 서사

평가 지표

승산비(Odds Ratio): 특정 부분 문자열이 다양한 시리즈에서 나타날 상대적 가능성 측정
Fisher 정확 검정(Holm-Bonferroni 보정): 통계적 유의성 검정
실루엣 계수(Silhouette Score): 클러스터링 품질 평가
코사인 유사도: 수열 유사성 측정

비교 방법

벤치마크(norm)와의 비교 분석
다양한 시리즈 간 패턴 비교

구현 세부사항

모델: Llama 3.1 8B Instruct
하드웨어: Tesla V100 32GB, 80시간 실행
전처리: SpaCy 문장 분할, 언어 모델 문장 분할
검증: 50개 금표준 문장의 정량적 검증, 예측 정확도 100%

실험 결과

주요 결과

베트남 전쟁 참전 용사(viet) 사례 분석:

부분 문자열 분포 발견:

언어 과정이 벤치마크보다 40% 높음(OR=1.4, p<0.05)
심리 과정이 벤치마크보다 40% 낮음(OR=0.6, p<0.05)
연속 언어 과정 패턴이 유의함: verbal.verbal(OR=2.00), verbal.verbal.verbal(OR=1.75)

클러스터링 분석:

최적 클러스터링: 2개 클러스터, 실루엣 계수 최대
클러스터 1 대표 수열: 높은 행동 지향(행동 과정 23회, 심리 과정 2회), 274개 수열 포함
클러스터 2 대표 수열: 행동-상태 균형(행동 과정 13회, 상태 과정 16회, 심리 과정 4회), 179개 수열 포함

사례 분석

예시 수열 변환:

"I wake in a dark room. I feel a cold wind. I tell myself to move."
→ 절 분석 → 특징 추출 → 수열: amv
→ 부분 문자열: {am, mv}

실험 발견

심리 상태 연관: viet는 주로 심리 과정이 아닌 행동 및 언어를 통해 경험을 구성하며, 이는 외상이 인지 및 정서 처리에 어떻게 영향을 미치는지와 관련될 수 있다
패턴 일관성: 참전 용사는 두 가지 템플릿을 따름: 높은 행동 지향 구조 또는 상태-행동 교대 구조
자동화 유효성: 언어 모델이 표준 테스트 세트에서 100% 정확도 달성