2025-11-21T15:34:16.184333

Formalizing Style in Personal Narratives

Cortal, Finkel
Personal narratives are stories authors construct to make meaning of their experiences. Style, the distinctive way authors use language to express themselves, is fundamental to how these narratives convey subjective experiences. Yet there is a lack of a formal framework for systematically analyzing these stylistic choices. We present a novel approach that formalizes style in personal narratives as patterns in the linguistic choices authors make when communicating subjective experiences. Our framework integrates three domains: functional linguistics establishes language as a system of meaningful choices, computer science provides methods for automatically extracting and analyzing sequential patterns, and these patterns are linked to psychological observations. Using language models, we automatically extract linguistic features such as processes, participants, and circumstances. We apply our framework to hundreds of dream narratives, including a case study on a war veteran with post-traumatic stress disorder. Analysis of his narratives uncovers distinctive patterns, particularly how verbal processes dominate over mental ones, illustrating the relationship between linguistic choices and psychological states.
academic

개인 서사에서의 문체 형식화

기본 정보

  • 논문 ID: 2510.08649
  • 제목: Formalizing Style in Personal Narratives
  • 저자: Gustave Cortal, Alain Finkel (Université Paris-Saclay, CNRS)
  • 분류: cs.CL (계산 언어학), cs.AI
  • 발표 시간: 2025년 10월 13일 (arXiv v2)
  • 논문 링크: https://arxiv.org/abs/2510.08649

초록

개인 서사는 저자가 자신의 경험을 이해하기 위해 구성한 이야기이다. 문체, 즉 저자가 자신을 표현하기 위해 언어를 사용하는 독특한 방식은 이러한 서사가 주관적 경험을 전달하는 기초이다. 그러나 이러한 문체 선택을 체계적으로 분석하는 형식적 틀이 부족하다. 본 논문은 개인 서사에서의 문체를 저자가 주관적 경험을 전달할 때 하는 언어 선택 패턴으로 형식화하는 새로운 접근 방식을 제시한다. 본 프레임워크는 세 가지 영역을 통합한다: 기능 언어학은 언어를 의미 있는 선택의 체계로 확립하고, 컴퓨터 과학은 수열 패턴의 자동 추출 및 분석 방법을 제공하며, 이는 심리학 관찰과 연관된다. 언어 모델을 사용하여 과정, 참여자, 환경 등의 언어적 특징을 자동으로 추출한다. 본 프레임워크를 수백 개의 꿈 서사에 적용하며, 외상후 스트레스 장애를 앓고 있는 베트남 전쟁 참전 용사의 사례 연구를 포함한다. 그의 서사 분석은 독특한 패턴을 드러내며, 특히 언어 과정이 심리 과정을 어떻게 지배하는지를 보여주어 언어 선택과 심리 상태 간의 관계를 설명한다.

연구 배경 및 동기

문제 정의

  1. 핵심 문제: 개인 서사에서 문체 선택을 체계적으로 분석하는 형식적 틀이 부족하다. 기존의 문체론 및 문체 계량학 연구는 풍부하지만, 개인의 사고 패턴이 언어 형식에 어떻게 나타나는지를 포착하는 운영 도구가 부족하다.
  2. 문제의 중요성:
    • 개인 서사는 인간이 세계를 이해하고 정체성을 형성하는 중요한 방식이다
    • 치료 환경에서 서사 재구성은 회복을 촉진할 수 있으며, 형식화된 프레임워크는 심리 상태와 관련된 언어 패턴을 더 정확하게 식별할 수 있다
    • 표적화된 개입 및 치료 응용을 지원한다
  3. 기존 방법의 한계:
    • 전통적 정성 프레임워크(예: 후설 현상학, 아다마드의 인지 과정 분석)는 풍부한 설명을 제공하지만 언어 형식에 나타나는 문체를 포착하는 운영 도구를 제공하지 않는다
    • 기존의 체계 기능 언어학 파서는 "실험적이고, 영역에 민감하며, 적응에 노동 집약적이다"
    • 자동화된 대규모 분석 방법이 부족하다
  4. 연구 동기: Tellier와 Finkel (1995)의 작업을 기반으로 언어 문체를 의도 표현의 어휘 및 통사 패턴으로 정의하고, 개인 서사가 주관적 경험을 어떻게 전달하는지 분석하기 위한 수열 기반 프레임워크를 개발한다.

핵심 기여

  1. 이론적 기여: 체계 기능 언어학을 기반으로 한 수열 프레임워크를 제시하며, 문체를 언어 선택 수열의 패턴으로 정의한다
  2. 방법론적 혁신: 수열 분석을 사용하여 패턴을 자동으로 식별하는 방법론을 개발한다
  3. 실증 연구: 꿈 서사 사례 연구를 통해 패턴 분석이 어떻게 심리학적 통찰을 드러내고 치료 응용을 지원하는지 보여준다
  4. 기술 구현: 대규모 언어 모델을 사용하여 체계 기능 언어학 분석을 자동화하는 첫 시도이다

방법론 상세 설명

작업 정의

입력: 개인 서사 텍스트 출력: 저자가 주관적 경험을 인코딩하는 문체적 특징을 드러내는 언어 선택의 수열 패턴 제약: 체계 기능 언어학의 이행성 체계(과정, 참여자, 환경)를 기반으로 함

모델 아키텍처

1. 언어 특징 분류 체계

Halliday의 체계 기능 언어학, 특히 이행성 체계를 기반으로 함:

과정 유형(Processes):

  • 행동 과정(Action): 물리적 세계의 행동 및 사건
  • 심리 과정(Mental): 생각, 지각, 감정 등의 내적 경험
  • 언어 과정(Verbal): 의사소통 행동
  • 상태 과정(State): 존재, 소유 또는 상태

참여자(Participants): 명사구를 통해 실현됨 환경(Circumstances): 부사구 또는 전치사구를 통해 실현됨

2. 수열 표현 프레임워크

각 언어 특징 체계를 유한 집합 Σ(알파벳)으로 표현:

Σprocess = {action, mental, verbal, state}

여러 알파벳을 데카르트 곱으로 결합:

Σ = Σprocess × Σtense × Σaspect

3. 수열 분석 방법

부분 문자열 분석: 연속 기호 블록의 반복 패턴 식별 부분 수열 분석: 상대적 순서는 유지하지만 연속성이 필요 없는 패턴 식별

유사도 척도: 코사인 유사도 사용

cos(s1, s2) = (Σi xiyi) / (√(Σi xi²) × √(Σi yi²))

클러스터링 방법: 계층적 응집 클러스터링(Ward 연결)

기술 혁신점

  1. 자동화 추출: Llama 3.1 8B 명령 조정 모델을 사용하여 문맥 학습을 통해 언어 특징을 추출하며, 수동 규칙 및 전문가 주석을 회피한다
  2. 수열화 표현: 서사를 기호 수열로 매핑하여 계산 생물학에서 영감을 받은 패턴 분석을 지원한다
  3. 다중 스케일 분석: 단일 기호에서 복잡한 부분 문자열까지의 다층 패턴 인식
  4. 심리학적 연관: 언어 패턴과 심리 상태 간의 연결 구축

실험 설정

데이터셋

DreamBank 코퍼스:

  • 미국에서 수집한 수천 개의 꿈 서사
  • 다섯 가지 시리즈 분석: blind(장기 시각 장애 꿈 보는 사람, n=361), ed(홀아비, n=139), izzy(청소년, n=1091), merri(예술가, n=202), viet(베트남 전쟁 참전 용사, PTSD, n=566)
  • 벤치마크 구성: 각 시리즈에서 무작위로 10개 서사 샘플링, 총 720개 꿈 서사

평가 지표

  • 승산비(Odds Ratio): 특정 부분 문자열이 다양한 시리즈에서 나타날 상대적 가능성 측정
  • Fisher 정확 검정(Holm-Bonferroni 보정): 통계적 유의성 검정
  • 실루엣 계수(Silhouette Score): 클러스터링 품질 평가
  • 코사인 유사도: 수열 유사성 측정

비교 방법

  • 벤치마크(norm)와의 비교 분석
  • 다양한 시리즈 간 패턴 비교

구현 세부사항

  • 모델: Llama 3.1 8B Instruct
  • 하드웨어: Tesla V100 32GB, 80시간 실행
  • 전처리: SpaCy 문장 분할, 언어 모델 문장 분할
  • 검증: 50개 금표준 문장의 정량적 검증, 예측 정확도 100%

실험 결과

주요 결과

베트남 전쟁 참전 용사(viet) 사례 분석:

부분 문자열 분포 발견:

  • 언어 과정이 벤치마크보다 40% 높음(OR=1.4, p<0.05)
  • 심리 과정이 벤치마크보다 40% 낮음(OR=0.6, p<0.05)
  • 연속 언어 과정 패턴이 유의함: verbal.verbal(OR=2.00), verbal.verbal.verbal(OR=1.75)

클러스터링 분석:

  • 최적 클러스터링: 2개 클러스터, 실루엣 계수 최대
  • 클러스터 1 대표 수열: 높은 행동 지향(행동 과정 23회, 심리 과정 2회), 274개 수열 포함
  • 클러스터 2 대표 수열: 행동-상태 균형(행동 과정 13회, 상태 과정 16회, 심리 과정 4회), 179개 수열 포함

사례 분석

예시 수열 변환:

"I wake in a dark room. I feel a cold wind. I tell myself to move."
→ 절 분석 → 특징 추출 → 수열: amv
→ 부분 문자열: {am, mv}

실험 발견

  1. 심리 상태 연관: viet는 주로 심리 과정이 아닌 행동 및 언어를 통해 경험을 구성하며, 이는 외상이 인지 및 정서 처리에 어떻게 영향을 미치는지와 관련될 수 있다
  2. 패턴 일관성: 참전 용사는 두 가지 템플릿을 따름: 높은 행동 지향 구조 또는 상태-행동 교대 구조
  3. 자동화 유효성: 언어 모델이 표준 테스트 세트에서 100% 정확도 달성

관련 연구

체계 기능 언어학 파싱

  • 초기 규칙 기반 방법: 제한된 범위, 영역 민감
  • 그래프 기반 파이프라인: 의존성 트리를 SFL 네트워크로 변환
  • 감독 방법: 전문가 주석 데이터 필요
  • 본 논문의 혁신: 수동 문법이나 동사 사전이 필요 없는 소수 샘플 언어 모델 방법

꿈 서사의 계산 분석

  • 전통적 방법: 사전 기반 수동 코딩 체계
  • 분포적 방법: 의미 공간 임베딩 및 주제 클러스터링
  • 혼합 체계: 사전 점수 + 분류기
  • 언어 모델 방법: 감정 탐지 및 문자 예측
  • 본 논문의 차이점: "무엇을 말하는가"가 아닌 "어떻게 말하는가"에 초점

결론 및 논의

주요 결론

  1. 이론적 기여: 문체를 체계 기능 언어학을 기반으로 한 언어 선택 수열 패턴으로 성공적으로 형식화했다
  2. 방법론 유효성: 자동화 프레임워크는 심리학적 의미의 패턴을 드러낼 수 있다
  3. 응용 잠재력: 치료 환경에서 서사 재구성 및 표적화된 개입을 지원한다

한계

  1. 자동 추출 오류: 언어 모델이 과정이나 참여자를 잘못 분류할 수 있으며, 이는 패턴 신뢰성에 영향을 미친다
  2. 심리학적 해석: 언어 선택과 심리 상태 간의 연관은 여전히 상관적이고 기술적이며, 임상 평가 검증이 필요하다
  3. 특징 범위: 현재는 과정 유형에만 초점을 맞추고 있으며, 향후 더 세밀한 언어 특징으로 확장이 필요하다

향후 방향

  1. 저자 프로필링: 주관적 경험 패턴을 기반으로 한 저자 특성 추론
  2. 문체 조건부 생성: 선택 수열에서 서사 생성, 치료 개입 지원
  3. 복잡성 과학 방법: Lempel-Ziv 복잡도 등의 척도를 적용하여 수열 중복성 정량화
  4. 임상 검증: 임상 평가와 결합하여 심리학적 해석 검증

심층 평가

장점

  1. 학제간 혁신: 기능 언어학, 컴퓨터 과학, 심리학을 성공적으로 통합
  2. 방법론 선진성: 대규모 언어 모델을 사용하여 SFL 분석을 자동화한 첫 시도
  3. 실용적 가치: 치료 응용을 위한 운영 도구 제공
  4. 이론적 엄밀성: 성숙한 체계 기능 언어학 이론을 기반으로 함
  5. 확장성: 프레임워크는 다양한 언어 특징 및 응용 시나리오에 적응 가능

부족한 점

  1. 검증 제한: 50개 표준 샘플에서만 검증되었으며, 더 큰 규모의 전문가 주석 검증이 필요하다
  2. 심리학적 연관: 임상 진단과의 직접적 검증 부족
  3. 언어 범위: 영어 꿈 서사만 테스트되었으며, 언어 간 적용 가능성 미지수
  4. 특징 단순화: 현재 분석은 상대적으로 단순하며, SFL의 풍부성을 충분히 활용하지 못함

영향력

  1. 학술 기여: 계산 언어학과 심리학의 교차 분야에 새로운 연구 패러다임 제공
  2. 응용 전망: 디지털 치료, 저자 분석, 문체 생성 등 분야에서 광범위한 응용 전망
  3. 재현성: 저자가 완전한 프롬프트, 하이퍼파라미터, 추출 수열을 제공하여 연구 재현 지원

적용 시나리오

  1. 임상 심리학: 치료사가 환자 서사 패턴 분석을 보조
  2. 법의학 언어학: 저자 신원 식별 및 특성 분석
  3. 문학 연구: 작가 문체의 정량적 분석
  4. 디지털 건강: 개인 일기 및 서사의 정신 건강 모니터링
  5. 교육 응용: 작문 문체 지도 및 개인화된 피드백

참고문헌

논문은 풍부한 학제간 문헌을 인용하며, 다음을 포함한다:

  • Halliday et al. (2014): 체계 기능 언어학 이론 기초
  • Tellier and Finkel (1995): 언어 문체 형식화의 초기 작업
  • Banks (2019): SFL 실무 지침
  • Domhoff and Schneider (2008): 꿈의 정량적 분석 방법
  • 그리고 계산 언어학, 심리학, 인지 과학 관련 다수의 문헌

본 논문은 이론적 혁신, 방법론 선진성, 응용 전망 측면에서 모두 우수한 성과를 보여주며, 개인 서사의 계산 분석을 위한 새로운 연구 방향을 개척했으며, 중요한 학술적 가치와 실용적 의의를 지닌다.