2025-11-11T14:16:09.100728

Evaluating Human-LLM Representation Alignment: A Case Study on Affective Sentence Generation for Augmentative and Alternative Communication

Choudhury, Kumar, Martin

Gaps arise between a language model's use of concepts and people's expectations. This gap is critical when LLMs generate text to help people communicate via Augmentative and Alternative Communication (AAC) tools. In this work, we introduce the evaluation task of Representation Alignment for measuring this gap via human judgment. In our study, we expand keywords and emotion representations into full sentences. We select four emotion representations: Words, Valence-Arousal-Dominance (VAD) dimensions expressed in both Lexical and Numeric forms, and Emojis. In addition to Representation Alignment, we also measure people's judgments of the accuracy and realism of the generated sentences. While representations like VAD break emotions into easy-to-compute components, our findings show that people agree more with how LLMs generate when conditioned on English words (e.g., "angry") rather than VAD scales. This difference is especially visible when comparing Numeric VAD to words. Furthermore, we found that the perception of how much a generated sentence conveys an emotion is dependent on both the representation type and which emotion it is.

academic

인간-LLM 표현 정렬 평가: 보완대체의사소통을 위한 정서 문장 생성 사례 연구

기본 정보

논문 ID: 2503.11881
제목: Evaluating Human-LLM Representation Alignment: A Case Study on Affective Sentence Generation for Augmentative and Alternative Communication
저자: Shadab Choudhury, Asha Kumar, Lara J. Martin (메릴랜드 볼티모어 카운티 대학교)
분류: cs.CL (계산언어학)
발표 시간: 2025년
논문 링크: https://arxiv.org/abs/2503.11881

초록

본 연구는 대규모 언어모델(LLM)의 개념 사용과 인간의 기대 사이의 격차 문제를 다루며, 특히 보완대체의사소통(AAC) 도구 적용 시나리오에 초점을 맞춥니다. 본 연구는 인간의 판단을 통해 이러한 격차를 측정하는 평가 작업인 "표현 정렬(Representation Alignment)"을 제시합니다. 네 가지 정서 표현 방식을 선택했습니다: 영어 어휘, 어휘화된 VAD 차원, 수치화된 VAD 차원, 그리고 이모지. 생성된 문장의 정확성과 진정성을 평가했습니다. 결과는 VAD 척도에 비해 인간이 영어 어휘 조건 하에서 LLM 생성 결과를 더 선호함을 보여주며, 이러한 차이는 수치 VAD와 어휘 비교에서 특히 두드러집니다.

연구 배경 및 동기

문제 정의

핵심 문제: LLM의 개념 사용과 인간의 기대 사이의 격차, 특히 AAC 도구 적용에서 중요
적용 시나리오: AAC 도구는 정상적인 음성 의사소통이 불가능한 사람들의 소통을 지원하지만, 의사소통 속도가 주요 문제점
기술적 과제: LLM이 생성한 텍스트가 사용자의 정서 의도와 표현 방식을 정확히 반영하도록 보장하는 방법

연구의 중요성

AAC 사용자는 의사소통 지연으로 인해 종종 무시당하거나 중단됨
현존하는 NLP 기술은 AAC 도구의 의사소통 속도 향상을 기대할 수 있음
사용자는 LLM에 대한 제어 수준, 정확성, 맥락 적응성에 대한 우려를 가짐

기존 방법의 한계

LLM과 인간 간의 개념 이해 정렬 정도를 체계적으로 평가하는 방법 부족
정서 표현 방식 선택의 실증적 근거 부족
다양한 표현 방식이 사용자 경험에 미치는 영향을 충분히 고려하지 않음

핵심 기여

표현 정렬 평가 패러다임 제시: 인간의 판단을 통해 LLM의 개념 사용과 인간의 심리 모델 간의 정렬 정도를 측정하는 평가 방법 도입
네 가지 정서 표현의 체계적 비교: Words, Lexical VAD, Numeric VAD, Emojis 네 가지 표현 방식의 효과를 종합적으로 평가
최적 표현 방식의 실증적 발견: 영어 어휘와 어휘화된 VAD가 표현 정렬, 정확성, 진정성 측면에서 최고 성능을 보임을 증명
AAC 적용 지침: 향후 AAC 적용에서 정서 표현 선택을 위한 실증적 근거 제공

방법 상세 설명

작업 정의

입력: 세 개의 핵심 단어 + 하나의 정서 표현
출력: 핵심 단어를 포함하고 지정된 정서를 표현하는 완전한 문장
제약: 생성된 문장은 자연스러워야 하며, 정서를 정확히 표현해야 하고, 정서 단어의 직접 사용을 피해야 함

정서 표현 방식

1. Words 표현

직접 영어 정서 단어 사용 (예: "angry", "happy")

2. Lexical VAD 표현

5단계 어휘로 VAD 차원 설명:

Valence(가치): Very High/High/Moderate/Low/Very Low
Arousal(각성): 정서 활성화 수준
Dominance(지배성): 정서에 대한 통제 수준

3. Numeric VAD 표현

-5.0에서 +5.0의 수치 척도로 VAD 차원 표현

4. Emojis 표현

유니코드 이모지로 정서 표현

모델 아키텍처 및 생성 전략

사용 모델

GPT-4-Turbo-2024-04-09: 상용 API 호출
LLaMA-3.3-70B: 8비트 양자화 버전, 로컬 배포

프롬프트 전략

Words/Emojis: 소수 샷 프롬프팅(Few-shot prompting)
VAD 표현: 단계 후퇴 사고 연쇄 프롬프팅(Step-back chain-of-thought)
제약 조건: 정서 단어의 직접 사용 금지, "보여주기, 말하지 않기" 요구

데이터 생성

모델당 총 360개 문장 (표현 방식당 90개)
Demszky 등(2020)의 분류에서 나온 18가지 다양한 정서 포함
각 정서마다 평가용으로 무작위 선택된 2개 문장

실험 설정

데이터셋 구성

정서 선택: Demszky 등(2020)의 정서 분류에 기반하여 18가지 대표 정서 선택
핵심 단어 조합: 일반적인 단어 조합 사용, 예: Place, Great, Korean, Finals, Semester, Math
VAD 수치: Guo와 Choi(2021)의 수치에 기반하여 -5.0에서 +5.0 범위로 정규화

인간 평가 설계

참여자 모집

플랫폼: Prolific 크라우드소싱 플랫폼
인원: 200명 참여자 (모델당 100명)
조건: 18세 이상, 미국 거주, 영어 유창
보상: $14/시간, 약 15분 작업

평가 작업

1. 표현 정렬 평가

하나의 정서 표현과 네 개의 생성 문장 제시
참여자가 해당 정서에 가장 부합하는 문장 선택
각 참여자 10개 질문 답변, 무작위 배정

2. 정확성 및 진정성 평가

5점 리커트 척도로 평가:
- "Convey": 문장이 정서를 전달하는 정도
- "You'd say": 참여자가 말할 법한 말처럼 들리는 정도
- "Someone Else'd say": 다른 사람이 말할 법한 말처럼 들리는 정도

평가 지표

표현 정렬 지표

선택률: 특정 표현이 선택된 백분율
Shannon 엔트로피: 선택의 일관성 정도 측정
자기 정렬: 동일 표현 생성과 평가의 일치도

정확성 및 진정성 지표

세 차원의 평균 리커트 점수
ANOVA 통계적 유의성 검정
사후 분석을 위한 쌍체 t검정

실험 결과

주요 결과

표현 정렬 성능

표현 방식	GPT-4 선택률	LLaMA-3 선택률	GPT-4 엔트로피	LLaMA-3 엔트로피
Words	61.9%	57.5%	0.32	0.42
Lexical VAD	52.0%	-	0.61	0.72
Numeric VAD	-	-	0.70	0.63
Emojis	-	-	0.67	0.52

주요 발견

Words 표현 최적: 두 모델 모두에서 가장 높은 자기 정렬률과 가장 낮은 엔트로피 값 표시
Lexical VAD 차선: GPT-4에서 좋은 성능을 보이지만 LLaMA-3에서는 효과 저하
Numeric VAD 최악 성능: 가장 높은 엔트로피 값, 참여자의 의견 일치 어려움을 시사
표현 간 정렬: Emojis와 Lexical VAD는 LLaMA-3에서 정렬성 표시

정확성 및 진정성 결과

통계적 유의성

GPT-4: 정서 표현이 "Convey"와 "You'd say"에 유의미한 영향 (p < 0.01)
LLaMA-3: 정서 표현이 "Convey"와 "Someone Else'd say"에 유의미한 영향 (p < 0.05)

쌍체 비교

Words는 "Convey" 차원에서 Numeric VAD보다 유의미하게 우수 (GPT-4, p = 0.002)
Lexical VAD는 "Convey" 차원에서 Numeric VAD보다 유의미하게 우수 (LLaMA-3, p = 0.018)
Words는 "You'd say" 차원에서 Emojis (p = 0.005)와 Numeric VAD (p = 0.044)보다 유의미하게 우수

정서 특이성 분석

모델 간 차이

GPT-4는 "grateful" 정서 문장 생성에서 LLaMA-3보다 명백히 우수
다양한 정서가 다양한 표현 조건에서 유의미한 성능 차이 존재
특정 정서 (예: "excited", "proud")는 특정 조건에서 성능 저하

표현 적응성

긍정 정서는 일반적으로 Words 표현에서 더 나은 성능
복잡한 정서 상태는 Lexical VAD 표현에 더 적합
Numeric VAD는 세밀한 정서 구분 처리에 어려움 존재

제거 실험

핵심 단어 준수도 분석

모델	1개 단어 포함	2개 단어 포함	3개 단어 포함	평균 정확률
GPT-4, 1x	1.00	1.00	0.936	0.978
LLaMA-3, 1x	0.908	0.897	0.781	0.862
LLaMA-3, 3x	0.969	0.969	0.850	0.930

VAD 훈련 효과

참여자에게 VAD 개념 설명과 연습 문제를 제공하여 이해 정확성을 향상시켰으나, 여전히 인지 부하 문제 존재.

결론 및 논의

주요 결론

표현 정렬의 중요성: 인간과 LLM 간의 개념 이해 정렬 정도가 응용 효과에 직접 영향
Words 표현의 우월성: 영어 어휘가 정서 표현에서 가장 강한 정렬 효과 제공
VAD 표현의 복잡성: 어휘화된 VAD가 수치화된 VAD보다 우수하지만, 여전히 직접 어휘 표현에 미치지 못함
모델 간 차이: 서로 다른 LLM은 정서 이해 및 생성에서 유의미한 차이 존재

한계

기술적 한계

모델 선택: 두 개의 LLM만 사용, LLaMA-3은 8비트 양자화 버전 사용
언어 제한: 영어만 포함, 다른 언어는 다른 결과 가능성
참여자 대표성: 실제 AAC 사용자 집단 미포함

방법론적 한계

VAD 이해 부담: 참여자가 VAD 개념을 추가로 학습해야 하며, 평가 결과에 영향 가능
이모지 주관성: 문화적 배경에 따른 이모지 이해의 차이 존재
정서 복잡성: 18가지 정서는 완전한 정서 스펙트럼을 포함하지 못할 수 있음

향후 방향

모델 범위 확장: 더 많은 최신 LLM 모델 테스트
다국어 검증: 다른 언어 환경에서 결론 검증
사용자 개인화: 특정 AAC 사용자 집단을 위한 개인화된 표현 학습
실시간 응용: 실제 AAC 환경에서의 배포 및 평가

심층 평가

장점

방법론적 혁신성

표현 정렬 패러다임 창시: LLM의 개념 이해를 체계적으로 평가하는 새로운 방법 제공
다차원 평가 설계: 정렬성, 정확성, 진정성을 결합한 종합 평가 프레임워크
실용 지향 연구: AAC 응용 시나리오의 실제 요구에 직접 대응

실험의 충분성

대규모 인간 평가: 200명 참여자의 크라우드소싱 평가로 결과 신뢰성 보장
통계적 엄밀성: ANOVA 및 쌍체 t검정으로 결과 유의성 확보
다각도 분석: 표현 정렬, 정확성, 진정성의 다양한 차원에서 종합 평가

결과의 설득력

일관성 있는 발견: 두 모델에서의 결과 추세가 기본적으로 일치
통계적 유의성: 주요 결론이 모두 통계적 유의성 검정 통과
실제 지도 의미: AAC 응용을 위한 명확한 설계 제안 제공

부족한 점

방법론적 한계

평가 주관성: 인간의 주관적 판단에 의존하며, 편향 가능성 존재
작업 단순화: 핵심 단어에서 문장으로의 생성 작업은 상대적으로 단순하며, 실제 AAC 시나리오는 더 복잡
정적 평가: 동적 대화에서의 맥락 의존성 미고려

실험 설정의 결함

참여자 훈련 부족: VAD 개념의 빠른 훈련이 충분하지 않을 수 있음
표본 크기 제한: 각 질문의 응답자 수가 상대적으로 적음 (3-9명)
모델 버전 차이: 사용된 모델 버전이 결과의 시의성에 영향 가능

영향력 평가

학술적 기여

개척적 작업: LLM 표현 정렬 문제를 처음으로 체계적으로 연구
방법론적 기여: 표현 정렬 평가 패러다임을 다른 개념 영역으로 확장 가능
학제간 가치: NLP, 심리학, 보조 기술 연구를 연결

실용적 가치

AAC 도구 개선: AAC 응용의 정서 표현 설계에 지침 제공
LLM 최적화 방향: LLM과 인간 개념 정렬 향상을 위한 아이디어 제공
평가 기준 수립: 유사 응용을 위한 평가 기준 확립

재현성

상세한 방법 설명: 완전한 실험 설정 및 매개변수 구성 제공
개방 데이터 약속: 실험 데이터 및 코드 공개 약속
표준화된 절차: 반복 가능한 평가 절차 확립

적용 시나리오

직접 응용

AAC 도구 개발: 정서 표현 기능의 설계 및 최적화
대화 시스템: 정서 이해 및 표현 능력 향상
텍스트 생성 평가: 인간-기계 정렬의 평가 기준 수립

확장 응용

다른 개념 정렬: 가치관, 문화 개념 등으로 확장
다중모달 정렬: 시각, 음성 등 다중모달 정보 결합
개인화 적응: 특정 사용자 집단을 위한 맞춤형 정렬

참고문헌

본 연구는 다양한 관련 연구를 인용하며, 주요 내용은 다음을 포함합니다:

Demszky et al. (2020): GoEmotions 정서 데이터셋
Guo and Choi (2021): VAD 정서 표현 학습
Valencia et al. (2023): AAC에서의 AI 언어 모델 응용
Chen and Wan (2024): LLM의 어휘 제약 생성 능력 평가

종합 평가: 이는 LLM과 인간 개념 정렬이라는 중요한 문제에 대해 개척적 기여를 한 고품질 연구 작업입니다. 연구 방법은 과학적으로 엄밀하며, 실험 설계는 합리적이고, 결과는 중요한 이론적 및 실용적 가치를 가집니다. 일부 한계가 있지만, 향후 관련 연구의 견고한 기초를 마련했습니다.