2025-11-21T07:40:15.798625

Artificial Impressions: Evaluating Large Language Model Behavior Through the Lens of Trait Impressions

Deas, McKeown

We introduce and study artificial impressions--patterns in LLMs' internal representations of prompts that resemble human impressions and stereotypes based on language. We fit linear probes on generated prompts to predict impressions according to the two-dimensional Stereotype Content Model (SCM). Using these probes, we study the relationship between impressions and downstream model behavior as well as prompt features that may inform such impressions. We find that LLMs inconsistently report impressions when prompted, but also that impressions are more consistently linearly decodable from their hidden representations. Additionally, we show that artificial impressions of prompts are predictive of the quality and use of hedging in model responses. We also investigate how particular content, stylistic, and dialectal features in prompts impact LLM impressions.

academic

인공적 인상: 특성 인상의 렌즈를 통한 대규모 언어 모델 행동 평가

기본 정보

논문 ID: 2510.08915
제목: Artificial Impressions: Evaluating Large Language Model Behavior Through the Lens of Trait Impressions
저자: Nicholas Deas, Kathleen McKeown (Columbia University)
분류: cs.CL (계산 언어학)
발표 시간: 2025년 10월 10일 (arXiv 사전 인쇄본)
논문 링크: https://arxiv.org/abs/2510.08915

초록

본 논문은 "인공적 인상(artificial impressions)" 개념을 도입하고 연구합니다. 이는 대규모 언어 모델(LLMs)의 내부 표현에서 발견되는 패턴으로, 인간이 언어를 기반으로 형성하는 인상 및 고정관념과 유사합니다. 연구자들은 생성된 프롬프트에 대해 선형 프로브를 훈련하여 2차원 고정관념 내용 모델(Stereotype Content Model, SCM)에 따라 인상을 예측했습니다. 이러한 프로브를 통해 인상과 하위 모델 행동 간의 관계, 그리고 이러한 인상에 영향을 미칠 수 있는 프롬프트 특성을 연구했습니다. 연구 결과, LLMs이 프롬프트될 때 인상을 불일치하게 보고하지만, 인상은 숨겨진 표현에서 더 일관되게 선형으로 디코딩될 수 있음을 발견했습니다. 또한 프롬프트의 인공적 인상이 모델 응답의 품질과 완화 언어 사용을 예측할 수 있음을 보였습니다.

연구 배경 및 동기

문제 정의

인간은 상호작용 중에 타인에 대한 초기 인상을 빠르게 형성하며, 이러한 인상은 태도와 행동에 지속적인 영향을 미칩니다. 유사하게, 대규모 언어 모델은 훈련 과정에서 다양한 저자의 대량 텍스트에 노출되어 언어 특성을 기반으로 유사한 "인상"을 형성할 수 있습니다.

연구의 중요성

편향 및 공정성: LLMs이 언어 특성을 기반으로 인상을 형성하는 방식을 이해하는 것은 편향을 식별하고 완화하는 데 필수적입니다.
모델 행동 예측: 인공적 인상은 응답 품질 및 언어 사용과 같은 모델의 하위 성능에 영향을 미칠 수 있습니다.
사회언어학적 영향: 다양한 방언과 언어 변형은 서로 다른 인상을 유발할 수 있으며, 이는 소외된 집단의 사용 경험에 영향을 미칩니다.

기존 방법의 한계

LLMs에 직접 프롬프트하여 인상을 보고하도록 하면 불일치성과 긍정적 편향이 발생합니다.
LLMs의 내재적 인상을 정량화하고 분석하는 체계적 방법이 부족합니다.
인상이 하위 행동에 어떻게 영향을 미치는지에 대한 이해가 제한적입니다.

핵심 기여

"인공적 인상" 개념 제시: 프롬프트를 기반으로 LLMs이 형성하는 내재적 인상을 처음으로 체계적으로 연구합니다.
선형 프로브 방법 개발: SCM 프레임워크를 사용하여 숨겨진 상태에서 인상을 디코딩하는 프로브를 훈련합니다.
인상-행동 연관성 확립: 인공적 인상이 응답 품질과 완화 언어 사용을 예측할 수 있음을 증명합니다.
영향 요인 식별: LLM 인상에 영향을 미치는 내용, 스타일 및 방언 특성을 분석합니다.
방언 편향 노출: LLMs이 아프리카계 미국인 언어(AAL)에 대해 더 부정적인 인상을 가지고 있음을 발견합니다.

방법론 상세 설명

작업 정의

사용자 프롬프트가 주어졌을 때, 목표는:

LLM 숨겨진 표현에서 SCM 기반 인상 점수를 추출합니다.
인상과 모델 행동 간의 관계를 분석합니다.
인상 형성에 영향을 미치는 프롬프트 특성을 식별합니다.

고정관념 내용 모델(SCM)

SCM은 두 가지 차원을 포함합니다:

따뜻함(Warmth): 목표의 의도에 대한 인식(예: 친절함, 전투성)
능력(Competence): 목표가 의도를 성공적으로 실행할 수 있는 능력(예: 지능, 권력)

데이터 생성 프로세스

1. 합성 데이터 생성

단계 1: 특성 어휘 → 인상 사양(예: "친절하고 세심함")
단계 2: 인상 사양을 기반으로 합성 사용자 프롬프트 생성
단계 3: LLM 숨겨진 표현 추출
단계 4: 프로브 훈련 데이터 구성(표현-레이블 쌍)

2. 프로브 훈련

다층 퍼셉트론(MLP) 활성화를 입력 특성으로 사용합니다.
독립적인 따뜻함 및 능력 프로브를 훈련합니다.
5-폴드 교차 검증을 사용하여 성능을 평가합니다.
다양한 훈련 데이터 비율(100%, 10%, 1%)을 사용합니다.

기술적 혁신점

심리학 이론 기반: 심리학의 SCM 프레임워크를 LLM 분석에 적용합니다.
프로브 대 프롬프트 비교: 프로브 방법과 직접 프롬프트의 신뢰성을 체계적으로 비교합니다.
다층 분석: 다양한 모델 층에서 인상 정보의 분포를 분석합니다.
행동 예측 검증: 하위 작업을 통해 인상의 유효성을 검증합니다.

실험 설정

모델

Llama-3.1 (8B): 32층, 4096 숨겨진 차원
Llama-3.2 (1B): 16층, 2048 숨겨진 차원
OLMo-2 (7B): 32층, 4096 숨겨진 차원

데이터셋

합성 데이터

131개의 따뜻함 특성과 104개의 능력 특성을 기반으로 합니다.
각 인상 사양에 대해 10개의 샘플 생성(온도=0.9)
총 274,830개의 프롬프트/모델

실제 데이터

LMSysChat: 100만 개의 실제 대화에서 2,000개의 첫 라운드 프롬프트 샘플링
TwitterAAE: 400개의 트윗(200개 AAL, 200개 WME)
Counterparts 데이터셋: 다른 변수를 제어하는 병렬 코퍼스

평가 지표

프로브 성능: F1 점수, 정확도
자기 일관성: 보고된 인상과 제공된 특성의 일치도
인간 평가: 4점 Likert 척도, Krippendorff's α = 0.71

실험 결과

주요 발견

발견 1: 프롬프트 방법의 한계

LLM이 보고하는 인상은 일반적으로 긍정적 특성(따뜻함/능력)으로 편향되어 있으며, 특히 1인칭 상황에서 그렇습니다:

Llama-3.1 (8B) 1인칭 따뜻함 자기 일관성은 51.67%에 불과합니다.
3인칭 상황에서는 개선되지만 여전히 제한적입니다(최대 80.77%).

발견 2: 인간-모델 인상 일관성

인간 주석과 원본 특성 간의 일관성:

전체 Cohen's κ = 0.68, Spearman r = 0.68
특성 어휘 및 SCM 레이블의 유효성을 검증합니다.

발견 3: 프로브 방법의 유효성

선형 프로브는 숨겨진 표현에서 인상을 성공적으로 디코딩합니다:

따뜻함 프로브 F1 점수: 75-90%
능력 프로브 F1 점수: 75-85%
성능은 모델의 중간 층에서 최고조에 도달합니다.

발견 4: 따뜻함 우위 효과

모델은 따뜻함 차원에서 더 나은 성능을 보입니다:

따뜻함 프로브 성능이 능력 프로브보다 지속적으로 높습니다.
인간 인상 형성의 "따뜻함 우선 효과"를 모방합니다.

인상-행동 연관성 실험

응답 품질 예측

순서 로지스틱 회귀를 사용하여 인상이 응답 품질에 미치는 영향을 분석합니다:

모델	따뜻함 계수	능력 계수
Llama-3.2-1B	1.07**	0.90**
Llama-3.1-8B	0.49*	0.39*
OLMo-2-7B	0.76**	0.35*

발견 5: 따뜻함 및 능력 인상이 응답 품질을 유의미하게 예측합니다.

완화 언어 분석

음이항 회귀를 사용하여 인상이 완화 언어 사용에 미치는 영향을 분석합니다:

모델	따뜻함 계수	능력 계수
Llama-3.2-1B	-0.46*	-1.06**
Llama-3.1-8B	-0.14	-1.18**
OLMo-2-7B	0.40**	-0.69**

발견 6: 낮은 능력 인상이 더 많은 완화 언어 사용을 유의미하게 예측합니다.

영향 요인 분석

내용 및 스타일 특성

LIWC 및 IDP를 사용한 분석 결과:

높은 따뜻함 특성:

탐색적 어휘("wondering", "might", "seem")
차이 어휘("would", "could", "hope")
정중함과 심리적 거리를 구현합니다.

낮은 따뜻함 특성:

의문사("what", "how")
인과 어휘("because", "effect")

높은 능력 특성:

통찰 어휘("rethink", "know", "informed")
공식적 언어 구조

낮은 능력 특성:

비공식 마커("yeah", "sure", 이모지)
인터넷 언어("aight", "gonna")

방언 편향 분석

발견 8: 모델은 AAL 텍스트에 대해 더 부정적인 인상을 가집니다.

AAL vs WME 따뜻함 상관관계: r = -0.32 (p ≤ 0.001)
AAL vs WME 능력 상관관계: r = -0.52 (p ≤ 0.001)
병렬 코퍼스가 유사한 추세를 검증합니다.

결론 및 논의

주요 결론

방법 유효성: 선형 프로브는 직접 프롬프트보다 LLM 인상을 더 안정적으로 추출합니다.
행동 예측력: 인공적 인상은 응답 품질 및 언어 사용 패턴을 예측할 수 있습니다.
편향 식별: 특정 방언 및 집단에 대한 편향을 체계적으로 발견했습니다.
따뜻함 우위: LLMs은 인간과 유사한 따뜻함 우선 효과를 나타냅니다.

한계

범위 제한: 영어 대화의 첫 라운드 메시지에만 초점을 맞춥니다.
모델 규모: 8B 매개변수 이하의 오픈소스 모델로 제한됩니다.
이론적 프레임워크: SCM만 사용하며 다른 고정관념 모델을 탐색하지 않습니다.
문화적 차이: 인상 형성의 문화 간 차이를 고려하지 않습니다.

윤리적 고려사항

의인화 위험: LLMs의 과도한 의인화를 피하기 위해 주의가 필요합니다.
편향 증폭: 식별된 편향이 소외된 집단에 해를 끼칠 수 있습니다.
응용 경계: 어떤 상황에서 차별화된 행동이 합리적인지 명확히 해야 합니다.

향후 방향

다중 라운드 대화: 대화 과정에서 인상의 진화를 연구합니다.
문화 간 연구: 다양한 문화 배경에서의 인상 형성을 탐색합니다.
완화 전략: 해로운 편향을 줄이기 위한 기술적 방법을 개발합니다.
이론적 확장: 더 복잡한 인상 형성 모델을 적용합니다.

심층 평가

장점

높은 혁신성: 심리학 인상 이론을 LLM 분석에 처음으로 체계적으로 적용합니다.
엄밀한 방법론: 합성 데이터 생성, 프로브 기술 및 인간 평가를 결합합니다.
높은 실용 가치: LLM 편향을 이해하고 완화하기 위한 새로운 도구를 제공합니다.
충분한 실험: 다중 모델, 다중 작업의 포괄적 검증
사회적 의의: 중요한 공정성 문제를 노출합니다.

부족한 점

이론적 한계: SCM이 모든 관련 인상 차원을 포착하지 못할 수 있습니다.
데이터 편향: 합성 데이터가 실제 사용 시나리오를 완전히 반영하지 못할 수 있습니다.
인과 관계: 인상과 행동 간의 관계에 혼동 변수가 있을 수 있습니다.
일반화 가능성: 더 큰 모델 및 다양한 훈련 패러다임에서의 결과 일반화 가능성이 불명확합니다.

영향력

학술적 기여: LLM 편향 연구를 위한 새로운 이론적 프레임워크 및 방법을 제공합니다.
실무적 가치: 모델 평가 및 편향 감지에 사용할 수 있습니다.
정책적 의의: AI 공정성 정책 수립에 과학적 근거를 제공합니다.
학제 간 영향: 심리학, 사회언어학 및 AI 안전 분야를 연결합니다.

적용 시나리오

모델 평가: 모델 개발 과정에서 잠재적 편향을 감지합니다.
응용 감시: 배포된 모델의 공정성 성능을 평가합니다.
연구 도구: 관련 분야 연구를 위한 분석 프레임워크를 제공합니다.
교육 목적: AI 시스템의 사회적 영향을 이해하는 데 도움을 줍니다.

참고문헌

본 논문은 심리학, 사회언어학 및 계산 언어학 등 여러 분야의 중요한 연구를 참고했으며, 특히:

Fiske et al. (2002)의 고정관념 내용 모델
Blodgett et al. (2016)의 방언 연구 데이터셋
LLM 편향 및 공정성에 관한 최근 연구

전체 평가: 이것은 방법론적 혁신, 실험 설계 및 사회적 의의 측면에서 중요한 기여를 하는 고품질 연구 논문입니다. "인공적 인상" 개념을 도입함으로써 LLM 행동을 이해하기 위한 새로운 관점을 제공하며, AI 공정성 연구를 추진하는 데 중요한 가치를 가집니다.