2025-11-19T03:22:13.853095

Asking Clarifying Questions for Preference Elicitation With Large Language Models

Montazeralghaem, Tennenholtz, Boutilier et al.
Large Language Models (LLMs) have made it possible for recommendation systems to interact with users in open-ended conversational interfaces. In order to personalize LLM responses, it is crucial to elicit user preferences, especially when there is limited user history. One way to get more information is to present clarifying questions to the user. However, generating effective sequential clarifying questions across various domains remains a challenge. To address this, we introduce a novel approach for training LLMs to ask sequential questions that reveal user preferences. Our method follows a two-stage process inspired by diffusion models. Starting from a user profile, the forward process generates clarifying questions to obtain answers and then removes those answers step by step, serving as a way to add ``noise'' to the user profile. The reverse process involves training a model to ``denoise'' the user profile by learning to ask effective clarifying questions. Our results show that our method significantly improves the LLM's proficiency in asking funnel questions and eliciting user preferences effectively.
academic

대규모 언어 모델을 이용한 선호도 추출을 위한 명확화 질문 제시

기본 정보

  • 논문 ID: 2510.12015
  • 제목: Asking Clarifying Questions for Preference Elicitation With Large Language Models
  • 저자: Ali Montazeralghaem, Guy Tennenholtz, Craig Boutilier, Ofer Meshi (Google)
  • 분류: cs.AI
  • 발표 학회: GENNEXT@SIGIR'25
  • 논문 링크: https://arxiv.org/abs/2510.12015

초록

대규모 언어 모델(LLMs)은 추천 시스템이 개방형 대화 인터페이스를 통해 사용자와 상호작용할 수 있게 한다. 특히 사용자 이력이 제한적인 경우 LLM 응답을 개인화하기 위해서는 사용자 선호도를 효과적으로 추출하는 것이 중요하다. 본 논문은 사용자 선호도를 드러낼 수 있는 순차적 명확화 질문을 제시하도록 LLM을 훈련하는 새로운 방법을 제안한다. 이 방법은 확산 모델에서 영감을 받은 2단계 프로세스를 채택한다: 전방 과정은 사용자 프로필에서 시작하여 명확화 질문을 생성하고 답변을 "노이즈"로 점진적으로 제거하며, 역방 과정은 효과적인 명확화 질문을 제시하여 사용자 프로필을 "노이즈 제거"하도록 모델을 훈련한다. 실험 결과는 이 방법이 LLM의 깔때기식 질문 제시 및 효과적인 사용자 선호도 추출 능력을 크게 향상시킴을 보여준다.

연구 배경 및 동기

문제 정의

추천 시스템은 일반적으로 사용자 이력 상호작용에 의존하여 선호도를 학습하지만 다음 상황에서 어려움을 겪는다:

  1. 신규 사용자 문제: 충분한 상호작용 이력 부족
  2. 개인정보 보호 제약: 이력 상호작용 데이터 사용 제한
  3. 문맥적 불확실성: 현재 선호도가 기분, 사회적 환경 등의 요인에 영향을 받음

연구의 중요성

LLM의 빠른 발전으로 대화형 추천 시스템(CRS)이 가능해졌으며, 직접적인 선호도 추출 질문을 통해 시스템은 사용자 요구를 명확히 하고 고품질의 개인화된 추천을 제공할 수 있다.

기존 방법의 한계

단순한 프롬프팅 기법은 LLM이 적절한 시점에 추출 질문을 제시하도록 지도할 수 있지만, 여러 도메인에 걸쳐 효과적인 순차적 명확화 질문을 생성하는 것은 여전히 도전 과제이다.

연구 동기

본 논문은 LLM이 고품질 추출 질문을 제시하는 능력을 최적화하는 것을 목표로 하며, 특히 "깔때기식" 질문을 제시하는 방법을 학습한다 — 일반적인 개념에서 시작하여 대화가 진행됨에 따라 점진적으로 더 구체적이 된다.

핵심 기여

  1. 혁신적 프레임워크: 이산 확산 모델에서 영감을 받은 2단계 선호도 추출 프레임워크 제안
  2. 순차적 질문 생성: 효과적인 순차적 명확화 질문을 생성할 수 있는 훈련 방법 개발
  3. 깔때기식 대화 전략: 일반에서 구체로의 질문 제시 전략 구현
  4. 사용자 시뮬레이터: 평가용 사용자 시뮬레이터 모델 구축
  5. 성능 향상: MovieLens 데이터셋에서 방법의 효과성 검증

방법론 상세 설명

작업 정의

사용자 프로필 P가 주어졌을 때, 목표는 순차적 질문 Q₀, Q₁, ..., Qₙ₋₁과 대응하는 답변 A₀, A₁, ..., Aₙ₋₁을 통해 빈 프로필 P₀ = ∅에서 완전한 사용자 프로필 Pₙ을 재구성하는 것이다.

모델 아키텍처

1. 순차적 질문-답변 과정(SQN)

연쇄 규칙과 조건부 독립 가정 사용:

p_θ,φ(Pₙ) = ∏ᵢ₌₁ⁿ p(Pᵢ|Pᵢ₋₁; θ, φ)

각 전이 확률은 세 가지 구성 요소로 분해된다:

p(Pᵢ|Pᵢ₋₁; θ, φ) = p_θ(Qᵢ₋₁|Pᵢ₋₁) × p_φ(Aᵢ₋₁|Qᵢ₋₁, Pᵢ₋₁) × p(Pᵢ|Pᵢ₋₁, Qᵢ₋₁, Aᵢ₋₁)
  • p_θ(Qᵢ₋₁|Pᵢ₋₁): 질문 생성기 확률
  • p_φ(Aᵢ₋₁|Qᵢ₋₁, Pᵢ₋₁): 사용자 시뮬레이터 확률
  • p(Pᵢ|Pᵢ₋₁, Qᵢ₋₁, Aᵢ₋₁): 결정론적 업데이트 함수

2. 전방 과정: 프로필 손상

  1. 구조화된 변환: 텍스트 사용자 프로필을 JSON 형식으로 변환
  2. 레이블 정렬: 일반성 정도에 따라 레이블 정렬
  3. 깔때기식 질문 생성: 일반에서 구체로의 질문 순서 생성
  4. 점진적 정보 제거: 질문 순서에 따라 대응하는 정보를 점진적으로 제거

부분 사용자 프로필 정의:

JP_u^t = JP_u \ ⋃ᵢ₌ₜⁿ⁻¹ T_i

3. 역방 과정: 질문 학습

훈련 데이터 구성:

D_u = {(Qₙ₋₁, JP_u^{n-1}), (Qₙ₋₂, JP_u^{n-2}), ..., (Q₀, JP_u^0)}

기술적 혁신점

  1. 확산 모델 영감: 사용자 선호도 프로필을 이산 확산 과정의 노이즈 제거 작업으로 유추
  2. 깔때기식 전략: 레이블 정렬을 통해 일반에서 구체로의 자연스러운 질문 흐름 보장
  3. 결합 훈련: 질문 생성기와 사용자 시뮬레이터를 동시에 최적화
  4. 질문 이력 메커니즘: 프로필 업데이트에 질문과 답변을 포함하여 반복 질문 방지

실험 설정

데이터셋

  • MovieLens 데이터셋: 추천 시스템 연구에 광범위하게 사용됨
  • 사용자 프로필: Jeong 등과 Tennenholtz 등이 생성한 사용자 프로필 사용. 이 프로필은 LLM을 통해 완전한 평점 이력을 기반으로 생성되었으며 사용자 평점에 대한 예측 능력이 검증됨

평가 지표

  • ROUGE 점수: 생성된 프로필과 실제 프로필의 중복도 측정
  • BLEU 점수: 텍스트 생성 품질 평가
  • 미답변 질문 비율: 질문의 관련성 평가

비교 방법

  • 미세조정되지 않은 Gemma 모델 vs 미세조정된 Gemma 모델
  • 미세조정되지 않은 Gemini 사용자 시뮬레이터 vs 미세조정된 Gemma 사용자 시뮬레이터

구현 세부사항

  • 기본 모델: Gemma 7B (28층)을 질문 생성기 및 사용자 시뮬레이터로 사용
  • 데이터 생성: 전방 과정의 고품질 데이터 생성을 위해 Gemini 2.0 사용
  • 미세조정 방법: Parameter-Efficient Fine-Tuning (PEFT) + LoRA
  • 훈련 매개변수: 배치 크기 64, 학습률 0.001
  • 질문 제한: 최대 10개 질문 또는 프로필 일치까지

실험 결과

주요 결과

미세조정이 모델 성능을 크게 향상시켰다:

  • ROUGE 점수: 0.4에서 0.68로 향상
  • BLEU 점수: 0.28에서 0.49로 향상
  • 사용자 시뮬레이터: 미세조정된 Gemma 시뮬레이터가 미세조정되지 않은 Gemini 시뮬레이터를 능가

제거 실험

1. 미세조정 효과 분석

  • 미세조정된 질문 생성기는 더 효과적인 순차적 질문을 제시할 수 있음
  • 미세조정된 사용자 시뮬레이터는 질문에 더 정확하게 답변할 수 있음
  • 미답변 질문의 비율이 크게 감소

2. 질문 수량 효과

  • 최적 모델은 처음 5라운드의 질문에서 광범위한 정보 수집
  • 6-7라운드에서 더 구체적이고 상세한 질문으로 전환
  • 우수한 깔때기식 대화 전략을 입증

3. 질문 이력 효과

  • 미세조정된 모델에서 질문 이력 추가가 성능 향상
  • 미세조정되지 않은 모델에서 질문 이력이 성능 저하
  • 질문 이력은 반복 질문 방지에 도움

4. 미세조정 단계 영향

  • 더 많은 미세조정 단계(40,000단계)가 더 나은 성능 제공
  • 4,000단계, 28,000단계, 40,000단계가 증가 추세 보임

사례 분석

깔때기식 질문 분석

가중 순위(WR) 분석을 통해 다음을 보여줌:

  • 초기 질문: 장르, 영화 시대, 십년 등 광범위한 개념
  • 중기 질문: 감독, 시각적 스타일, 톤 등 구체적 개념
  • 후기 질문: 특수 효과, 유머, 분위기 등 세부 개념

이는 모델이 광범위한 개념에서 구체적 세부사항으로의 질문 제시 전략을 학습했음을 검증한다.

실험 발견

  1. 상승 효과: 질문 생성기와 사용자 시뮬레이터의 결합 최적화가 상승 효과 생성
  2. 순차적 전략: 깔때기식 질문 전략이 무작위 질문보다 더 효과적
  3. 문맥 활용: 질문 이력 포함이 반복 방지 및 대화 품질 향상에 도움

관련 연구

주요 연구 방향

  1. 대화형 추천 시스템: CRS의 선호도 추출 기법
  2. 명확화 질문 생성: 언어 모델에게 명확화 질문 제시 교육
  3. 베이지안 최적화 방법: PEBOL 알고리즘 등 자연어 선호도 추출 프레임워크
  4. 능동적 선호도 추론: LLM과 확률 추론을 사용하는 알고리즘

본 논문의 장점

  • 확산 모델 개념을 선호도 추출에 처음 적용
  • 체계적인 깔때기식 질문 생성 전략 제안
  • 질문 생성과 사용자 시뮬레이션 두 구성 요소를 동시에 최적화

결론 및 논의

주요 결론

  1. 확산 모델에서 영감을 받은 2단계 프레임워크는 LLM이 고품질 명확화 질문을 제시하도록 효과적으로 훈련할 수 있음
  2. 깔때기식 질문 전략이 무작위 질문 방법을 크게 능가
  3. 질문 생성기와 사용자 시뮬레이터의 결합 최적화가 상승 효과 생성

한계

  1. 데이터 의존성: 고품질 사용자 프로필 데이터에 의존
  2. 도메인 특정성: 주로 영화 추천 도메인에서 검증됨
  3. 시뮬레이션 환경: 평가가 주로 사용자 시뮬레이터 기반이며 실제 사용자 부재
  4. 계산 비용: 미세조정을 위해 상당한 계산 자원 필요

향후 방향

  1. 더 많은 추천 도메인으로 확장
  2. 실제 사용자와의 상호작용 검증
  3. 더 효율적인 훈련 전략 탐색
  4. 다중 모달 정보 통합

심층 평가

장점

  1. 방법론 혁신성: 확산 모델 개념을 대화 시스템에 교묘하게 적용하여 개념이 새롭고 합리적
  2. 기술적 완전성: 데이터 생성, 모델 훈련, 평가를 포함한 완전한 훈련 프레임워크 제공
  3. 실험의 충분성: 각 구성 요소의 효과성을 검증하는 포괄적인 제거 실험
  4. 실용적 가치: 추천 시스템의 실제 문제 해결로 강한 응용 잠재력 보유

부족한 점

  1. 평가 한계: 주로 시뮬레이션 환경에 의존하며 실제 사용자 상호작용 검증 부재
  2. 도메인 한계: 영화 추천 도메인에서만 검증되어 일반화 능력 미검증
  3. 비교 기준선: 다른 선진 선호도 추출 방법과의 직접적 비교 부족
  4. 이론적 분석: 방법의 이론적 성질에 대한 심층 분석 부족

영향력

  1. 학술적 기여: 대화형 추천 시스템에 새로운 연구 방향 제공
  2. 실용적 가치: 실제 추천 시스템에 직접 적용 가능
  3. 재현성: 상세한 구현 세부사항 제공으로 재현 용이

적용 시나리오

  1. 콜드 스타트 추천: 특히 신규 사용자의 선호도 추출에 적합
  2. 대화형 시스템: 다양한 대화형 추천 시스템에 통합 가능
  3. 개인화 서비스: 사용자 선호도를 빠르게 파악해야 하는 시나리오에 적합
  4. 다중 라운드 상호작용: 점진적 정보 수집이 필요한 응용에 적합

참고문헌

논문은 31개의 관련 문헌을 인용하며, 대화형 추천 시스템, 대규모 언어 모델, 확산 모델, 선호도 추출 등 여러 관련 분야의 중요한 연구를 포함하여 본 연구에 견고한 이론적 기초를 제공한다.


종합 평가: 이는 확산 모델 개념을 선호도 추출 문제에 혁신적으로 적용하여 완전한 해결책을 제안하고 실험을 통해 효과성을 검증한 고품질 연구 논문이다. 일부 한계가 있음에도 불구하고 기술적 기여와 실용적 가치는 이를 대화형 추천 시스템 분야의 중요한 진전으로 만든다.