2025-11-13T17:28:10.587795

TextBandit: Evaluating Probabilistic Reasoning in LLMs Through Language-Only Decision Tasks

Lim, Damerla, Jiang et al.

Large language models (LLMs) have shown to be increasingly capable of performing reasoning tasks, but their ability to make sequential decisions under uncertainty only using natural language remains underexplored. We introduce a novel benchmark in which LLMs interact with multi-armed bandit environments using purely textual feedback, "you earned a token", without access to numerical cues or explicit probabilities, resulting in the model to infer latent reward structures purely off linguistic cues and to adapt accordingly. We evaluated the performance of four open-source LLMs and compare their performance to standard decision-making algorithms such as Thompson Sampling, Epsilon Greedy, Upper Confidence Bound (UCB), and random choice. While most of the LLMs underperformed compared to the baselines, Qwen3-4B, achieved the best-arm selection rate of 89.2% , which significantly outperformed both the larger LLMs and traditional methods. Our findings suggest that probabilistic reasoning is able to emerge from language alone, and we present this benchmark as a step towards evaluating decision-making capabilities in naturalistic, non-numeric contexts.

academic

TextBandit: 언어 전용 의사결정 작업을 통한 LLMs의 확률 추론 평가

기본 정보

논문 ID: 2510.13878
제목: TextBandit: Evaluating Probabilistic Reasoning in LLMs Through Language-Only Decision Tasks
저자: Jimin Lim (UC Merced), Arjun Damerla (UC Berkeley), Arthur Jiang (Algoverse), Nam Le (Algoverse)
분류: cs.CL (계산 언어학)
발표 시간: 2025년 10월 13일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.13878

초록

대규모 언어 모델(LLMs)은 추론 작업에서 점점 더 강력한 능력을 보여주고 있지만, 불확실성 하에서 순차적 의사결정을 수행하는 능력은 자연언어만을 사용하여 충분히 탐구되지 않았습니다. 본 논문은 LLMs이 순수 텍스트 피드백("당신은 토큰을 얻었습니다")을 사용하여 다중 팔 슬롯머신 환경과 상호작용하는 새로운 벤치마크를 소개합니다. 수치 단서나 명시적 확률에 접근할 수 없으며, 모델은 순수하게 언어 단서를 기반으로 잠재적 보상 구조를 추론하고 그에 따라 조정해야 합니다. 본 연구는 4개의 오픈소스 LLM의 성능을 평가하고 Thompson 샘플링, Epsilon 탐욕, 상한 신뢰도(UCB) 및 무작위 선택 등 표준 의사결정 알고리즘과 비교합니다. 대부분의 LLM이 기준 방법보다 성능이 떨어지지만, Qwen3-4B는 최적 팔 선택률 89.2%를 달성하여 더 큰 LLM과 기존 방법을 크게 능가합니다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는: 대규모 언어 모델이 자연언어 피드백만을 통해 불확실한 환경에서 효과적인 확률 추론과 의사결정을 수행할 수 있는가?

중요성

이론적 의의: LLM이 내재적 베이지안 추론 능력을 갖추고 있는지 탐구하며, 이는 AI 시스템의 인지 메커니즘을 이해하는 데 중요한 가치를 가집니다
실용적 가치: 현실 세계에서 많은 의사결정 시나리오는 정확한 수치 데이터가 부족하며 언어 설명에만 의존하여 판단해야 합니다
기술적 도전: 전통적인 불확실성 의사결정 방법은 복잡한 수학 계산에 의존하는 반면, 언어 기반 방법은 더 유연하고 접근 가능한 솔루션을 제공할 수 있습니다

기존 방법의 한계

수치 의존성: 전통적 베이지안 추론과 강화학습 방법은 명시적 수치 입력과 확률 정보가 필요합니다
평가 부재: 순수 언어 환경에서 LLM의 확률 추론 능력을 평가하는 전문 벤치마크가 부족합니다
복잡성 제한: 기존 연구는 주로 단순한 제약 작업에 초점을 맞추고 있으며, 다단계 의사결정 시나리오를 충분히 탐구하지 못했습니다

연구 동기

저자들은 LLM이 언어 피드백만으로 효과적인 확률 추론을 수행할 수 있다면, 이는 자연스럽고 비수치적인 의사결정을 위한 새로운 가능성을 열어줄 것이라고 생각합니다. 특히 구조화된 데이터가 부족한 현실 응용 시나리오에서 그렇습니다.

핵심 기여

TextBandit 벤치마크 제시: 순수 언어 환경에서 LLM의 확률 추론 능력을 평가하는 첫 번째 벤치마크로, 다중 팔 슬롯머신 프레임워크를 사용합니다
반직관적 규모 효과 발견: 모델 규모와 의사결정 성능 간의 음의 상관관계를 증명하며, 더 작은 Qwen3-4B가 더 큰 모델을 크게 능가합니다
언어 창발의 확률 추론 시연: 확률 추론 능력이 수치 단서 없이 순수 언어 상호작용에서 창발할 수 있음을 증명합니다
포괄적 비교 분석 제공: LLM을 고전 의사결정 알고리즘과 체계적으로 비교하여 다양한 방법의 장단점을 이해하는 데 중요한 통찰력을 제공합니다

방법론 상세 설명

작업 정의

입력: 역사적 선택과 결과의 자연언어 설명 (예: "슬롯머신 1이 이겼습니다", "슬롯머신 2가 졌습니다") 출력: 다음 라운드의 팔 선택 (숫자 ID, 예: "1" 또는 "2") 제약: 수치 단서 없음, 명시적 확률 없음, 중간 추론 과정 없음

실험 아키텍처

다중 팔 슬롯머신 환경

팔 개수: 2-5개 팔, 각 팔은 고정되었지만 미지의 성공 확률을 가집니다
보상 구조: 이진 팔 구성에서 한 팔은 65% 성공률, 다른 팔은 30% 성공률을 가집니다
피드백 메커니즘:
- 성공: "당신은 토큰을 얻었습니다" (보상=1)
- 실패: "당신은 토큰을 얻지 못했습니다" (보상=0)

프롬프트 프로토콜

각 LLM은 일관된 프롬프트 구조를 사용합니다:

작업 설명: 의사결정 상황에 작업을 배치하는 자연언어 지시사항
역사 기록: 모든 이전 선택과 결과의 순수 언어 설명
행동 요청: 모델에 해당 팔의 숫자를 출력하도록 요청

평가 모델

연구는 다양한 아키텍처와 매개변수 규모를 가진 4개의 오픈소스 LLM을 선택했습니다:

모델	매개변수	아키텍처	특징
Qwen3-4B	4B	디코더 전용 Transformer	다국어 지원, 강력한 추론 능력
Qwen3-8B	8B	디코더 전용 Transformer	Qwen3-4B의 대형 버전, 향상된 도구 사용 능력
Llama-3.1-8B	8B	디코더 전용 Transformer	명령 따르기 및 다국어 능력 최적화
Phi-2	2.7B	Transformer	소형 효율적 모델

기준 방법

4가지 고전 다중 팔 슬롯머신 알고리즘과 비교했습니다:

Thompson 샘플링: 베이지안 추론을 사용하여 확률 분포에서 샘플링
상한 신뢰도(UCB): 활용과 탐색의 균형을 맞추는 결정론적 전략
Epsilon 탐욕: 1-ε 확률로 최적 행동을 선택하고, 그렇지 않으면 무작위 선택
무작위 선택: 완전히 무작위인 기준 방법

실험 설정

실험 구성

시행 횟수: 각 모델 500회 독립 실행
의사결정 라운드: 실행당 25라운드 의사결정
팔 구성: 2-5개 팔의 다양한 구성 테스트
평가 환경: RunPod 호스팅 GPU 인스턴스, Hugging Face Transformers 라이브러리 기반

평가 지표

누적 보상: 25라운드 의사결정에서 획득한 총 토큰 수
최적 팔 선택률: 최적 팔(65% 성공률) 선택 빈도 백분율
누적 후회: 최적 팔을 선택하지 않은 기회 비용

실험 통제

명확한 출력을 위해 Chain-of-Thought 추론 제거
동일한 프롬프트 형식과 구조 사용
각 단계 의사결정에 단일 완료 사용, 중간 추론 없음

실험 결과

주요 결과

최적 팔 선택률 비교

모델/알고리즘	최적 팔 선택률	누적 보상
Qwen3-4B	89.2%	11,150
Thompson 샘플링	51.1%	8,297
UCB	47.6%	4,696
Epsilon 탐욕	38.1%	6,029
Qwen3-8B	37.5%	4,686
무작위 선택	31.8%	5,783
Llama-3.1-8B	31.6%	3,946
Phi-2	25.4%	3,181

주요 발견

1. 반직관적 규모 효과

**Qwen3-4B (4B 매개변수)**가 **Qwen3-8B (8B 매개변수)**를 크게 능가합니다
더 큰 모델은 "과도하게 생각"하는 경향이 있어 의사결정 성능이 저하됩니다
가장 작은 모델인 Phi-2 (2.7B)는 성능이 가장 낮아 최적 규모 범위가 존재함을 시사합니다

2. 팔 개수가 성능에 미치는 영향

팔 개수가 증가함에 따라 모든 모델의 성능이 크게 저하됩니다:

Llama-3.1-8B: 31.56%(2팔)에서 7.37%(5팔)로 감소
Qwen3-4B: 89.22%(2팔)에서 6.53%(5팔)로 감소
Phi-2: 25.45%(2팔)에서 17.78%(5팔)로 감소
Qwen3-8B: 37.49%(2팔)에서 17.09%(5팔)로 감소

3. 누적 후회 분석

Qwen3-4B는 이진 팔 구성에서 빠른 후회 감소를 보여줍니다
더 큰 모델은 모든 구성에서 높은 누적 후회를 유지합니다
4팔 구성은 예상 외로 모든 모델에서 가장 낮은 누적 후회를 생성했습니다

정성적 분석

탐색-활용 전략: LLM은 Thompson 샘플링과 유사한 행동 패턴을 보여줍니다
조기 고착: 모델은 제한된 피드백을 기반으로 "최적" 선택을 조기에 결정하는 경향이 있습니다
추론 오버헤드: Qwen3-8B는 지속적인 추론 시도로 인해 비정상적으로 긴 시간이 소요됩니다

결론 및 논의

주요 결론

확률 추론의 언어 창발: 언어 피드백만을 기반으로 효과적인 확률 추론 능력이 생성될 수 있음을 증명합니다
규모와 성능의 복잡한 관계: 모델 규모가 항상 의사결정 성능과 양의 상관관계를 갖지는 않습니다
아키텍처 최적화의 중요성: 경량 고효율 모델 아키텍처는 빠른 피드백 환경에서 더 유리할 수 있습니다

한계

모델 범위 제한: 2.7B-8B 매개변수의 오픈소스 모델만 테스트했으며, 더 큰 규모 모델은 포함하지 않았습니다
작업 복잡도: 정적이고 단순한 보상 구조로, 비정상 환경이나 지연된 피드백을 포함하지 않습니다
프롬프트 전략: Chain-of-Thought 회피는 LLM의 실제 능력을 과소평가할 수 있습니다
계산 자원 제한: GPT-4 등 대형 상용 모델을 테스트할 수 없었습니다

향후 방향

동적 환경 테스트: 비정상 또는 지연된 보상 슬롯머신 환경에서 평가
유도식 프롬프팅: Chain-of-Thought를 결합하여 스캐폴딩이 탐색-활용 균형에 미치는 영향 연구
규모 효과 연구: 더 큰 규모 모델과 미세조정 변형의 성능을 체계적으로 연구
다단계 계획: 복잡한 의사결정 작업이 필요한 다단계 추론으로 확장

심층 평가

장점

높은 혁신성: 순수 언어 환경에서 확률 추론 평가 프레임워크를 처음 제시합니다
중요한 발견: 모델 규모와 의사결정 성능 간의 반직관적 관계를 드러냅니다
엄격한 실험: 500회 독립 실행으로 결과의 통계적 신뢰성을 보장합니다
포괄적 기준: 고전 알고리즘과의 체계적 비교는 가치 있는 참고를 제공합니다
우수한 재현성: 완전한 코드와 상세한 구현 설명을 제공합니다

부족한 점

이론적 설명 부족: Qwen3-4B의 우수한 성능 메커니즘에 대한 설명이 약합니다
모델 선택 제한: 더 큰 규모 모델 테스트 부재
작업 단일성: 슬롯머신 문제에만 초점을 맞추고 있으며 일반화 가능성이 미지수입니다
분석 깊이: "과도한 생각" 현상에 대한 더 깊은 메커니즘 분석 부족

영향력

학술적 가치: LLM의 확률 추론 능력을 이해하기 위한 새로운 평가 프레임워크를 제공합니다
실용적 의의: 언어 기반 의사결정 시스템 개발을 위한 중요한 참고자료를 제공합니다
방법론적 기여: TextBandit 벤치마크는 해당 분야의 표준 평가 도구가 될 수 있습니다
학제간 영향: 자연언어처리, 의사결정 이론, 인지과학을 연결합니다

적용 시나리오

교육 평가: 교육 시나리오에서 AI 시스템의 의사결정 능력 평가
인간-기계 상호작용: 더 자연스러운 의사결정 지원 시스템 설계
자원 배분: 정확한 데이터가 부족한 환경에서 자원 최적화
게임 AI: 언어 피드백 기반 게임 지능형 에이전트 개발

참고문헌

본 논문은 확률 추론, 불확실성 의사결정 및 다중 팔 슬롯머신 분야의 중요한 연구를 인용합니다:

Xie et al. (2022): 맥락 내 학습의 베이지안 추론 프레임워크
Gupta et al. (2025): LLM의 베이지안 신념 업데이트 능력
Zhang et al. (2025): LLM과 인간의 탐색-활용 전략 비교
Felicioni et al. (2024): 불확실성 인식 순차적 의사결정

전체 평가: 이는 TextBandit 벤치마크를 통해 LLM의 확률 추론 능력을 이해하기 위한 새로운 관점을 제공하는 중요한 혁신 가치를 가진 논문입니다. 일부 한계가 있지만, 발견된 반직관적 규모 효과와 언어 창발의 확률 추론 능력은 해당 분야에 중요한 이론적, 실용적 의의를 가집니다.