Large language models (LLMs) are increasingly powering Text-to-SQL (Text2SQL) systems, enabling non-expert users to query industrial databases using natural language. While test-time scaling strategies have shown promise in LLM-based solutions, their effectiveness in real-world applications, especially with the latest reasoning models, remains uncertain. In this work, we benchmark six lightweight, industry-oriented test-time scaling strategies and four LLMs, including two reasoning models, evaluating their performance on the BIRD Mini-Dev benchmark. Beyond standard accuracy metrics, we also report inference latency and token consumption, providing insights relevant for practical system deployment. Our findings reveal that Divide-and-Conquer prompting and few-shot demonstrations consistently enhance performance for both general-purpose and reasoning-focused LLMs. However, introducing additional workflow steps yields mixed results, and base model selection plays a critical role. This work sheds light on the practical trade-offs between accuracy, efficiency, and complexity when deploying Text2SQL systems.
- 논문 ID: 2510.10885
- 제목: Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks
- 저자: Jiajing Guo, Kenil Patel, Jorge Piazentin Ono, Wenbin He, Liu Ren (Bosch Research North America, USA)
- 분류: cs.CL (계산언어학), cs.DB (데이터베이스)
- 발표 학회: Workshop on Test-time Scaling and Reasoning Models at COLM 2025
- 논문 링크: https://arxiv.org/abs/2510.10885
대규모 언어 모델(LLMs)은 Text-to-SQL 시스템을 점점 더 많이 지원하고 있으며, 비전문가 사용자가 자연어로 산업용 데이터베이스를 쿼리할 수 있게 해주고 있습니다. 테스트 타임 스케일링 전략이 LLM 기반 솔루션에서 유망함을 보여주고 있지만, 실제 애플리케이션에서의 효과성, 특히 최신 추론 모델에서의 성능은 여전히 불확실합니다. 본 연구는 BIRD Mini-Dev 벤치마크에서 6가지 경량의 산업 지향적 테스트 타임 스케일링 전략과 4가지 LLM(추론 모델 2개 포함)을 벤치마킹하여 성능을 평가합니다. 표준 정확도 지표 외에도 추론 지연 시간과 토큰 소비를 보고하여 실제 시스템 배포에 대한 관련 인사이트를 제공합니다. 본 연구는 분할 정복 프롬프팅과 소수 샷 데모가 일반 및 추론 지향 LLM의 성능을 지속적으로 향상시킬 수 있음을 발견했습니다. 그러나 추가 워크플로우 단계를 도입하면 혼합된 결과가 나타났으며, 기본 모델의 선택이 중요한 역할을 합니다.
본 연구가 해결하고자 하는 핵심 문제는 Text2SQL 작업에서 테스트 타임 스케일링 전략(test-time scaling strategies)이 다양한 유형의 LLM에 미치는 영향, 특히 실제 산업 애플리케이션 시나리오에서의 성능 트레이드오프 문제입니다.
- 실용적 가치: Text2SQL 시스템은 비기술 사용자가 자연어를 통해 엔터프라이즈 데이터베이스에 접근할 수 있게 하며, 중요한 상업적 가치를 가집니다
- 기술적 과제: OpenAI o-series 및 Gemini 2.5와 같은 추론 모델의 출현으로 기존 워크플로우 엔지니어링 방법의 필요성을 재평가해야 합니다
- 산업 수요: 실제 배포는 정확성, 지연 시간 및 복잡성 간의 균형을 고려해야 합니다
- 기존 연구는 복잡한 에이전트 워크플로우에 중점을 두고 있지만, 산업 애플리케이션에서는 과도할 수 있습니다
- Text2SQL 작업에서 추론 모델에 대한 체계적 평가가 부족합니다
- 정확성과 시스템 성능 지표(지연 시간, 토큰 소비 등)를 동시에 고려하는 연구가 거의 없습니다
저자는 세 가지 핵심 질문을 제시합니다:
- 추론 모델의 진전을 고려할 때, 광범위한 프롬프팅 및 워크플로우 엔지니어링이 여전히 가치가 있는가?
- 어떤 테스트 타임 스케일링 전략이 정확성과 지연 시간을 가장 잘 균형 있게 할 수 있는가?
- 산업 애플리케이션을 위해 워크플로우를 어떻게 최적화할 것인가?
- 체계적 벤치마킹: 4가지 LLM(일반 모델 및 추론 모델 포함)을 포함하여 6가지 경량의 산업 지향적 에이전트 워크플로우에 대한 포괄적 평가
- 다차원 평가: 정확도 지표 외에도 추론 지연 시간 및 토큰 소비에 대한 상세 분석 제공
- 실용적 인사이트: 분할 정복(Divide-and-Conquer) 지시사항과 소수 샷 데모가 모든 모델에 상당한 개선을 가져온다는 발견
- 산업 배포 지침: Text2SQL 시스템의 실제 배포를 위해 정확성, 효율성 및 복잡성 트레이드오프에 대한 실행 가능한 지침 제공
Text2SQL 작업은 자연어 질문을 실행 가능한 SQL 쿼리로 변환하는 것을 목표로 합니다. 입력은 자연어 질문과 데이터베이스 스키마이고, 출력은 해당하는 SQL 쿼리입니다.
- 프로세스: SW > EX <> SR
- 설명: ReAct 에이전트의 "생각-행동-관찰" 루프를 채택하며, 실행 오류 또는 빈 데이터가 발생할 때 쿼리를 반복적으로 최적화합니다
- 프로세스: SW > EX <> SR
- 혁신점: 복잡한 문제를 일련의 작은 부분 문제로 분해하고, 순차적으로 해결한 후 최종 응답을 결합합니다
- 변형: 소수 샷 데모 포함 및 미포함 효과를 각각 평가합니다
- 프로세스: (SW > EX <> SR) ∥ 5 > MV / CS
- 메커니즘: 여러 후보 답변을 생성하고 다수결 투표로 최종 답변을 선택합니다. 다수결이 없으면 후보 선택기 에이전트를 사용합니다
- 프로세스: SW > EX <> SR <> FP
- 목표: 구문적으로는 올바르지만 의미적으로는 오류가 있는 SQL 쿼리를 처리하며, 피드백 제공자가 최적화 필요 여부를 결정합니다
- 프로세스: KE > (ER ∥ CR) > SW > EX <> SR
- 개작 출처: CHESS 방법
- 단계:
- 키워드 추출기가 질문의 핵심 키워드를 식별합니다
- 엔티티 검색기(LSH 인덱스 기반)와 열 검색기(의미 유사성 기반)를 병렬로 실행합니다
- 검색된 정보를 SQL 작성기에 전달합니다
- 경량 설계: 문헌의 복잡한 방법이 아닌 산업 준비 완료 워크플로우에 중점을 둡니다
- 다중 모델 비교: 일반 모델(GPT-4o, Gemini 시리즈)과 추론 모델(o4-mini)을 동시에 평가합니다
- 종합 평가: 정확성, 지연 시간 및 리소스 소비를 결합한 다차원 평가 프레임워크
- 이름: BIRD Mini-Dev 벤치마크
- 규모: 500개의 질문-SQL 쌍
- 출처: 원본 BIRD Dev 컬렉션에서 파생된 부분집합
- 특징: 복잡한 교차 테이블 쿼리 및 실제 데이터베이스 시나리오 포함
- Soft F1-Score: 예측 쿼리와 실제 쿼리가 생성하는 테이블의 유사성을 측정하여 SQL 쿼리 정확성을 평가합니다
- 실행 정확도(EX): 실제 결과와 정확히 동일한 SQL 쿼리를 생성하는 백분율
- 보상 기반 유효 효율성 점수(R-VES): 모델이 올바르고 최적화된 SQL 쿼리를 생성하는 효율성을 정량화합니다
- 실행 오류율: 워크플로우에서 구문 실행 오류가 발생한 작업의 백분율
- 추론 시간: 사용자 질문 수신부터 SQL 쿼리 생성까지의 지속 시간(초)
- LLM 호출 수: 워크플로우에서 사용된 평균 LLM 호출 횟수
- 토큰 수: 단일 SQL 쿼리를 생성하는 데 필요한 평균 프롬프트 및 완료 토큰 수(천 단위)
4가지 LLM:
- Gemini 1.5 Flash(일반 모델)
- Gemini 2.5 Flash(일반 모델)
- GPT-4o(일반 모델)
- o4-mini(추론 모델)
- 모든 워크플로우에는 구문 수정 반복이 포함됩니다
- 지연 시간 측정은 여러 요인(모델 지역, 네트워크 지연, 서버 리소스 등)의 영향을 받습니다
- 효율성 고려를 위해 BIRD Mini-Dev를 사용하여 평가합니다
- 핵심 발견: DC 3-shot+ReAct 워크플로우는 모든 모델에서 Soft-F1 점수를 지속적으로 향상시킵니다
- GPT-4o: 기준선 61.1에서 64.4로 상승
- o4-mini: 기준선 56.3에서 65.5로 상승
- 결론: 전문 추론 모델도 명시적 프로그래밍 지시사항에서 이점을 얻을 수 있습니다
- 최적 조합: Divide-and-Conquer + 소수 샷 데모 + ReAct는 모든 모델에서 일관된 개선을 제공합니다
- 검증 방법: 대부분의 모델에서 안정적인 성능 향상을 제공합니다
- Gemini 1.5 Flash: 62.58 → 63.63
- Gemini 2.5 Flash: 68.12 → 68.44
- GPT-4o: 64.44 → 64.95
- 검색 증강 방법: 전반적으로 성능이 저조하며, 거의 모든 모델에서 DC 3-shot+ReAct보다 낮습니다
- 지연 시간의 현저한 차이:
- Gemini Flash 모델: 5.02-12.03초
- GPT-4o 및 o4-mini: 15.70-18.43초
- 오류 답변의 비용: 오류 답변 생성 시간이 정답보다 19.58% 더 깁니다
- 복잡성의 영향: 더 어려운 문제는 더 많은 시간이 필요하고 더 많은 토큰을 소비하며, 정확도는 종종 더 낮습니다
오류 분석을 통해 발견:
- 잘못된 쿼리 로직은 모든 방법과 모델에서 가장 일반적인 실패 유형입니다
- 검색 증강 방법은 이 문제를 지속적으로 악화시킵니다
- 검색 방법은 또한 스키마 연결 오류의 비율을 증가시킵니다
논문은 o4-mini 모델을 사용하여 실패 사례를 분류하는 상세한 오류 분석을 수행했으며, 검색 증강 방법이 복잡한 추론 작업에서 모델의 중요한 정보를 제거하여 성능 저하를 초래할 수 있음을 발견했습니다.
논문은 기존 Text2SQL 에이전트 워크플로우를 체계적으로 정리했으며, 다음을 포함합니다:
- DIN-SQL의 분해 컨텍스트 학습
- MAC-SQL의 다중 에이전트 협업 프레임워크
- CHESS의 컨텍스트 SQL 합성
- R3의 합의 다중 에이전트 시스템
구조화된 추론 단계, 병렬 실행, 검증 및 결과 집계 등 다양한 전략을 포함하며, 이러한 방법들은 순차 워크플로우를 채택하여 쿼리 생성을 모듈식 단계로 분해합니다.
- 기본 모델의 중요성: 강력한 기본 모델이 워크플로우 복잡성보다 더 중요합니다(Gemini 2.5 Flash 기준선 성능이 GPT-4o 및 Gemini 1.5 Flash의 가장 복잡한 워크플로우를 초과합니다)
- DC+소수 샷의 보편성: 분할 정복 지시사항과 소수 샷 데모는 모든 모델 유형에 상당한 개선을 제공합니다
- 복잡성의 수확 체감: 워크플로우 복잡성 증가가 항상 더 나은 결과를 가져오지는 않습니다
- 평가 범위 제한: 경량 워크플로우만 중점을 두고 있으며, 더 복잡한 설계의 성능 상한을 나타내지 못할 수 있습니다
- 단일 데이터셋: BIRD Mini-Dev에서만 평가되어 더 광범위한 검증이 부족합니다
- 지연 시간 지표의 상대성: 보고된 지연 시간 및 토큰 소비는 외부 요인의 영향을 받으므로 지시적이지만 절대값으로 간주해서는 안 됩니다
- 더 복잡한 워크플로우 설계 검증
- 더 광범위한 데이터셋에서 발견 검증
- 이러한 전략의 다른 작업에 대한 적용 가능성 탐색
- 사용자 기대치 관리를 위한 제품 설계 최적화
- 실용 지향성: 산업 준비 완료 솔루션에 중점을 두고 실제 배포의 제약 조건을 고려합니다
- 다차원 평가: 정확성뿐만 아니라 지연 시간 및 리소스 소비를 고려하여 실제 애플리케이션에 대한 포괄적 관점을 제공합니다
- 체계적 비교: 일반 모델과 추론 모델을 동시에 평가하여 가치 있는 비교 인사이트를 제공합니다
- 상세한 오류 분석: 오류 분류를 통해 다양한 방법의 실패 패턴을 깊이 있게 이해합니다
- 샘플 규모 제한: 500개 샘플의 BIRD Mini-Dev만 사용하여 결론의 일반화 가능성에 영향을 미칠 수 있습니다
- 모델 커버리지 불완전: 다른 주류 모델(Claude, LLaMA 시리즈 등)의 비교가 부족합니다
- 워크플로우 설계의 보수성: 경량 방법에 중점을 두면 더 고급 기술의 잠재력을 놓칠 수 있습니다
- 사용자 연구 부재: 실제 사용자의 사용 경험 평가가 없습니다
- 학술 기여: Text2SQL 분야의 테스트 타임 스케일링 전략에 대한 체계적 벤치마크 제공
- 산업 가치: 기업 Text2SQL 시스템 배포를 위한 실용적 지침 제공
- 방법론적 영감: 다차원 평가 프레임워크를 다른 NLP 작업의 산업화 배포에 적용할 수 있습니다
- 엔터프라이즈 데이터베이스 쿼리: 빠른 배포, 정확성과 효율성의 균형이 필요한 엔터프라이즈 환경에 적합합니다
- 프로토타입 개발: Text2SQL 시스템의 빠른 프로토타입 개발을 위해 검증된 워크플로우 패턴을 제공합니다
- 모델 선택 지침: 개발자가 특정 요구사항에 따라 적절한 기본 모델 및 워크플로우 전략을 선택하는 데 도움을 줍니다
논문은 Text2SQL 분야의 중요한 연구를 인용하고 있으며, 다음을 포함합니다:
- BIRD 벤치마크 데이터셋 (Li et al., 2023)
- DIN-SQL 분해 방법 (Pourreza & Rafiei, 2023)
- CHESS 컨텍스트 합성 (Talaei et al., 2024)
- ReAct 추론 프레임워크 (Yao et al., 2023)
- Chain-of-Thought 프롬프팅 (Wei et al., 2022)
본 연구는 Text2SQL 시스템의 실제 배포에 대한 귀중한 경험적 지침을 제공하며, 특히 정확성, 효율성 및 복잡성의 균형을 맞추는 측면에서 그렇습니다. 그 발견은 Text2SQL 기술을 연구 프로토타입에서 산업 애플리케이션으로 전환하는 것을 추진하는 데 중요한 의미를 가집니다.