2025-11-17T00:55:12.821885

Benchmarking is Broken -- Don't Let AI be its Own Judge

Cheng, Wohnig, Gupta et al.
The meteoric rise of AI, with its rapidly expanding market capitalization, presents both transformative opportunities and critical challenges. Chief among these is the urgent need for a new, unified paradigm for trustworthy evaluation, as current benchmarks increasingly reveal critical vulnerabilities. Issues like data contamination and selective reporting by model developers fuel hype, while inadequate data quality control can lead to biased evaluations that, even if unintentionally, may favor specific approaches. As a flood of participants enters the AI space, this "Wild West" of assessment makes distinguishing genuine progress from exaggerated claims exceptionally difficult. Such ambiguity blurs scientific signals and erodes public confidence, much as unchecked claims would destabilize financial markets reliant on credible oversight from agencies like Moody's. In high-stakes human examinations (e.g., SAT, GRE), substantial effort is devoted to ensuring fairness and credibility; why settle for less in evaluating AI, especially given its profound societal impact? This position paper argues that the current laissez-faire approach is unsustainable. We contend that true, sustainable AI advancement demands a paradigm shift: a unified, live, and quality-controlled benchmarking framework robust by construction, not by mere courtesy and goodwill. To this end, we dissect the systemic flaws undermining today's AI evaluation, distill the essential requirements for a new generation of assessments, and introduce PeerBench (with its prototype implementation at https://www.peerbench.ai/), a community-governed, proctored evaluation blueprint that embodies this paradigm through sealed execution, item banking with rolling renewal, and delayed transparency. Our goal is to pave the way for evaluations that can restore integrity and deliver genuinely trustworthy measures of AI progress.
academic

벤치마킹이 깨졌다 -- AI가 자신의 판사가 되도록 하지 말자

기본 정보

  • 논문 ID: 2510.07575
  • 제목: Benchmarking is Broken -- Don't Let AI be its Own Judge
  • 저자: Zerui Cheng, Stella Wohnig, Ruchika Gupta, Samiul Alam, Tassallah Abdullahi, João Alves Ribeiro, Christian Nielsen-Garcia, Saif Mir, Siran Li, Jason Orender, Seyed Ali Bahrainian, Daniel Kirste, Aaron Gokaslan, Mikołaj Glinka, Carsten Eickhoff, Ruben Wolff
  • 분류: cs.AI cs.LG
  • 발표 시간/학회: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
  • 논문 링크: https://arxiv.org/abs/2510.07575

초록

AI 기술의 급속한 발전과 시장 가치의 빠른 증가에 따라 AI 평가는 중요한 도전에 직면하고 있습니다. 현재의 벤치마크 테스트는 데이터 오염 및 모델 개발자의 선택적 보고 등 심각한 결함을 노출하고 있으며, 이러한 문제들은 과장된 주장을 조장하고 있습니다. 데이터 품질 관리 부족은 편향된 평가로 이어질 수 있습니다. AI 분야로 대량의 참여자가 유입되는 상황에서, 이러한 "무법천지" 식의 평가 방식은 진정한 진전과 과장된 주장을 구별하기 어렵게 만듭니다. 본 논문은 현재의 자유방임적 접근 방식이 지속 불가능하며, 진정한 AI 진전을 위해서는 통합되고 실시간이며 품질 관리가 가능한 벤치마크 프레임워크가 필요하다고 주장합니다. 이를 위해 본 논문은 현재 AI 평가의 체계적 결함을 분석하고, 차세대 평가의 기본 요구사항을 제시하며, 커뮤니티 거버넌스 기반의 감시식 평가 청사진인 PeerBench를 소개합니다.

연구 배경 및 동기

핵심 문제

본 연구가 해결하고자 하는 AI 벤치마크 테스트 분야의 체계적 문제:

  1. 데이터 오염: 공개 벤치마크 테스트가 훈련 세트로 유출되어 테스트 세트 암기 및 점수 부풀리기 초래
  2. 선택적 보고: 모델 개발자가 유리한 작업 부분집합의 결과만 보고할 가능성
  3. 평가 단편화: 통합된 평가 표준 및 인터페이스 부재
  4. 공정성 보장 부족: 인간의 고위험 시험과 비교할 때 AI 평가에 감시 및 신원 확인 부재

문제의 중요성

  • AI 기술의 사회적 영향이 점점 깊어지고 있어 신뢰할 수 있는 평가 메커니즘 필요
  • 현재 평가 생태계의 결함이 과학적 신호를 모호하게 하고 공중의 신뢰를 훼손
  • 금융 시장이 신뢰할 수 있는 규제 기관을 필요로 하듯이, AI 분야도 신뢰할 수 있는 평가 표준 필요

기존 방법의 한계

  1. 정적 벤치마크 테스트: MMLU, GSM8K 등이 빠르게 포화되고 암기하기 쉬움
  2. 동적 벤치마크 테스트: LiveBench 같은 경우 지속적으로 업데이트되지만 단일 팀에 의존하고 규모 제한
  3. 비공개 벤치마크 테스트: 오염 감소하지만 투명성 부족, 편향 위험 존재
  4. 크라우드소싱 평가: Chatbot Arena 같은 경우 신원 확인 부재, 조작 가능성

핵심 기여

  1. 체계적 비판: 오염, 단편화, 독점화 문제를 포함한 현재 벤치마크 테스트의 구조적 결함에 대한 포괄적 분석
  2. 입장 표명: AI 평가를 안전하고 표준화된 시험으로 재정의하는 관점 및 개방성과 엄밀성의 균형을 맞추는 설계 원칙 제시
  3. 프로토타입 아키텍처: 구체적인 10단계 워크플로우, 암호학적 서명 아티팩트, 경량 평판 메커니즘 및 점수 정규화 방법을 포함한 PeerBench 시스템 설계
  4. 실제 구현: PeerBench의 프로토타입 구현(https://peerbench.ai) 제공으로 개념의 실행 가능성 입증

방법론 상세 설명

새로운 패러다임의 일곱 가지 원칙

  1. 비밀 테스트 세트: 평가 항목이 실행 전까지 공개되지 않은 상태 유지
  2. 감시식 실행: 모든 모델이 통합된 밀폐 샌드박스에서 평가되며, 모든 입출력이 기록되고 암호학적으로 서명됨
  3. 커뮤니티 거버넌스: 다중 이해관계자 검증자 네트워크가 규칙 및 거버넌스 실행
  4. 지속적 업데이트 및 활동성: 각 평가 라운드에서 고정 비율의 문제가 폐기되고 교체됨
  5. 감사 가능성 및 무결성: 검증자가 발행 전에 테스트 및 답변 해시값을 사전 제출
  6. 공정한 접근성: 모든 진정한 팀이 모델을 제출할 수 있으며, 계산 보상료만 지불하면 됨
  7. 다중 지표 보고: 영역 특정 부분 점수 및 백분위 순위 제공

PeerBench 아키텍처 설계

참여자 역할

  • 데이터 기여자: 비공개 테스트 스위트 및 실행 가능한 채점 함수 생성
  • 검토자: 제출된 테스트의 품질 평가, 서수 등급 생성
  • 모델 개발자: 추론 엔드포인트 노출 및 특정 스트림 등록
  • 조정 서버: 업로드 인증, 활성 라이브러리 관리, 동료 검토 스케줄링
  • 최종 사용자: 실시간 리더보드를 참고하는 연구자, 기자 등

세 가지 리더보드 시스템

  1. 데이터 기여자 리더보드:
    ContributorScore(c) = Σ quality(T_i^(c)) + bonuses
    
  2. 검토자 리더보드:
    ReviewerScore(r) = Pearson({q_r^(i)}, {q^(i)})
    
  3. 모델 리더보드:
    ModelScore(m) = (Σ w(T_i) s_i^(m)) / (Σ w(T_i))
    

엔드투엔드 워크플로우

설정 단계

  • 참여자가 검증 가능한 자격증명으로 등록
  • 공개 키 서명 키 생성
  • 기여자 및 검토자가 보증금 예치

지속적 평가 프로세스

T1. 테스트 제출 및 약속: 기여자가 테스트 T^(c) 및 채점 함수 F^(c)를 제출하고, 시스템이 바인딩 약속 h = Com(T^(c), F^(c)) 기록

T2. 모델 평가: 서버가 현재 등록된 모든 모델에 대한 쿼리를 즉시 스케줄링

T3. 검토 프로세스: 검토자에게 무작위 할당, 최소 3개의 유효한 검토 요구

T4. 가중치 계산:

w(T^(c)) = max{0, 0.7 * quality(T^(c)) + 0.3 * min(2, ρ_c/100)}

T5. 라이브러리 관리: 새 테스트가 활성 라이브러리에 추가, 영 가중치 테스트 우선 폐기

T6. 평판 업데이트: 각 라운드 후 모든 관련 참여자의 평판 업데이트

실험 설정

시간 공정성 딜레마

논문은 두 가지 설계 선택을 식별합니다:

  • 선택 A: 온디맨드 즉시 채점: 모델 요청 시 즉시 채점, 반응성 최대화
  • 선택 B: 정기적 동기화 평가: 모델이 사전 정의된 평가 윈도우에 등록, 최강 형태의 공정성 보장

PeerBench는 혼합 접근 방식을 채택하여 두 패러다임을 모두 지원하며, 프로토타입에서는 즉시 채점의 유연성을 우선시합니다.

보안 및 감사 메커니즘

  • 부분 공개: 검토자에게 읽기 전용, 복사 불가능한 형식으로 테스트의 작은 무작위 부분 표시
  • 완전 공개: 폐기 후 테스트, 로그 및 모델 응답 공개
  • 삭감 메커니즘: 평판이 임계값 이하인 참여자 제거, 악의적 행동으로 인한 보증금 삭감

실험 결과

프로토타입 구현

논문은 PeerBench의 실제 프로토타입 구현(https://peerbench.ai)을 제공하며, 다음을 보여줍니다:

  • 완전한 워크플로우 구현
  • 평판 시스템의 운영 메커니즘
  • 다중 스트림 평가 지원(수학, 코드 생성, 번역 등)

설계 선택의 유효성

논문은 아키텍처 설계를 통해 일반적인 문제를 해결합니다:

  • 데이터 오염 및 선택: 검증자가 테스트 세트를 사전 약속하고 라운드 종료까지 비공개 유지
  • 비공개 데이터 부정행위: 공개 무작위 소스가 공개할 쿼리를 결정하여 검증자가 감사 항목을 예상하지 못하도록 방지
  • 테스트 품질: 각 테스트가 여러 독립적 검토를 받으며, 데이터 품질이 최종 점수에서의 가중치 결정
  • 접근성: 모든 역할의 등록이 간단하여 광범위한 참여 지원

관련 연구

정적 벤치마크 테스트 및 리더보드

  • MMLU, GSM8K, SuperGLUE 등이 명확한 진전 스냅샷을 제공하지만 빠르게 포화되고 훈련 말뭉치로 유출됨
  • BIG-Bench가 작업 범위를 확대하지만 발행 시 작업이 공개됨
  • HELM이 여러 지표를 추가하지만 발행 간격 사이에 정적 유지

동적 또는 오염 방지 벤치마크 테스트

  • LiveBench가 작업을 지속적으로 새로고침하지만 단일 중앙 집중식 팀에 의존
  • Dynabench가 인간 참여 대적 데이터 수집 탐색
  • 대적 "모델 파괴" 경쟁이 약점을 노출하지만 체계적 점수 집계 부재

인간 선호도 및 개방형 평가 플랫폼

  • Chatbot Arena의 Elo 래더 및 OpenAI Evals가 개방성 촉진
  • HuggingFace 개방형 LLM 리더보드가 사용자의 테스트 스크립트 업로드 허용
  • 그러나 이러한 플랫폼은 스팸, 봇 투표 및 추적되지 않은 오염에 취약

결론 및 논의

주요 결론

  1. 현재 AI 벤치마크 테스트 시스템에는 체계적 결함이 있으며 패러다임 전환 필요
  2. 인간 표준화 시험에서 영감을 받은 감시식 평가 패러다임이 실행 가능한 해결책
  3. PeerBench가 커뮤니티 거버넌스, 오염 방지 평가의 실용성 입증
  4. 개방성과 엄밀성 사이의 균형 필요

한계

  1. 시간 공정성: 즉시 평가와 동기화 평가 사이의 근본적 긴장
  2. 구현 비용: 지속적인 고품질 테스트 생성 및 인프라 유지 필요
  3. 참여 인센티브: 검토자 참여 유지를 위한 적절한 경제적 인센티브 필요
  4. 거버넌스 복잡성: 다중 이해관계자 거버넌스가 조정 문제에 직면할 수 있음

향후 방향

  1. 메커니즘 설계: 프레임워크의 경제 및 대적 견고성 강화를 위한 게임 이론 안전 분석 추가 연구
  2. 거버넌스 최적화: 다중 기관 거버넌스 구조 및 순환 멤버십 제도 개선
  3. 비용 최적화: 컨테이너화 추론 제출 등 운영 비용 감소 방법 탐색
  4. 표준화: NIST 또는 MLCommons 같은 기존 중립 조직과의 협력 추진

심층 평가

장점

  1. 문제 식별의 정확성: 현재 AI 평가 생태계의 핵심 문제를 정확히 식별
  2. 솔루션의 혁신성: 정적 리더보드에서 감시식 시험으로의 패러다임 전환 제시
  3. 높은 실용성: 구체적인 구현 프로토타입 및 상세한 워크플로우 제공
  4. 견고한 이론적 기초: 인간 표준화 시험의 성숙한 경험 활용
  5. 커뮤니티 지향: 커뮤니티 거버넌스 및 분산화 강조로 단일 실패 지점 회피

부족한 점

  1. 확장성 도전: 대규모 구현 시 참여자 조정 및 인센티브 문제 직면 가능
  2. 콜드 스타트 문제: 신규 시스템이 신뢰성 구축을 위해 충분한 초기 참여자 필요
  3. 불완전한 경제 모델: 삭감 메커니즘은 언급되지만 경제적 인센티브의 세부사항 추가 개선 필요
  4. 기술 구현 복잡성: 암호학적 서명, 평판 시스템 등 기술 구성요소의 구현 복잡도 높음

영향력

  1. 학술적 기여: AI 평가 분야에 새로운 이론적 프레임워크 및 실천 방향 제공
  2. 산업 영향: AI 산업이 더욱 공정하고 신뢰할 수 있는 평가 표준 수립 추진 가능
  3. 정책적 의의: AI 규제 및 표준 제정을 위한 기술적 기초 제공
  4. 장기적 가치: 지속 가능한 AI 평가 생태계 구축의 청사진 제시

적용 시나리오

  1. 고위험 AI 애플리케이션 평가: 특히 높은 신뢰도가 필요한 AI 시스템 평가에 적합
  2. 학술 연구: 연구 커뮤니티에 공정한 모델 비교 플랫폼 제공
  3. 산업 표준 제정: 업계 표준 평가 프레임워크의 기초로 활용 가능
  4. 규제 준수: AI 시스템의 규제 평가에 대한 기술적 지원 제공

참고문헌

논문은 AI 평가, 벤치마크 테스트, 데이터 오염, 평판 시스템 등 여러 분야의 중요한 연구를 포함한 56개의 관련 문헌을 인용하여 입장에 충분한 이론적 지원을 제공합니다.


종합 평가: 이는 현재 AI 평가 시스템의 문제를 깊이 있게 분석할 뿐만 아니라 구체적이고 실행 가능한 해결책을 제시하는 중요한 의견 논문입니다. PeerBench의 설계는 저자들의 AI 평가 미래 발전에 대한 심층적 사고를 반영하며, 프로토타입 구현은 개념의 실행 가능성을 입증합니다. 대규모 구현 측면에서 여전히 도전 과제가 있지만, AI 평가 분야의 발전 방향을 명확히 제시합니다.