2025-11-25T01:52:16.261661

Position: The Artificial Intelligence and Machine Learning Community Should Adopt a More Transparent and Regulated Peer Review Process

Yang
The rapid growth of submissions to top-tier Artificial Intelligence (AI) and Machine Learning (ML) conferences has prompted many venues to transition from closed to open review platforms. Some have fully embraced open peer reviews, allowing public visibility throughout the process, while others adopt hybrid approaches, such as releasing reviews only after final decisions or keeping reviews private despite using open peer review systems. In this work, we analyze the strengths and limitations of these models, highlighting the growing community interest in transparent peer review. To support this discussion, we examine insights from Paper Copilot, a website launched two years ago to aggregate and analyze AI / ML conference data while engaging a global audience. The site has attracted over 200,000 early-career researchers, particularly those aged 18-34 from 177 countries, many of whom are actively engaged in the peer review process. Drawing on our findings, this position paper advocates for a more transparent, open, and well-regulated peer review aiming to foster greater community involvement and propel advancements in the field.
academic

Позиция: Сообщество искусственного интеллекта и машинного обучения должно принять более прозрачный и регулируемый процесс рецензирования

Основная информация

  • ID статьи: 2502.00874
  • Название: Position: The Artificial Intelligence and Machine Learning Community Should Adopt a More Transparent and Regulated Peer Review Process
  • Автор: Jing Yang (University of Southern California, papercopilot.com)
  • Классификация: cs.DL cs.AI cs.CV cs.CY
  • Время публикации/конференция: Proceedings of the 42nd International Conference on Machine Learning, Vancouver, Canada. PMLR 267, 2025
  • Ссылка на статью: https://arxiv.org/abs/2502.00874

Аннотация

С быстрым ростом количества поступлений на ведущие конференции по искусственному интеллекту (ИИ) и машинному обучению (МО) многие конференции перешли с закрытых платформ рецензирования на открытые. Некоторые конференции полностью приняли открытое рецензирование, позволяя полную видимость всего процесса, в то время как другие используют гибридные подходы, такие как публикация рецензий только после окончательного решения или сохранение конфиденциальности рецензий несмотря на использование открытых систем. В данной статье анализируются преимущества и ограничения этих моделей, подчеркивается растущий интерес сообщества к прозрачному рецензированию. Для поддержки этого обсуждения мы изучили данные Paper Copilot, веб-сайта, запущенного два года назад для агрегирования и анализа данных конференций ИИ/МО и привлечения глобальной аудитории. Сайт привлек более 200 000 молодых исследователей из 177 стран, особенно исследователей в возрасте 18-34 лет, многие из которых активно участвуют в процессе рецензирования. На основе наших выводов данная позиционная статья выступает за более прозрачное, открытое и нормализованное рецензирование, направленное на содействие большему участию сообщества и продвижению развития этой области.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данная статья, заключается в недостаточной прозрачности и нормализации процесса рецензирования в академическом сообществе ИИ/МО. Конкретно это включает:

  1. Экспоненциальный рост количества поступлений на ведущие конференции ИИ/МО (более 10 000 статей), что создает огромное давление на традиционные практики рецензирования в отношении справедливости, эффективности и поддержания качества
  2. Различные конференции применяют разные модели прозрачности рецензирования (полностью открытое, частично открытое, полностью закрытое) без единого стандарта
  3. Растущая доля молодых рецензентов, но с недостатком опыта, что может повлиять на качество рецензирования
  4. Отсутствие нормализации использования инструментов ИИ при рецензировании с этическими рисками

Значимость

Значимость этой проблемы проявляется в:

  1. Сохранение академической честности: Прозрачный процесс рецензирования помогает выявлять и предотвращать академические нарушения
  2. Содействие участию сообщества: Открытое рецензирование может повысить степень участия и сотрудничества членов сообщества
  3. Повышение качества рецензирования: Открытый надзор может улучшить объективность и конструктивность рецензирования
  4. Ускорение распространения знаний: Прозрачный процесс рецензирования способствует быстрому распространению академических знаний

Ограничения существующих подходов

  1. Полностью закрытое рецензирование: Отсутствие надзора и механизмов подотчетности, подверженность непоследовательности и предвзятости
  2. Частично открытое рецензирование: Хотя рецензии публикуются после принятия решения, это ограничивает участие сообщества в реальном времени
  3. Полностью открытое рецензирование: Может привести к чрезмерной осторожности рецензентов, влияя на откровенность обратной связи

Исследовательская мотивация

Автор собрал большой объем данных через платформу Paper Copilot и обнаружил:

  • Более 200 000 активных пользователей из 177 стран проявляют сильный интерес к прозрачному рецензированию
  • Молодые исследователи в возрасте 18-34 лет являются основной группой пользователей
  • Конференции с открытым рецензированием получают более высокий уровень участия сообщества

Основные вклады

  1. Предоставление открытых статистических данных: Через Paper Copilot предоставляются визуализированные статистические данные о распределении оценок рецензирования, временной шкале рецензирования, анализе авторов/учреждений и т.д.
  2. Количественное доказательство интереса сообщества: На основе двухлетних данных участия предоставляются количественные доказательства растущего интереса сообщества к прозрачности рецензирования
  3. Критический анализ: Систематический анализ преимуществ и недостатков различных моделей рецензирования
  4. Политические рекомендации: Выступление за принятие более прозрачного, открытого и нормализованного процесса рецензирования

Подробное описание методологии

Методология сбора данных

Автоматизированное получение данных

  1. Открытые API и веб-скреперы:
    • Получение оценок, уровней уверенности и мнений рецензентов из конференций с открытым рецензированием, таких как ICLR, через OpenReview API
    • Развертывание пользовательских скреперов для ежедневного получения данных, создание архивов временных рядов
    • Получение информации об авторстве и учреждениях с официальных веб-сайтов
  2. Представления сообщества:
    • Сбор анонимной информации о рецензировании из конференций с частично открытым или закрытым рецензированием через Google Forms
    • Сбор 3 876 действительных ответов за прошлый год

Процесс обработки данных

  • Стандартизированный конвейер очистки, объединения и хранения данных
  • Открытый набор данных
  • Интерактивный интерфейс визуализации фронтенда

Аналитическая база

Классификация прозрачности рецензирования

  1. Полностью открытое: Все рецензии и обсуждения видны в реальном времени (например, ICLR)
  2. Частично открытое: Рецензии и обсуждения публикуются только после завершения этапа принятия решения (например, NeurIPS, CoRL)
  3. Полностью закрытое: Рецензии и обсуждения остаются конфиденциальными навсегда (например, ICML, CVPR)

Измерения анализа пользователей

  • Распределение по возрасту и полу
  • Географическое распределение (177 стран)
  • Анализ времени участия и показателей кликов
  • Производительность рейтинга в поисковых системах

Экспериментальная установка

Размер набора данных

  • Временной диапазон: 10 лет доступных данных
  • Охват конференций: 24 конференции, охватывающие 9 подобластей ИИ/МО
  • Данные пользователей: Более 200 000 активных пользователей из 177 стран
  • Статистика веб-сайта: 6 миллионов показов, 1 миллион посещений веб-сайта, 4 миллиона событий, инициированных пользователями

Метрики оценки

  1. Участие пользователей: Просмотры страниц, количество активных пользователей, среднее время участия
  2. Производительность поиска: Коэффициент кликов Google (CTR), позиция рейтинга страницы
  3. Качество рецензирования: Оценки уверенности, количество ответов в обсуждении
  4. Интерес сообщества: Коэффициент добровольного представления данных, коэффициент ответов на опросы

Сравнительный анализ

  • Сравнение участия пользователей в конференциях с разными уровнями прозрачности
  • Детальное сравнение ICLR (полностью открытое) и NeurIPS (частично открытое)
  • Анализ участия на конференциях с закрытым рецензированием

Результаты экспериментов

Основные выводы

Значительные различия в участии пользователей

  • ICLR (полностью открытое): 414 096 просмотров, 88 220 активных пользователей, среднее время участия 3 минуты 50 секунд
  • NeurIPS (частично открытое): Участие значительно ниже, чем у ICLR
  • Закрытые конференции (CVPR, ECCV): Менее 35 000 просмотров, среднее время участия менее 1,5 минут

Производительность в поисковых системах

  • CTR Google остается последовательным в диапазоне 66,08%-86,49%
  • Страницы, связанные с открытым рецензированием, занимают более высокие позиции в результатах поиска
  • За последние 28 дней только поиск Google генерировал 50 000 органических кликов

Анализ качества рецензирования

  1. Оценки уверенности:
    • ICLR: 3,53 ± 0,48 (2024)
    • NeurIPS: 3,58 ± 0,54 (2024)
    • Полностью открытое рецензирование показывает немного более низкую концентрацию оценок высокой уверенности
  2. Активность обсуждения:
    • ICLR показывает более широкое распределение ответов (максимум 76 ответов против 49 в NeurIPS)
    • Дисперсия обсуждений в ICLR значительно выше, отражая более динамичную среду рецензирования

Анализ профиля пользователя

Распределение по возрасту и полу

  • Основная группа пользователей: Возраст 18-24 года составляет наибольшую долю
  • Время участия: Молодые пользователи мужского пола показывают самое длительное среднее время участия (4 минуты 15 секунд)
  • Пользователи женского пола: Относительно последовательное время участия во всех возрастных группах

Географическое распределение

  • Основные страны: США (60 648 пользователей), Китай (59 269 пользователей)
  • Регионы с высоким участием: Сингапур, Австралия показывают среднее время участия более 3 минут
  • Различия в участии: Великобритания, Германия показывают относительно более короткое время участия (менее 2 минут)

Связанные работы

Исследования открытого рецензирования

  • Теоретическая база: Ross-Hellauer (2017) и другие установили теоретическую базу открытого рецензирования
  • Практическое исследование: Платформа OpenReview способствовала применению открытого рецензирования в области ИИ/МО
  • Исследования качества: Church и другие (2024) изучали влияние открытого рецензирования на качество обратной связи

Исследования нормализации

  • Этические соображения: Исследование потенциальных рисков конфиденциальности и преследования при открытом рецензировании
  • Рецензирование с помощью ИИ: Обсуждение применения инструментов ИИ при рецензировании и потребности в регулировании
  • Предвзятость и справедливость: Анализ систематической предвзятости в процессе рецензирования

Выводы и обсуждение

Основные выводы

  1. Четкие потребности сообщества: Высокое участие более 200 000 глобальных пользователей доказывает сильный спрос на прозрачное рецензирование
  2. Значительные преимущества открытого рецензирования: Полностью открытый процесс рецензирования способствует большему участию сообщества и более богатому академическому обсуждению
  3. Лидерство молодых исследователей: Исследователи в возрасте 18-34 лет являются основными движущими силами прозрачного рецензирования
  4. Качество и прозрачность совместимы: Открытое рецензирование не повредило качеству рецензирования, а скорее способствовало более осторожной оценке

Проблемы закрытого рецензирования

  1. Вызовы молодых рецензентов: Неопытные рецензенты в закрытой среде испытывают трудности с получением руководства
  2. Отсутствие регулирования использования ИИ: Закрытая среда затрудняет надзор и регулирование использования инструментов ИИ
  3. Недостаточные механизмы подотчетности: Сложно своевременно исправлять выявленные проблемы, такие как несоответствия в информации об авторах

Политические рекомендации

  1. Постепенное продвижение открытости: Рекомендуется большему количеству конференций принять по крайней мере частично открытую модель рецензирования
  2. Установление нормализованных стандартов: Разработка руководящих принципов использования рецензирования с помощью ИИ
  3. Усиление поддержки обучения: Предоставление большей подготовки и руководства молодым рецензентам
  4. Совершенствование механизмов надзора: Установление более эффективных систем контроля качества и подотчетности

Глубокая оценка

Преимущества

Инновационность методологии

  1. Крупномасштабное эмпирическое исследование: Первый анализ потребностей в прозрачности рецензирования на основе реальных данных поведения более 200 000 пользователей
  2. Многомерный анализ: Объединение поведения пользователей, данных поиска, качества рецензирования и других измерений
  3. Сбор данных в реальном времени: Непрерывный сбор и анализ данных через платформу Paper Copilot
  4. Глобальная перспектива: Охват 177 стран, обеспечивающий подлинно глобальную перспективу

Достаточность экспериментов

  1. Большой объем данных: 10 лет исторических данных, 24 конференции, 9 подобластей ИИ/МО
  2. Многоисточниковая верификация: Объединение данных API, данных веб-сайта, данных представлений сообщества
  3. Комбинация количественного и качественного: Как статистические данные, так и исследования пользователей
  4. Анализ временных рядов: Отслеживание динамических изменений в процессе рецензирования

Убедительность результатов

  1. Согласованные выводы: Несколько показателей указывают на преимущества открытого рецензирования
  2. Статистическая значимость: Явные и последовательные различия в участии пользователей
  3. Практическое воздействие: Paper Copilot сам является успешной практикой прозрачности

Недостатки

Ограничения методологии

  1. Смещение отбора: Добровольное представление данных может привести к смещению отбора
  2. Причинно-следственные связи: Невозможно полностью установить причинно-следственную связь между прозрачностью и участием
  3. Культурные различия: Различные страны могут иметь разные уровни принятия прозрачности
  4. Временные эффекты: Влияние изменений модели рецензирования может проявиться только со временем

Глубина анализа

  1. Ограниченная оценка качества: Основное внимание уделяется участию, оценка фактического качества рецензирования относительно ограничена
  2. Недостаточный анализ негативных воздействий: Недостаточно глубокое обсуждение потенциальных негативных воздействий открытого рецензирования
  3. Отсутствие деталей реализации: Недостаточно подробные операционные рекомендации по конкретной реализации прозрачного рецензирования

Проблемы универсальности

  1. Специфичность для области: Основано в основном на области ИИ/МО, применимость в других областях неизвестна
  2. Культурный фон: Различные академические культуры имеют разные уровни принятия прозрачности
  3. Технические барьеры: Открытое рецензирование требует определенной технической инфраструктуры

Оценка влияния

Академический вклад

  1. Заполнение исследовательского пробела: Первый крупномасштабный количественный анализ потребностей сообщества в прозрачности рецензирования
  2. Ценность для политики: Предоставление организаторам конференций ссылок на принятие решений на основе данных
  3. Вклад методологии: Установление новой методологической базы для анализа процесса рецензирования

Практическая ценность

  1. Прямое применение: Платформа Paper Copilot уже широко используется
  2. Влияние на политику: Может повлиять на разработку будущей политики рецензирования конференций
  3. Ценность инструмента: Предоставленные данные и аналитические инструменты имеют постоянную ценность

Воспроизводимость

  1. Открытые данные: Обещание открыть собранный набор данных
  2. Прозрачность методологии: Подробное описание методов сбора и анализа данных
  3. Доступность платформы: Платформа Paper Copilot продолжает работать, результаты можно проверить

Применимые сценарии

Прямое применение

  1. Конференции ИИ/МО: Может быть напрямую применено к различным конференциям в области ИИ/МО
  2. Информатика: Может быть расширено на другие подобласти информатики
  3. Области, управляемые технологией: Применимо к другим быстро развивающимся технологическим областям

Требующие корректировки

  1. Традиционные дисциплины: Гуманитарные и социальные науки требуют учета культурных факторов
  2. Чувствительные области: Исследования, связанные с коммерческими секретами или национальной безопасностью, требуют специального рассмотрения
  3. Небольшие конференции: Небольшие специализированные конференции могут требовать корректировки методов реализации

Направления будущих исследований

  1. Кросс-дисциплинарная верификация: Проверка выводов исследования в других дисциплинах
  2. Исследование долгосрочного воздействия: Отслеживание долгосрочного воздействия изменений моделей рецензирования
  3. Методы оценки качества: Разработка более точных методов оценки качества рецензирования
  4. Разработка руководящих принципов реализации: Разработка конкретных руководящих принципов реализации прозрачного рецензирования
  5. Исследование культурной адаптивности: Исследование адаптивных корректировок в различных культурных контекстах

Библиография

В статье цитируется богатая база соответствующих исследований, включая:

  • Ross-Hellauer, T. (2017). What is open peer review? A systematic review.
  • Wang, G., et al. (2023). What have we learned from openreview?
  • Cortes, C. & Lawrence, N. D. (2021). Inconsistency in conference peer review
  • Beygelzimer, A., et al. (2023). Has the machine learning review process become more arbitrary

Общая оценка: Это позиционная статья с важным практическим значением, предоставляющая систематический анализ и рекомендации по прозрачности рецензирования в академическом сообществе ИИ/МО на основе крупномасштабных реальных данных. Основная ценность статьи заключается в предоставлении количественных доказательств необходимости прозрачного рецензирования и демонстрации практического применения через платформу Paper Copilot. Хотя существует место для улучшения в методологии и глубине анализа, ее вклад в продвижение реформы системы рецензирования в академическом сообществе заслуживает признания.