2025-11-25T01:52:16.261661

Position: The Artificial Intelligence and Machine Learning Community Should Adopt a More Transparent and Regulated Peer Review Process

Yang
The rapid growth of submissions to top-tier Artificial Intelligence (AI) and Machine Learning (ML) conferences has prompted many venues to transition from closed to open review platforms. Some have fully embraced open peer reviews, allowing public visibility throughout the process, while others adopt hybrid approaches, such as releasing reviews only after final decisions or keeping reviews private despite using open peer review systems. In this work, we analyze the strengths and limitations of these models, highlighting the growing community interest in transparent peer review. To support this discussion, we examine insights from Paper Copilot, a website launched two years ago to aggregate and analyze AI / ML conference data while engaging a global audience. The site has attracted over 200,000 early-career researchers, particularly those aged 18-34 from 177 countries, many of whom are actively engaged in the peer review process. Drawing on our findings, this position paper advocates for a more transparent, open, and well-regulated peer review aiming to foster greater community involvement and propel advancements in the field.
academic

Posición: La Comunidad de Inteligencia Artificial y Aprendizaje Automático Debe Adoptar un Proceso de Revisión por Pares Más Transparente y Regulado

Información Básica

  • ID del Artículo: 2502.00874
  • Título: Position: The Artificial Intelligence and Machine Learning Community Should Adopt a More Transparent and Regulated Peer Review Process
  • Autor: Jing Yang (University of Southern California, papercopilot.com)
  • Clasificación: cs.DL cs.AI cs.CV cs.CY
  • Fecha de Publicación/Conferencia: Proceedings of the 42nd International Conference on Machine Learning, Vancouver, Canada. PMLR 267, 2025
  • Enlace del Artículo: https://arxiv.org/abs/2502.00874

Resumen

Con el rápido crecimiento del número de envíos a conferencias principales de Inteligencia Artificial (IA) y Aprendizaje Automático (AA), muchas conferencias han transitado de plataformas de revisión cerradas a plataformas de revisión abierta. Algunas conferencias han adoptado completamente la revisión por pares abierta, permitiendo visibilidad pública de todo el proceso, mientras que otras adoptan enfoques híbridos, como publicar revisiones solo después de la decisión final o mantener las revisiones privadas a pesar de utilizar sistemas de revisión abierta. Este artículo analiza las ventajas y limitaciones de estos modelos, destacando el interés creciente de la comunidad en la revisión por pares transparente. Para apoyar esta discusión, examinamos información de Paper Copilot, un sitio web lanzado hace dos años para agregar y analizar datos de conferencias de IA/AA y atraer a una audiencia global. El sitio ha atraído a más de 200,000 investigadores en etapas tempranas de carrera de 177 países, particularmente investigadores de 18-34 años, muchos de los cuales participan activamente en el proceso de revisión por pares. Basándonos en nuestros hallazgos, este artículo de posición aboga por una revisión por pares más transparente, abierta y normalizada, con el objetivo de promover una mayor participación comunitaria e impulsar el progreso en el campo.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que aborda este artículo es la insuficiente transparencia y normalización del proceso de revisión por pares en la comunidad académica de IA/AA. Específicamente incluye:

  1. Aumento explosivo en el número de envíos a conferencias principales de IA/AA (más de 10,000 artículos), enfrentando prácticas de revisión tradicionales con enorme presión en equidad, eficiencia y mantenimiento de calidad
  2. Diferentes conferencias adoptan diferentes modelos de transparencia de revisión (completamente abierto, parcialmente abierto, completamente cerrado), careciendo de estándares unificados
  3. Aumento en la proporción de revisores jóvenes pero falta de experiencia, lo que puede afectar la calidad de la revisión
  4. Falta de normalización en el uso de herramientas de IA en revisiones, con riesgos éticos

Importancia

La importancia de este problema se manifiesta en:

  1. Mantenimiento de la Integridad Académica: Los procesos de revisión transparentes ayudan a detectar y prevenir conducta académica indebida
  2. Promoción de Participación Comunitaria: La revisión abierta puede mejorar el compromiso y la colaboración de los miembros de la comunidad
  3. Mejora de la Calidad de Revisión: La supervisión pública puede aumentar la objetividad y constructividad de las revisiones
  4. Aceleración de la Difusión del Conocimiento: Los procesos de revisión transparentes facilitan la rápida propagación del conocimiento académico

Limitaciones de Métodos Existentes

  1. Revisión Completamente Cerrada: Carece de mecanismos de supervisión y responsabilidad, propenso a inconsistencias y sesgos
  2. Revisión Parcialmente Abierta: Aunque publica revisiones después de la decisión, limita la participación comunitaria en tiempo real
  3. Revisión Completamente Abierta: Puede llevar a revisores a ser excesivamente cautelosos, afectando la retroalimentación sincera

Motivación de la Investigación

A través de la plataforma Paper Copilot, los autores recopilaron datos extensos, descubriendo:

  • Más de 200,000 usuarios activos de 177 países muestran fuerte interés en revisión transparente
  • Investigadores jóvenes de 18-34 años son el grupo de usuarios principal
  • Las conferencias de revisión abierta logran mayor participación comunitaria

Contribuciones Principales

  1. Provisión de Datos Estadísticos Abiertos: A través de Paper Copilot, proporciona visualizaciones estadísticas de distribuciones de puntuaciones de revisión, cronogramas de revisión, análisis de autores/instituciones
  2. Cuantificación de Evidencia de Interés Comunitario: Basado en dos años de datos de participación, proporciona evidencia cuantitativa del interés creciente de la comunidad en transparencia de revisión
  3. Análisis Crítico: Análisis sistemático de ventajas y desventajas de varios modelos de revisión
  4. Recomendaciones de Política: Aboga por adoptar procesos de revisión por pares más transparentes, abiertos y normalizados

Explicación Detallada de Métodos

Metodología de Recopilación de Datos

Adquisición Automatizada de Datos

  1. APIs Públicas y Web Scraping:
    • Obtención de puntuaciones, confianza y comentarios de revisión de conferencias de revisión abierta como ICLR a través de la API de OpenReview
    • Despliegue de raspadores personalizados para obtener datos diarios, creando archivos de series temporales
    • Obtención de información de autoría e institución de sitios web oficiales
  2. Envíos Comunitarios:
    • Recopilación de información de revisión anónima de conferencias con revisión parcialmente abierta o cerrada a través de Google Forms
    • Recopilación de 3,876 respuestas válidas en el último año

Flujo de Procesamiento de Datos

  • Tubería estandarizada de limpieza, fusión y almacenamiento de datos
  • Conjunto de datos de código abierto
  • Interfaz de visualización interactiva de frontend

Marco de Análisis

Clasificación de Transparencia de Revisión

  1. Completamente Abierta: Todas las revisiones y discusiones visibles públicamente en tiempo real (ej. ICLR)
  2. Parcialmente Abierta: Revisiones y discusiones públicas solo después de la fase de decisión (ej. NeurIPS, CoRL)
  3. Completamente Cerrada: Revisiones y discusiones permanentemente privadas (ej. ICML, CVPR)

Dimensiones de Análisis de Usuarios

  • Distribución de edad y género
  • Distribución geográfica (177 países)
  • Análisis de tiempo de participación y tasas de clic
  • Desempeño de clasificación en motores de búsqueda

Configuración Experimental

Escala del Conjunto de Datos

  • Período de Tiempo: 10 años de datos disponibles
  • Cobertura de Conferencias: 24 conferencias, abarcando 9 subcampos de IA/AA
  • Datos de Usuarios: 200,000+ usuarios activos de 177 países
  • Estadísticas del Sitio Web: 6 millones de impresiones, 1 millón de visitas al sitio, 4 millones de eventos de usuario

Métricas de Evaluación

  1. Participación del Usuario: Vistas de página, usuarios activos, tiempo promedio de participación
  2. Desempeño de Búsqueda: Tasa de clics de Google (CTR), posición de clasificación de página
  3. Calidad de Revisión: Puntuaciones de confianza, cantidad de respuestas en discusiones
  4. Interés Comunitario: Tasa de envío voluntario de datos, tasa de respuesta de encuestas

Análisis Comparativo

  • Comparación de participación de usuarios entre conferencias con diferentes niveles de transparencia
  • Comparación detallada de ICLR (completamente abierta) vs NeurIPS (parcialmente abierta)
  • Análisis de participación en conferencias de revisión cerrada

Resultados Experimentales

Hallazgos Principales

Diferencias Significativas en Participación del Usuario

  • ICLR (Completamente Abierta): 414,096 vistas, 88,220 usuarios activos, tiempo promedio de participación 3 minutos 50 segundos
  • NeurIPS (Parcialmente Abierta): Participación notablemente menor que ICLR
  • Conferencias Cerradas (CVPR, ECCV): Vistas inferiores a 35,000, tiempo promedio de participación menor a 1.5 minutos

Desempeño en Motores de Búsqueda

  • CTR de Google se mantiene consistente entre 66.08%-86.49%
  • Páginas relacionadas con revisión abierta se clasifican más alto en resultados de búsqueda
  • En los últimos 28 días, solo búsquedas de Google generaron 50,000 clics orgánicos

Análisis de Calidad de Revisión

  1. Puntuaciones de Confianza:
    • ICLR: 3.53 ± 0.48 (2024)
    • NeurIPS: 3.58 ± 0.54 (2024)
    • La revisión completamente abierta muestra concentración ligeramente menor de puntuaciones de alta confianza
  2. Actividad de Discusión:
    • ICLR muestra distribución más amplia de respuestas (máximo 76 respuestas vs 49 en NeurIPS)
    • La varianza de discusión en ICLR es significativamente mayor, reflejando un ambiente de revisión más dinámico

Análisis de Perfil de Usuario

Distribución de Edad y Género

  • Grupo de Usuarios Principal: 18-24 años ocupa la mayor proporción
  • Tiempo de Participación: Usuarios hombres jóvenes muestran tiempo promedio de participación más largo (4 minutos 15 segundos)
  • Usuarios Mujeres: Tiempo de participación relativamente consistente en todos los grupos de edad

Distribución Geográfica

  • Países Principales: Estados Unidos (60,648 usuarios), China (59,269 usuarios)
  • Regiones de Alta Participación: Singapur, Australia con tiempo promedio de participación superior a 3 minutos
  • Variación de Participación: Reino Unido, Alemania con tiempo de participación relativamente más corto (inferior a 2 minutos)

Trabajo Relacionado

Investigación en Revisión por Pares Abierta

  • Fundamentos Teóricos: Ross-Hellauer (2017) y otros establecieron marcos teóricos para revisión por pares abierta
  • Exploración Práctica: La plataforma OpenReview ha promovido la aplicación de revisión por pares abierta en el campo de IA/AA
  • Investigación de Calidad: Church et al. (2024) investigaron el impacto de la revisión abierta en la calidad de retroalimentación

Investigación en Normalización

  • Consideraciones Éticas: Investigación sobre riesgos de privacidad y acoso potencial de revisión pública
  • Revisión Asistida por IA: Exploración de aplicación de herramientas de IA en revisión y necesidades regulatorias
  • Sesgo y Equidad: Análisis de sesgos sistemáticos en procesos de revisión

Conclusiones y Discusión

Conclusiones Principales

  1. Necesidad Comunitaria Clara: La alta participación de más de 200,000 usuarios globales demuestra fuerte demanda de revisión transparente
  2. Ventajas Significativas de Revisión Abierta: Los procesos de revisión completamente abiertos promueven mayor participación comunitaria y discusión académica más rica
  3. Liderazgo de Investigadores Jóvenes: Investigadores de 18-34 años son los principales impulsores de revisión transparente
  4. Calidad y Transparencia Compatibles: La revisión abierta no ha dañado la calidad de revisión, sino que ha promovido evaluación más cuidadosa

Problemas de Revisión Cerrada

  1. Desafíos de Revisores Jóvenes: Revisores sin experiencia en ambientes cerrados tienen dificultad para obtener orientación
  2. Falta de Regulación en Uso de IA: Ambientes cerrados dificultan supervisión y normalización del uso de herramientas de IA
  3. Mecanismos de Responsabilidad Insuficientes: Es difícil detectar y corregir oportunamente problemas como inconsistencias de información de autores

Recomendaciones de Política

  1. Avance Gradual hacia Apertura: Se recomienda que más conferencias adopten al menos modelos de revisión parcialmente abiertos
  2. Establecimiento de Estándares de Normalización: Formulación de directrices para el uso de revisión asistida por IA
  3. Fortalecimiento de Apoyo de Capacitación: Provisión de más capacitación y orientación para revisores jóvenes
  4. Perfeccionamiento de Mecanismos de Supervisión: Establecimiento de sistemas de control de calidad y responsabilidad más efectivos

Evaluación Profunda

Fortalezas

Innovación Metodológica

  1. Investigación Empírica a Gran Escala: Primer análisis basado en datos de comportamiento real de más de 200,000 usuarios sobre necesidades de transparencia de revisión
  2. Análisis Multidimensional: Combinación de comportamiento de usuario, datos de búsqueda, calidad de revisión y otras dimensiones
  3. Recopilación de Datos en Tiempo Real: Recopilación y análisis continuo de datos a través de la plataforma Paper Copilot
  4. Perspectiva Global: Cobertura de 177 países, proporcionando perspectiva verdaderamente globalizada

Suficiencia Experimental

  1. Escala de Datos Considerable: 10 años de datos históricos, 24 conferencias, 9 subcampos
  2. Validación Multifuente: Combinación de datos de API, datos de sitio web, datos de envíos comunitarios
  3. Combinación Cuantitativa y Cualitativa: Tanto datos estadísticos como investigación de usuarios
  4. Análisis de Series Temporales: Seguimiento de cambios dinámicos en el proceso de revisión

Poder Persuasivo de Resultados

  1. Hallazgos Consistentes: Múltiples indicadores apuntan a ventajas de revisión abierta
  2. Significancia Estadística: Diferencias en participación de usuario claras y consistentes
  3. Impacto Práctico: Paper Copilot en sí es una práctica exitosa de transparencia

Insuficiencias

Limitaciones Metodológicas

  1. Sesgo de Selección: Los datos enviados voluntariamente pueden tener sesgo de selección
  2. Relaciones Causales: Imposibilidad de establecer completamente la relación causal entre transparencia y participación
  3. Diferencias Culturales: Diferentes países pueden tener diferentes niveles de aceptación de transparencia
  4. Efectos Temporales: El impacto de cambios en modelos de revisión puede requerir más tiempo para manifestarse

Profundidad de Análisis

  1. Evaluación de Calidad Limitada: Enfoque principal en participación, evaluación relativamente limitada de calidad real de revisión
  2. Análisis Insuficiente de Impactos Negativos: Discusión no suficientemente profunda sobre posibles impactos negativos de revisión abierta
  3. Falta de Detalles de Implementación: Orientación operativa insuficiente sobre cómo implementar específicamente revisión transparente

Problemas de Universalidad

  1. Especificidad de Campo: Basado principalmente en campo de IA/AA, aplicabilidad en otros campos desconocida
  2. Trasfondo Cultural: Diferentes culturas académicas tienen diferentes grados de aceptación de transparencia
  3. Barrera Técnica: La revisión abierta requiere cierta infraestructura técnica de apoyo

Evaluación de Impacto

Contribución Académica

  1. Llenado de Vacío de Investigación: Primer análisis cuantitativo a gran escala de necesidades comunitarias de transparencia de revisión
  2. Valor de Referencia de Política: Proporciona referencia de decisión impulsada por datos para organizadores de conferencias
  3. Contribución Metodológica: Establece nuevo marco metodológico para análisis de procesos de revisión

Valor Práctico

  1. Aplicación Directa: La plataforma Paper Copilot ya es ampliamente utilizada
  2. Impacto de Política: Puede influir en formulación de políticas de revisión de futuras conferencias
  3. Valor de Herramienta: Los datos y herramientas de análisis proporcionados tienen valor continuo

Reproducibilidad

  1. Datos de Código Abierto: Compromiso de abrir el conjunto de datos recopilado
  2. Transparencia Metodológica: Descripción detallada de métodos de recopilación y análisis de datos
  3. Accesibilidad de Plataforma: Plataforma Paper Copilot en funcionamiento continuo, resultados verificables

Escenarios de Aplicación

Aplicación Directa

  1. Conferencias de IA/AA: Aplicable directamente a varios tipos de conferencias en campo de IA/AA
  2. Ciencias de la Computación: Extensible a otros subcampos de ciencias de la computación
  3. Campos Impulsados por Tecnología: Aplicable a otros campos tecnológicos en rápido desarrollo

Requiere Ajuste

  1. Disciplinas Tradicionales: Humanidades y ciencias sociales requieren consideración de factores culturales
  2. Campos Sensibles: Investigación que implica secretos comerciales o seguridad nacional requiere consideración especial
  3. Conferencias Pequeñas: Conferencias profesionales pequeñas pueden requerir ajuste en método de implementación

Direcciones de Investigación Futura

  1. Validación Interdisciplinaria: Verificación de conclusiones de investigación en otros campos disciplinarios
  2. Investigación de Impacto a Largo Plazo: Seguimiento de impactos a largo plazo de cambios en modelos de revisión
  3. Desarrollo de Métodos de Evaluación de Calidad: Desarrollo de métodos más precisos para evaluación de calidad de revisión
  4. Formulación de Directrices de Implementación: Formulación de directrices específicas de implementación para revisión transparente
  5. Investigación de Adaptabilidad Cultural: Investigación de ajustes de adaptabilidad bajo diferentes contextos culturales

Referencias

Este artículo cita investigación relacionada abundante, incluyendo principalmente:

  • Ross-Hellauer, T. (2017). What is open peer review? A systematic review.
  • Wang, G., et al. (2023). What have we learned from openreview?
  • Cortes, C. & Lawrence, N. D. (2021). Inconsistency in conference peer review
  • Beygelzimer, A., et al. (2023). Has the machine learning review process become more arbitrary

Evaluación General: Este es un artículo de posición con importante significado práctico, que proporciona análisis sistemático y recomendaciones sobre transparencia de revisión en la comunidad académica de IA/AA basado en datos reales a gran escala. El valor principal del artículo radica en proporcionar evidencia cuantificada que apoye la necesidad de revisión transparente, y demostrar efectos de aplicación práctica a través de la plataforma Paper Copilot. Aunque hay espacio para mejora en metodología y profundidad de análisis, su efecto impulsador en reforma del sistema de revisión académica merece reconocimiento.