2025-11-25T01:52:16.261661

Position: The Artificial Intelligence and Machine Learning Community Should Adopt a More Transparent and Regulated Peer Review Process

Yang

The rapid growth of submissions to top-tier Artificial Intelligence (AI) and Machine Learning (ML) conferences has prompted many venues to transition from closed to open review platforms. Some have fully embraced open peer reviews, allowing public visibility throughout the process, while others adopt hybrid approaches, such as releasing reviews only after final decisions or keeping reviews private despite using open peer review systems. In this work, we analyze the strengths and limitations of these models, highlighting the growing community interest in transparent peer review. To support this discussion, we examine insights from Paper Copilot, a website launched two years ago to aggregate and analyze AI / ML conference data while engaging a global audience. The site has attracted over 200,000 early-career researchers, particularly those aged 18-34 from 177 countries, many of whom are actively engaged in the peer review process. Drawing on our findings, this position paper advocates for a more transparent, open, and well-regulated peer review aiming to foster greater community involvement and propel advancements in the field.

academic

Posición: La Comunidad de Inteligencia Artificial y Aprendizaje Automático Debe Adoptar un Proceso de Revisión por Pares Más Transparente y Regulado

Información Básica

ID del Artículo: 2502.00874
Título: Position: The Artificial Intelligence and Machine Learning Community Should Adopt a More Transparent and Regulated Peer Review Process
Autor: Jing Yang (University of Southern California, papercopilot.com)
Clasificación: cs.DL cs.AI cs.CV cs.CY
Fecha de Publicación/Conferencia: Proceedings of the 42nd International Conference on Machine Learning, Vancouver, Canada. PMLR 267, 2025
Enlace del Artículo: https://arxiv.org/abs/2502.00874

Resumen

Con el rápido crecimiento del número de envíos a conferencias principales de Inteligencia Artificial (IA) y Aprendizaje Automático (AA), muchas conferencias han transitado de plataformas de revisión cerradas a plataformas de revisión abierta. Algunas conferencias han adoptado completamente la revisión por pares abierta, permitiendo visibilidad pública de todo el proceso, mientras que otras adoptan enfoques híbridos, como publicar revisiones solo después de la decisión final o mantener las revisiones privadas a pesar de utilizar sistemas de revisión abierta. Este artículo analiza las ventajas y limitaciones de estos modelos, destacando el interés creciente de la comunidad en la revisión por pares transparente. Para apoyar esta discusión, examinamos información de Paper Copilot, un sitio web lanzado hace dos años para agregar y analizar datos de conferencias de IA/AA y atraer a una audiencia global. El sitio ha atraído a más de 200,000 investigadores en etapas tempranas de carrera de 177 países, particularmente investigadores de 18-34 años, muchos de los cuales participan activamente en el proceso de revisión por pares. Basándonos en nuestros hallazgos, este artículo de posición aboga por una revisión por pares más transparente, abierta y normalizada, con el objetivo de promover una mayor participación comunitaria e impulsar el progreso en el campo.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que aborda este artículo es la insuficiente transparencia y normalización del proceso de revisión por pares en la comunidad académica de IA/AA. Específicamente incluye:

Aumento explosivo en el número de envíos a conferencias principales de IA/AA (más de 10,000 artículos), enfrentando prácticas de revisión tradicionales con enorme presión en equidad, eficiencia y mantenimiento de calidad
Diferentes conferencias adoptan diferentes modelos de transparencia de revisión (completamente abierto, parcialmente abierto, completamente cerrado), careciendo de estándares unificados
Aumento en la proporción de revisores jóvenes pero falta de experiencia, lo que puede afectar la calidad de la revisión
Falta de normalización en el uso de herramientas de IA en revisiones, con riesgos éticos

Importancia

La importancia de este problema se manifiesta en:

Mantenimiento de la Integridad Académica: Los procesos de revisión transparentes ayudan a detectar y prevenir conducta académica indebida
Promoción de Participación Comunitaria: La revisión abierta puede mejorar el compromiso y la colaboración de los miembros de la comunidad
Mejora de la Calidad de Revisión: La supervisión pública puede aumentar la objetividad y constructividad de las revisiones
Aceleración de la Difusión del Conocimiento: Los procesos de revisión transparentes facilitan la rápida propagación del conocimiento académico

Limitaciones de Métodos Existentes

Revisión Completamente Cerrada: Carece de mecanismos de supervisión y responsabilidad, propenso a inconsistencias y sesgos
Revisión Parcialmente Abierta: Aunque publica revisiones después de la decisión, limita la participación comunitaria en tiempo real
Revisión Completamente Abierta: Puede llevar a revisores a ser excesivamente cautelosos, afectando la retroalimentación sincera

Motivación de la Investigación

A través de la plataforma Paper Copilot, los autores recopilaron datos extensos, descubriendo:

Más de 200,000 usuarios activos de 177 países muestran fuerte interés en revisión transparente
Investigadores jóvenes de 18-34 años son el grupo de usuarios principal
Las conferencias de revisión abierta logran mayor participación comunitaria

Contribuciones Principales

Provisión de Datos Estadísticos Abiertos: A través de Paper Copilot, proporciona visualizaciones estadísticas de distribuciones de puntuaciones de revisión, cronogramas de revisión, análisis de autores/instituciones
Cuantificación de Evidencia de Interés Comunitario: Basado en dos años de datos de participación, proporciona evidencia cuantitativa del interés creciente de la comunidad en transparencia de revisión
Análisis Crítico: Análisis sistemático de ventajas y desventajas de varios modelos de revisión
Recomendaciones de Política: Aboga por adoptar procesos de revisión por pares más transparentes, abiertos y normalizados

Explicación Detallada de Métodos

Metodología de Recopilación de Datos

Adquisición Automatizada de Datos

APIs Públicas y Web Scraping:
- Obtención de puntuaciones, confianza y comentarios de revisión de conferencias de revisión abierta como ICLR a través de la API de OpenReview
- Despliegue de raspadores personalizados para obtener datos diarios, creando archivos de series temporales
- Obtención de información de autoría e institución de sitios web oficiales
Envíos Comunitarios:
- Recopilación de información de revisión anónima de conferencias con revisión parcialmente abierta o cerrada a través de Google Forms
- Recopilación de 3,876 respuestas válidas en el último año

Flujo de Procesamiento de Datos

Tubería estandarizada de limpieza, fusión y almacenamiento de datos
Conjunto de datos de código abierto
Interfaz de visualización interactiva de frontend

Marco de Análisis

Clasificación de Transparencia de Revisión

Completamente Abierta: Todas las revisiones y discusiones visibles públicamente en tiempo real (ej. ICLR)
Parcialmente Abierta: Revisiones y discusiones públicas solo después de la fase de decisión (ej. NeurIPS, CoRL)
Completamente Cerrada: Revisiones y discusiones permanentemente privadas (ej. ICML, CVPR)

Dimensiones de Análisis de Usuarios

Distribución de edad y género
Distribución geográfica (177 países)
Análisis de tiempo de participación y tasas de clic
Desempeño de clasificación en motores de búsqueda

Configuración Experimental

Escala del Conjunto de Datos

Período de Tiempo: 10 años de datos disponibles
Cobertura de Conferencias: 24 conferencias, abarcando 9 subcampos de IA/AA
Datos de Usuarios: 200,000+ usuarios activos de 177 países
Estadísticas del Sitio Web: 6 millones de impresiones, 1 millón de visitas al sitio, 4 millones de eventos de usuario

Métricas de Evaluación

Participación del Usuario: Vistas de página, usuarios activos, tiempo promedio de participación
Desempeño de Búsqueda: Tasa de clics de Google (CTR), posición de clasificación de página
Calidad de Revisión: Puntuaciones de confianza, cantidad de respuestas en discusiones
Interés Comunitario: Tasa de envío voluntario de datos, tasa de respuesta de encuestas

Análisis Comparativo

Comparación de participación de usuarios entre conferencias con diferentes niveles de transparencia
Comparación detallada de ICLR (completamente abierta) vs NeurIPS (parcialmente abierta)
Análisis de participación en conferencias de revisión cerrada

Resultados Experimentales

Hallazgos Principales

Diferencias Significativas en Participación del Usuario

ICLR (Completamente Abierta): 414,096 vistas, 88,220 usuarios activos, tiempo promedio de participación 3 minutos 50 segundos
NeurIPS (Parcialmente Abierta): Participación notablemente menor que ICLR
Conferencias Cerradas (CVPR, ECCV): Vistas inferiores a 35,000, tiempo promedio de participación menor a 1.5 minutos

Desempeño en Motores de Búsqueda

CTR de Google se mantiene consistente entre 66.08%-86.49%
Páginas relacionadas con revisión abierta se clasifican más alto en resultados de búsqueda
En los últimos 28 días, solo búsquedas de Google generaron 50,000 clics orgánicos

Análisis de Calidad de Revisión

Puntuaciones de Confianza:
- ICLR: 3.53 ± 0.48 (2024)
- NeurIPS: 3.58 ± 0.54 (2024)
- La revisión completamente abierta muestra concentración ligeramente menor de puntuaciones de alta confianza
Actividad de Discusión:
- ICLR muestra distribución más amplia de respuestas (máximo 76 respuestas vs 49 en NeurIPS)
- La varianza de discusión en ICLR es significativamente mayor, reflejando un ambiente de revisión más dinámico

Análisis de Perfil de Usuario

Distribución de Edad y Género

Grupo de Usuarios Principal: 18-24 años ocupa la mayor proporción
Tiempo de Participación: Usuarios hombres jóvenes muestran tiempo promedio de participación más largo (4 minutos 15 segundos)
Usuarios Mujeres: Tiempo de participación relativamente consistente en todos los grupos de edad

Distribución Geográfica

Países Principales: Estados Unidos (60,648 usuarios), China (59,269 usuarios)
Regiones de Alta Participación: Singapur, Australia con tiempo promedio de participación superior a 3 minutos
Variación de Participación: Reino Unido, Alemania con tiempo de participación relativamente más corto (inferior a 2 minutos)

Trabajo Relacionado

Investigación en Revisión por Pares Abierta

Fundamentos Teóricos: Ross-Hellauer (2017) y otros establecieron marcos teóricos para revisión por pares abierta
Exploración Práctica: La plataforma OpenReview ha promovido la aplicación de revisión por pares abierta en el campo de IA/AA
Investigación de Calidad: Church et al. (2024) investigaron el impacto de la revisión abierta en la calidad de retroalimentación

Investigación en Normalización

Consideraciones Éticas: Investigación sobre riesgos de privacidad y acoso potencial de revisión pública
Revisión Asistida por IA: Exploración de aplicación de herramientas de IA en revisión y necesidades regulatorias
Sesgo y Equidad: Análisis de sesgos sistemáticos en procesos de revisión

Conclusiones y Discusión

Conclusiones Principales

Necesidad Comunitaria Clara: La alta participación de más de 200,000 usuarios globales demuestra fuerte demanda de revisión transparente
Ventajas Significativas de Revisión Abierta: Los procesos de revisión completamente abiertos promueven mayor participación comunitaria y discusión académica más rica
Liderazgo de Investigadores Jóvenes: Investigadores de 18-34 años son los principales impulsores de revisión transparente
Calidad y Transparencia Compatibles: La revisión abierta no ha dañado la calidad de revisión, sino que ha promovido evaluación más cuidadosa

Problemas de Revisión Cerrada

Desafíos de Revisores Jóvenes: Revisores sin experiencia en ambientes cerrados tienen dificultad para obtener orientación
Falta de Regulación en Uso de IA: Ambientes cerrados dificultan supervisión y normalización del uso de herramientas de IA
Mecanismos de Responsabilidad Insuficientes: Es difícil detectar y corregir oportunamente problemas como inconsistencias de información de autores

Recomendaciones de Política

Avance Gradual hacia Apertura: Se recomienda que más conferencias adopten al menos modelos de revisión parcialmente abiertos
Establecimiento de Estándares de Normalización: Formulación de directrices para el uso de revisión asistida por IA
Fortalecimiento de Apoyo de Capacitación: Provisión de más capacitación y orientación para revisores jóvenes
Perfeccionamiento de Mecanismos de Supervisión: Establecimiento de sistemas de control de calidad y responsabilidad más efectivos

Evaluación Profunda

Fortalezas

Innovación Metodológica

Investigación Empírica a Gran Escala: Primer análisis basado en datos de comportamiento real de más de 200,000 usuarios sobre necesidades de transparencia de revisión
Análisis Multidimensional: Combinación de comportamiento de usuario, datos de búsqueda, calidad de revisión y otras dimensiones
Recopilación de Datos en Tiempo Real: Recopilación y análisis continuo de datos a través de la plataforma Paper Copilot
Perspectiva Global: Cobertura de 177 países, proporcionando perspectiva verdaderamente globalizada

Suficiencia Experimental

Escala de Datos Considerable: 10 años de datos históricos, 24 conferencias, 9 subcampos
Validación Multifuente: Combinación de datos de API, datos de sitio web, datos de envíos comunitarios
Combinación Cuantitativa y Cualitativa: Tanto datos estadísticos como investigación de usuarios
Análisis de Series Temporales: Seguimiento de cambios dinámicos en el proceso de revisión

Poder Persuasivo de Resultados

Hallazgos Consistentes: Múltiples indicadores apuntan a ventajas de revisión abierta
Significancia Estadística: Diferencias en participación de usuario claras y consistentes
Impacto Práctico: Paper Copilot en sí es una práctica exitosa de transparencia

Insuficiencias

Limitaciones Metodológicas

Sesgo de Selección: Los datos enviados voluntariamente pueden tener sesgo de selección
Relaciones Causales: Imposibilidad de establecer completamente la relación causal entre transparencia y participación
Diferencias Culturales: Diferentes países pueden tener diferentes niveles de aceptación de transparencia
Efectos Temporales: El impacto de cambios en modelos de revisión puede requerir más tiempo para manifestarse

Profundidad de Análisis

Evaluación de Calidad Limitada: Enfoque principal en participación, evaluación relativamente limitada de calidad real de revisión
Análisis Insuficiente de Impactos Negativos: Discusión no suficientemente profunda sobre posibles impactos negativos de revisión abierta
Falta de Detalles de Implementación: Orientación operativa insuficiente sobre cómo implementar específicamente revisión transparente

Problemas de Universalidad

Especificidad de Campo: Basado principalmente en campo de IA/AA, aplicabilidad en otros campos desconocida
Trasfondo Cultural: Diferentes culturas académicas tienen diferentes grados de aceptación de transparencia
Barrera Técnica: La revisión abierta requiere cierta infraestructura técnica de apoyo

Evaluación de Impacto

Contribución Académica

Llenado de Vacío de Investigación: Primer análisis cuantitativo a gran escala de necesidades comunitarias de transparencia de revisión
Valor de Referencia de Política: Proporciona referencia de decisión impulsada por datos para organizadores de conferencias
Contribución Metodológica: Establece nuevo marco metodológico para análisis de procesos de revisión

Valor Práctico

Aplicación Directa: La plataforma Paper Copilot ya es ampliamente utilizada
Impacto de Política: Puede influir en formulación de políticas de revisión de futuras conferencias
Valor de Herramienta: Los datos y herramientas de análisis proporcionados tienen valor continuo

Reproducibilidad

Datos de Código Abierto: Compromiso de abrir el conjunto de datos recopilado
Transparencia Metodológica: Descripción detallada de métodos de recopilación y análisis de datos
Accesibilidad de Plataforma: Plataforma Paper Copilot en funcionamiento continuo, resultados verificables

Escenarios de Aplicación

Aplicación Directa

Conferencias de IA/AA: Aplicable directamente a varios tipos de conferencias en campo de IA/AA
Ciencias de la Computación: Extensible a otros subcampos de ciencias de la computación
Campos Impulsados por Tecnología: Aplicable a otros campos tecnológicos en rápido desarrollo

Requiere Ajuste

Disciplinas Tradicionales: Humanidades y ciencias sociales requieren consideración de factores culturales
Campos Sensibles: Investigación que implica secretos comerciales o seguridad nacional requiere consideración especial
Conferencias Pequeñas: Conferencias profesionales pequeñas pueden requerir ajuste en método de implementación

Direcciones de Investigación Futura

Validación Interdisciplinaria: Verificación de conclusiones de investigación en otros campos disciplinarios
Investigación de Impacto a Largo Plazo: Seguimiento de impactos a largo plazo de cambios en modelos de revisión
Desarrollo de Métodos de Evaluación de Calidad: Desarrollo de métodos más precisos para evaluación de calidad de revisión
Formulación de Directrices de Implementación: Formulación de directrices específicas de implementación para revisión transparente
Investigación de Adaptabilidad Cultural: Investigación de ajustes de adaptabilidad bajo diferentes contextos culturales

Referencias

Este artículo cita investigación relacionada abundante, incluyendo principalmente:

Ross-Hellauer, T. (2017). What is open peer review? A systematic review.
Wang, G., et al. (2023). What have we learned from openreview?
Cortes, C. & Lawrence, N. D. (2021). Inconsistency in conference peer review
Beygelzimer, A., et al. (2023). Has the machine learning review process become more arbitrary

Evaluación General: Este es un artículo de posición con importante significado práctico, que proporciona análisis sistemático y recomendaciones sobre transparencia de revisión en la comunidad académica de IA/AA basado en datos reales a gran escala. El valor principal del artículo radica en proporcionar evidencia cuantificada que apoye la necesidad de revisión transparente, y demostrar efectos de aplicación práctica a través de la plataforma Paper Copilot. Aunque hay espacio para mejora en metodología y profundidad de análisis, su efecto impulsador en reforma del sistema de revisión académica merece reconocimiento.