2025-11-11T08:04:09.439166

Code Digital Twin: Empowering LLMs with Tacit Knowledge for Complex Software Development

Peng, Wang
Recent advances in large language models (LLMs) have demonstrated strong capabilities in software engineering tasks, raising expectations of revolutionary productivity gains. However, enterprise software development is largely driven by incremental evolution, where challenges extend far beyond routine coding and depend critically on tacit knowledge, including design decisions at different levels and historical trade-offs. To achieve effective AI-powered support for complex software development, we should align emerging AI capabilities with the practical realities of enterprise development. To this end, we systematically identify challenges from both software and LLM perspectives. Alongside these challenges, we outline opportunities where AI and structured knowledge frameworks can enhance decision-making in tasks such as issue localization and impact analysis. To address these needs, we propose the Code Digital Twin, a living framework that models both the physical and conceptual layers of software, preserves tacit knowledge, and co-evolves with the codebase. By integrating hybrid knowledge representations, multi-stage extraction pipelines, incremental updates, LLM-empowered applications, and human-in-the-loop feedback, the Code Digital Twin transforms fragmented knowledge into explicit and actionable representations. Our vision positions it as a bridge between AI advancements and enterprise software realities, providing a concrete roadmap toward sustainable, intelligent, and resilient development and evolution of ultra-complex systems.
academic

Gemelo Digital de Código: Empoderando LLMs con Conocimiento Tácito para el Desarrollo Complejo de Software

Información Básica

  • ID del Artículo: 2503.07967
  • Título: Code Digital Twin: Empowering LLMs with Tacit Knowledge for Complex Software Development
  • Autores: Xin Peng, Chong Wang (Facultad de Ciencias de la Computación e Inteligencia Artificial, Universidad de Fudan)
  • Clasificación: cs.SE (Ingeniería de Software)
  • Fecha de Publicación: Octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2503.07967

Resumen

En años recientes, los modelos de lenguaje de gran escala (LLMs) han demostrado capacidades poderosas en tareas de ingeniería de software, generando expectativas sobre aumentos revolucionarios de productividad. Sin embargo, el desarrollo de software empresarial se impulsa principalmente por evolución incremental, cuyas desafíos superan ampliamente la codificación convencional, dependiendo severamente del conocimiento tácito, incluyendo decisiones de diseño en diferentes niveles y compensaciones históricas. Para lograr un soporte de IA efectivo en el desarrollo de software complejo, necesitamos combinar las capacidades emergentes de IA con la realidad práctica del desarrollo empresarial. Este artículo identifica sistemáticamente desafíos desde dos perspectivas: software y LLM, y esboza oportunidades para que la IA y marcos de conocimiento estructurado mejoren la toma de decisiones en tareas como localización de problemas y análisis de impacto. Para abordar estas necesidades, los autores proponen el Gemelo Digital de Código (Code Digital Twin), un marco dinámico que modela las capas física y conceptual del software, preserva el conocimiento tácito y coevoluciona con la base de código.

Antecedentes de Investigación y Motivación

Definición del Problema

  1. Desafíos Reales: Aunque los LLMs funcionan excepcionalmente bien en tareas simples de ingeniería de software, el desarrollo de software a nivel empresarial enfrenta complejidad inherente, requiriendo manejar dependencias a nivel de sistema, evolución histórica y conocimiento tácito
  2. Pérdida de Conocimiento: Las ideas de diseño críticas, decisiones arquitectónicas y compensaciones históricas frecuentemente no están documentadas, impidiendo que los LLMs accedan a la información de contexto necesaria
  3. Desafío de Escala: Sistemas ultra-complejos como el núcleo de Linux contienen decenas de millones de líneas de código, cuyas trayectorias de evolución son únicas, acumulando deuda técnica histórica masiva

Importancia de la Investigación

  • El desarrollo de software empresarial no es una creación única, sino un proceso continuo de desarrollo y evolución
  • Incluso "agregar nuevas funcionalidades" rara vez es desarrollo desde cero, requiriendo integración precisa en la arquitectura existente
  • El crecimiento en escala y complejidad del sistema lo transforma en un sistema ultra-complejo, necesitando capturar y razonar sobre conocimiento tácito

Limitaciones de Métodos Existentes

  • Los LLMs actuales principalmente cambian la ingeniería de software a nivel superficial, como generación de código boilerplate, comprensión de código, etc.
  • No pueden acceder o reconstruir confiablemente el conocimiento tácito
  • Tienen dificultades en razonamiento a nivel de sistema, análisis a largo plazo y decisiones a nivel arquitectónico
  • Carecen de comprensión de restricciones no funcionales y limitaciones operacionales

Contribuciones Principales

  1. Cerrar la Brecha entre Avances de IA y Realidad del Software Empresarial: Enfatiza la importancia de combinar capacidades emergentes de IA con la realidad práctica del desarrollo empresarial
  2. Identificación Sistemática de Desafíos y Oportunidades: Caracteriza sistemáticamente los desafíos centrales del desarrollo de software complejo desde dos perspectivas (software y LLM), incluyendo complejidad del sistema, ausencia de representación conceptual, evolución histórica y pérdida de conocimiento tácito
  3. Propuesta del Marco Code Digital Twin: Introduce un marco de conocimiento dinámico que integra artefactos de software con elementos de conocimiento conceptual, soportando coevolución continua con la base de código
  4. Proporcionar una Hoja de Ruta de Implementación: Cubre rutas de implementación específicas incluyendo representación de conocimiento híbrido, tuberías de extracción, actualizaciones incrementales, aplicaciones impulsadas por LLM y retroalimentación de colaboración humano-máquina

Explicación Detallada del Método

Definición de Tareas

El Gemelo Digital de Código tiene como objetivo construir un marco de conocimiento dinámico capaz de:

  • Modelar la capa física (funciones, archivos, módulos) y capa conceptual (conceptos, funcionalidades, ideas de diseño) del software
  • Preservar y organizar conocimiento tácito
  • Coevolucionar con la base de código
  • Soportar tareas de ingeniería de software conscientes del contexto para LLMs

Arquitectura del Marco

1. Artefactos de Software y Activos Relacionados

  • Archivos de Código Fuente: métodos/funciones, clases/archivos, paquetes/módulos, scripts, archivos de configuración
  • Artefactos de Construcción e Implementación: binarios compilados, imágenes de contenedor, definiciones de tuberías CI/CD
  • Historial de Control de Versiones: commits, ramas, etiquetas, registros de fusión
  • Documentación y Especificaciones: documentos de requisitos, manuales de API, diagramas arquitectónicos
  • Seguimiento de Problemas y Registros de Cambios: reportes de defectos, solicitudes de características, notas de lanzamiento
  • Datos de Tiempo de Ejecución y Monitoreo: registros, métricas, trazas, análisis de rendimiento

2. Elementos de Conocimiento Clave

  • Conceptos de Dominio: primitivas del sistema operativo, protocolos de comunicación, requisitos regulatorios y otras abstracciones fundamentales
  • Funcionalidades: autenticación de usuarios, procesamiento de transacciones, generación de recomendaciones y otras capacidades principales y preocupaciones transversales
  • Filosofías: explicaciones de la lógica de toma de decisiones de codificación, incluyendo compensaciones y razonamiento contextual

3. Integración del Gemelo Digital de Código

  • Columna Vertebral Orientada a Artefactos: mapeos estructurados entre artefactos físicos y entidades conceptuales
  • Explicación Centrada en Filosofías: vinculación de artefactos y funcionalidades con ideas de diseño
  • Reflexión Artefacto-Conocimiento y Coevolución: garantizar que el conocimiento permanezca sincronizado con el sistema de software en evolución

Puntos de Innovación Técnica

1. Representación de Conocimiento Híbrido

  • Representación Estructurada: grafos de conocimiento, marcos, codificación de tarjetas que formalizan relaciones entre conceptos, funcionalidades e ideas
  • Representación No Estructurada: preservación de contexto de texto enriquecido en mensajes de commit y discusiones de diseño
  • Representación Colaborativa: combinación de ambas formas para consultas y razonamiento integral

2. Tubería de Construcción Multietapa

  • Extracción de Columna Vertebral Orientada a Artefactos: indicaciones guiadas de arriba hacia abajo y análisis de programas de abajo hacia arriba
  • Extracción Centrada en Filosofías: minería de fuentes no estructuradas para obtener filosofías de decisión
  • Construcción de Reflexión Artefacto-Conocimiento: establecimiento de vínculos bidireccionales soportando trazabilidad y análisis de impacto

3. Mecanismos de Coevolución

  • Actualización de propagación cuando artefactos se agregan, modifican o eliminan, propagándose a funcionalidades, filosofías y mapeos de dependencias
  • Mecanismo de actualización incremental asegurando que el gemelo refleje la evolución continua del software

Configuración Experimental

Conjuntos de Datos

  1. Referencia SWE-Lancer: contiene 216 tareas de localización, provenientes de repositorios del mundo real con más de 2.2 mil millones de líneas de código
  2. Tareas de Desarrollo Android: evaluación compleja de generación de software de extremo a extremo

Métricas de Evaluación

  • Localización de Problemas: Hit@k y Recall@k (a nivel de archivo y función)
  • Generación de Aplicaciones: integridad funcional, consistencia arquitectónica, precisión en gestión de dependencias

Métodos de Comparación

  • Localización de Problemas: métodos LLM existentes como mini-SWE-agent
  • Generación de Aplicaciones: marcos LLM-agent de última generación como Claude Code

Detalles de Implementación

  • Modelos Base: GPT-4o, GPT-4o-mini, GPT-4.1
  • Herramientas de Extracción de Conocimiento: combinación de extracción asistida por LLM con análisis de programas estático/dinámico
  • Alcance de Evaluación: pruebas de generalización multi-modelo e investigaciones de ablación

Resultados Experimentales

Resultados Principales

Tareas de Localización de Problemas

  • Utilizando GPT-4o como modelo base, el conocimiento extraído aumenta Hit@k en más del 22% y Recall@k en 46%
  • Las pruebas de generalización en múltiples modelos muestran mejoras consistentes:
    • Rango de mejora relativa Hit@1: 2.76% a 504.35%
    • Rango de mejora relativa Recall@10: 2.83% a 376.13%

Tareas de Generación de Aplicaciones

  • En comparación con marcos LLM-agent de última generación, el marco guiado por grafos de características logra una mejora del 56.8%
  • Ganancias relativas en múltiples modelos base: 16.0% a 76.6%

Experimentos de Ablación

Los estudios de ablación demuestran que tanto la explicación de términos conceptuales como la agrupación de preocupaciones contribuyen roles críticos al rendimiento, con anotación manual confirmando la corrección, completitud y concisión de las preocupaciones extraídas.

Análisis de Casos

Los resultados experimentales demuestran que la incrustación de conocimiento concepto-funcionalidad permite a los LLMs:

  • Realizar razonamiento holístico
  • Mantener contexto histórico y arquitectónico
  • Navegar código complejo y disperso más efectivamente

Hallazgos Experimentales

  1. El conocimiento concepto-funcionalidad es central en el marco del Gemelo Digital de Código, mejorando significativamente la efectividad de LLM en ingeniería de software del mundo real
  2. Al capturar conceptos de alto nivel, vincularlos a funcionalidades concretas y preservar contexto histórico y arquitectónico, los LLMs pueden realizar localización de problemas más precisa
  3. La propagación de conocimiento estructurado permite a los LLMs comprender dependencias entre funcionalidades, manteniendo consistencia arquitectónica y funcional

Trabajo Relacionado

Direcciones Principales de Investigación

  1. Generación de Código a Nivel de Repositorio: tecnología RAG y análisis estático asisten a LLMs en finalización de código con contexto entre archivos
  2. Resolución de Problemas a Nivel de Repositorio: métodos basados en agentes y basados en patrones abordan problemas en repositorios a gran escala
  3. Comprensión de Repositorio: aprovecha capacidades de comprensión de LLMs combinadas con técnicas de representación de conocimiento
  4. Grafos de Conocimiento de Ingeniería de Software: grafos de conocimiento de API, grafos de conceptos de desarrollo de software, grafos de tareas de programación, etc.

Ventajas de Este Artículo

  • Primer resumen sistemático de una base de conocimiento de conocimiento relacionado con diseño específicamente para tareas de mantenimiento de software a largo plazo
  • Proporciona un marco sistemático de identificación de desafíos y soluciones
  • Combina un enfoque híbrido de representación de conocimiento estructurado y no estructurado
  • Enfatiza la importancia de colaboración humano-máquina y evolución continua

Conclusiones y Discusión

Conclusiones Principales

  1. Aunque los LLMs pueden cambiar tareas de programación a nivel superficial, la dinámica profunda del software (complejidad inherente, evolución continua, necesidades de razonamiento estructurado) permanece fundamentalmente sin cambios
  2. El marco del Gemelo Digital de Código, al capturar y estructurar conocimiento tácito, puede mejorar significativamente el rendimiento de LLMs en tareas complejas de ingeniería de software
  3. La representación de conocimiento híbrido, tuberías de extracción multietapa y retroalimentación de colaboración humano-máquina son clave para lograr soporte de IA efectivo en desarrollo de software asistido

Limitaciones

  1. Desafíos de Escalabilidad: cómo manejar la extracción y mantenimiento de conocimiento en sistemas ultra-grandes
  2. Garantía de Calidad de Conocimiento: el conocimiento extraído automáticamente puede tener problemas de inexactitud o incompletitud
  3. Sincronización en Tiempo Real: cómo garantizar que el gemelo digital permanezca sincronizado con bases de código que evolucionan rápidamente
  4. Complejidad de Evaluación: falta de referentes de evaluación integral que reflejen complejidad a nivel empresarial

Direcciones Futuras

  1. Mejorar marcos escalables y flexibles que integren fuentes estructuradas heterogéneas
  2. Crear técnicas de representación híbrida que vinculen estrechamente artefactos estructurados con conocimiento textual extraído
  3. Desarrollar mecanismos de sincronización continua automatizada
  4. Construir conjuntos de datos de evaluación que reflejen complejidad a gran escala, multi-módulo, histórica y socio-técnica
  5. Explorar viabilidad en software a gran escala como el núcleo de Linux

Evaluación Profunda

Fortalezas

  1. Identificación de Problemas Sistemática: identifica sistemáticamente 11 desafíos desde perspectivas de software y LLM, proporcionando un marco claro de problemas para el campo
  2. Innovación en Soluciones: el concepto del Gemelo Digital de Código es novedoso, introduciendo ideas de gemelos digitales en el campo de la ingeniería de software
  3. Diseño Metodológico Completo: proporciona metodología completa desde representación de conocimiento hasta tuberías de construcción, desde coevolución hasta colaboración humano-máquina
  4. Verificación Experimental Suficiente: verifica la efectividad del método en dos tareas diferentes, con pruebas de generalización multi-modelo
  5. Alto Valor Práctico: aborda directamente puntos de dolor reales en desarrollo de software empresarial, con fuerte potencial de aplicación

Insuficiencias

  1. Escala Experimental Limitada: aunque se prueba en referentes como SWE-Lancer, aún hay distancia de sistemas empresariales verdaderamente a escala
  2. Detalles de Implementación Insuficientes: la descripción de estrategias de implementación específicas para manejar sistemas a gran escala no es suficientemente detallada
  3. Análisis Costo-Beneficio Faltante: no analiza el costo versus beneficio de construir y mantener un Gemelo Digital de Código
  4. Verificación de Evolución a Largo Plazo Insuficiente: falta verificación del rendimiento del marco durante procesos de evolución de software a largo plazo
  5. Aplicabilidad Transversal: principalmente verificado en escenarios de desarrollo de software general, la aplicabilidad a dominios específicos (como sistemas embebidos) es desconocida

Impacto

  1. Contribución Académica: proporciona nueva dirección de investigación y marco para el campo de intersección de ingeniería de software e IA
  2. Valor Práctico: proporciona pensamiento de solución viable para desarrollo de software asistido por IA a nivel empresarial
  3. Reproducibilidad: proporciona metodología relativamente clara, pero la implementación completa aún requiere trabajo de ingeniería sustancial
  4. Significado Inspirador: enfatiza la importancia del conocimiento tácito en ingeniería de software, potencialmente catalizar más investigación relacionada

Escenarios Aplicables

  1. Sistemas de Software Empresarial Grandes: particularmente adecuado para sistemas heredados con evolución histórica compleja
  2. Mantenimiento de Proyectos de Código Abierto: puede ayudar a nuevos contribuidores a comprender rápidamente filosofías de diseño y decisiones arquitectónicas del proyecto
  3. Refactorización y Modernización de Software: proporciona contexto histórico necesario y análisis de relaciones de dependencia para refactorización de sistemas
  4. Herramientas de Desarrollo Asistido por IA: proporciona infraestructura de conocimiento base para integración en IDE y suites de herramientas de desarrollo

Referencias

El artículo incluye 42 referencias, cubriendo trabajos importantes en múltiples campos relacionados incluyendo ingeniería de software, modelos de lenguaje de gran escala y grafos de conocimiento, proporcionando una base teórica sólida para la investigación.


Resumen: Este es un artículo de investigación de ingeniería de software con visión prospectiva y valor práctico, que propone el innovador marco del Gemelo Digital de Código para abordar las limitaciones de los LLMs en desarrollo de software complejo. El análisis sistemático del artículo y el diseño metodológico completo le confieren importancia académica significativa y perspectivas de aplicación prometedoras, aunque aún requiere investigación adicional en implementación a escala real y verificación de evolución a largo plazo.