Grounded AI for Code Review: Resource-Efficient Large-Model Serving in Enterprise Pipelines
Mandal, Jiang
Automated code review adoption lags in compliance-heavy settings, where static analyzers produce high-volume, low-rationale outputs, and naive LLM use risks hallucination and incurring cost overhead. We present a production system for grounded, PR-native review that pairs static-analysis findings with AST-guided context extraction and a single-GPU, on-demand serving stack (quantized open-weight model, multi-tier caching) to deliver concise explanations and remediation guidance. Evaluated on safety-oriented C/C++ standards, the approach achieves sub-minute median first-feedback (offline p50 build+LLM 59.8s) while maintaining competitive violation reduction and lower violation rates versus larger proprietary models. The architecture is decoupled: teams can adopt the grounding/prompting layer or the serving layer independently. A small internal survey (n=8) provides directional signals of reduced triage effort and moderate perceived grounding, with participants reporting fewer human review iterations. We outline operational lessons and limitations, emphasizing reproducibility, auditability, and pathways to broader standards and assisted patching.
academic
코드 리뷰를 위한 기반 AI: 엔터프라이즈 파이프라인에서의 리소스 효율적인 대규모 모델 서빙
본 논문은 엔터프라이즈 코드 리뷰를 위한 AI 기반 프로덕션 시스템을 제안하며, 규정 준수 요구사항이 엄격한 환경에서 자동화된 코드 리뷰 채택의 지연 문제를 해결합니다. 본 시스템은 정적 분석 결과를 AST 기반 컨텍스트 추출과 결합하여, 단일 GPU 온디맨드 서빙 스택(양자화된 오픈소스 가중치 모델, 다층 캐싱)을 사용하여 간결한 설명과 수정 지침을 제공합니다. 보안 지향적인 C/C++ 표준에서 평가할 때, 본 방법은 첫 피드백의 중앙값이 1분 미만(오프라인 p50 빌드 + LLM 59.8초)을 달성하면서도 경쟁력 있는 위반 감소율을 유지하고 대규모 독점 모델보다 낮은 위반 도입률을 보입니다.
본 논문은 정적 분석, LLM 서빙, 코드 리뷰 등 주요 분야를 포괄하는 42개의 관련 문헌을 인용하여 연구에 견고한 이론적 기초와 기술적 비교를 제공합니다.
종합 평가: 이는 학술 연구를 실용적인 프로덕션 시스템으로 성공적으로 전환한 고품질의 시스템 논문입니다. 혁신적인 기반 메커니즘과 리소스 효율적인 서빙 아키텍처를 통해 엔터프라이즈급 AI 코드 리뷰를 위한 실행 가능한 솔루션을 제공합니다. 평가 범위 및 사용자 연구 측면에서 한계가 있지만, 기술적 기여와 실용적 가치가 상당하며 소프트웨어 공학에서 AI 적용을 추진하는 데 중요한 의미가 있습니다.