2025-11-11T13:46:09.477452

Compiler.next: A Search-Based Compiler to Power the AI-Native Future of Software Engineering

Cogo, Oliva, Hassan

The rapid advancement of AI-assisted software engineering has brought transformative potential to the field of software engineering, but existing tools and paradigms remain limited by cognitive overload, inefficient tool integration, and the narrow capabilities of AI copilots. In response, we propose Compiler.next, a novel search-based compiler designed to enable the seamless evolution of AI-native software systems as part of the emerging Software Engineering 3.0 era. Unlike traditional static compilers, Compiler.next takes human-written intents and automatically generates working software by searching for an optimal solution. This process involves dynamic optimization of cognitive architectures and their constituents (e.g., prompts, foundation model configurations, and system parameters) while finding the optimal trade-off between several objectives, such as accuracy, cost, and latency. This paper outlines the architecture of Compiler.next and positions it as a cornerstone in democratizing software development by lowering the technical barrier for non-experts, enabling scalable, adaptable, and reliable AI-powered software. We present a roadmap to address the core challenges in intent compilation, including developing quality programming constructs, effective search heuristics, reproducibility, and interoperability between compilers. Our vision lays the groundwork for fully automated, search-driven software development, fostering faster innovation and more efficient AI-driven systems.

academic

Compiler.next: AI 원생 소프트웨어 엔지니어링의 미래를 주도할 검색 기반 컴파일러

기본 정보

논문 ID: 2510.24799
제목: Compiler.next: A Search-Based Compiler to Power the AI-Native Future of Software Engineering
저자: Filipe R. Cogo (Huawei Canada), Gustavo A. Oliva (Huawei Canada), Ahmed E. Hassan (Queen's University)
분류: cs.SE (소프트웨어 엔지니어링)
발표 시간: 2025년 10월 (ACM 학술지 투고)
논문 링크: https://arxiv.org/abs/2510.24799

요약

본 논문은 소프트웨어 엔지니어링 3.0 시대의 AI 원생 소프트웨어 시스템을 지원하기 위한 검색 기반 컴파일러인 Compiler.next를 제안한다. 기존의 정적 컴파일러와 달리, Compiler.next는 인간이 작성한 의도를 수용하고 검색을 통해 최적의 해결책을 자동으로 생성하는 작동 소프트웨어를 제공한다. 이 과정은 인지 아키텍처 및 그 구성 요소(예: 프롬프트, 기초 모델 구성 및 시스템 매개변수)의 동적 최적화를 포함하며, 정확성, 비용 및 지연 시간 등 여러 목표 간의 최적 균형을 찾는다. 논문은 Compiler.next의 아키텍처를 개괄하고, 기술적 진입 장벽을 낮춤으로써 소프트웨어 개발을 민주화하고 확장 가능하고 적응 가능하며 신뢰할 수 있는 AI 기반 소프트웨어를 실현하는 초석으로 위치시킨다.

연구 배경 및 동기

문제 배경

기존 AI 보조 소프트웨어 엔지니어링의 한계:
- 개발자의 인지 과부하
- 도구 통합 효율성 저하
- AI 보조 기능의 제한된 범위
소프트웨어 엔지니어링 패러다임의 진화:
- SE 1.0: 수작업 프로그래밍 시대
- SE 2.0: 머신러닝 보조 시대
- SE 3.0: AI 원생 시대, 인간과 AI의 원활한 협업
FMware(기초 모델 소프트웨어)의 복잡성:
- 단순한 기초 모델의 래핑이 아님
- 구성, 데이터 수집, RAG 시스템, 데이터 검증, 분석 도구 등 복잡한 구성 요소 포함
- 피드백 데이터 응답에서 지속적인 진화 필요

연구 동기

기존 컴파일러 설계는 정적 환경을 위해 설계되었으며, AI 기반 시스템의 실시간 적응 요구사항을 처리할 수 없음
의도에서 최적화된 FMware로의 변환을 지원하는 새로운 컴파일 인프라 필요
개발자가 "무엇을 할 것인가"에 집중하고 "어떻게 할 것인가"는 신경 쓰지 않도록 하는 진정한 의도 기반 개발 실현

핵심 기여

Compiler.next 아키텍처 제안: 인간의 의도를 최적화된 FMware로 컴파일할 수 있는 검색 기반 컴파일러 프레임워크
FMware 프로그램 표현 정의: Promptware와 Agentware의 모듈식 조합 포함
다중 목표 최적화 메커니즘 설계: 정확성, 지연 시간 및 비용 등 경쟁 목표의 동시 최적화
10가지 행동 촉구 수립: SE 3.0 컴파일러 개발을 위한 체계적 로드맵 제공
개념 증명 구현: HumanEval-Plus 벤치마크에서 시스템의 실행 가능성 검증
의미론적 캐싱 메커니즘 제공: 컴파일 효율성 대폭 향상 및 비용 절감

방법론 상세 설명

작업 정의

입력: 인간이 작성한 의도 (자연어로 기술된 소프트웨어 요구사항) 출력: 최적화된 FMware 프로그램 (프롬프트 템플릿, 인지 아키텍처 구성, 시스템 매개변수 포함) 제약 조건: 다중 목표 최적화 (정확성, 지연 시간, 비용의 균형)

모델 아키텍처

1. 기술 스택 구성

인지 탐색 최적화기: 자기 반성 등의 기술을 사용하여 검색 프로세스를 지능적으로 구동
프롬프트 재작성기: 프롬프트 구조 강화 및 정제
아키텍처 탐색기: RAG 매개변수 및 인지 아키텍처 패턴의 최적 구성 검색
시나리오 확장기: 합성 시나리오를 통해 최적화 환경 확장
검색 최적화기: 과거 컴파일 궤적을 활용하여 검색 효율성 향상
분산 합성 런타임: 분산 플랫폼을 사용하여 합성 프로세스 가속화
합성기 관찰성 엔진: 디버깅 및 추적 가능성 지원

2. 검색 메커니즘

1. FMware 구성 요소 인스턴스화 → 2. 특정 구성 생성 → 3. 추론 실행
     ↑                                              ↓
6. 휴리스틱 근사기 ← 5. 최적 구성 기록 ← 4. 오류 추정기

주요 단계:

템플릿 채우기: 프롬프트 템플릿의 자리 표시자를 문제 인스턴스 정보로 인스턴스화
FM 추론 게시: 게시된 FM을 사용하여 인스턴스화된 프롬프트로 결과 후보 생성
FM 평가 평가: 평가 FM을 사용하여 결과 후보의 품질 평가
자기 반성 (선택사항): 프롬프트 템플릿 개선 방법에 대한 추론 피드백 생성
평가 점수 집계: 여러 문제 인스턴스에 걸쳐 전체 적응도 점수 계산
후보 선택: 평가 점수를 기반으로 고품질 템플릿 선택
교차 변이: FM 지도 작업을 통해 새로운 후보 생성

3. 개념 모델

Operation: FMware 프로그램의 구성 요소를 나타내며, 정적 및 동적 매개변수 포함
Optimizer: Operation 매개변수의 최적화 방식을 지정하는 플러그인 가능한 구성 요소
EvaluationBench: 최적화 프로세스에서 사용되는 골드 표준 형식 및 평가 논리 정의

기술 혁신 포인트

다중 목표 파레토 최적화: NSGA-II 알고리즘을 사용하여 경쟁 목표를 동시에 최적화하며, 단순 가중치 조합이 아님
의미론적 캐싱 메커니즘: 임베딩 유사성 기반 캐싱으로 컴파일 속도와 검색 공간 탐색 간의 균형 유지
관심사의 분리: 의도 (구현할 내용)와 구현 (최적화된 프롬프트 및 구성)의 분리
조합 가능한 아키텍처: 상호 의존적인 여러 FMware 구성 요소의 결합 최적화 지원

실험 설정

데이터셋

HumanEval-Plus: Python 프로그래밍 작업 벤치마크, 함수 서명 및 문서 문자열 포함
데이터 분할: 최적화 지도용 70%, 평가용 30%

평가 지표

정확성: 단위 테스트를 통과한 생성 솔루션의 비율
지연 시간: 후보 솔루션 평가에 필요한 실행 시간
실행 비용: 실행당 소비된 토큰 수량 (입력 + 출력)

비교 방법

초기 합성 프롬프트 vs 최적화된 프롬프트
캐싱 있음 vs 캐싱 없음의 컴파일 성능

구현 세부사항

검색 알고리즘: NSGA-II 다중 목표 유전 알고리즘
모집단 크기: 작업당 10개의 후보 솔루션
반복 횟수: 5세대
유사성 임계값: 0.85 (유클리드 거리)
테스트 모델: Qwen2.5-7B-Instruct 및 GPT-4o-mini

실험 결과

주요 결과

모델	지표	초기	최적화 후	개선(%)
Qwen2.5-7B-Instruct	정확성(%)	0.26	0.56	46.4
	평균 지연 시간(초)	14.2	10.8	76.6
	평균 토큰 수	537.1	369.3	68.7
GPT-4o-mini	정확성(%)	0.68	1.00	47.0
	평균 지연 시간(초)	8.7	5.0	42.5
	평균 토큰 수	500.0	417.1	16.5

캐싱 메커니즘 효과

지표	캐싱 없음	캐싱 있음	차이
정확성(%)	1.00	0.70	-30%
평균 지연 시간(초)	5.0	5.9	-18%
평균 토큰 수	417.1	467.0	12%
총 실행 시간	8분:15초	10분:27초	22.1% 가속화

실험 발견

현저한 성능 향상: 최적화된 프롬프트는 정확성과 효율성 모두에서 상당한 개선을 보임
캐싱 트레이드오프: 의미론적 캐싱은 컴파일 시간을 크게 줄일 수 있지만 검색 다양성을 제한할 수 있음
모델 적응성: 이 방법은 다양한 규모의 기초 모델에 효과적임

10가지 행동 촉구

FMware 프로그램 표현

품질 프로그래밍 구성 수립: FMware 프로그램 표현을 위한 의미론적 구성 수립
엔드-투-엔드 FMware 최적화: 단독 프롬프트 템플릿 최적화를 초월

계산 성능

효과적인 검색 휴리스틱: FM 출력 및 FMware 매개변수에 영향을 미치는 프롬프트 특성 결정
효율성 개선 및 비용 절감: 지연 시간을 줄이고 컴파일 처리량을 향상시키는 기술 개발

결과 검증

골드 표준 구축: 고품질의 독립적인 데이터 포인트 생성
품질 범위 추정: FMware가 품질 임계값 내에서 실행될 확률 계산
재현 가능한 컴파일: 컴파일 프로세스의 재현 가능성 구현

사용자 우선순위 및 목표

사용자 정의 최적화 목표: 유연한 다중 목표 최적화 지원
컴파일러 간 상호 운용성: 다양한 컴파일러 간의 상호 운용성 보장
컴파일 궤적 커뮤니티 공유: 컴파일 궤적 공유 플랫폼 구축

결론 및 논의

주요 결론

Compiler.next는 의도에서 FMware로의 자동 컴파일을 성공적으로 구현함
다중 목표 최적화는 정확성, 지연 시간 및 비용을 효과적으로 균형 있게 조정함
의미론적 캐싱 메커니즘은 컴파일 효율성을 현저히 향상시킴
이 방법은 SE 3.0 시대의 소프트웨어 개발을 위한 새로운 패러다임을 제공함

한계

현재 구현은 주로 단일 Promptware 구성 요소에 중점: 복잡한 다중 구성 요소 FMware 최적화는 추가 연구 필요
골드 표준 의존성: 고품질 평가 데이터셋 필요로 적용 범위 제한 가능
재현 가능성 과제: FM의 비결정론적 동작으로 인해 완전히 재현 가능한 컴파일이 어려움
검색 공간 폭발: 구성 요소 수 증가에 따라 검색 공간이 처리 불가능해질 수 있음

향후 방향

계층적 최적화 전략: 복잡한 FMware 구성 요소를 단계별로 최적화하는 방법 개발
적응형 캐싱 전략: 효율성과 다양성 간의 균형을 맞추기 위해 유사성 임계값을 동적으로 조정
교차 프레임워크 상호 운용성: 표준화된 FMware 중간 표현 수립
품질 보증 메커니즘: 더욱 견고한 FMware 품질 평가 방법 개발

심층 평가

장점

강한 혁신성: 의도 컴파일 프레임워크를 처음으로 체계적으로 제안하여 SE 3.0의 이론적 기초 제공
높은 실용 가치: FMware 개발의 실제 문제점을 해결하며 명확한 응용 전망 보유
강한 체계성: 기술 솔루션뿐만 아니라 완전한 연구 개발 로드맵 제공
충분한 검증: 개념 증명을 통해 방법의 실행 가능성과 효과성 입증
명확한 작성: 논문 구조가 명확하고 기술 설명이 상세하여 이해 및 재현이 용이

부족한 점

제한된 평가 범위: 코드 생성 작업에서만 검증되었으며, 다른 유형의 작업에 대한 평가 부족
확장성 미지수: 대규모, 복잡한 FMware 시스템 처리 능력 미검증
불충분한 비용 분석: 비용 최적화가 언급되었지만 상세한 비용-편익 분석 부족
기존 도구 통합 논의 부족: 기존 개발 도구 체인과의 통합 방법에 대한 논의 미흡

영향력

학술적 기여: 소프트웨어 엔지니어링 분야에 새로운 연구 방향 및 이론 프레임워크 도입
산업 가치: AI 원생 소프트웨어 개발 도구의 발전을 촉진할 가능성
표준화 추진: FMware 개발 표준 및 모범 사례 수립 촉진 가능
커뮤니티 구축: 10가지 행동 촉구를 통해 연구 커뮤니티에 명확한 연구 의제 제공

적용 시나리오

AI 원생 애플리케이션 개발: 특히 대량의 프롬프트 엔지니어링이 필요한 애플리케이션에 적합
로우코드/노코드 플랫폼: 비기술 인력에게 소프트웨어 개발 능력 제공
빠른 프로토타입 개발: 아이디어에서 작동 소프트웨어로의 빠른 전환 지원
FMware 유지보수 최적화: 기존 FMware 시스템의 지속적인 최적화 및 진화 지원

참고문헌

논문은 소프트웨어 엔지니어링, 머신러닝, 컴파일러 설계, 검색 알고리즘 등 여러 분야의 중요한 연구를 포함한 94개의 참고문헌을 포함하고 있으며, 연구에 견고한 이론적 기초를 제공한다.

종합 평가: 이는 창의적이고 체계적인 우수 논문으로, 혁신적인 기술 솔루션을 제시할 뿐만 아니라 소프트웨어 엔지니어링의 미래 발전을 위한 명확한 비전과 로드맵을 제공한다. 일부 측면에서 추가 개선이 필요하지만, 핵심 아이디어와 프레임워크 설계는 AI 시대의 소프트웨어 엔지니어링 실무에 새로운 가능성을 열어준다.