2025-11-11T11:01:09.310903

Neuro-Symbolic Imitation Learning: Discovering Symbolic Abstractions for Skill Learning

Keller, Tanneberg, Peters

Imitation learning is a popular method for teaching robots new behaviors. However, most existing methods focus on teaching short, isolated skills rather than long, multi-step tasks. To bridge this gap, imitation learning algorithms must not only learn individual skills but also an abstract understanding of how to sequence these skills to perform extended tasks effectively. This paper addresses this challenge by proposing a neuro-symbolic imitation learning framework. Using task demonstrations, the system first learns a symbolic representation that abstracts the low-level state-action space. The learned representation decomposes a task into easier subtasks and allows the system to leverage symbolic planning to generate abstract plans. Subsequently, the system utilizes this task decomposition to learn a set of neural skills capable of refining abstract plans into actionable robot commands. Experimental results in three simulated robotic environments demonstrate that, compared to baselines, our neuro-symbolic approach increases data efficiency, improves generalization capabilities, and facilitates interpretability.

academic

신경-기호 모방 학습: 기술 학습을 위한 기호 추상화 발견

기본 정보

논문 ID: 2503.21406
제목: Neuro-Symbolic Imitation Learning: Discovering Symbolic Abstractions for Skill Learning
저자: Leon Keller, Daniel Tanneberg, Jan Peters
분류: cs.AI cs.LG cs.RO
발표 시간/학회: IEEE International Conference on Robotics and Automation (ICRA) 2025
논문 링크: https://arxiv.org/abs/2503.21406
DOI: 10.1109/ICRA55743.2025.11127692

초록

모방 학습은 로봇에게 새로운 행동을 가르치는 인기 있는 방법입니다. 그러나 대부분의 기존 방법은 장기적이고 다단계적인 작업이 아닌 단기적이고 고립된 기술을 가르치는 데 중점을 두고 있습니다. 이러한 격차를 해소하기 위해 모방 학습 알고리즘은 개별 기술을 학습할 뿐만 아니라 이러한 기술을 순서대로 배열하여 확장된 작업을 효과적으로 실행하는 방법에 대한 추상적 이해가 필요합니다. 본 논문은 신경-기호 모방 학습 프레임워크를 제안함으로써 이 문제를 해결합니다. 이 시스템은 먼저 작업 시연을 사용하여 저수준 상태-행동 공간의 추상적 기호 표현을 학습합니다. 학습된 표현은 작업을 더 간단한 부분 작업으로 분해하고 시스템이 기호 계획을 활용하여 추상 계획을 생성할 수 있도록 합니다. 이후 시스템은 이러한 작업 분해를 활용하여 추상 계획을 실행 가능한 로봇 명령으로 세분화할 수 있는 신경 기술 집합을 학습합니다. 세 가지 시뮬레이션 로봇 환경에서의 실험 결과는 기준 방법과 비교하여 우리의 신경-기호 방법이 데이터 효율성을 향상시키고, 일반화 능력을 개선하며, 해석 가능성을 촉진함을 보여줍니다.

연구 배경 및 동기

핵심 문제

본 연구가 해결하고자 하는 핵심 문제는 기존 모방 학습 방법이 장기적이고 다단계적인 로봇 작업을 처리할 때의 한계입니다. 구체적으로:

기술의 고립성: 대부분의 기존 방법은 단기적이고 고립된 기술만 학습할 수 있으며, 여러 기술의 조합이 필요한 복잡한 작업을 처리할 수 없습니다
추상적 이해의 부족: 기존 방법은 기술을 순서대로 배열하여 확장된 작업을 완료하는 방법에 대한 추상적 이해가 부족합니다
제한된 일반화 능력: 미처 본 적 없는 작업 구성에 직면했을 때 전통적 방법의 일반화 능력이 부족합니다

문제의 중요성

이 문제는 실제 응용에서 중요한 의미를 가집니다:

일상 생활 응용: 실제 세계의 로봇 작업(예: 주방 보조)은 복잡한 다단계 작업 순서를 실행해야 합니다
인지 능력 모방: 인간은 추상화를 통해 복잡한 작업을 처리하며, 로봇도 유사한 인지 도구가 필요합니다
공학적 실무 요구: 현재의 작업 및 동작 계획(TAMP) 방법은 효과적이지만 인간 전문가가 기호 표현과 동작 계획 모델을 수동으로 설계해야 합니다

기존 방법의 한계

수동 설계 의존성: 전통적 TAMP 방법은 많은 양의 수동 설계 기호 표현이 필요합니다
기술과 기호의 분리: 기존 연구는 주어진 기술에서 기호를 학습하거나 주어진 기호에서 기술을 학습하지만, 통합 프레임워크가 부족합니다
낮은 데이터 효율성: 순수 신경망 방법은 긴 시퀀스 작업을 처리할 때 데이터 효율성이 낮습니다

핵심 기여

통합 신경-기호 프레임워크: 원시 작업 시연에서 관계 기호 추상화와 신경 기술을 동시에 학습하는 통합 프레임워크를 처음으로 제안합니다
새로운 술어 학습 방법: 세밀한 분할과 연산자 복잡성의 균형을 맞추는 최적화 목표 함수 기반의 술어 선택 방법을 제안합니다
2단계 학습 전략: 먼저 기호 구성 요소(술어 및 연산자)를 학습한 후 기호 표현을 활용하여 신경 기술을 학습하는 2단계 방법을 설계합니다
현저한 성능 향상: 세 가지 시뮬레이션 로봇 환경에서 기준 방법 대비 데이터 효율성, 일반화 능력 및 해석 가능성 측면에서 현저한 개선을 보여줍니다

방법 상세 설명

작업 정의

본 논문은 완전히 관찰 가능한 로봇 환경에서의 모방 학습 작업을 연구합니다:

환경 구성: 로봇과 여러 조작 가능한 객체
객체 표현: 각 객체 o ∈ O는 유형 t(o) ∈ T와 특성 벡터 ξᵢ(o) ∈ Ξ(o)를 가집니다
상태 정의: 환경 상태 sₜ는 모든 객체 상태의 연결입니다
행동 공간: 행동 a ∈ A는 말단 집행기 자세의 오프셋을 지정합니다
작업 목표: 시연 궤적 집합 D = {τ⁰,...,τᴹ}에서 새로운 작업을 해결할 수 있는 신경-기호 정책을 학습합니다

모델 아키텍처

1. 신경-기호 정책 구성 요소

신경-기호 정책은 세 가지 핵심 구성 요소를 포함합니다:

술어(Predicates) P:

정의: 유형 매개변수 Θ를 가진 이진 함수로, 객체 간 관계를 지정합니다
기능: 환경 상태 s를 기호 상태 s̄ = ψ(s,P)로 추상화합니다
예시: onTop(cube, cube)는 정육면체 간의 쌓기 관계를 나타냅니다

연산자(Operators) Σ:

구조: 유형 매개변수 Θ, 전제 조건 집합(pre⁺, pre⁻) 및 효과 집합(eff⁺, eff⁻)을 포함합니다
기능: 추상 상태 공간에서의 전이 모델을 정의합니다
표현: PDDL 형식을 사용하며 기호 계획을 지원합니다

기술(Skills) Π:

구성: 각 기술 πᵢ = (fᵢ, gᵢ)는 부분 목표 샘플러 gᵢ와 부분 목표 조건 제어기 fᵢ를 포함합니다
기능: 추상 계획에서 구체적인 연산자를 실행합니다

2. 정책 실행 흐름

추상 계획 생성:
- 초기 상태 s₀과 목표 상태 집합 Sₘ을 추상화합니다
- 기호 계획 알고리즘을 사용하여 연산자 시퀀스를 생성합니다
- Levenshtein 거리를 통해 최적 계획을 선택합니다
계획 실행:
- 계획의 각 연산자에 해당하는 기술을 순차적으로 실행합니다
- 부분 목표 샘플러는 연산자 효과를 만족하는 부분 목표를 제안합니다
- 부분 목표 조건 제어기는 효과가 만족될 때까지 구체적인 행동을 실행합니다

기술 혁신점

1. 술어 학습의 2단계 방법

후보 생성 단계:

시연에서 관찰된 상대 특성을 기반으로 후보 술어를 구성합니다
클러스터링 방법을 사용하여 특성 공간에서 밀집 영역을 식별합니다
각 클러스터에 대해 후보 술어를 생성합니다

추상화 선택 단계: 최적화 목표 함수:

max P⊂C ∑τ∈D |ψ(P,τ)| - α|Σ(P,D)|

제약 조건: |ψ(P,τ)| = |plan(P,Σ,τ₀,τₙ)| ∀τ ∈ D

이 목표 함수는 다음을 균형 있게 조정합니다:

세밀한 분할(추상 상태 수량 최대화)
연산자 복잡성 제어(연산자 수량 최소화)
계획 최적성 보장(제약 조건)

2. 상태 전이 제약을 고려한 기술 학습

기호 표현에 따라 시연 궤적을 분할합니다
전이 함수 φσ를 사용하여 연산자와 관련된 상태 정보만 유지합니다
행동 복제를 통해 부분 목표 조건 제어기를 훈련합니다
커널 밀도 추정을 사용하여 부분 목표 샘플러를 학습합니다

실험 설정

데이터셋

실험은 세 가지 시뮬레이션 로봇 환경에서 수행되었으며, 모두 MuJoCo 물리 엔진과 robosuite 시뮬레이션 프레임워크를 사용합니다:

Building 환경: 로봇이 직사각형 블록을 올바른 순서로 조립하여 다리 구조를 구축해야 합니다
Pouring 환경: 로봇이 주전자로 컵에 차를 따르고 가득 찬 컵을 쟁반 위에 놓아야 합니다
Painting 환경: 로봇이 브러시로 블록을 칠하고 칠해진 블록을 상자에 넣어야 합니다

평가 지표

성공률: 작업 완료의 백분율
데이터 효율성: 다양한 시연 수량에서의 성능 표현
일반화 능력: 세 가지 시나리오에서의 성능
- 시나리오 I: 미처 본 적 없는 초기 객체 자세
- 시나리오 II: 미처 본 적 없는 목표 구성
- 시나리오 III: 훈련 시보다 많은 객체 수량

비교 방법

Critical Region (CR): 중요성 개념을 사용하여 술어를 평가하고 선택하는 절제 실험
Hierarchical Neural Network (HNN): 기호 계획을 신경망 고수준 정책으로 대체하는 절제 실험

구현 세부 사항

시연 수량: 100, 200, 300개 시연
최적화 알고리즘: 술어 선택을 위한 빔 검색
기술 학습: 다층 퍼셉트론 + 행동 복제
계획 알고리즘: 기성 기호 계획기 사용

실험 결과

주요 결과

실험 결과는 본 방법이 모든 환경과 시나리오에서 기준 방법을 능가함을 보여줍니다:

데이터 효율성: 300개 시연에서 본 방법은 모든 환경과 일반화 시나리오에서 높은 성공률을 달성했습니다
일반화 능력:
- HNN은 시나리오 II와 III에서 완전히 실패합니다
- CR 방법은 과도하게 복잡한 기호 표현을 학습하여 일반화 능력이 낮습니다
- 본 방법은 모든 시나리오에서 안정적인 높은 성공률을 유지합니다
구체적 성능 데이터:
- 모든 시연 수량 설정에서 기준을 능가합니다
- 데이터 효율성과 일반화 능력의 좋은 균형을 보여줍니다

절제 실험 분석

CR 기준선 분석:
- 더 복잡한 기호 표현을 학습했습니다(더 많은 술어 및 연산자)
- 연산자 평균 매개변수가 더 많아 기술 학습의 복잡성이 증가합니다
- 과도한 복잡화로 인해 일반화 능력이 감소합니다
HNN 기준선 분석:
- 기호 계획의 일반화 능력이 부족합니다
- 새로운 목표와 더 많은 객체에 직면했을 때 실패합니다
- 기호 계획이 일반화에서 중요함을 검증합니다

해석 가능성 분석

술어 시각화: 술어가 참인 상태 이미지를 겹쳐서 모든 학습된 술어에 의미 있는 이름을 부여할 수 있습니다
연산자 해석: 학습된 연산자는 PDDL 구문으로 명확하게 표현될 수 있으며 명확한 전제 조건과 효과를 가집니다
계획 해석 가능성: 생성된 추상 계획은 완전히 해석 가능하여 이해와 디버깅이 용이합니다

결론 및 토론

주요 결론

방법 유효성: 신경-기호 모방 학습 프레임워크는 장기 다단계 작업 학습 문제를 성공적으로 해결합니다
성능 우위: 기준 방법 대비 데이터 효율성, 일반화 능력 및 해석 가능성 측면에서 현저한 향상을 보여줍니다
기술 기여: 제안된 술어 학습 방법과 통합 프레임워크는 이 분야에 새로운 연구 방향을 제공합니다

한계

시뮬레이션 환경 제한: 현재 시뮬레이션 환경에서만 검증되었으며, 실제 로봇에 대한 적용 가능성은 추가 검증이 필요합니다
객체 유형 가정: 방법은 미리 정의된 객체 유형에 의존하며, 새로운 객체 범주에 대한 적응성이 제한됩니다
시연 품질 의존성: 방법 성능은 고품질 시연 데이터에 의존합니다

향후 방향

저자는 세 가지 주요 향후 연구 방향을 제시합니다:

실제 로봇 검증: 실제 로봇에서 프레임워크의 실제 적용 가능성을 검증합니다
다중 작업 확장: 다중 작업 모방 학습에서의 응용을 탐색합니다
온라인 적응: 새로운 객체 범주와 장애 복구를 지원하기 위한 기술 및 기호 표현의 온라인 적응을 연구합니다

심층 평가

장점

문제의 중요성: 모방 학습 분야의 중요한 문제를 해결하며 실제 응용 가치가 있습니다
방법 혁신성:
- 기호와 기술 학습을 처음으로 통합합니다
- 새로운 술어 학습 목표 함수를 제안합니다
- 효과적인 2단계 학습 전략을 설계합니다
실험 충분성:
- 세 가지 다양한 로봇 환경
- 다양한 일반화 시나리오 테스트
- 적절한 기준선 비교 및 절제 실험
결과 설득력: 현저한 성능 향상과 좋은 해석 가능성
작문 명확성: 논문 구조가 명확하고 기술 설명이 정확합니다

부족한 점

실험 환경 제한:
- 시뮬레이션 환경에서만 검증됨
- 환경이 상대적으로 단순하며 실제 세계의 복잡성이 충분히 고려되지 않음
방법 한계:
- 미리 정의된 객체 유형과 특성에 의존합니다
- 클러스터링 하이퍼매개변수 ε의 선택이 성능에 영향을 미칠 수 있습니다
- 빔 검색이 전역 최적해를 보장하지 않습니다
비교 기준선: 기준선 방법이 상대적으로 단순하며 더 고급 방법과의 비교가 부족합니다
이론적 분석: 방법의 수렴성 및 일반화 능력에 대한 이론적 보장이 부족합니다

영향력

학술 기여:
- 신경-기호 모방 학습의 새로운 방향을 개척합니다
- 장기 작업 학습을 위한 효과적인 해결책을 제공합니다
- 방법은 좋은 통용성을 가집니다
실용적 가치:
- 복잡한 로봇 작업에 적용 가능합니다
- 해석 가능한 의사 결정 프로세스를 제공합니다
- 데이터 효율성이 높아 실제 응용에 적합합니다
재현성:
- 기술 세부 사항이 명확하게 설명됩니다
- 웹사이트 링크를 제공하며 코드가 포함될 수 있습니다
- 실험 설정이 명확합니다

적용 시나리오

로봇 조작 작업: 특히 다단계 조작 시퀀스가 필요한 작업에 적합합니다
구조화된 환경: 객체 유형과 관계가 상대적으로 고정된 환경에서 최고의 성능을 발휘합니다
해석 가능성이 필요한 응용: 의료, 교육 등 의사 결정 프로세스를 이해해야 하는 분야
데이터가 제한된 시나리오: 순수 신경망 방법과 비교하여 시연 데이터가 제한된 경우 더 유리합니다

참고 문헌

논문은 61개의 관련 문헌을 인용하며, 모방 학습, 기호 학습, 강화 학습, 작업 및 동작 계획 등 여러 분야의 중요한 연구를 포함하여 연구에 견고한 이론적 기초를 제공합니다.

전체 평가: 이것은 로봇 학습 분야의 중요한 문제를 해결하고 혁신적인 해결책을 제시하며 충분한 실험을 통해 방법의 유효성을 검증한 고품질 연구 논문입니다. 일부 한계가 있지만 학술 기여도와 실용적 가치가 모두 매우 현저하며 이 분야의 발전에 중요한 추진력을 제공합니다.