2025-11-24T09:34:24.605287

NAEL: Non-Anthropocentric Ethical Logic

Lerma, PeÃ±aloza

We introduce NAEL (Non-Anthropocentric Ethical Logic), a novel ethical framework for artificial agents grounded in active inference and symbolic reasoning. Departing from conventional, human-centred approaches to AI ethics, NAEL formalizes ethical behaviour as an emergent property of intelligent systems minimizing global expected free energy in dynamic, multi-agent environments. We propose a neuro-symbolic architecture to allow agents to evaluate the ethical consequences of their actions in uncertain settings. The proposed system addresses the limitations of existing ethical models by allowing agents to develop context-sensitive, adaptive, and relational ethical behaviour without presupposing anthropomorphic moral intuitions. A case study involving ethical resource distribution illustrates NAEL's dynamic balancing of self-preservation, epistemic learning, and collective welfare.

academic

NAEL: 비인간중심 윤리 논리

기본 정보

논문 ID: 2510.14676
제목: NAEL: Non-Anthropocentric Ethical Logic
저자: Bianca Maria Lerma, Rafael Peñaloza (University of Milano-Bicocca, Milan, Italy)
분류: cs.AI
발표 학회: FEAR 2025
논문 링크: https://arxiv.org/abs/2510.14676v1

초록

본 논문은 능동 추론(active inference)과 기호 추론(symbolic reasoning)에 기반한 인공지능 에이전트를 위한 새로운 윤리 프레임워크인 NAEL(비인간중심 윤리 논리)을 제안한다. 전통적인 인간중심 AI 윤리 접근법과 달리, NAEL은 윤리적 행동을 동적 다중 에이전트 환경에서 전역 기대 자유 에너지(global expected free energy)를 최소화하는 지능형 시스템의 창발적 속성으로 형식화한다. 본 논문은 에이전트가 불확실한 환경에서 자신의 행동의 윤리적 결과를 평가할 수 있도록 하는 신경기호 아키텍처를 제안한다. 이 시스템은 에이전트가 인간 형태의 도덕적 직관을 미리 설정하지 않고도 맥락에 민감하고 적응적이며 관계적인 윤리적 행동을 발전시킬 수 있도록 함으로써 기존 윤리 모델의 한계를 해결한다.

연구 배경 및 동기

핵심 문제

AI 시스템이 의료, 환경 관리 등 고위험 의사결정에 점점 더 많이 참여함에 따라, 윤리적 추론 능력을 갖춘 기계를 설계하는 것이 점점 더 시급해지고 있다. 그러나 기존의 기계 윤리 모델은 근본적인 문제를 안고 있다:

인간중심주의의 한계: 기존 방법은 인간의 도덕 원칙을 하드코딩하거나 인간의 인지 아키텍처를 복제한다. 이러한 가정은 AI의 표현력을 제한할 뿐만 아니라 인간과 인공지능 에이전트 간의 인지적, 존재론적 차이를 무시한다.
철학적 수준의 도전: 도덕을 외부에서 의미 있게 강제할 수 있는가, 아니면 에이전트 자신의 경험과 상호작용에서 창발해야 하는가? AI 에이전트의 지각과 인지 기초가 인간과 근본적으로 다르다면, 어떻게 윤리적 행동을 발전시킬 수 있는가?

연구 동기

저자들은 AI의 윤리 추론이 인간 규범의 모방으로 모델링되어서는 안 되며, 에이전트와 환경의 지속적인 상호작용에 기반한 형식적 창발 과정으로 접근해야 한다고 주장한다. 이러한 관점은 객체지향 존재론(object-oriented ontology)과 토착 AI 설계(indigenous AI design)의 최근 연구와 일치하며, 여기서 윤리는 계층적이 아닌 관계적으로 창발한다.

핵심 기여

NAEL 프레임워크 제안: 능동 추론과 기호 추론을 결합한 비인간중심 윤리 논리 시스템
계층적 신경기호 아키텍처 설계: 지각층, 윤리 추론층, 행동 선택층 포함
전역 자유 에너지 최소화 원칙 도입: 윤리적 행동을 시스템 전체 불확실성을 최소화하는 과정으로 정의
다양한 논리 형식 통합: 도덕 논리, 입장 논리, 주관적 논리를 결합하여 윤리 추론의 다양한 측면 처리
실제 응용 사례 제공: 건조 지역 수자원 분배 문제를 통해 프레임워크의 실제 적용 시연

방법론 상세 설명

이론적 기초

능동 추론(Active Inference)

능동 추론은 변분 자유 에너지 최소화에 기반한 지각, 행동, 학습의 통합 이론이다. 형식적으로, 두 개의 분리된 범주를 고려한다: 가능한 관찰 O와 세계의 (숨겨진) 상태 S. 에이전트는 다음을 가진다:

생성 모델: 확률 분포 P: O×S → 0,1을 생성
인식 분포: Q: S → 0,1, 현재 상태에 대한 에이전트의 신념 측정

관찰 o∈O가 주어졌을 때, 변분 자유 에너지는 다음과 같이 정의된다:

F(o) = E_Q[log Q(s) - log P(o,s)]

NAEL에서 에이전트는 자신의 기대 자유 에너지만 최소화하는 것이 아니라, 다른 에이전트와 환경의 (예측된) 자유 에너지를 추정하고 통합하여, 이기적 최적화에서 관계적이고 협력적인 윤리 추론으로의 전환을 실현한다.

기호 추론

NAEL은 세 가지 논리 형식을 결합한다:

도덕 논리(Deontic Logic): 의무, 허가, 금지 등 규범적 개념 처리
입장 논리(Standpoint Logic): 다중 에이전트 환경에서 다양한 관점에 대한 추론 가능
주관적 논리(Subjective Logic): 인식론적 불확실성과 신념 정도 모델링

모델 아키텍처

NAEL은 세 가지 주요 층으로 구성된 계층적 신경기호 아키텍처를 채택한다:

1. 지각층(Perception Layer)

깊은 능동 추론 네트워크를 사용하여 감각 데이터 처리
관찰과 세계의 가능한 상태를 결합한 환경 생성 모델 구축
맥락 및 에이전트 목표와 관련된 잠재 변수 추론
감각운동 수준에서 기대 자유 에너지 최소화
순수 부호 없는 기호(신경) 층

2. 윤리 추론층(Ethical Reasoning Layer)

논리 모듈 통합: 도덕, 입장, 주관적 추론
규범적 제약, 다중 에이전트 관점 채택, 신념 불확실성 인코딩
e-connections 등 형식화 방법을 통해 모듈 간 느슨한 연결 구현
순수 기호층

3. 행동 선택층(Action Selection Layer)

후보 행동이 전역 기대 자유 에너지에 미치는 예측 영향 평가
에이전트 자신의 불확실성뿐만 아니라 다른 에이전트와 환경 시스템의 추론된 불확실성 포함
신경 예측기 정보와 기호 제약을 사용한 확률 계산
신경기호층

전역 자유 에너지 최소화

NAEL의 핵심 혁신은 전역 기대 자유 에너지의 개념이다:

G_global = Σ(i=1 to N) E_Qi[F_i] + F_env

여기서:

Q_i는 에이전트 i의 변분 사후분포
F_i는 그 자유 에너지
F_env는 생태 불확실성을 고려

이러한 공식화는 관계적 상호의존성에 기반한 협력적 윤리를 강제하며, 타인에 대한 해악 최소화와 환경 예측 가능성 유지를 윤리적으로 바람직한 결과로 간주한다.

동적 적응 및 학습

NAEL 에이전트는 학습 규칙을 통해 윤리적 입장을 업데이트한다:

θ_{t+1} = θ_t - η∇_θ E[F_global]

여기서 θ는 윤리 정책 모델의 매개변수, η는 학습률이다. 기울기 기반 학습은 환경 복잡성, 사회적 상호작용, 문화 변화에 대응하여 윤리 매개변수가 시간에 따라 진화할 수 있도록 한다.

실험 설정

사례 연구: 건조 계곡의 윤리적 자원 분배

논문은 희소 자원 분배 딜레마를 포함하는 단순화된 시뮬레이션을 통해 NAEL의 실제 작동을 시연한다.

시나리오 설정

자율 지능 에이전트가 가뭄 영향 지역의 수자원 분배 관리
환경은 두 개의 커뮤니티(C1, C2)와 야생동물 보호구역(W) 포함
에이전트는 매일 제한된 수자원 단위 w∈N 분배 필요
고려 요소:
1. 커뮤니티 생존 확률 (수자원 부족의 감소 함수)
2. 생태 안정성 (W의 종 분포 엔트로피)
3. 미래 불확실성 (예측 관찰의 기대 자유 에너지)

지각 추론

깊은 능동 추론을 통해 에이전트는 다음을 예측하는 생성 모델을 구축한다:

숨겨진 상태 s_t가 주어졌을 때 관찰 o_t의 우도: P(o_t|s_t)
선택된 행동 a_t 하에서의 상태 전이 모델: P(s_{t+1}|s_t,a_t)
가능한 다음 결과에 대한 상대적 선호도를 표현하는 선택 함수 C(o_{t+1})

기호적 윤리 추론

에이전트는 기호 모듈을 통해 각 후보 행동의 허가성과 의무 상태를 평가한다:

도덕적 측면: 규범은 커뮤니티가 하루 이상 물 없이 지낼 수 없음을 규정할 수 있음
입장 측면: 각 커뮤니티와 보호구역의 신념과 선호도 예측
주관적 측면: 신념은 신뢰 수준, 데이터 품질, 센서 노이즈에 따라 가중치 적용

행동 선택 예시

두 가지 행동 옵션 고려:

A1: C1에 70% 할당, C2에 30%, W에 0%
A2: C1에 40% 할당, C2에 40%, W에 20%

A1이 더 많은 직접적 의무를 충족할 수 있지만, A2는 생물 다양성 보호와 생태 붕괴 감소를 통해 장기 전역 자유 에너지를 더 잘 최소화할 수 있다.

실험 결과

주요 발견

사례 연구는 NAEL이 다음을 어떻게 수행하는지 보여준다:

동적 균형: 자기보호, 인식론적 학습, 집단 복지 간의 동적 균형
적응적 조정: 가뭄이 계속됨에 따라 온라인 업데이트를 통한 의무 가중치 조정
체계적 사고: 정적 규범보다 시스템 일관성 우선순위 지정
장기 관점: 경직된 분배자에서 적응적 윤리 파트너로의 진화

주요 장점

맥락 민감성: 환경 변화에 따른 윤리적 의사결정 조정
다중 관점 통합: 모든 이해관계자의 관점 고려
불확실성 처리: 정보 불완전 상황에서의 윤리적 의사결정
지속적 학습: 상호작용을 통한 윤리적 판단의 지속적 개선

결론 및 논의

주요 결론

NAEL은 AI 윤리의 패러다임 전환을 나타내며, 정적 규칙에서 동적 창발 과정으로의 이동을 의미한다. 윤리 추론을 인간 규범 모방이 아닌 불확실성 최소화에 기반함으로써, NAEL은 인공 시스템을 위한 새로운 도덕 추론 모델을 제공한다.

한계

논문은 여러 중요한 한계를 솔직하게 인정한다:

계산 복잡성: 대규모 응용에서 여러 에이전트와 시스템에 걸친 전역 기대 자유 에너지 평가는 계산상 어려울 수 있음
해석 가능성: 기호 추론이 투명성을 증가시키지만, 연속 추론과 이산 논리 간의 상호작용은 불투명한 경계 사례를 생성할 수 있음
검증 문제: 적응적 시스템에서 윤리적 안전의 형식적 보증은 여전히 미해결 과제

향후 방향

저자들은 여러 연구 방향을 제안한다:

다중 에이전트 확장: 충돌하는 윤리적 입장을 가진 다중 에이전트 시스템 연구
실제 응용: 보호 로봇공학, 기후 민감 기반시설 계획 등 생태 윤리에 적용
하이브리드 아키텍처 강화: 신경 강화학습 또는 기호적 계층 베이지안 모델 포함
안전 보증: 논리 추론 작업 및 자유 에너지 경계 개발을 통한 안전 및 신뢰 보증 제공

심층 평가

장점

이론적 혁신성: NAEL은 AI 윤리 분야에서 진정한 독창적 관점을 제공하며 인간중심주의의 속박에서 벗어남
학제간 통합: 인지과학(능동 추론), 논리학(기호 추론), AI 기술을 성공적으로 결합
실용성 고려: 구체적 사례를 통해 프레임워크의 실제 적용 가능성 시연
철학적 깊이: 기술적 기여뿐만 아니라 심오한 철학적 사고 제공
적응적 설계: 시스템이 불확실하고 동적인 환경에서 학습하고 적응 가능

부족한 점

실험 검증 제한: 단순화된 사례 연구만 제공되며 대규모 실험 검증 부족
계산 가능성 미충분 입증: 전역 자유 에너지 계산의 실제 가능성에 대한 추가 분석 필요
기존 시스템과의 비교 부족: 다른 윤리 AI 시스템과의 체계적 비교 부재
평가 지표 모호: 윤리적 의사결정의 품질을 객관적으로 평가하는 방법 불명확
안전성 보증 부족: 중요 응용에서 시스템의 안전성 및 신뢰성 보증 미확립

영향력

학술적 기여: AI 윤리 연구에 새로운 이론적 방향 개척
실용적 가치: 환경 관리, 자원 분배 등 분야에서 잠재적 응용 가치
학제간 영향: 철학, 인지과학, AI 등 다양한 분야에 영향 가능
재현성: 이론 프레임워크는 명확하나 구현 세부사항 추가 완성 필요

적용 가능 시나리오

NAEL은 특히 다음 시나리오에 적합하다:

다중 이해관계자 환경에서의 자원 분배
생태계 관리 및 환경 보호
문화 간, 종 간 윤리적 의사결정
높은 불확실성과 동적 변화 환경
장기 계획 및 적응이 필요한 복잡한 시스템

참고문헌

논문은 다음을 포함하는 19개의 핵심 문헌을 인용한다:

능동 추론 이론 기초 5, 15, 19
기호 논리 형식화 6, 7, 8, 9
AI 윤리 및 철학 기초 2, 4, 14, 17
관련 기술 방법 11, 18

종합 평가: 이는 AI 윤리 분야에서 중요한 이론적 기여를 제시하는 논문으로, 새로운 패러다임을 제안한다. 실험 검증 및 공학적 구현 측면에서 개선의 여지가 있지만, 이론적 혁신성과 학제간 통합 능력은 해당 분야의 중요한 기여를 만든다. 논문의 비인간중심 관점은 향후 AI 시스템의 윤리 설계를 위한 귀중한 새로운 사고방식을 제공한다.