2025-11-18T10:52:13.210456

A mathematical theory for understanding when abstract representations emerge in neural networks

Wang, Johnston, Fusi
Recent experiments reveal that task-relevant variables are often encoded in approximately orthogonal subspaces of the neural activity space. These disentangled low-dimensional representations are observed in multiple brain areas and across different species, and are typically the result of a process of abstraction that supports simple forms of out-of-distribution generalization. The mechanisms by which such geometries emerge remain poorly understood, and the mechanisms that have been investigated are typically unsupervised (e.g., based on variational auto-encoders). Here, we show mathematically that abstract representations of latent variables are guaranteed to appear in the last hidden layer of feedforward nonlinear networks when they are trained on tasks that depend directly on these latent variables. These abstract representations reflect the structure of the desired outputs or the semantics of the input stimuli. To investigate the neural representations that emerge in these networks, we develop an analytical framework that maps the optimization over the network weights into a mean-field problem over the distribution of neural preactivations. Applying this framework to a finite-width ReLU network, we find that its hidden layer exhibits an abstract representation at all global minima of the task objective. We further extend these analyses to two broad families of activation functions and deep feedforward architectures, demonstrating that abstract representations naturally arise in all these scenarios. Together, these results provide an explanation for the widely observed abstract representations in both the brain and artificial neural networks, as well as a mathematically tractable toolkit for understanding the emergence of different kinds of representations in task-optimized, feature-learning network models.
academic

신경망에서 추상적 표현이 나타나는 시점을 이해하기 위한 수학 이론

기본 정보

  • 논문 ID: 2510.09816
  • 제목: A mathematical theory for understanding when abstract representations emerge in neural networks
  • 저자: Bin Wang, W. Jeffrey Johnston, Stefano Fusi
  • 소속: Center for Theoretical Neuroscience, Columbia University
  • 분류: q-bio.NC math.OC physics.bio-ph physics.data-an stat.ML
  • 발표 시간: 2025년 10월 14일 (프리프린트)
  • 논문 링크: https://arxiv.org/abs/2510.09816

초록

본 논문은 신경망에서 추상적 표현(abstract representations)이 나타나는 수학적 메커니즘을 연구한다. 실험 결과에 따르면 과제 관련 변수들은 일반적으로 신경 활동 공간의 근사적으로 직교하는 부분공간에서 인코딩되어 해제된 저차원 표현을 형성한다. 이러한 기하학적 구조는 단순한 분포 외 일반화를 지원하지만, 그 발현 메커니즘은 아직 명확하지 않다. 저자들은 잠재 변수에 의존하는 과제에서 훈련된 순방향 비선형 네트워크에서 추상적 표현이 마지막 은닉층에 필연적으로 나타남을 수학적으로 증명한다. 이를 위해 저자들은 네트워크 가중치 최적화를 신경 전활성화 분포에 대한 평균장 문제로 매핑하는 분석 프레임워크를 개발했다.

연구 배경 및 동기

핵심 문제

  1. 추상적 표현의 보편성: 신경과학 실험에 따르면 여러 뇌 영역과 종에서 신경 활동이 추상적 표현을 나타내며, 과제 관련 변수들이 근사적으로 직교하는 부분공간에서 인코딩된다
  2. 메커니즘 이해 부족: 이러한 기하학적 구조가 광범위하게 존재하지만, 그 발현의 네트워크 메커니즘은 여전히 불명확하다
  3. 기존 방법의 한계: 연구된 메커니즘은 주로 비감독 방법(예: 변분 자동인코더)이지만, 식별 가능성 문제로 인해 순수 비감독 학습에서 표현 해제가 어렵다

연구의 중요성

  • 이론적 의의: 광범위하게 관찰되는 추상적 표현 현상에 대한 수학적 설명 제공
  • 실용적 가치: 표현 학습 메커니즘의 이해는 더 나은 신경망 아키텍처 설계에 도움
  • 학제간 영향: 신경과학과 기계학습의 표현 학습 이론을 연결

핵심 기여

  1. 이론적 보장: 다중 과제 감독 학습 설정에서 순방향 비선형 네트워크가 필연적으로 추상적 표현을 생성함을 처음으로 수학적으로 증명
  2. 분석 프레임워크: 네트워크 가중치 최적화를 신경 전활성화 분포 평균장 문제로 매핑하는 범용 분석 도구 개발
  3. 활성화 함수 견고성: 추상적 표현의 출현이 활성화 함수 선택에 견고함을 증명
  4. 아키텍처 확장: 분석을 심층 네트워크 및 순환 네트워크로 확장
  5. 신경과학적 통찰: 생물학적 신경망에서 관찰되는 추상적 표현에 대한 계산 설명 제공

방법론 상세 설명

과제 정의

훈련 데이터셋 D={(xi,yi)}i=1PD = \{(x^i, y^i)\}_{i=1}^P를 고려하면:

  • 입력 xiRdXx^i \in \mathbb{R}^{d_X}는 기본적으로 구조화되지 않음
  • 출력 yi{±1}dYy^i \in \{±1\}^{d_Y}dYd_Y개의 이진 레이블을 포함하며 잠재 변수 구조를 반영
  • 모든 데이터는 2dY2^{d_Y}개의 서로 다른 클래스를 형성하며, 각 클래스는 nn개의 샘플 포함
  • 총 샘플 수 P=n2dYP = n \cdot 2^{d_Y}

네트워크 아키텍처

가장 단순한 2층 네트워크를 연구: fW1,W2,b(x)=W2ϕ(W1x+b)f_{W_1,W_2,b}(x) = W_2\phi(W_1x + b)

여기서:

  • W1RM×dXW_1 \in \mathbb{R}^{M \times d_X}: 첫 번째 층 가중치 행렬
  • W2RdY×MW_2 \in \mathbb{R}^{d_Y \times M}: 두 번째 층 가중치 행렬
  • bRMb \in \mathbb{R}^M: 편향 매개변수
  • ϕ\phi: 원소별 비선형 활성화 함수
  • MM: 은닉층 너비

손실 함수

L2 정규화를 포함한 평균제곱오차 사용: E(W1,W2,b)=YW2ϕ(WX)F2+λ1WF2+λ2W2F2E(W_1,W_2,b) = \|Y - W_2\phi(WX)\|_F^2 + \lambda_1\|W\|_F^2 + \lambda_2\|W_2\|_F^2

추상적 표현 측정

**평행성 점수(Parallelism Score, PS)**를 사용하여 표현의 추상화 정도 정량화:

  1. 클래스 원형 표현: r(y)=1ni:yi=yrir^{(y)} = \frac{1}{n}\sum_{i:y^i=y} r^i
  2. 표현 변화 방향: Δr(k;α)=r(yk=+1,yk=α)r(yk=1,yk=α)\Delta r^{(k;\alpha)} = r^{(y_k=+1,y_{\setminus k}=\alpha)} - r^{(y_k=-1,y_{\setminus k}=\alpha)}
  3. 평행성 점수: PS=1dYk=1dYPSkPS = \frac{1}{d_Y}\sum_{k=1}^{d_Y} PS_k

여기서 PSkPS_kkk번째 잠재 레이블 인코딩 방향의 일관성을 측정한다. PS = 1은 완전한 추상적 표현에 해당한다.

분석 프레임워크 핵심

평균장 변환

핵심 혁신은 원래 최적화 문제: minW1,W2,bE(W1,W2,b)\min_{W_1,W_2,b} E(W_1,W_2,b)

를 신경 전활성화 분포에 대한 최적화로 변환: minρME[ρM]\min_{\rho_M} \mathcal{E}[\rho_M]

여기서 ρM=k=1Mδhk\rho_M = \sum_{k=1}^M \delta_{h_k}는 전활성화 패턴의 경험적 측도이다.

유효 에너지 함수

유효 시스템의 에너지 함수: E[ρM]=λ1hTKXhdρM(h)+tr(λ2λ2+ϕ(h)ϕ(h)TdρM(h)KY)\mathcal{E}[\rho_M] = \lambda_1\int h^T K_X^\dagger h d\rho_M(h) + \text{tr}\left(\frac{\lambda_2}{\lambda_2 + \int\phi(h)\phi(h)^T d\rho_M(h)} K_Y\right)

여기서:

  • KX=XTXK_X = X^TX: 입력 커널 행렬
  • KY=YTYK_Y = Y^TY: 출력 커널 행렬
  • KXK_X^\dagger: Moore-Penrose 의사역행렬

KKT 조건

최적해는 다음을 만족: λ1hTKXhλ2ϕ(h)T1λ2+K[ρ]KY1λ2+K[ρ]ϕ(h)0\lambda_1 h^T K_X^\dagger h - \lambda_2\phi(h)^T \frac{1}{\lambda_2 + K[\rho^*]} K_Y \frac{1}{\lambda_2 + K[\rho^*]} \phi(h) \geq 0

등호는 hsupp(ρ)h \in \text{supp}(\rho^*)일 때만 성립한다.

실험 설정

데이터 구성

  1. 백색화 입력: XdataTXdata=IPX_{\text{data}}^T X_{\text{data}} = I_P
  2. 목표 정렬 입력: 입력이 출력 기하학적 구조와 부분적으로 정렬
  3. 이방성 입력: 서로 다른 방향에 서로 다른 스케일링 인수

네트워크 구성

  • 활성화 함수: ReLU, 하드 시그모이드, tanh 등
  • 네트워크 너비: M2dYM \geq 2^{d_Y}
  • 정규화 매개변수: λ1,λ2\lambda_1, \lambda_2 작은 값

평가 지표

  • 평행성 점수(PS)
  • 훈련 손실
  • 표현 커널 행렬의 이론적 예측 대 실제 결과 비교

실험 결과

주요 결과

ReLU 네트워크의 최적 표현

백색화 입력 및 단일 요소 클래스(n=1n=1)의 경우, 최적 은닉 표현 커널: K[ρ]=b(dY11T+KY)K[\rho^*] = b^*(d_Y \mathbf{1}\mathbf{1}^T + K_Y)

여기서: b=λ2λ1P+1P(P+2)λ2Pb^* = \sqrt{\frac{\lambda_2}{\lambda_1}\frac{P+1}{P(P+2)}} - \frac{\lambda_2}{P}

추상적 표현 보장

정리: M2dYM \geq 2^{d_Y}이고 입력이 백색화되거나 목표 정렬되어 있을 때, 모든 전역 최솟값은 추상적 표현(PS=1PS = 1)에 해당한다.

신경원 조율 특성

최적 전활성화 패턴: h=α(1±vi),α0,i{1,2,,dY}h = \alpha(\mathbf{1} \pm v_i), \quad \alpha \geq 0, i \in \{1,2,\ldots,d_Y\}

이는 은닉층 신경원이 2dY2^{d_Y}개 그룹으로 나뉘며, 각 그룹이 단일 출력 레이블에만 반응함을 나타낸다.

활성화 함수 견고성

임계값 유형 활성화 함수

ϕ(z)=ϕ+(z)1z0\phi(z) = \phi_+(z) \cdot \mathbf{1}_{z \geq 0} 형태의 활성화 함수의 경우, 최적 표현 커널은 동일한 형태를 유지하며 계수만 변한다.

기함수 활성화 함수

기함수 활성화의 경우, 최적 커널: K[ρ]=bKYK[\rho^*] = b^* K_Y

상수항이 없지만 여전히 추상적 표현(PS=1PS = 1)에 해당한다.

확장 결과

심층 네트워크

L층 심층 네트워크의 경우, 각 층이 추상적 표현을 나타냄: K(l)[ρl]=bl(dY11T+KY)K^{(l)}[\rho_l^*] = b_l^*(d_Y \mathbf{1}\mathbf{1}^T + K_Y)

여기서 bl=(γ)l1b1b_l^* = (\gamma^*)^{l-1} b_1^*이다.

순환 네트워크

마지막 시간 단계에서도 동일하게 추상적 표현이 나타나 프레임워크의 광범위한 적용 가능성을 검증한다.

관련 연구

신경과학 배경

  • 여러 뇌 영역(해마, 전전두피질 등)에서 추상적 표현 관찰
  • 이러한 표현들은 분포 외 일반화 및 추상적 추론을 지원

기계학습 방법

  • 변분 자동인코더: 비감독 표현 해제 학습의 표준 방법
  • 감독 방법: 다중 과제 학습을 통한 표현 해제 획득
  • 신경 붕괴: 심층 네트워크 훈련 후기의 표현 기하학 현상

이론적 분석

  • 신경 접선 커널: 무한 너비 네트워크의 이론적 분석
  • 평균장 이론: 심층 네트워크의 통계 물리학 방법
  • 학습 동역학: 가중치 진화의 수학적 분석

결론 및 논의

주요 결론

  1. 이론적 보장: 적절한 조건에서 감독 학습은 필연적으로 추상적 표현을 생성
  2. 메커니즘 설명: 과제 구조가 표현 기하학을 결정하고, 입력 기하학이 학습 효율에 영향
  3. 보편성: 결과는 활성화 함수 및 네트워크 아키텍처에 견고

생물학적 의의

  • 뇌에서 광범위하게 관찰되는 추상적 표현에 대한 계산 설명 제공
  • 해마 등 뇌 영역의 "재인코딩"이 하위 추상적 표현 형성을 촉진할 수 있음
  • 단일 신경원 비선형성이 조율 특성에 영향을 미치지만 군집 기하학은 변경하지 않음

한계

  1. 과제 제한: 주로 이진 분류의 조합 과제에 적용
  2. 입력 가정: 특정 입력 기하학적 구조 필요
  3. 정규화 의존성: 적절한 L2 정규화 강도 필요

향후 방향

  1. 연속 변수: 연속 잠재 변수의 표현 학습으로 확장
  2. 학습 동역학: 추상적 표현 형성 과정 분석
  3. 생물학적 구현: 생물학적 학습 규칙에서의 표현 발현 연구

심층 평가

장점

  1. 이론적 엄밀성: 추상적 표현 발현에 대한 수학적 증명을 제공하여 중요한 이론적 공백 해소
  2. 방법론 혁신성: 평균장 프레임워크는 유한 너비 네트워크 분석을 위한 새로운 도구 제공
  3. 광범위한 적용 가능성: 결과는 다양한 활성화 함수 및 네트워크 아키텍처에 성립
  4. 학제간 가치: 신경과학 관찰과 기계학습 이론 연결
  5. 충분한 실험 검증: 이론적 예측이 수치 실험과 높은 일치도

부족한 점

  1. 과제 범위 제한: 주로 특정 이진 레이블 조합 과제에 초점
  2. 입력 조건 엄격: 백색화 또는 목표 정렬 입력 기하학 필요
  3. 실제 응용과의 거리: 현실 세계의 복잡한 과제와의 격차 존재
  4. 계산 복잡성: 평균장 방정식 해결이 계산상 비용이 클 수 있음

영향력

  1. 이론적 기여: 표현 학습 이론에 중요한 수학적 기초 제공
  2. 방법론적 가치: 분석 프레임워크를 다른 네트워크 모델에 적용 가능
  3. 실용적 지도: 추상적 표현을 촉진하는 네트워크 아키텍처 설계에 지도 제공
  4. 학제간 영향: 신경과학과 기계학습의 교차 연구에 영향 가능

적용 시나리오

  • 해석 가능성이 강한 표현 학습 과제
  • 다중 과제 학습에서의 특성 해제
  • 신경과학에서 표현 기하학의 이론적 모델링
  • 분포 외 일반화 능력이 필요한 응용

기술적 혁신점

핵심 수학 도구

  1. 측도론 방법: 이산 신경원 문제를 연속 측도 최적화로 변환
  2. 볼록 최적화 이론: KKT 조건을 이용한 전역 최적해 분석
  3. 행렬 분석: 커널 행렬을 통한 표현 기하학 구조 특성화

분석 기법

  • 협정부호 계획법: ReLU 네트워크의 비볼록 제약 처리
  • Schur 볼록성: 서로 다른 활성화 함수의 통일된 성질 분석
  • 섭동 분석: 연속성 논증을 통한 결과 확장

이 연구는 신경망 표현 학습을 이해하기 위한 중요한 이론적 기초를 제공하며, 그 수학적 프레임워크와 통찰력은 신경과학과 기계학습 모두에 중요한 가치를 갖는다.