Information-Theoretic Criteria for Knowledge Distillation in Multimodal Learning
Xie, Xu, Sanguinetti
The rapid increase in multimodal data availability has sparked significant interest in cross-modal knowledge distillation (KD) techniques, where richer "teacher" modalities transfer information to weaker "student" modalities during model training to improve performance. However, despite successes across various applications, cross-modal KD does not always result in improved outcomes, primarily due to a limited theoretical understanding that could inform practice. To address this gap, we introduce the Cross-modal Complementarity Hypothesis (CCH): we propose that cross-modal KD is effective when the mutual information between teacher and student representations exceeds the mutual information between the student representation and the labels. We theoretically validate the CCH in a joint Gaussian model and further confirm it empirically across diverse multimodal datasets, including image, text, video, audio, and cancer-related omics data. Our study establishes a novel theoretical framework for understanding cross-modal KD and offers practical guidelines based on the CCH criterion to select optimal teacher modalities for improving the performance of weaker modalities.
다중모달 데이터의 급속한 증가에 따라, 정보가 풍부한 "교사" 모달리티가 약한 "학생" 모달리티로 정보를 전달하여 모델 성능을 향상시키는 교차모달 지식 증류(KD) 기술이 광범위한 관심을 받고 있습니다. 그러나 다양한 응용에서 성공을 거두었음에도 불구하고, 교차모달 KD가 항상 성능 향상을 가져오지는 않으며, 주된 원인은 실무를 지도할 이론적 이해의 부족입니다. 이 문제를 해결하기 위해 본 논문은 교차모달 상호보완 가설(CCH)을 제안합니다: 교사와 학생 표현 간의 상호정보가 학생 표현과 레이블 간의 상호정보를 초과할 때, 교차모달 KD가 유효합니다. 본 연구는 결합 가우시안 모델에서 CCH를 이론적으로 검증하고, 이미지, 텍스트, 비디오, 오디오 및 암 관련 오믹스 데이터를 포함한 다양한 다중모달 데이터셋에서 실증적으로 확인했습니다.