2025-11-20T04:28:15.284487

The Principle of Uncertain Maximum Entropy

Bogert, Kothe

The Principle of Maximum Entropy is a rigorous technique for estimating an unknown distribution given partial information while simultaneously minimizing bias. However, an important requirement for applying the principle is that the available information be provided error-free (Jaynes 1982). We relax this requirement using a memoryless communication channel as a framework to derive a new, more general principle. We show our new principle provides an upper bound on the entropy of the unknown distribution and the amount of information lost due to the use of a given communications channel is unknown unless the unknown distribution's entropy is also known. Using our new principle we provide a new interpretation of the classic principle and experimentally show its performance relative to the classic principle and other generally applicable solutions. Finally, we present a simple algorithm for solving our new principle and an approximation useful when samples are limited.

academic

Принцип неопределённой максимальной энтропии

Основная информация

ID статьи: 2305.09868
Название: The Principle of Uncertain Maximum Entropy
Авторы: Kenneth Bogert, Matthew Kothe (University of North Carolina Asheville)
Классификация: cs.IT cs.CV cs.LG math.IT
Дата публикации: 16 октября 2025 г. (arXiv v5)
Ссылка на статью: https://arxiv.org/abs/2305.09868

Аннотация

Принцип максимальной энтропии является строгой методикой оценки неизвестного распределения при наличии частичной информации, одновременно минимизируя смещение. Однако важным требованием применения этого принципа является то, что доступная информация должна быть безошибочной (Jaynes 1982). В данной работе используется модель канала связи без памяти в качестве основы для ослабления этого требования и выводится новый, более универсальный принцип. Исследование показывает, что новый принцип обеспечивает верхнюю границу энтропии неизвестного распределения, и объём информации, потерянной из-за использования заданного канала связи, может быть определён только в случае, когда энтропия неизвестного распределения также известна. Используя новый принцип, авторы предоставляют новую интерпретацию классического принципа и экспериментально демонстрируют его производительность по сравнению с классическим принципом и другими универсальными решениями.

Исследовательский контекст и мотивация

Определение проблемы

Традиционный принцип максимальной энтропии требует, чтобы эмпирические математические ожидания характеристик, используемые в качестве ограничений, были известны и безошибочны. Однако во многих реальных сценариях это требование часто не может быть удовлетворено из-за шума или других механизмов неопределённости.

Исследовательская мотивация

Практические потребности: в областях со значительным шумом или неопределённостью невозможно получить безошибочную информацию о выборке
Теоретические ограничения: существующие методы предполагают, что источники неопределённости являются скрытыми переменными и используют математические ожидания для заполнения недостающей информации, что недостаточно универсально
Практическое применение: необходим более универсальный принцип, который сохраняет желаемые свойства классического принципа максимальной энтропии даже при наличии шума в канале связи

Инновационные аспекты

Использование модели канала связи без памяти в качестве основы для формального моделирования шума и неопределённости, что позволяет вывести новый принцип, сохраняющий благоприятные свойства классического принципа максимальной энтропии.

Основные вклады

Теоретический вклад: вывод нового принципа как применения классического принципа к каналам связи с шумом
Алгоритмический вклад: предложение нового принципа в форме двухуровневого выпуклого программирования и алгоритма его решения
Теоретический анализ: доказательство того, что новый принцип обобщает ранние принципы и предоставляет новую интерпретацию классического принципа
Анализ границ: доказательство того, что новый принцип даёт верхнюю границу энтропии неизвестного распределения и количественно определяет потерю информации
Экспериментальная верификация: предоставление обширных экспериментальных результатов, демонстрирующих производительность, и методов аппроксимации при ограниченном количестве выборок

Подробное описание методологии

Определение задачи

Дано: выборки, полученные через канал связи с шумом. Требуется: оценить параметры неизвестного распределения вероятностей P₀(W), одновременно используя дополнительную информацию о структуре распределения (характеристические функции).

Модель канала связи

Использование дискретного канала связи без памяти:

Передатчик: сообщение w выбирается из неизвестного распределения P₀(W)
Кодирование: w кодируется в x с использованием P(X|W)
Передача: через канал P(Y|X) x принимается как y
Приёмник: требуется оценить параметры P₀(W)

Принцип неопределённой максимальной энтропии

Математическая формулировка

Когда P̃(W) неопределённо, все возможные P̃(W) должны удовлетворять:

∑_{w∈W} P̃r(w) ∑_{x∈X} Pr(x|w)Pr(y|x) = P̃r(y) ∀y

Основная идея

Выбрать распределение с максимальной энтропией среди всех распределений, удовлетворяющих следующим условиям:

Является членом множества распределений максимальной энтропии при заданных ограничениях на характеристики
Соответствующее P̃(W) может произвести наблюдаемое P̃(Y)

Форма двухуровневого выпуклого программирования

max -∑_{w∈W} P̃r(w) log P̃r(w)
при ограничениях:
    ∑_{w∈W} P̃r(w) = 1
    ∑_{w∈W} P̃r(w) ∑_{x∈X} Pr(x|w)Pr(y|x) = P̃r(y) ∀y
    P̃(W) = M_φ(P̃(W))

где M_φ — функция применения классического принципа максимальной энтропии.

Реализация алгоритма

Алгоритм uMaxEnt

1. Инициализация Pr(w) = 1/|W| ∀w
2. Решение выпуклой программы для получения нового P̃(W):
   min ∑_w P̃r(w) log(P̃r(w)/Pr(w))
   при ограничениях: ограничения канала связи
3. Применение классического принципа максимальной энтропии для получения нового P(W)
4. Повторение до сходимости

Технические инновации

Теоретическая инновация: первое формальное включение шума канала связи в основу максимальной энтропии
Алгоритмическая инновация: двухуровневая структура оптимизации, внешний уровень максимизирует энтропию, внутренний уровень гарантирует выполнение ограничений
Расширение на несколько каналов: естественное расширение на сценарии с несколькими каналами для повышения точности оценки
Аппроксимация при ограниченной выборке: предоставление ε-границ на основе закона больших чисел для обработки конечных выборок в практических приложениях

Экспериментальная установка

Конфигурация экспериментов

Пространство состояний: |W| = 10 (все эксперименты)
Количество характеристик: |φ| ∈ {1,2,...,9}
Пространство сигналов: |Y| ∈ {2,3,...,10}
Количество экспериментов: 77 760 случайно сгенерированных конфигураций

Генерация данных

Генерация модели: разреженный набор характеристик, истинные веса λₖ = U(-1,1) × α
Генерация канала: случайная генерация P(X|W) и P(Y|X)
Генерация выборок: 1 048 576 выборок для экспериментов аппроксимации

Методы сравнения

uMaxEnt: предложенный метод неопределённой максимальной энтропии
MaxEnt: классическая максимальная энтропия (использует истинное P̃(W), служит контролем лучшего случая)
mlMaxEnt: оценка с использованием наиболее вероятного w
dMaxEnt: сначала оценить P̃(W) с использованием максимальной энтропии, затем применить классическую максимальную энтропию

Метрики оценки

Использование дивергенции Кульбака-Лейблера D_KL(P_λ,φ(W) ∥ P₀(W)) для измерения точности.

Результаты экспериментов

Основные результаты

Влияние количества характеристик

Низкое количество характеристик (<5): uMaxEnt значительно превосходит dMaxEnt, медианное значение D_KL на несколько порядков меньше
Высокое количество характеристик (≥5): большинство решений находятся в режиме высокой ошибки
Механизм: меньшее количество характеристик приводит к более плотному допустимому множеству, что позволяет uMaxEnt найти решения с более низкой энтропией

Влияние размера пространства сигналов

Малое |Y| (<6): большинство решений находятся в режиме высокой ошибки
Большое |Y| (≥6): большинство решений находятся в режиме низкой ошибки
Согласованность: uMaxEnt более согласован, чем dMaxEnt при |Y|=10

Производительность с несколькими каналами

Значительное улучшение: добавление даже одного дополнительного канала существенно повышает производительность
Восстановление информации: ограничения многоканального режима сужают допустимое множество, снижая потерю информации
Практичность: предоставляет решение для случаев с одним каналом и высоким D_KL

Численные результаты

Алгоритм	Y=W	\|Y\|=\|W\|
MaxEnt	3.2×10⁻¹⁵	4.39×10⁻¹³
uMaxEnt	3.1×10⁻¹⁵	0.001814
dMaxEnt	1.6×10⁻¹⁵	0.01824
mlMaxEnt	1.4×10⁻¹⁵	1.0398

Аппроксимация при ограниченной выборке

Сходимость: начиная с N≈500 наблюдается снижение D_KL
Асимптотическая производительность: непрерывное улучшение с увеличением размера выборки, тогда как dMaxEnt приближается к максимальной производительности при N=10⁶
Практичность: медианное значение D_KL всегда лучше или равно dMaxEnt

Теоретический анализ

Доказательство выпуклости

Теорема 1: допустимое множество программы 7 является выпуклым Теорема 2: программа 7 является выпуклой Следствие: единственность и оптимальность решения

Отношения обобщения

Теорема 3: классический принцип максимальной энтропии является частным случаем принципа неопределённой максимальной энтропии, когда только одно P̃(W) удовлетворяет ограничениям Теорема 4: принцип скрытой максимальной энтропии является частным случаем принципа неопределённой максимальной энтропии

Информационно-теоретические границы

Верхняя граница энтропии: H(P₀(W)) ≤ H(U_φ,P(Y|W)(P̃(Y)))
Потеря информации: E_φ(W;Y) = H(U_φ,P(Y|W)(P̃(Y))) - H(P₀(W))
Практическое значение: количественное определение потери информации, вызванной каналом связи

Связанные работы

Классический принцип максимальной энтропии

Основополагающие работы Jaynes (1957) и Shannon (1948)
Ограничение требования безошибочности информации об ограничениях

Методы обработки неопределённости

Методы скрытых переменных (Wang et al., 2012; Bogert et al., 2016)
Принцип минимальной кросс-энтропии (Shore and Johnson, 1980)
Предложенный метод более универсален и не предполагает конкретный источник неопределённости

Информационная геометрия

Использование теории выпуклой оптимизации
Применение двухуровневой оптимизации в машинном обучении

Заключение и обсуждение

Основные выводы

Теоретический вклад: успешное включение шума канала связи в основу максимальной энтропии
Практическая ценность: превосходит существующие методы в различных экспериментальных конфигурациях
Способность к обобщению: объединяет несколько существующих принципов
Информационно-теоретические инсайты: предоставляет количественный анализ потери информации

Ограничения

Предположения: предполагается, что φ и P(Y|W) известны
Вычислительная сложность: двухуровневая оптимизация увеличивает вычислительные затраты
Производительность при ограниченной выборке: улучшение ограничено в случае малых выборок
Мультимодальные результаты: 42% конфигураций дают высокую ошибку, 53% дают низкую ошибку

Направления будущих исследований

Ослабление предположений: обработка случаев, когда φ известна не полностью
Шумные характеристики: рассмотрение шума в характеристических функциях
Более плотные границы: улучшение ε-границ для случаев ограниченной выборки
Оптимизация вычислений: повышение эффективности алгоритма

Глубокая оценка

Преимущества

Теоретическая строгость: полные математические выводы и доказательства
Высокая практичность: предоставляет универсальную основу для обработки реального шума
Достаточные эксперименты: крупномасштабные случайные эксперименты подтверждают эффективность метода
Высокая инновационность: первое объединение теории каналов связи с принципом максимальной энтропии

Недостатки

Вычислительная сложность: двухуровневая оптимизация может быть неэффективной для крупномасштабных задач
Чувствительность к параметрам: производительность зависит от количества характеристик и размера пространства сигналов
Верификация на реальных данных: отсутствие проверки на реальных наборах данных
Анализ сходимости: анализ сходимости аппроксимации при ограниченной выборке недостаточно глубок

Влияние

Теоретическая ценность: предоставляет новую перспективу на пересечении теории информации и машинного обучения
Потенциал применения: может быть применён в коммуникациях, обработке сигналов, машинном обучении и других областях
Методологический вклад: двухуровневая основа оптимизации может вдохновить решения других задач

Применимые сценарии

Системы связи: оценка параметров при наличии шума в канале
Сенсорные сети: слияние данных от нескольких датчиков
Машинное обучение: оценка распределения при зашумлённых метках
Обработка сигналов: восстановление сигнала при неполных наблюдениях

Библиография

Jaynes, E. T. (1957). Information theory and statistical mechanics. Physical Review.
Shannon, C. E. (1948). A mathematical theory of communication. Bell System Technical Journal.
Wang, S., Schuurmans, D., & Zhao, Y. (2012). The latent maximum entropy principle. ACM TKDD.
Shore, J. & Johnson, R. (1980). Axiomatic derivation of the principle of maximum entropy. IEEE TIT.

Резюме: Это высокачественная статья, в которой теория и практика находятся в равновесии. Она успешно расширяет классический принцип максимальной энтропии для работы в шумных средах. Хотя есть место для улучшений в вычислительной сложности и верификации на реальных приложениях, её теоретические вклады и методологические инновации предоставляют ценные инструменты и инсайты для смежных областей.