The Principle of Maximum Entropy is a rigorous technique for estimating an unknown distribution given partial information while simultaneously minimizing bias. However, an important requirement for applying the principle is that the available information be provided error-free (Jaynes 1982). We relax this requirement using a memoryless communication channel as a framework to derive a new, more general principle. We show our new principle provides an upper bound on the entropy of the unknown distribution and the amount of information lost due to the use of a given communications channel is unknown unless the unknown distribution's entropy is also known. Using our new principle we provide a new interpretation of the classic principle and experimentally show its performance relative to the classic principle and other generally applicable solutions. Finally, we present a simple algorithm for solving our new principle and an approximation useful when samples are limited.
Принцип максимальной энтропии является строгой методикой оценки неизвестного распределения при наличии частичной информации, одновременно минимизируя смещение. Однако важным требованием применения этого принципа является то, что доступная информация должна быть безошибочной (Jaynes 1982). В данной работе используется модель канала связи без памяти в качестве основы для ослабления этого требования и выводится новый, более универсальный принцип. Исследование показывает, что новый принцип обеспечивает верхнюю границу энтропии неизвестного распределения, и объём информации, потерянной из-за использования заданного канала связи, может быть определён только в случае, когда энтропия неизвестного распределения также известна. Используя новый принцип, авторы предоставляют новую интерпретацию классического принципа и экспериментально демонстрируют его производительность по сравнению с классическим принципом и другими универсальными решениями.
Традиционный принцип максимальной энтропии требует, чтобы эмпирические математические ожидания характеристик, используемые в качестве ограничений, были известны и безошибочны. Однако во многих реальных сценариях это требование часто не может быть удовлетворено из-за шума или других механизмов неопределённости.
Практические потребности: в областях со значительным шумом или неопределённостью невозможно получить безошибочную информацию о выборке
Теоретические ограничения: существующие методы предполагают, что источники неопределённости являются скрытыми переменными и используют математические ожидания для заполнения недостающей информации, что недостаточно универсально
Практическое применение: необходим более универсальный принцип, который сохраняет желаемые свойства классического принципа максимальной энтропии даже при наличии шума в канале связи
Использование модели канала связи без памяти в качестве основы для формального моделирования шума и неопределённости, что позволяет вывести новый принцип, сохраняющий благоприятные свойства классического принципа максимальной энтропии.
Теоретический вклад: вывод нового принципа как применения классического принципа к каналам связи с шумом
Алгоритмический вклад: предложение нового принципа в форме двухуровневого выпуклого программирования и алгоритма его решения
Теоретический анализ: доказательство того, что новый принцип обобщает ранние принципы и предоставляет новую интерпретацию классического принципа
Анализ границ: доказательство того, что новый принцип даёт верхнюю границу энтропии неизвестного распределения и количественно определяет потерю информации
Экспериментальная верификация: предоставление обширных экспериментальных результатов, демонстрирующих производительность, и методов аппроксимации при ограниченном количестве выборок
Дано: выборки, полученные через канал связи с шумом. Требуется: оценить параметры неизвестного распределения вероятностей P₀(W), одновременно используя дополнительную информацию о структуре распределения (характеристические функции).
1. Инициализация Pr(w) = 1/|W| ∀w
2. Решение выпуклой программы для получения нового P̃(W):
min ∑_w P̃r(w) log(P̃r(w)/Pr(w))
при ограничениях: ограничения канала связи
3. Применение классического принципа максимальной энтропии для получения нового P(W)
4. Повторение до сходимости
Теоретическая инновация: первое формальное включение шума канала связи в основу максимальной энтропии
Алгоритмическая инновация: двухуровневая структура оптимизации, внешний уровень максимизирует энтропию, внутренний уровень гарантирует выполнение ограничений
Расширение на несколько каналов: естественное расширение на сценарии с несколькими каналами для повышения точности оценки
Аппроксимация при ограниченной выборке: предоставление ε-границ на основе закона больших чисел для обработки конечных выборок в практических приложениях
Низкое количество характеристик (<5): uMaxEnt значительно превосходит dMaxEnt, медианное значение D_KL на несколько порядков меньше
Высокое количество характеристик (≥5): большинство решений находятся в режиме высокой ошибки
Механизм: меньшее количество характеристик приводит к более плотному допустимому множеству, что позволяет uMaxEnt найти решения с более низкой энтропией
Сходимость: начиная с N≈500 наблюдается снижение D_KL
Асимптотическая производительность: непрерывное улучшение с увеличением размера выборки, тогда как dMaxEnt приближается к максимальной производительности при N=10⁶
Практичность: медианное значение D_KL всегда лучше или равно dMaxEnt
Теорема 1: допустимое множество программы 7 является выпуклым
Теорема 2: программа 7 является выпуклой
Следствие: единственность и оптимальность решения
Теорема 3: классический принцип максимальной энтропии является частным случаем принципа неопределённой максимальной энтропии, когда только одно P̃(W) удовлетворяет ограничениям
Теорема 4: принцип скрытой максимальной энтропии является частным случаем принципа неопределённой максимальной энтропии
Jaynes, E. T. (1957). Information theory and statistical mechanics. Physical Review.
Shannon, C. E. (1948). A mathematical theory of communication. Bell System Technical Journal.
Wang, S., Schuurmans, D., & Zhao, Y. (2012). The latent maximum entropy principle. ACM TKDD.
Shore, J. & Johnson, R. (1980). Axiomatic derivation of the principle of maximum entropy. IEEE TIT.
Резюме: Это высокачественная статья, в которой теория и практика находятся в равновесии. Она успешно расширяет классический принцип максимальной энтропии для работы в шумных средах. Хотя есть место для улучшений в вычислительной сложности и верификации на реальных приложениях, её теоретические вклады и методологические инновации предоставляют ценные инструменты и инсайты для смежных областей.