2025-11-17T17:25:13.143655

Breaking through the classical Shannon entropy limit: A new frontier through logical semantics

Lastras, Trager, Lenchner et al.

Information theory has provided foundations for the theories of several application areas critical for modern society, including communications, computer storage, and AI. A key aspect of Shannon's 1948 theory is a sharp lower bound on the number of bits needed to encode and communicate a string of symbols. When he introduced the theory, Shannon famously excluded any notion of semantics behind the symbols being communicated. This semantics-free notion went on to have massive impact on communication and computing technologies, even as multiple proposals for reintroducing semantics in a theory of information were being made, notably one where Carnap and Bar-Hillel used logic and reasoning to capture semantics. In this paper we present, for the first time, a Shannon-style analysis of a communication system equipped with a deductive reasoning capability, implemented using logical inference. We use some of the most important techniques developed in information theory to demonstrate significant and sometimes surprising gains in communication efficiency availed to us through such capability, demonstrated also through practical codes. We thus argue that proposals for a semantic information theory should include the power of deductive reasoning to magnify the value of transmitted bits as we strive to fully unlock the inherent potential of semantics.

academic

Преодоление классического предела энтропии Шеннона: новый рубеж через логическую семантику

Основная информация

ID статьи: 2501.00612
Название: Breaking through the classical Shannon entropy limit: A new frontier through logical semantics
Авторы: Luis A. Lastras, Barry M. Trager, Jonathan Lenchner (IBM Research AI), Wojciech Szpankowski (Purdue University), Chai Wah Wu, Mark S. Squillante (IBM Research AI), Alexander Gray (Centaur AI Institute & Purdue University)
Классификация: cs.IT (Информатика - Теория информации), math.IT (Математика - Теория информации)
Дата публикации: 31 декабря 2024 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2501.00612

Аннотация

В данной статье впервые предложена теоретическая база семантической информации, преодолевающая классический предел энтропии Шеннона. Путём введения логических способностей рассуждения в коммуникационные системы авторы доказывают, что в системах связи, оснащённых дедуктивными способностями рассуждения, можно достичь значительного повышения эффективности коммуникации. Исследование основано на ранних работах Карнапа и Бар-Хиллела, использует основные методы теории информации и предоставляет строгий математический анализ теории семантической информации, подтверждённый практическими схемами кодирования.

Исследовательский контекст и мотивация

Основные проблемы

Ограничения теории Шеннона: Классическая теория информации Шеннона намеренно исключает семантическую информацию, стоящую за символами, сосредотачиваясь только на статистических закономерностях символов, что в некоторых сценариях ограничивает дальнейшее повышение эффективности коммуникации.
Ценность семантической информации: Как сказал Фейнман, "все вещество состоит из атомов" — это утверждение содержит огромное количество информации; посредством дедуктивного рассуждения можно восстановить обширные научные знания, но традиционная теория информации не может уловить эту семантическую ценность.

Значимость исследования

Теоретическое значение: Открывает новый рубеж исследований в теории информации, формально включая семантику и логические рассуждения в теоретическую базу информации
Практическая ценность: Имеет важный потенциал применения в области искусственного интеллекта и систем коммуникации, особенно в сценариях, требующих эффективной передачи знаний

Ограничения существующих методов

Предыдущие предложения теории семантической информации в основном основаны на теории Rate-Distortion, лишены явного моделирования способностей рассуждения
Отсутствует строгая математическая база для количественной оценки влияния способностей рассуждения на эффективность коммуникации
Ограниченная практическая применимость, не демонстрирует значительных преимуществ по сравнению с классическими методами

Основные вклады

Впервые предложен анализ коммуникационных систем в стиле Шеннона, основанный на дедуктивном рассуждении, с установлением строгой математической базы
Определена функция логической семантической энтропии Λ как новый стандарт измерения информации
Доказана Теорема 1, предоставляющая верхние и нижние границы для коммуникационных систем, оснащённых способностями рассуждения
Обнаружено явление "No Need to Know" — знание отправителем знаний получателя не влияет на стоимость коммуникации
Раскрыт парадокс "Less is More" — для эффективной передачи конкретного запроса получатель фактически получает больше информации
Построены практические схемы кодирования, демонстрирующие значительные улучшения по сравнению с классическими методами в экспериментах

Подробное описание методов

Определение задачи

Коммуникационная задача определяется следующим образом: отправитель Алиса владеет логическим утверждением Sm, получатель Боб владеет Rm, Алиса должна помочь Бобу доказать запрос Qm. Системные ограничения:

Sm ⊢ Qm (Алиса может доказать запрос)
Qm ⊢ Rm (запрос влечёт знания Боба, когда Алиса знает Rm)
Sm ⊢ Rm (знания Алисы влекут знания Боба)

Основная математическая база

Концепция логического ядра (Kernel)

Для логического утверждения s ∈ Lm определяется его ядро κ(s) как множество всех назначений переменных высказывания, при которых утверждение истинно. Нормализованный размер ядра определяется как:

ps = E|κ(Sm)|/2^m
pq = E|κ(Qm)|/2^m
pr = E|κ(Rm)|/2^m

Логическая семантическая энтропия

Ключевое нововведение — определение функции логической семантической энтропии:

Λ(a,b) = a·log₂((a+b)/a) + b·log₂((a+b)/b)

Основные теоретические результаты

Теорема 1: Для любого распределения (Sm, Qm, Rm), удовлетворяющего условиям импликации, когда Алиса знает Rm, существует алгоритм, обеспечивающий верхнюю границу нормализованной средней стоимости коммуникации Λ(ps, pr - pq) + O(m/2^m). При дополнительном ограничении i.i.d. нижняя граница нормализованной средней стоимости любого алгоритма составляет Λ(ps, pr - pq).

Архитектура алгоритма

Случай 1: Алиса знает Rm

Отображение логических утверждений в их ядра
Выбор из конечного кодового словаря ядра, способного доказать Qm
Передача индекса кодового словаря

Случай 2: Алиса не знает Rm

Использование хеш-техники для отображения ядра Алисы в хеш-бакеты
Боб восстанавливает информацию, выбирая единственное ядро в бакете, влекущее Rm
Многораундовая коммуникация для определения оптимального размера бакета

Экспериментальная установка

Экспериментальные сценарии

Сценарий известного Rm: Алиса знает знания Боба и должна помочь доказать конкретный запрос
Сценарий неизвестного Rm: Алиса не знает конкретных знаний Боба и должна передать всё, что она может доказать

Методы сравнения

Классические методы сжатия: Оптимизированное представление на основе деревьев решений с использованием готовых компрессоров без потерь
Семантическая логическая коммуникация: Предложенный в работе метод, объединяющий линейные коды, перечислительное исходное кодирование и другие методы

Метрики оценки

Кратность стоимости коммуникации относительно информационно-теоретической нижней границы Λ
Сравнение стоимости коммуникации с классическими методами

Результаты экспериментов

Основные результаты

Значительное повышение эффективности: Семантическая логическая коммуникация достигает многократного снижения стоимости коммуникации по сравнению с классическими методами, тогда как улучшения в традиционной области сжатия обычно измеряются в процентных пунктах
Приближение к теоретической нижней границе: Производительность практических схем кодирования приближается к информационно-теоретической нижней границе, подтверждая действительность теоретического анализа

Важные открытия

Явление "No Need to Know"

Независимо от того, знает ли Алиса знания Боба Rm, теоретическая нижняя граница стоимости коммуникации остаётся одинаковой — явление, редкое в сжатии с потерями.

Парадокс "Less is More"

При pr = 1 оптимальная стратегия для того, чтобы Боб доказал запрос Qm, фактически предоставляет Бобу более сильные способности доказательства, чем Qm, то есть Боб может доказать больше.

Стоимость дезинформации

Когда убеждения Алисы и Боба несовместимы (сценарий дезинформации), стоимость исправления дезинформации стремится к бесконечности с увеличением упорства Боба.

Связанные работы

Историческое развитие

Carnap & Bar-Hillel (1952): Первые предложения теории семантической информации, основанной на логике
Shannon (1953): Намёк на важность семантики в теории информационных решёток
Недавние работы: В основном основаны на теории Rate-Distortion, но лишены явного моделирования способностей рассуждения

Инновационные аспекты данной работы

Впервые прямое включение дедуктивного рассуждения в процесс коммуникации
Предоставление строгого анализа верхних и нижних границ
Демонстрация эффективности практических схем кодирования

Заключение и обсуждение

Основные выводы

Теоретический прорыв: Успешно количественно оценены способности логического рассуждения и включены в теоретическую базу информации
Практическая ценность: В определённых сценариях может достичь значительного повышения эффективности коммуникации
Новые направления исследований: Открывает новый путь развития теории семантической информации

Ограничения

Ограничения логических систем: Текущая работа в основном сосредоточена на пропозициональной логике, хотя теория может быть расширена на логику первого порядка
Предположения модели: Требует логических систем с сильной надёжностью и полнотой
Вызовы практического развёртывания: Требует поддержки эффективных механизмов рассуждения

Будущие направления

Многосторонняя коммуникация: Расширение на сценарии с несколькими участниками
Враждебная среда: Рассмотрение некооперативных или обманчивых сценариев коммуникации
Приложения машинного обучения: Предоставление теоретической базы для семантической коммуникации систем искусственного интеллекта
Социальные приложения: Потенциальное применение в образовании, борьбе с дезинформацией и других областях

Глубокая оценка

Преимущества

Сильная теоретическая инновативность: Впервые установлена строгая информационно-теоретическая база, основанная на рассуждении
Строгий математический анализ: Предоставлены полные доказательства верхних и нижних границ
Достаточная экспериментальная верификация: Теоретические предсказания подтверждены практическими схемами кодирования
Широкие перспективы применения: Имеет важное значение для приложений в области искусственного интеллекта и коммуникации

Недостатки

Недостаточный анализ сложности: Отсутствует анализ вычислительной сложности процесса рассуждения
Ограничения практических сценариев: Текущие эксперименты в основном проводятся в упрощённых сценариях
Зависимость от механизма рассуждения: Практическое применение требует поддержки эффективных и надёжных систем рассуждения

Влияние

Академическая ценность: Предоставляет новое направление для кросс-дисциплинарных исследований теории информации и искусственного интеллекта
Технологический потенциал: Имеет применимость в сценариях коммуникации, интенсивных по знаниям
Социальное значение: Может оказать положительное влияние в образовании, научной коммуникации и других областях

Применимые сценарии

Распространение научных знаний и образование
Семантическая коммуникация между системами искусственного интеллекта
Передача знаний экспертных систем
Распределённые системы, требующие эффективного рассуждения

Библиография

Статья цитирует 42 важные работы, охватывающие основы теории информации, теорию семантической информации, логику, теорию кодирования и другие классические и передовые работы в нескольких областях, отражая глубину и широту исследования.

Общая оценка: Это статья с открывающим новые горизонты значением, которая успешно вводит способности логического рассуждения в теоретическую базу информации, предоставляя важную теоретическую основу и практическое руководство для развития теории семантической информации. Несмотря на некоторые вызовы в практическом применении, её теоретический вклад и перспективы применения делают её важной вехой в этой области.