Breaking through the classical Shannon entropy limit: A new frontier through logical semantics
Lastras, Trager, Lenchner et al.
Information theory has provided foundations for the theories of several application areas critical for modern society, including communications, computer storage, and AI. A key aspect of Shannon's 1948 theory is a sharp lower bound on the number of bits needed to encode and communicate a string of symbols. When he introduced the theory, Shannon famously excluded any notion of semantics behind the symbols being communicated. This semantics-free notion went on to have massive impact on communication and computing technologies, even as multiple proposals for reintroducing semantics in a theory of information were being made, notably one where Carnap and Bar-Hillel used logic and reasoning to capture semantics. In this paper we present, for the first time, a Shannon-style analysis of a communication system equipped with a deductive reasoning capability, implemented using logical inference. We use some of the most important techniques developed in information theory to demonstrate significant and sometimes surprising gains in communication efficiency availed to us through such capability, demonstrated also through practical codes. We thus argue that proposals for a semantic information theory should include the power of deductive reasoning to magnify the value of transmitted bits as we strive to fully unlock the inherent potential of semantics.
academic
Dépasser la limite classique de l'entropie de Shannon : une nouvelle frontière par la sémantique logique
Titre : Breaking through the classical Shannon entropy limit: A new frontier through logical semantics
Auteurs : Luis A. Lastras, Barry M. Trager, Jonathan Lenchner (IBM Research AI), Wojciech Szpankowski (Purdue University), Chai Wah Wu, Mark S. Squillante (IBM Research AI), Alexander Gray (Centaur AI Institute & Purdue University)
Classification : cs.IT (Informatique - Théorie de l'information), math.IT (Mathématiques - Théorie de l'information)
Date de publication : 31 décembre 2024 (prépublication arXiv)
Cet article propose pour la première fois un cadre théorique de l'information sémantique qui dépasse la limite classique de l'entropie de Shannon. En introduisant des capacités de raisonnement logique dans les systèmes de communication, les auteurs démontrent qu'une amélioration significative de l'efficacité de la communication peut être réalisée dans les systèmes dotés de capacités de raisonnement déductif. Cette recherche s'appuie sur les travaux antérieurs de Carnap et Bar-Hillel, utilise les techniques fondamentales de la théorie de l'information, fournit une analyse mathématique rigoureuse de la théorie de l'information sémantique, et valide les résultats théoriques par des schémas de codage pratiques.
Limitations de la théorie de Shannon : La théorie classique de l'information de Shannon exclut délibérément l'information sémantique derrière les symboles, se concentrant uniquement sur les modèles statistiques des symboles, ce qui limite dans certains scénarios l'amélioration supplémentaire de l'efficacité de la communication.
Valeur de l'information sémantique : Comme l'a dit Feynman, « toute matière est composée d'atomes » contient une énorme quantité d'information, et grâce au raisonnement déductif, on peut reconstruire une vaste connaissance scientifique, mais la théorie de l'information traditionnelle ne peut pas capturer cette valeur sémantique.
Signification théorique : Ouvre une nouvelle frontière de recherche en théorie de l'information, intégrant formellement la sémantique et le raisonnement logique dans le cadre théorique de l'information
Valeur pratique : Possède un potentiel d'application important dans les domaines de l'IA et des systèmes de communication, en particulier dans les scénarios nécessitant un transfert de connaissances efficace
Les propositions antérieures de théorie de l'information sémantique s'appuient principalement sur la théorie Rate-Distortion, manquant de modélisation explicite des capacités de raisonnement
Absence d'un cadre mathématique rigoureux pour quantifier l'impact des capacités de raisonnement sur l'efficacité de la communication
Utilité pratique limitée, incapable de démontrer des avantages significatifs par rapport aux méthodes classiques
Première analyse d'un système de communication de style Shannon basé sur le raisonnement déductif, établissant un cadre mathématique rigoureux
Définition de la fonction d'entropie sémantique logique Λ, servant de nouvelle mesure de l'information
Preuve du Théorème 1, fournissant des bornes supérieures et inférieures pour les systèmes de communication dotés de capacités de raisonnement
Découverte du phénomène « No Need to Know », c'est-à-dire que le fait que l'émetteur connaisse les connaissances du récepteur n'affecte pas le coût de communication
Révélation du paradoxe « Less is More », c'est-à-dire que pour transmettre efficacement une requête spécifique, le récepteur acquiert en réalité plus d'information
Construction de schémas de codage pratiques, démontrant des améliorations significatives par rapport aux méthodes classiques dans les expériences
La tâche de communication est définie comme suit : l'émetteur Alice possède l'énoncé logique Sm, le récepteur Bob possède Rm, et Alice doit aider Bob à prouver la requête Qm. Les contraintes du système sont :
Sm ⊢ Qm (Alice peut prouver la requête)
Qm ⊢ Rm (la requête implique les connaissances de Bob, lorsqu'Alice connaît Rm)
Sm ⊢ Rm (les connaissances d'Alice impliquent les connaissances de Bob)
Pour un énoncé logique s ∈ Lm, son noyau κ(s) est défini comme l'ensemble de toutes les assignations de variables propositionnelles qui rendent cet énoncé vrai. La taille normalisée du noyau est définie comme :
Théorème 1 : Pour toute distribution (Sm, Qm, Rm) satisfaisant les conditions d'implication, lorsqu'Alice connaît Rm, il existe un algorithme tel que la borne supérieure du coût de communication moyen normalisé soit Λ(ps, pr - pq) + O(m/2^m). Sous la contrainte i.i.d. supplémentaire, la borne inférieure du coût moyen normalisé de tout algorithme est Λ(ps, pr - pq).
Amélioration significative de l'efficacité : La communication logique sémantique réalise une réduction du coût de communication plusieurs fois supérieure aux méthodes classiques, tandis que les améliorations dans le domaine de la compression traditionnelle se mesurent généralement en points de pourcentage
Proximité avec la borne théorique : Les performances des schémas de codage pratiques se rapprochent de la borne inférieure théorique, validant l'efficacité de l'analyse théorique
Que Alice connaisse ou non les connaissances de Bob Rm, la borne inférieure théorique du coût de communication reste identique, ce qui est un phénomène rare dans la compression avec perte.
Dans le cas où pr = 1, pour permettre à Bob de prouver la requête Qm, la stratégie optimale fait en réalité acquérir à Bob une capacité de preuve plus forte que Qm, c'est-à-dire que Bob peut prouver plus de contenu.
Lorsque les croyances d'Alice et de Bob sont incohérentes (scénario de désinformation), le coût de correction de la désinformation tend vers l'infini à mesure que l'obstination de Bob augmente.
Limitations du système logique : Actuellement principalement axé sur la logique propositionnelle, bien que la théorie soit extensible à la logique du premier ordre
Hypothèses du modèle : Nécessite des systèmes logiques avec fiabilité et complétude fortes
Défis du déploiement pratique : Nécessite le support de moteurs de raisonnement efficaces
Cet article cite 42 références importantes, couvrant les fondamentaux de la théorie de l'information, la théorie de l'information sémantique, la logique, la théorie du codage et d'autres domaines, reflétant la profondeur et l'ampleur de la recherche.
Évaluation globale : Cet article est une contribution pionnière qui intègre avec succès les capacités de raisonnement logique dans le cadre théorique de l'information, fournissant une base théorique importante et des orientations pratiques pour le développement de la théorie de l'information sémantique. Bien qu'il fasse face à certains défis dans les applications pratiques, ses contributions théoriques et ses perspectives d'application en font un jalon important dans ce domaine.