2025-11-16T07:28:12.353949

Representation in large language models

Yetman
The extraordinary success of recent Large Language Models (LLMs) on a diverse array of tasks has led to an explosion of scientific and philosophical theorizing aimed at explaining how they do what they do. Unfortunately, disagreement over fundamental theoretical issues has led to stalemate, with entrenched camps of LLM optimists and pessimists often committed to very different views of how these systems work. Overcoming stalemate requires agreement on fundamental questions, and the goal of this paper is to address one such question, namely: is LLM behavior driven partly by representation-based information processing of the sort implicated in biological cognition, or is it driven entirely by processes of memorization and stochastic table look-up? This is a question about what kind of algorithm LLMs implement, and the answer carries serious implications for higher level questions about whether these systems have beliefs, intentions, concepts, knowledge, and understanding. I argue that LLM behavior is partially driven by representation-based information processing, and then I describe and defend a series of practical techniques for investigating these representations and developing explanations on their basis. The resulting account provides a groundwork for future theorizing about language models and their successors.
academic

Représentation dans les grands modèles de langage

Informations de base

  • ID de l'article : 2501.00885
  • Titre : Representation in large language models
  • Auteur : Cameron C. Yetman (Université de Toronto)
  • Classification : cs.CL cs.AI cs.LG
  • Date de publication : 1er janvier 2025 (version de brouillon)
  • Lien de l'article : https://arxiv.org/abs/2501.00885

Résumé

Le succès remarquable des grands modèles de langage (LLMs) dans diverses tâches a suscité une théorisation scientifique et philosophique abondante visant à expliquer leur fonctionnement. Cependant, les désaccords sur les questions théoriques fondamentales ont créé une impasse, les camps opposés des optimistes et pessimistes des LLMs tenant souvent des points de vue radicalement différents sur le fonctionnement de ces systèmes. Surmonter cette impasse nécessite un consensus sur les questions fondamentales. Cet article vise à aborder l'une de ces questions cruciales : le comportement des LLMs est-il partiellement entraîné par un traitement de l'information basé sur la représentation, similaire à celui de la cognition biologique, ou entièrement entraîné par des processus de mémorisation et de recherche de table aléatoire ? Il s'agit d'une question concernant les algorithmes que les LLMs implémentent, et la réponse a des implications importantes pour des questions de niveau supérieur, telles que la question de savoir si ces systèmes possèdent des croyances, des intentions, des concepts, des connaissances et une compréhension. L'auteur soutient que le comportement des LLMs est partiellement entraîné par un traitement de l'information basé sur la représentation, et décrit et défend une série de techniques pratiques pour étudier ces représentations et développer des explications sur cette base.

Contexte de recherche et motivation

Question centrale

La question centrale que cette recherche vise à résoudre est : Le comportement des grands modèles de langage est-il entraîné par un traitement de l'information basé sur la représentation, ou dépend-il entièrement de la mémorisation et de la recherche de table aléatoire ?

Importance de la question

  1. Réconciliation des divergences théoriques : Il existe actuellement des divergences théoriques graves dans le domaine de la recherche sur les LLMs, les optimistes considérant que les LLMs possèdent des capacités cognitives similaires, tandis que les pessimistes les considèrent comme de simples systèmes de correspondance de motifs complexes
  2. Fondements des sciences cognitives : Cette question est directement liée à la question de savoir si les LLMs peuvent être utilisés comme modèles cognitifs et s'ils constituent eux-mêmes des systèmes cognitifs
  3. Fondement des capacités de haut niveau : La réponse influencera notre jugement sur la question de savoir si les LLMs possèdent des capacités cognitives de haut niveau telles que les croyances, les intentions, les concepts, les connaissances et la compréhension

Limitations des approches existantes

  1. Abus de terminologie : Le terme « représentation » est utilisé de manière trop large dans la pratique de l'apprentissage automatique, perdant sa valeur théorique
  2. Limitations orientées vers le comportement : Il existe une incertitude fondamentale à juger l'existence de représentations uniquement à partir des performances comportementales
  3. Absence de méthode systématique : Absence d'une approche systématique pour identifier et valider les représentations dans les LLMs

Motivation de la recherche

L'auteur considère que la résolution de cette question fondamentale est cruciale pour briser l'impasse théorique actuelle et fournir une base solide pour la théorisation future des LLMs.

Contributions principales

  1. Proposition d'une caractérisation à quatre conditions de la représentation : Fournit une définition substantielle et opérationnelle du concept de « représentation », incluant quatre conditions : information (INFORMATION), exploitabilité (EXPLOITABILITY), comportement (BEHAVIOR) et rôle (ROLE)
  2. Réfutation de l'explication par table de recherche : Par l'analyse de cas tels que Othello-GPT et les modèles d'espace de couleur, démontre que les LLMs ne peuvent pas être entièrement expliqués par des automates à états finis ou des tables de recherche
  3. Établissement d'un cadre d'interprétabilité mécanique : Décrit systématiquement comment utiliser les techniques de sondage (probing) et d'intervention (intervention) pour tester l'existence de représentations
  4. Fourniture de méthodes de recherche pratiques : Fournit des outils techniques concrets et des orientations méthodologiques pour l'étude des représentations dans les LLMs

Détails méthodologiques

Définition à quatre conditions de la représentation

L'auteur propose une définition opérationnelle de la représentation : un système S possède une représentation R d'une caractéristique z si et seulement si les quatre conditions suivantes sont satisfaites :

REPRESENTATION

  • INFORMATION : R porte de l'information sur z
  • EXPLOITABILITY : L'information que R porte sur z est exploitable pour S
  • BEHAVIOR : S utilise l'information que R porte sur z pour produire un comportement robuste lié à z
  • ROLE : R joue un rôle mécanique dans le comportement robuste lié à z de S

Détails techniques

  1. Condition d'information (INFORMATION)
    • Utilise l'information mutuelle définie comme : I(X,Y)=H(X)H(XY)I(X,Y) = H(X) - H(X|Y)
    • La condition est satisfaite lorsque I(R,z)>0I(R,z) > 0
    • La relation informationnelle peut être établie par la corrélation causale générée ou la correspondance structurelle
  2. Condition d'exploitabilité (EXPLOITABILITY)
    • S doit être capable de moduler son comportement lié à z de manière pertinente au contenu en fonction de l'activation de R
    • Vérifiée par des tests et des interventions sur R
  3. Condition de comportement (BEHAVIOR)
    • « Robuste » signifie insensible aux légères perturbations des conditions environnantes
    • La représentation permet un comportement robuste, mais doit être intégrée dans un algorithme approprié
  4. Condition de rôle (ROLE)
    • R doit jouer un rôle causal dans le mécanisme qui entraîne le comportement
    • Évite le problème du pan-représentationnalisme

Critique de l'hypothèse de la table de recherche

L'auteur analyse le point de vue considérant les LLMs comme des tables de recherche :

  1. Point de vue de l'automate à états finis : Les LLMs sont considérés comme des automates à états finis codant de grandes tables de recherche
  2. Caractéristiques non productives : Les systèmes de table de recherche sont caractéristiquement non productifs — « ne peuvent retourner que ce qui a déjà été entré »
  3. Preuves de réfutation :
    • Othello-GPT : Entraîné sur des données avec 25% de l'arbre de jeu manquant, atteint néanmoins un taux de coups légaux de 99,98% sur l'ensemble de données complet
    • Modèle d'espace de couleur : Performance comparable sur des paires d'encodage de couleur pivotées par rapport aux données originales (36% vs 34% de précision Top-3)

Configuration expérimentale et résultats

Étude de cas 1 : Othello-GPT

Conception expérimentale :

  • Entraînement d'un modèle GPT sur des millions d'enregistrements de jeux d'Othello
  • Les enregistrements contiennent uniquement des séquences de coups, sans informations sur les règles du jeu ou les attributs de l'échiquier
  • Groupe de contrôle : entraînement sur l'ensemble de données complet
  • Groupe expérimental : entraînement sur l'ensemble de données biaisé avec 25% de l'arbre de jeu manquant

Résultats :

  • Groupe de contrôle : taux de réussite des coups légaux de 99,99%
  • Groupe expérimental : taux de réussite des coups légaux de 99,98%
  • Découverte clé : Le modèle réussit sur des configurations d'échiquier jamais vues, indiquant qu'il ne s'agit pas d'une simple table de recherche

Étude de cas 2 : Modèle d'espace de couleur

Conception expérimentale :

  • Utilisation d'un GPT pré-entraîné pour tester le raisonnement des propriétés structurelles dans les domaines de la couleur et de l'espace
  • Paradigme d'apprentissage en contexte : 60 exemples d'entraînement
  • Groupe de contrôle : paires de codes RGB et noms de couleurs d'une portion spectrale limitée
  • Groupe expérimental : condition « pivotée » systématiquement arrangée, maintenant les relations structurelles inchangées

Résultats :

  • Groupe de contrôle : précision Top-3 de 34%
  • Groupe pivoté : précision Top-3 de 36%
  • Découverte clé : Performance comparable lorsque les relations structurelles sont maintenues mais que les appariements spécifiques sont entièrement nouveaux

Vérification de l'interprétabilité mécanique

Technique de sondage (Probing)

  • Utilisation de petits MLPs linéaires comme sondes
  • Décodage d'informations spécifiques à partir des activations des couches cachées du réseau cible
  • Vérification des conditions INFORMATION et EXPLOITABILITY

Technique d'intervention (Intervention)

  • Correction d'activation : Modification des valeurs d'activation spécifiques pour observer les changements de comportement
  • Guidage des caractéristiques : Fixation des caractéristiques spécifiques à des valeurs anormalement hautes/basses
  • Vérification des conditions BEHAVIOR et ROLE

Résultats de vérification d'Othello-GPT :

  • Classification réussie de l'état de l'échiquier par sondage linéaire (« le mien »/« le vôtre »/« vide »)
  • L'intervention d'activation (inversion de l'état des pièces) entraîne des prédictions du modèle cohérentes avec l'état de l'échiquier modifié

Résultats de vérification de Claude 3 Sonnet :

  • Identification de caractéristiques interprétables à l'aide d'autoencodeurs clairsemés (tels que le Golden Gate Bridge, la neuroscience)
  • Expérience de guidage des caractéristiques : l'activation de la caractéristique du Golden Gate Bridge 10 fois entraîne le modèle à mentionner ce pont

Travaux connexes

Fondements théoriques de la représentation

  • Tradition des sciences cognitives : Fondements théoriques de la représentation établis par Fodor (1975), Sterelny (1991), Shea (2018) et autres
  • Niveaux computationnels : Basé sur le cadre d'analyse des niveaux algorithmiques de Marr (1982)

Représentation dans l'apprentissage automatique

  • Apprentissage des représentations : Cadre d'apprentissage des représentations de Bengio et al. (2014)
  • Problème de généralisation terminologique : Problème de généralisation du concept de « représentation » signalé par Ramsey (2017)

Méthodes d'explication des LLMs

  • Analyse des circuits : Analyse des chemins computationnels d'Elhage et al. (2021), Dunefsky et al. (2024)
  • Abstraction causale : Méthode d'alignement des modèles causaux de Geiger et al. (2021)
  • Interprétabilité mécanique : Tradition de recherche en MI établie par Olah et al. (2018, 2020)

Conclusions et discussion

Conclusions principales

  1. Les LLMs possèdent des représentations substantielles : Dans certains cas, le comportement des LLMs est entraîné par des représentations satisfaisant la définition à quatre conditions
  2. L'explication par table de recherche est insuffisante : La pure mémorisation et les tables de recherche ne peuvent pas expliquer la capacité de généralisation des LLMs
  3. La méthode d'interprétabilité mécanique est efficace : Les techniques de sondage et d'intervention fournissent des voies viables pour étudier les représentations des LLMs

Limitations

  1. Dépendance contextuelle de l'application des conditions : L'évaluation de la robustesse de la représentation dépend de la tâche et de l'environnement spécifiques
  2. Problème de détermination du contenu non résolu : N'a pas résolu systématiquement la question de la façon dont le contenu des représentations est déterminé
  3. Capacités cognitives de haut niveau en attente : N'a pas directement abordé la question de savoir si les LLMs possèdent des croyances, des connaissances, une compréhension, etc.

Directions futures

  1. Cartographie systématique des représentations : Établir un compte rendu systématique de quand on s'attend à ce que les LLMs dépendent des représentations par rapport à d'autres mécanismes
  2. Théorie de la détermination du contenu : Développer un cadre théorique pour la détermination du contenu des représentations des LLMs
  3. Évaluation des capacités cognitives : Évaluer les capacités cognitives de haut niveau des LLMs sur la base de l'analyse des représentations

Évaluation approfondie

Points forts

  1. Contribution théorique remarquable : Fournit une définition rigoureuse de la représentation, comblant un vide théorique important
  2. Innovation méthodologique : Combine organiquement la théorie de la représentation des sciences cognitives avec les techniques d'interprétabilité de l'apprentissage automatique
  3. Preuves empiriques suffisantes : Soutient les arguments centraux par plusieurs études de cas et vérifications techniques
  4. Écriture claire et rigoureuse : Argumentation logique claire, description technique précise

Insuffisances

  1. Limitation des cas : Basé principalement sur quelques cas, nécessitant une validation plus large
  2. Critères de robustesse flous : La définition du « comportement robuste » reste relativement subjective
  3. Défis pratiques : L'application des méthodes proposées aux LLMs à grande échelle fait toujours face à des défis techniques

Impact

  1. Impact théorique : Fournit une base théorique importante pour la recherche sur les capacités cognitives des LLMs
  2. Impact méthodologique : Promeut l'application de l'interprétabilité mécanique dans la recherche sur les LLMs
  3. Valeur pratique : Fournit de nouveaux outils pour la recherche en sécurité de l'IA et en interprétabilité

Scénarios applicables

  1. Évaluation des capacités des LLMs : Évaluer si un LLM spécifique possède de véritables capacités cognitives
  2. Amélioration des modèles : Améliorer l'architecture et les méthodes d'entraînement des modèles sur la base de l'analyse des représentations
  3. Recherche en sécurité de l'IA : Comprendre les mécanismes internes des LLMs pour améliorer la sécurité du système

Références

L'article cite une riche littérature interdisciplinaire, comprenant principalement :

  1. Littérature fondamentale des sciences cognitives : Fodor (1975), Marr (1982), Shea (2018)
  2. Interprétabilité de l'apprentissage automatique : Olah et al. (2018), Elhage et al. (2021)
  3. Recherche critique sur les LLMs : Bender & Koller (2020), Marcus & Davis (2020)
  4. Littérature des méthodes techniques : Li et al. (2023), Templeton et al. (2024)

Résumé : Cet article apporte des contributions théoriques et méthodologiques importantes dans le domaine de la recherche sur la représentation des LLMs. Par l'analyse conceptuelle rigoureuse, la recherche empirique et l'innovation technique, il fournit une nouvelle perspective pour comprendre les mécanismes internes des LLMs. Bien que certaines limitations subsistent, il jette une base solide pour la recherche future sur les capacités cognitives des LLMs.