2025-11-11T14:16:09.100728

Evaluating Human-LLM Representation Alignment: A Case Study on Affective Sentence Generation for Augmentative and Alternative Communication

Choudhury, Kumar, Martin
Gaps arise between a language model's use of concepts and people's expectations. This gap is critical when LLMs generate text to help people communicate via Augmentative and Alternative Communication (AAC) tools. In this work, we introduce the evaluation task of Representation Alignment for measuring this gap via human judgment. In our study, we expand keywords and emotion representations into full sentences. We select four emotion representations: Words, Valence-Arousal-Dominance (VAD) dimensions expressed in both Lexical and Numeric forms, and Emojis. In addition to Representation Alignment, we also measure people's judgments of the accuracy and realism of the generated sentences. While representations like VAD break emotions into easy-to-compute components, our findings show that people agree more with how LLMs generate when conditioned on English words (e.g., "angry") rather than VAD scales. This difference is especially visible when comparing Numeric VAD to words. Furthermore, we found that the perception of how much a generated sentence conveys an emotion is dependent on both the representation type and which emotion it is.
academic

Bewertung der Mensch-LLM-Repräsentationsausrichtung: Eine Fallstudie zur affektiven Satzgenerierung für Unterstützungs- und Alternativkommunikation

Grundinformationen

  • Paper-ID: 2503.11881
  • Titel: Evaluating Human-LLM Representation Alignment: A Case Study on Affective Sentence Generation for Augmentative and Alternative Communication
  • Autoren: Shadab Choudhury, Asha Kumar, Lara J. Martin (University of Maryland, Baltimore County)
  • Klassifizierung: cs.CL (Computerlinguistik)
  • Veröffentlichungsjahr: 2025
  • Paper-Link: https://arxiv.org/abs/2503.11881

Zusammenfassung

Diese Studie befasst sich mit der Lücke zwischen der Konzeptverwendung durch große Sprachmodelle (LLMs) und den menschlichen Erwartungen, insbesondere in Anwendungsszenarien von Unterstützungs- und Alternativkommunikations-(AAC-)Werkzeugen. Die Forschung führt die Bewertungsaufgabe "Repräsentationsausrichtung" (Representation Alignment) ein, um diese Lücke durch menschliche Urteile zu messen. Die Studie untersucht vier affektive Repräsentationsmethoden: englische Vokabeln, lexikalisierte VAD-Dimensionen, numerische VAD-Dimensionen und Emojis, und bewertet die Genauigkeit und Authentizität der generierten Sätze. Die Ergebnisse zeigen, dass Menschen LLM-generierte Ergebnisse unter englischen Vokabelbedingungen stärker unterstützen als VAD-Skalen, wobei dieser Unterschied bei numerischen VAD- versus Vokabelvergleichen besonders deutlich wird.

Forschungshintergrund und Motivation

Problemdefinition

  1. Kernproblem: LLMs weisen Lücken in der Konzeptverwendung im Vergleich zu menschlichen Erwartungen auf, was in AAC-Werkzeuganwendungen besonders kritisch ist
  2. Anwendungsszenario: AAC-Werkzeuge helfen Menschen mit Sprachbeeinträchtigungen bei der Kommunikation, wobei die Kommunikationsgeschwindigkeit ein Hauptproblem darstellt
  3. Technische Herausforderung: Wie kann sichergestellt werden, dass von LLMs generierte Texte die emotionalen Absichten und Ausdrucksweisen der Benutzer genau widerspiegeln?

Forschungsbedeutung

  • AAC-Benutzer werden häufig aufgrund von Kommunikationsverzögerungen übersehen oder unterbrochen
  • Aktuelle NLP-Technologien versprechen, die Kommunikationsgeschwindigkeit von AAC-Werkzeugen zu verbessern
  • Benutzer haben Bedenken bezüglich der Kontrolle über LLMs, der Genauigkeit und der Kontextanpassung

Einschränkungen bestehender Methoden

  • Mangel an systematischer Bewertung der Ausrichtung zwischen LLM und Mensch beim Konzeptverständnis
  • Fehlende empirische Evidenz für die Wahl von Affektrepräsentationsmethoden
  • Unzureichende Berücksichtigung der Auswirkungen verschiedener Repräsentationsmethoden auf die Benutzererfahrung

Kernbeiträge

  1. Einführung eines Repräsentationsausrichtungs-Bewertungsparadigmas: Präsentation einer Bewertungsmethode, die die Ausrichtung zwischen LLM-Konzeptverwendung und menschlichen psychologischen Modellen durch menschliche Urteile misst
  2. Systematischer Vergleich von vier affektiven Repräsentationen: Umfassende Bewertung der Wirksamkeit von Words, Lexical VAD, Numeric VAD und Emojis
  3. Empirische Ermittlung optimaler Repräsentationsmethoden: Nachweis, dass englische Vokabeln und lexikalisierte VAD in Bezug auf Repräsentationsausrichtung, Genauigkeit und Authentizität am besten abschneiden
  4. Leitfaden für AAC-Anwendungen: Bereitstellung empirischer Evidenz für die Wahl affektiver Repräsentationen in zukünftigen AAC-Anwendungen

Methodische Details

Aufgabendefinition

  • Eingabe: Drei Schlüsselwörter + eine affektive Repräsentation
  • Ausgabe: Ein vollständiger Satz, der die Schlüsselwörter enthält und das angegebene Gefühl ausdrückt
  • Einschränkungen: Der generierte Satz sollte natürlich wirken, das Gefühl genau ausdrücken und die direkte Verwendung von Gefühlswörtern vermeiden

Affektive Repräsentationsmethoden

1. Words-Repräsentation

Direkte Verwendung englischer Gefühlsvokabeln (z. B. "angry", "happy")

2. Lexical VAD-Repräsentation

Verwendung fünfstufiger lexikalischer Beschreibungen der VAD-Dimensionen:

  • Valence: Very High/High/Moderate/Low/Very Low
  • Arousal: Grad der emotionalen Aktivierung
  • Dominance: Grad der Kontrolle über das Gefühl

3. Numeric VAD-Repräsentation

Verwendung einer numerischen Skala von -5,0 bis +5,0 zur Darstellung der VAD-Dimensionen

4. Emojis-Repräsentation

Verwendung von Unicode-Emojis zur Darstellung von Gefühlen

Modellarchitektur und Generierungsstrategie

Verwendete Modelle

  • GPT-4-Turbo-2024-04-09: Kommerzielle API-Aufrufe
  • LLaMA-3.3-70B: 8-Bit-Quantisierte Version, lokal bereitgestellt

Prompt-Strategien

  • Words/Emojis: Few-shot Prompting
  • VAD-Repräsentationen: Step-back Chain-of-Thought Prompting
  • Einschränkungsbedingungen: Verbot der direkten Verwendung von Gefühlswörtern, Anforderung "zeigen statt sagen"

Datengenerierung

  • Insgesamt 360 Sätze pro Modell (90 pro Repräsentationsmethode)
  • Abdeckung von 18 verschiedenen Gefühlen aus der Klassifizierung von Demszky et al. (2020)
  • Zufällige Auswahl von 2 Sätzen pro Gefühl für die Bewertung

Experimentelle Einrichtung

Datensatzkonstruktion

  • Gefühlsauswahl: Basierend auf der Klassifizierung von Demszky et al. (2020), Auswahl von 18 repräsentativen Gefühlen
  • Schlüsselwortkombinationen: Verwendung häufiger Wortverbindungen wie Place, Great, Korean, Finals, Semester, Math
  • VAD-Werte: Basierend auf Werten von Guo und Choi (2021), normalisiert auf den Bereich -5,0 bis +5,0

Design der menschlichen Bewertung

Rekrutierung von Teilnehmern

  • Plattform: Prolific Crowdsourcing-Plattform
  • Anzahl: 200 Teilnehmer (100 pro Modell)
  • Kriterien: 18 Jahre oder älter, Wohnort USA, fließend Englisch
  • Vergütung: $14/Stunde, ca. 15 Minuten Aufgabe

Bewertungsaufgaben

1. Repräsentationsausrichtungs-Bewertung
  • Anzeige einer affektiven Repräsentation und vier generierter Sätze
  • Teilnehmer wählen den Satz, der das Gefühl am besten widerspiegelt
  • Jeder Teilnehmer beantwortet 10 Fragen mit zufälliger Zuweisung
2. Genauigkeits- und Authentizitätsbewertung
  • 5-Punkte-Likert-Skala-Bewertung:
    • "Convey": Grad, in dem der Satz das Gefühl vermittelt
    • "You'd say": Klingt wie etwas, das der Teilnehmer sagen würde
    • "Someone Else'd say": Klingt wie etwas, das jemand anderes sagen würde

Bewertungsmetriken

Repräsentationsausrichtungs-Metriken

  • Auswahlrate: Prozentsatz, mit dem eine bestimmte Repräsentation ausgewählt wird
  • Shannon-Entropie: Messung der Konsistenz der Auswahl
  • Selbstausrichtung: Übereinstimmung zwischen Generierung und Bewertung derselben Repräsentation

Genauigkeits- und Authentizitätsmetriken

  • Durchschnittliche Likert-Bewertung über drei Dimensionen
  • ANOVA-Signifikanztests
  • Gepaarte t-Tests für Post-hoc-Analysen

Experimentelle Ergebnisse

Hauptergebnisse

Repräsentationsausrichtungs-Leistung

RepräsentationsmethodeGPT-4 AuswahlrateLLaMA-3 AuswahlrateGPT-4 EntropieLLaMA-3 Entropie
Words61,9%57,5%0,320,42
Lexical VAD52,0%-0,610,72
Numeric VAD--0,700,63
Emojis--0,670,52

Wichtigste Erkenntnisse

  1. Words-Repräsentation ist optimal: Zeigt die höchste Selbstausrichtungsrate und niedrigste Entropiewerte auf beiden Modellen
  2. Lexical VAD ist zweitbest: Gute Leistung auf GPT-4, aber schlechtere Leistung auf LLaMA-3
  3. Numeric VAD zeigt die schlechteste Leistung: Höchste Entropiewerte deuten darauf hin, dass Teilnehmer schwer zu einer Einigung gelangen
  4. Repräsentationsübergreifende Ausrichtung: Emojis und Lexical VAD zeigen auf LLaMA-3 Ausrichtung

Genauigkeits- und Authentizitätsergebnisse

Statistische Signifikanz

  • GPT-4: Affektive Repräsentation hat signifikante Auswirkungen auf "Convey" und "You'd say" (p < 0,01)
  • LLaMA-3: Affektive Repräsentation hat signifikante Auswirkungen auf "Convey" und "Someone Else'd say" (p < 0,05)

Gepaarte Vergleiche

  • Words ist in der "Convey"-Dimension signifikant besser als Numeric VAD (GPT-4, p = 0,002)
  • Lexical VAD ist in der "Convey"-Dimension signifikant besser als Numeric VAD (LLaMA-3, p = 0,018)
  • Words ist in der "You'd say"-Dimension signifikant besser als Emojis (p = 0,005) und Numeric VAD (p = 0,044)

Gefühlsspezifische Analyse

Modellunterschiede

  • GPT-4 ist bei der Generierung von "grateful"-Gefühlssätzen deutlich besser als LLaMA-3
  • Verschiedene Gefühle zeigen unter verschiedenen Repräsentationen signifikante Leistungsunterschiede
  • Bestimmte Gefühle (z. B. "excited", "proud") zeigen unter bestimmten Bedingungen schlechtere Leistung

Repräsentationsadaptivität

  • Positive Gefühle zeigen unter Words-Repräsentation normalerweise bessere Leistung
  • Komplexe emotionale Zustände eignen sich besser für Lexical VAD-Repräsentation
  • Numeric VAD hat Schwierigkeiten bei der Verarbeitung feiner Gefühlsunterschiede

Ablationsstudien

Analyse der Schlüsselwort-Einhaltung

Modell1 Schlüsselwort2 Schlüsselwörter3 SchlüsselwörterDurchschnittliche Genauigkeit
GPT-4, 1x1,001,000,9360,978
LLaMA-3, 1x0,9080,8970,7810,862
LLaMA-3, 3x0,9690,9690,8500,930

VAD-Trainingseffekte

Die Bereitstellung von VAD-Konzepterklärungen und Übungsfragen für Teilnehmer verbesserte die Verständnisgenauigkeit, es bestehen jedoch weiterhin Probleme mit der kognitiven Belastung.

Verwandte Arbeiten

Schlüsselwort-beschränkte Generierung

  • Frühe grammatikbasierte Systeme (Kasper, 1989; Uchimoto et al., 2002)
  • Sequenzmodelle und iterative Korrekturmethoden (Mou et al., 2016; He and Li, 2021)
  • Kontrollierte Generierungstechniken im Transformer-Zeitalter (Kumar et al., 2021; Krause et al., 2021)

Affektive Satzgenerierung

  • Frühe regelbasierte Systeme (Polzin and Waibel, 2000)
  • RNN-basierte bedingte Generierung (Ghosh et al., 2017; Song et al., 2019)
  • Affektive Generierungsmethoden im LLM-Zeitalter (Li et al., 2024; Mishra et al., 2023)

Wertausrichtungsforschung

  • Normatives Verhaltenlernen in Kindergeschichten (Nahian et al., 2020)
  • Wertintegration in verstärktem Lernen aus menschlichem Feedback (Arzberger et al., 2024)
  • Messung der Wertausrichtung bestehender Modelle (Norhashim and Hahn, 2024)

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Bedeutung der Repräsentationsausrichtung: Der Grad der Ausrichtung zwischen Mensch und LLM beim Konzeptverständnis beeinflusst direkt die Anwendungseffektivität
  2. Überlegenheit der Words-Repräsentation: Englische Vokabeln bieten die stärkste Ausrichtungswirkung in der affektiven Repräsentation
  3. Komplexität der VAD-Repräsentation: Lexikalisierte VAD ist besser als numerische VAD, aber immer noch nicht so gut wie direkte Vokabelrepräsentation
  4. Unterschiede zwischen Modellen: Verschiedene LLMs zeigen signifikante Unterschiede beim Verständnis und der Generierung von Gefühlen

Einschränkungen

Technische Einschränkungen

  1. Modellauswahl: Nur zwei LLMs verwendet, LLaMA-3 mit 8-Bit-Quantisierung
  2. Sprachbeschränkung: Nur Englisch, andere Sprachen können unterschiedliche Ergebnisse zeigen
  3. Repräsentativität der Teilnehmer: Keine Einbeziehung der tatsächlichen AAC-Benutzergruppe

Methodische Einschränkungen

  1. VAD-Verständnisbelastung: Teilnehmer müssen VAD-Konzepte zusätzlich erlernen, was die Bewertungsergebnisse beeinflussen kann
  2. Subjektivität von Emojis: Unterschiedliche kulturelle Hintergründe führen zu unterschiedlichen Emoji-Interpretationen
  3. Emotionale Komplexität: 18 Gefühle können möglicherweise nicht das vollständige emotionale Spektrum abdecken

Zukünftige Richtungen

  1. Erweiterung des Modellbereichs: Testen weiterer aktueller LLM-Modelle
  2. Mehrsprachige Validierung: Validierung der Schlussfolgerungen in anderen Sprachkontexten
  3. Benutzerindividualisierung: Personalisiertes Repräsentationslernen für spezifische AAC-Benutzergruppen
  4. Echtzeitanwendung: Bereitstellung und Bewertung in echten AAC-Umgebungen

Tiefgreifende Bewertung

Stärken

Methodische Innovativität

  1. Erstmaliges Repräsentationsausrichtungs-Paradigma: Bietet eine neue systematische Methode zur Bewertung des LLM-Konzeptverständnisses
  2. Mehrdimensionales Bewertungsdesign: Integriertes Bewertungsrahmenwerk für Ausrichtung, Genauigkeit und Authentizität
  3. Praxisorientierte Forschung: Direkt auf die praktischen Anforderungen von AAC-Anwendungsszenarien ausgerichtet

Experimentelle Vollständigkeit

  1. Großflächige menschliche Bewertung: 200 Teilnehmer in der Crowdsourcing-Bewertung gewährleisten Zuverlässigkeit der Ergebnisse
  2. Statistische Strenge: Verwendung von ANOVA und gepaarten t-Tests zur Sicherung der Signifikanz der Ergebnisse
  3. Mehrwinkel-Analyse: Umfassende Bewertung aus mehreren Dimensionen: Repräsentationsausrichtung, Genauigkeit und Authentizität

Überzeugungskraft der Ergebnisse

  1. Konsistente Erkenntnisse: Ergebnistrends sind auf beiden Modellen grundsätzlich konsistent
  2. Statistische Signifikanz: Hauptschlussfolgerungen bestehen statistische Signifikanztests
  3. Praktische Leitfadenwirkung: Bietet klare Designempfehlungen für AAC-Anwendungen

Mängel

Methodische Einschränkungen

  1. Bewertungssubjektivität: Abhängigkeit von menschlichen Subjektivurteilen mit möglichen Verzerrungen
  2. Aufgabenvereinfachung: Die Generierungsaufgabe von Schlüsselwörtern zu Sätzen ist relativ einfach, echte AAC-Szenarien sind komplexer
  3. Statische Bewertung: Berücksichtigung der Kontextabhängigkeit in dynamischen Dialogen nicht ausreichend

Experimentelle Mängel

  1. Unzureichende Teilnehmerschulung: Schnelle VAD-Konzeptschulung möglicherweise nicht ausreichend
  2. Begrenzte Stichprobengröße: Relativ wenige Antworter pro Frage (3-9 Personen)
  3. Modellversionsdifferenzen: Verwendete Modellversionen können die Aktualität der Ergebnisse beeinflussen

Bewertung der Auswirkungen

Akademische Beiträge

  1. Bahnbrechende Arbeit: Erste systematische Untersuchung des LLM-Repräsentationsausrichtungsproblems
  2. Methodologische Beiträge: Das Repräsentationsausrichtungs-Bewertungsparadigma ist auf andere Konzeptbereiche übertragbar
  3. Interdisziplinärer Wert: Verbindung von NLP-, Psychologie- und Hilfstechnologieforschung

Praktischer Wert

  1. Verbesserung von AAC-Werkzeugen: Leitfaden für das Design affektiver Repräsentationen in AAC-Anwendungen
  2. LLM-Optimierungsrichtung: Ideen zur Verbesserung der Ausrichtung zwischen LLM und menschlichen Konzepten
  3. Bewertungsstandard-Etablierung: Etablierung von Bewertungsbenchmarks für ähnliche Anwendungen

Reproduzierbarkeit

  1. Detaillierte Methodenbeschreibung: Vollständige experimentelle Einrichtung und Parameterkonfiguration
  2. Offene Datenverpflichtung: Verpflichtung zur Veröffentlichung experimenteller Daten und Code
  3. Standardisierter Prozess: Etablierung eines wiederholbaren Bewertungsprozesses

Anwendbare Szenarien

Direkte Anwendung

  1. AAC-Werkzeugentwicklung: Design und Optimierung von Gefühlsausdrucksfunktionen
  2. Dialogsysteme: Verbesserung der Fähigkeit zum Gefühlsverständnis und -ausdruck
  3. Textgenerierungsbewertung: Etablierung von Bewertungsstandards für Mensch-Maschine-Ausrichtung

Erweiterte Anwendung

  1. Andere Konzeptausrichtungen: Erweiterung auf Wertvorstellungen, Kulturkonzepte usw.
  2. Multimodale Ausrichtung: Integration visueller, akustischer und anderer multimodaler Informationen
  3. Personalisierte Anpassung: Maßgeschneiderte Ausrichtung für spezifische Benutzergruppen

Literaturverzeichnis

Diese Studie zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:

  • Demszky et al. (2020): GoEmotions-Gefühlsdatensatz
  • Guo und Choi (2021): VAD-Gefühlsrepräsentationslernen
  • Valencia et al. (2023): Anwendung von KI-Sprachmodellen in AAC
  • Chen und Wan (2024): Bewertung der Wortbeschränkungs-Generierungsfähigkeit von LLMs

Gesamtbewertung: Dies ist eine hochwertige Forschungsarbeit, die bahnbrechende Beiträge zum wichtigen Problem der Mensch-LLM-Konzeptausrichtung leistet. Die Forschungsmethode ist wissenschaftlich streng, das experimentelle Design ist angemessen, und die Ergebnisse haben wichtige theoretische und praktische Bedeutung. Obwohl es einige Einschränkungen gibt, legt die Arbeit eine solide Grundlage für zukünftige verwandte Forschung.