2025-11-18T12:37:13.469298

Comparative Explanations via Counterfactual Reasoning in Recommendations

Yu, Hu
Explainable recommendation through counterfactual reasoning seeks to identify the influential aspects of items in recommendations, which can then be used as explanations. However, state-of-the-art approaches, which aim to minimize changes in product aspects while reversing their recommended decisions according to an aggregated decision boundary score, often lead to factual inaccuracies in explanations. To solve this problem, in this work we propose a novel method of Comparative Counterfactual Explanations for Recommendation (CoCountER). CoCountER creates counterfactual data based on soft swap operations, enabling explanations for recommendations of arbitrary pairs of comparative items. Empirical experiments validate the effectiveness of our approach.
academic

Vergleichende Erklärungen durch kontrafaktisches Denken in Empfehlungssystemen

Grundlegende Informationen

  • Paper-ID: 2510.10920
  • Titel: Comparative Explanations via Counterfactual Reasoning in Recommendations
  • Autoren: Yi Yu (Huawei Technologies Co., Ltd.), Zhenxing Hu (Huawei Technologies Co., Ltd.)
  • Klassifizierung: cs.IR (Informationsbeschaffung), cs.AI (Künstliche Intelligenz)
  • Veröffentlichungszeit/Konferenz: 2025 eingereicht bei Konferenz (spezifische Konferenz ausstehend)
  • Paper-Link: https://arxiv.org/abs/2510.10920

Zusammenfassung

Erklärbare Empfehlungssysteme versuchen durch kontrafaktisches Denken, Einflussfaktoren von Artikeln in Empfehlungen zu identifizieren, die als Erklärungen dienen können. Allerdings zielen bestehende State-of-the-Art-Methoden darauf ab, Änderungen von Produktattributen zu minimieren und Empfehlungsentscheidungen basierend auf aggregierten Entscheidungsgrenzwerten rückgängig zu machen, was häufig zu faktischen Ungenauigkeiten in den Erklärungen führt. Um dieses Problem zu beheben, wird in diesem Beitrag eine neue Methode für vergleichende kontrafaktische Erklärungen in Empfehlungssystemen (CoCountER) vorgestellt. CoCountER erstellt kontrafaktische Daten basierend auf weichen Austauschoperationen und kann Erklärungen für Empfehlungen beliebiger Vergleichsartikelpaare liefern. Empirische Experimente validieren die Wirksamkeit der Methode.

Forschungshintergrund und Motivation

Problemdefinition

Erklärbare Empfehlungssysteme zielen darauf ab, Benutzern hochwertige Empfehlungen zu geben und gleichzeitig klare Erklärungen bereitzustellen, die Benutzern helfen, die Logik hinter den Empfehlungen zu verstehen, wodurch das Vertrauen und die Zufriedenheit der Benutzer mit dem System erhöht werden.

Einschränkungen bestehender Methoden

  1. Probleme von Matching-Methoden: Auf Vorlagen basierende Erklärungsmethoden (wie EFM, MTER, A2CF) optimieren Empfehlungs- und Attributdarstellungen durch Tensor-Faktorisierungstechniken, können aber Attribute mit hohen Matching-Werten, aber schlechter tatsächlicher Leistung als Erklärungen auswählen.
  2. Mängel bestehender kontrafaktischer Methoden: Methoden wie CountER kehren Entscheidungen durch Minimierung von Merkmalreduktion um, weisen aber faktische Ungenauigkeitsprobleme auf. Im Kopfhörer-Beispiel des Papers könnte CountER Komfort als Erklärung für die Empfehlung von Kopfhörer A verwenden, obwohl Kopfhörer A beim Komfort tatsächlich schlechter als Kopfhörer B abschneidet.
  3. Grundlegende Ursache: Bestehende Methoden optimieren die Summe aller reduzierten Attribute in Richtung des Entscheidungsgrenzwerts, anstatt jedes Attribut einzeln zum Entscheidungsgrenzwert zu bewegen, was zu Erklärungen führt, die der Intuition widersprechen.

Forschungsmotivation

Dieser Beitrag schlägt vor, das oben genannte Problem durch vergleichende kontrafaktische Überlegungen zu lösen, indem Austauschoperationen auf Attributebene zwischen Artikelpaaren durchgeführt werden, um treuere und intuitivere Erklärungen zu generieren.

Kernbeiträge

  1. Neue Methode zur Erstellung kontrafaktischer Daten: Mechanismus zur Generierung kontrafaktischer Daten basierend auf weichen Austauschoperationen
  2. Innovatives Framework für vergleichende kontrafaktische Erklärungen: CoCountER kann Erklärungen für Empfehlungen beliebiger Vergleichsartikelpaare liefern
  3. Experimentelle Validierung: Validierung der Methode auf mehreren Datensätzen mit Überlegenheit bei kontrafaktischen Relevanzmetriken gegenüber bestehenden Methoden

Methodische Details

Aufgabendefinition

Gegeben seien der Zielbenutzer u, der Erklärungsartikel i und der Referenzartikel j, wobei die Empfehlungswerte r_{u,i} > r_{u,j} erfüllen, besteht das Ziel darin, Schlüsselattribute zu identifizieren, die die Empfehlungsentscheidung durch minimale Austauschoperationen beeinflussen.

Modellarchitektur

1. Datenvorverarbeitung

Verwendung des Sentires-Tools zur Extraktion von (Benutzer, Artikel, Attribut, Sentiment)-Tupeln aus Benutzerkommentaren, um zu konstruieren:

  • Benutzer-Attribut-Aufmerksamkeitsmatrix X: X_{u,a} stellt die Aufmerksamkeit des Benutzers u für Attribut a dar
  • Artikel-Attribut-Qualitätsmatrix Y: Y_{i,a} stellt die Leistung des Artikels i bei Attribut a dar

Berechnungsformel:

X_{u,a} = {
  0, wenn Benutzer u Attribut a nicht erwähnt
  1 + (N-1) · (1-exp^{-t_{u,a}})/(1+exp^{-t_{u,a}}), sonst
}

Y_{i,a} = {
  0, wenn Artikel i bei Attribut a nicht erwähnt wird
  1 + (N-1)/(1+exp^{-t_{i,a}·s_{i,a}}), sonst
}

2. Empfehlungsmodell

Verwendung einer einfachen Fusionsschicht-Architektur:

r_{u,i} = g_θ(X_u, Y_i)

implementiert durch ein dreischichtiges vollständig verbundenes Netzwerk + ReLU-Aktivierungsfunktion + Sigmoid-Ausgabe.

3. Kern der vergleichenden kontrafaktischen Erklärung

Austauschfunktionsdesign:

f(Y_i, Y_j, ψ) = (1-σ(ψ)) ⊙ Y_i + σ(ψ) ⊙ Y_j

wobei σ(ψ) die Sigmoid-Funktion ist und ψ ein trainierbarer Austauschvariablenvektoren ist.

Optimierungsziel:

min_ψ ||σ(ψ)||_1 + λL(r_{u,i*}, r_{u,j*})

wobei L der Grenzwert-Ranking-Verlust ist:

L(r_{u,i*}, r_{u,j*}) = max(0, (r_{u,i*} - r_{u,j*}) + m)

Technische Innovationspunkte

  1. Weiche Austauschoperation: Implementierung differenzierbarer Austauschoperationen durch die Sigmoid-Funktion, wobei Werte nahe 0 bedeuten, dass nicht ausgetauscht wird, und Werte nahe 1 bedeuten, dass vollständig ausgetauscht wird
  2. Vergleichendes Framework: Im Gegensatz zu traditionellen Einzelartikel-Erklärungen werden Vergleichserklärungen zwischen Artikeln bereitgestellt
  3. Allgemeingültigkeit: Wenn der Referenzartikel fixiert ist und nur der erste Teil der Austauschfunktion berechnet wird, kann die Methode zu reduktionsbasierten kontrafaktischen Methoden degenerieren

Experimentelle Einrichtung

Datensätze

Verwendung von drei Kategorien des Amazon-Bewertungsdatensatzes:

  • Electronics: 963 Benutzer, 1.112 Artikel, 19.418 Bewertungen, 877 Attribute
  • CDs & Vinyl: 2.129 Benutzer, 2.907 Artikel, 56.045 Bewertungen, 810 Attribute
  • Movies: 5.586 Benutzer, 6.703 Artikel, 187.490 Bewertungen, 1.530 Attribute

Datenvorverarbeitung: Filterung von Benutzern und Artikeln mit weniger als 10 Interaktionen, Aufteilung in Trainings-/Validierungs-/Testsätze im Verhältnis 8:1:1.

Bewertungsmetriken

  • Benutzerorientierte Metriken: Precision und Recall
  • Modellgesteuerte Metriken: Probability of Necessity (PN) und Probability of Sufficiency (PS)

Vergleichsmethoden

  1. Zufallsmethode: Random
  2. Ranking-Methoden: Sort-i (Ranking nach Artikelattributleistung), Sort-u (Ranking nach Benutzeraufmerksamkeit)
  3. Matching-Methoden: EFM, A2CF
  4. Kontrafaktische Methoden: CountER, CoCountER (Methode dieses Papers)

Implementierungsdetails

  • Lernrate η wird durch Gradientenabstieg optimiert
  • Grenzwellenschwelle m wird für Ranking-Verlust verwendet
  • Ausgleichsfaktor λ koordiniert zwei Optimierungsziele
  • Austauschschwelle auf 0,5 gesetzt zur Identifikation von Erklärungsattributen

Experimentelle Ergebnisse

Hauptergebnisse

Auf allen drei Datensätzen übertrifft CoCountER alle Baseline-Methoden konsistent bei kontrafaktischen Relevanzmetriken PN und PS:

Electronics-Datensatz:

  • PN: 0,734 (vs. CountER 0,511)
  • PS: 0,931 (vs. CountER 0,894)

CDs & Vinyl-Datensatz:

  • PN: 0,773 (vs. CountER 0,526)
  • PS: 0,936 (vs. CountER 0,921)

Movies-Datensatz:

  • PN: 0,744 (vs. CountER 0,496)
  • PS: 0,928 (vs. CountER 0,889)

Hyperparameter-Analyse

  1. Auswirkung der Referenzartikelposition: Niedriger platzierte Referenzartikel führen zu weniger Optimierungsbeschränkungen, können mehr wirksame kontrafaktische Attribute entdecken und verbessern PN- und PS-Leistung
  2. Auswirkung der Anzahl der Referenzartikel: Eine angemessene Erhöhung der Anzahl der Referenzartikel kann die Leistung verbessern, aber zu viele führen zu Rauschen und leichten Leistungseinbußen

Experimentelle Erkenntnisse

  • CoCountER bietet durch Austauschoperationen auf Attributebene treuere und kontextbewusstere Erklärungen als CountER
  • Das vergleichende kontrafaktische Design kann echte kausale Attribute hinter Empfehlungen erfassen
  • Die Methode bleibt über ein breites Spektrum von Einstellungen stabil und zeigt gute Robustheit

Verwandte Arbeiten

Erklärbare Empfehlungssysteme

  1. Attributbasierte Methoden: EFM, MTER, A2CF und andere verwenden Tensor-Faktorisierungstechniken zur Konstruktion vorlagenbasierter Erklärungen
  2. Kontrafaktische Reasoning-Methoden: CountER führte erstmals kontrafaktisches Denken in erklärbare Empfehlungen ein
  3. Textgenerierungsmethoden: Kombination mit vortrainierten Sprachmodellen wie BERT zur Generierung von Texterklärungen

Vergleichende Erklärungen

Yang et al. führten das Konzept vergleichender Erklärungen ein, verwenden aber einen autoregressiven Decoder zur Generierung von Texterklärungen, was sich von der kontrafaktischen Reasoning-Perspektive dieses Papers unterscheidet.

Kausales Reasoning in Empfehlungssystemen

In den letzten Jahren wurde kausales Reasoning weit verbreitet in Empfehlungssystemen für Datenerweiterung und Fairness-Verbesserung angewendet.

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. Vorstellung des CoCountER-Frameworks, das durch vergleichende kontrafaktische Überlegungen treuere Empfehlungserklärungen generiert
  2. Weiche Austauschoperationen können Schlüsselattribute, die Empfehlungsentscheidungen beeinflussen, effektiv identifizieren
  3. Experimente zeigen, dass diese Methode bei kontrafaktischen Metriken erheblich besser ist als bestehende Methoden

Einschränkungen

  1. Vereinfachtes Empfehlungsmodell: Um sich auf Erklärbarkeit zu konzentrieren, wurde eine relativ einfache Empfehlungsmodellarchitektur verwendet
  2. Rechenkomplexität: Erfordert Optimierung für jeden Referenzartikel, was die Rechenkosten erhöht
  3. Attributabhängigkeit: Die Methode hängt von aus Kommentaren extrahierten Attributen ab und ist empfindlich gegenüber Attributqualität

Zukünftige Richtungen

Das Paper schlägt vor, kontrafaktisches Denken mit generativen Modellen zu kombinieren, um natürlichsprachige Erklärungen kontrafaktischer Szenarien zu produzieren.

Tiefgehende Bewertung

Stärken

  1. Starke Innovation: Erstmals Vorstellung eines vergleichenden kontrafaktischen Erklärungsframeworks, das das faktische Ungenauigkeitsproblem bestehender Methoden löst
  2. Solide theoretische Grundlagen: Klare Erklärung der Probleme bestehender Methoden durch konkrete Beispiele mit theoretischer Analyse
  3. Angemessenes Methodendesign: Das Design der weichen Austauschoperation gewährleistet sowohl Differenzierbarkeit als auch intuitive Erklärungen
  4. Umfassende Experimente: Validierung auf mehreren Datensätzen mit Hyperparameter-Sensitivitätsanalyse

Mängel

  1. Begrenzte Bewertungsmetriken: Fokus hauptsächlich auf kontrafaktische Metriken, fehlende Benutzerstudien zur Validierung der praktischen Verwendbarkeit von Erklärungen
  2. Begrenzte Baseline-Methoden: Obwohl Hauptvergleichsmethoden enthalten sind, fehlen neuere kontrafaktische Erklärungsmethoden
  3. Skalierungsprobleme: Mit zunehmender Artikelanzahl wächst die Anzahl der zu berücksichtigenden Artikelpaare quadratisch
  4. Unzureichende praktische Bereitstellungsüberlegungen: Mangelnde Diskussion über Effizienz und Skalierbarkeit bei tatsächlicher Bereitstellung in Empfehlungssystemen

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Forschungsrichtung für das Gebiet erklärbarer Empfehlungen
  2. Praktischer Wert: Kann intuitivere Erklärungen generieren und trägt zur Verbesserung der Benutzererfahrung bei
  3. Reproduzierbarkeit: Bietet detaillierte Algorithmusbeschreibungen und Implementierungsdetails

Anwendungsszenarien

  1. E-Commerce-Empfehlungen: Besonders geeignet für Szenarien, in denen erklärt werden muss, warum ein bestimmtes Produkt statt anderer empfohlen wird
  2. Inhaltsempfehlungen: Kann auf Film-, Musik- und andere Inhaltsempfehlungssysteme angewendet werden
  3. Hochrisiko-Entscheidungen: Geeignet für Empfehlungsszenarien, die hohe Erklärbarkeit erfordern

Literaturverzeichnis

Das Paper zitiert 30 verwandte Arbeiten, die mehrere verwandte Bereiche wie erklärbare Empfehlungen, kontrafaktisches Denken und kausales Reasoning abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das ein innovatives vergleichendes kontrafaktisches Erklärungsframework vorschlägt und wichtige Probleme bestehender Methoden löst. Das Methodendesign ist angemessen, die experimentelle Validierung ist umfassend, und es trägt wesentlich zum Gebiet erklärbarer Empfehlungen bei. Obwohl es einige Einschränkungen gibt, ist dies insgesamt eine wertvolle Forschungsarbeit.