2025-11-18T12:37:13.469298

Comparative Explanations via Counterfactual Reasoning in Recommendations

Yu, Hu

Explainable recommendation through counterfactual reasoning seeks to identify the influential aspects of items in recommendations, which can then be used as explanations. However, state-of-the-art approaches, which aim to minimize changes in product aspects while reversing their recommended decisions according to an aggregated decision boundary score, often lead to factual inaccuracies in explanations. To solve this problem, in this work we propose a novel method of Comparative Counterfactual Explanations for Recommendation (CoCountER). CoCountER creates counterfactual data based on soft swap operations, enabling explanations for recommendations of arbitrary pairs of comparative items. Empirical experiments validate the effectiveness of our approach.

academic

Vergleichende Erklärungen durch kontrafaktisches Denken in Empfehlungssystemen

Grundlegende Informationen

Paper-ID: 2510.10920
Titel: Comparative Explanations via Counterfactual Reasoning in Recommendations
Autoren: Yi Yu (Huawei Technologies Co., Ltd.), Zhenxing Hu (Huawei Technologies Co., Ltd.)
Klassifizierung: cs.IR (Informationsbeschaffung), cs.AI (Künstliche Intelligenz)
Veröffentlichungszeit/Konferenz: 2025 eingereicht bei Konferenz (spezifische Konferenz ausstehend)
Paper-Link: https://arxiv.org/abs/2510.10920

Zusammenfassung

Erklärbare Empfehlungssysteme versuchen durch kontrafaktisches Denken, Einflussfaktoren von Artikeln in Empfehlungen zu identifizieren, die als Erklärungen dienen können. Allerdings zielen bestehende State-of-the-Art-Methoden darauf ab, Änderungen von Produktattributen zu minimieren und Empfehlungsentscheidungen basierend auf aggregierten Entscheidungsgrenzwerten rückgängig zu machen, was häufig zu faktischen Ungenauigkeiten in den Erklärungen führt. Um dieses Problem zu beheben, wird in diesem Beitrag eine neue Methode für vergleichende kontrafaktische Erklärungen in Empfehlungssystemen (CoCountER) vorgestellt. CoCountER erstellt kontrafaktische Daten basierend auf weichen Austauschoperationen und kann Erklärungen für Empfehlungen beliebiger Vergleichsartikelpaare liefern. Empirische Experimente validieren die Wirksamkeit der Methode.

Forschungshintergrund und Motivation

Problemdefinition

Erklärbare Empfehlungssysteme zielen darauf ab, Benutzern hochwertige Empfehlungen zu geben und gleichzeitig klare Erklärungen bereitzustellen, die Benutzern helfen, die Logik hinter den Empfehlungen zu verstehen, wodurch das Vertrauen und die Zufriedenheit der Benutzer mit dem System erhöht werden.

Einschränkungen bestehender Methoden

Probleme von Matching-Methoden: Auf Vorlagen basierende Erklärungsmethoden (wie EFM, MTER, A2CF) optimieren Empfehlungs- und Attributdarstellungen durch Tensor-Faktorisierungstechniken, können aber Attribute mit hohen Matching-Werten, aber schlechter tatsächlicher Leistung als Erklärungen auswählen.
Mängel bestehender kontrafaktischer Methoden: Methoden wie CountER kehren Entscheidungen durch Minimierung von Merkmalreduktion um, weisen aber faktische Ungenauigkeitsprobleme auf. Im Kopfhörer-Beispiel des Papers könnte CountER Komfort als Erklärung für die Empfehlung von Kopfhörer A verwenden, obwohl Kopfhörer A beim Komfort tatsächlich schlechter als Kopfhörer B abschneidet.
Grundlegende Ursache: Bestehende Methoden optimieren die Summe aller reduzierten Attribute in Richtung des Entscheidungsgrenzwerts, anstatt jedes Attribut einzeln zum Entscheidungsgrenzwert zu bewegen, was zu Erklärungen führt, die der Intuition widersprechen.

Forschungsmotivation

Dieser Beitrag schlägt vor, das oben genannte Problem durch vergleichende kontrafaktische Überlegungen zu lösen, indem Austauschoperationen auf Attributebene zwischen Artikelpaaren durchgeführt werden, um treuere und intuitivere Erklärungen zu generieren.

Kernbeiträge

Neue Methode zur Erstellung kontrafaktischer Daten: Mechanismus zur Generierung kontrafaktischer Daten basierend auf weichen Austauschoperationen
Innovatives Framework für vergleichende kontrafaktische Erklärungen: CoCountER kann Erklärungen für Empfehlungen beliebiger Vergleichsartikelpaare liefern
Experimentelle Validierung: Validierung der Methode auf mehreren Datensätzen mit Überlegenheit bei kontrafaktischen Relevanzmetriken gegenüber bestehenden Methoden

Methodische Details

Aufgabendefinition

Gegeben seien der Zielbenutzer u, der Erklärungsartikel i und der Referenzartikel j, wobei die Empfehlungswerte r_{u,i} > r_{u,j} erfüllen, besteht das Ziel darin, Schlüsselattribute zu identifizieren, die die Empfehlungsentscheidung durch minimale Austauschoperationen beeinflussen.

Modellarchitektur

1. Datenvorverarbeitung

Verwendung des Sentires-Tools zur Extraktion von (Benutzer, Artikel, Attribut, Sentiment)-Tupeln aus Benutzerkommentaren, um zu konstruieren:

Benutzer-Attribut-Aufmerksamkeitsmatrix X: X_{u,a} stellt die Aufmerksamkeit des Benutzers u für Attribut a dar
Artikel-Attribut-Qualitätsmatrix Y: Y_{i,a} stellt die Leistung des Artikels i bei Attribut a dar

Berechnungsformel:

X_{u,a} = {
  0, wenn Benutzer u Attribut a nicht erwähnt
  1 + (N-1) · (1-exp^{-t_{u,a}})/(1+exp^{-t_{u,a}}), sonst
}

Y_{i,a} = {
  0, wenn Artikel i bei Attribut a nicht erwähnt wird
  1 + (N-1)/(1+exp^{-t_{i,a}·s_{i,a}}), sonst
}

2. Empfehlungsmodell

Verwendung einer einfachen Fusionsschicht-Architektur:

r_{u,i} = g_θ(X_u, Y_i)

implementiert durch ein dreischichtiges vollständig verbundenes Netzwerk + ReLU-Aktivierungsfunktion + Sigmoid-Ausgabe.

3. Kern der vergleichenden kontrafaktischen Erklärung

Austauschfunktionsdesign:

f(Y_i, Y_j, ψ) = (1-σ(ψ)) ⊙ Y_i + σ(ψ) ⊙ Y_j

wobei σ(ψ) die Sigmoid-Funktion ist und ψ ein trainierbarer Austauschvariablenvektoren ist.

Optimierungsziel:

min_ψ ||σ(ψ)||_1 + λL(r_{u,i*}, r_{u,j*})

wobei L der Grenzwert-Ranking-Verlust ist:

L(r_{u,i*}, r_{u,j*}) = max(0, (r_{u,i*} - r_{u,j*}) + m)

Technische Innovationspunkte

Weiche Austauschoperation: Implementierung differenzierbarer Austauschoperationen durch die Sigmoid-Funktion, wobei Werte nahe 0 bedeuten, dass nicht ausgetauscht wird, und Werte nahe 1 bedeuten, dass vollständig ausgetauscht wird
Vergleichendes Framework: Im Gegensatz zu traditionellen Einzelartikel-Erklärungen werden Vergleichserklärungen zwischen Artikeln bereitgestellt
Allgemeingültigkeit: Wenn der Referenzartikel fixiert ist und nur der erste Teil der Austauschfunktion berechnet wird, kann die Methode zu reduktionsbasierten kontrafaktischen Methoden degenerieren

Experimentelle Einrichtung

Datensätze

Verwendung von drei Kategorien des Amazon-Bewertungsdatensatzes:

Electronics: 963 Benutzer, 1.112 Artikel, 19.418 Bewertungen, 877 Attribute
CDs & Vinyl: 2.129 Benutzer, 2.907 Artikel, 56.045 Bewertungen, 810 Attribute
Movies: 5.586 Benutzer, 6.703 Artikel, 187.490 Bewertungen, 1.530 Attribute

Datenvorverarbeitung: Filterung von Benutzern und Artikeln mit weniger als 10 Interaktionen, Aufteilung in Trainings-/Validierungs-/Testsätze im Verhältnis 8:1:1.

Bewertungsmetriken

Benutzerorientierte Metriken: Precision und Recall
Modellgesteuerte Metriken: Probability of Necessity (PN) und Probability of Sufficiency (PS)

Vergleichsmethoden

Zufallsmethode: Random
Ranking-Methoden: Sort-i (Ranking nach Artikelattributleistung), Sort-u (Ranking nach Benutzeraufmerksamkeit)
Matching-Methoden: EFM, A2CF
Kontrafaktische Methoden: CountER, CoCountER (Methode dieses Papers)

Implementierungsdetails

Lernrate η wird durch Gradientenabstieg optimiert
Grenzwellenschwelle m wird für Ranking-Verlust verwendet
Ausgleichsfaktor λ koordiniert zwei Optimierungsziele
Austauschschwelle auf 0,5 gesetzt zur Identifikation von Erklärungsattributen

Experimentelle Ergebnisse

Hauptergebnisse

Auf allen drei Datensätzen übertrifft CoCountER alle Baseline-Methoden konsistent bei kontrafaktischen Relevanzmetriken PN und PS:

Electronics-Datensatz:

PN: 0,734 (vs. CountER 0,511)
PS: 0,931 (vs. CountER 0,894)

CDs & Vinyl-Datensatz:

PN: 0,773 (vs. CountER 0,526)
PS: 0,936 (vs. CountER 0,921)

Movies-Datensatz:

PN: 0,744 (vs. CountER 0,496)
PS: 0,928 (vs. CountER 0,889)

Hyperparameter-Analyse

Auswirkung der Referenzartikelposition: Niedriger platzierte Referenzartikel führen zu weniger Optimierungsbeschränkungen, können mehr wirksame kontrafaktische Attribute entdecken und verbessern PN- und PS-Leistung
Auswirkung der Anzahl der Referenzartikel: Eine angemessene Erhöhung der Anzahl der Referenzartikel kann die Leistung verbessern, aber zu viele führen zu Rauschen und leichten Leistungseinbußen

Experimentelle Erkenntnisse

CoCountER bietet durch Austauschoperationen auf Attributebene treuere und kontextbewusstere Erklärungen als CountER
Das vergleichende kontrafaktische Design kann echte kausale Attribute hinter Empfehlungen erfassen
Die Methode bleibt über ein breites Spektrum von Einstellungen stabil und zeigt gute Robustheit

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

Vorstellung des CoCountER-Frameworks, das durch vergleichende kontrafaktische Überlegungen treuere Empfehlungserklärungen generiert
Weiche Austauschoperationen können Schlüsselattribute, die Empfehlungsentscheidungen beeinflussen, effektiv identifizieren
Experimente zeigen, dass diese Methode bei kontrafaktischen Metriken erheblich besser ist als bestehende Methoden

Einschränkungen

Vereinfachtes Empfehlungsmodell: Um sich auf Erklärbarkeit zu konzentrieren, wurde eine relativ einfache Empfehlungsmodellarchitektur verwendet
Rechenkomplexität: Erfordert Optimierung für jeden Referenzartikel, was die Rechenkosten erhöht
Attributabhängigkeit: Die Methode hängt von aus Kommentaren extrahierten Attributen ab und ist empfindlich gegenüber Attributqualität

Zukünftige Richtungen

Das Paper schlägt vor, kontrafaktisches Denken mit generativen Modellen zu kombinieren, um natürlichsprachige Erklärungen kontrafaktischer Szenarien zu produzieren.

Tiefgehende Bewertung

Stärken

Starke Innovation: Erstmals Vorstellung eines vergleichenden kontrafaktischen Erklärungsframeworks, das das faktische Ungenauigkeitsproblem bestehender Methoden löst
Solide theoretische Grundlagen: Klare Erklärung der Probleme bestehender Methoden durch konkrete Beispiele mit theoretischer Analyse
Angemessenes Methodendesign: Das Design der weichen Austauschoperation gewährleistet sowohl Differenzierbarkeit als auch intuitive Erklärungen
Umfassende Experimente: Validierung auf mehreren Datensätzen mit Hyperparameter-Sensitivitätsanalyse

Mängel

Begrenzte Bewertungsmetriken: Fokus hauptsächlich auf kontrafaktische Metriken, fehlende Benutzerstudien zur Validierung der praktischen Verwendbarkeit von Erklärungen
Begrenzte Baseline-Methoden: Obwohl Hauptvergleichsmethoden enthalten sind, fehlen neuere kontrafaktische Erklärungsmethoden
Skalierungsprobleme: Mit zunehmender Artikelanzahl wächst die Anzahl der zu berücksichtigenden Artikelpaare quadratisch
Unzureichende praktische Bereitstellungsüberlegungen: Mangelnde Diskussion über Effizienz und Skalierbarkeit bei tatsächlicher Bereitstellung in Empfehlungssystemen

Auswirkungen

Akademischer Beitrag: Bietet neue Forschungsrichtung für das Gebiet erklärbarer Empfehlungen
Praktischer Wert: Kann intuitivere Erklärungen generieren und trägt zur Verbesserung der Benutzererfahrung bei
Reproduzierbarkeit: Bietet detaillierte Algorithmusbeschreibungen und Implementierungsdetails

Anwendungsszenarien

E-Commerce-Empfehlungen: Besonders geeignet für Szenarien, in denen erklärt werden muss, warum ein bestimmtes Produkt statt anderer empfohlen wird
Inhaltsempfehlungen: Kann auf Film-, Musik- und andere Inhaltsempfehlungssysteme angewendet werden
Hochrisiko-Entscheidungen: Geeignet für Empfehlungsszenarien, die hohe Erklärbarkeit erfordern

Literaturverzeichnis

Das Paper zitiert 30 verwandte Arbeiten, die mehrere verwandte Bereiche wie erklärbare Empfehlungen, kontrafaktisches Denken und kausales Reasoning abdecken und eine solide theoretische Grundlage für die Forschung bieten.

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das ein innovatives vergleichendes kontrafaktisches Erklärungsframework vorschlägt und wichtige Probleme bestehender Methoden löst. Das Methodendesign ist angemessen, die experimentelle Validierung ist umfassend, und es trägt wesentlich zum Gebiet erklärbarer Empfehlungen bei. Obwohl es einige Einschränkungen gibt, ist dies insgesamt eine wertvolle Forschungsarbeit.