2025-11-24T15:04:25.511183

Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers

Nguyen, Tran-Thanh
Ensuring that large language models (LLMs) comply with safety requirements is a central challenge in AI deployment. Existing alignment approaches primarily operate during training, such as through fine-tuning or reinforcement learning from human feedback, but these methods are costly and inflexible, requiring retraining whenever new requirements arise. Recent efforts toward inference-time alignment mitigate some of these limitations but still assume access to model internals, which is impractical, and not suitable for third party stakeholders who do not have access to the models. In this work, we propose a model-independent, black-box framework for safety alignment that does not require retraining or access to the underlying LLM architecture. As a proof of concept, we address the problem of trading off between generating safe but uninformative answers versus helpful yet potentially risky ones. We formulate this dilemma as a two-player zero-sum game whose minimax equilibrium captures the optimal balance between safety and helpfulness. LLM agents operationalize this framework by leveraging a linear programming solver at inference time to compute equilibrium strategies. Our results demonstrate the feasibility of black-box safety alignment, offering a scalable and accessible pathway for stakeholders, including smaller organizations and entities in resource-constrained settings, to enforce safety across rapidly evolving LLM ecosystems.
academic

Safety Game: Sichere und informative Gespräche mit Black-Box-Agenten-KI durch LP-Solver ausbalancieren

Grundinformationen

  • Paper-ID: 2510.09330
  • Titel: Safety Game: Balancing Safe and Informative Conversations with Blackbox Agentic AI using LP Solvers
  • Autoren: Tuan Nguyen, Long Tran-Thanh (University of Warwick)
  • Klassifizierung: cs.LG
  • Veröffentlichungsdatum: 10. Oktober 2025
  • Paper-Link: https://arxiv.org/abs/2510.09330

Zusammenfassung

Die Gewährleistung, dass große Sprachmodelle (LLMs) Sicherheitsanforderungen erfüllen, ist eine zentrale Herausforderung bei der KI-Bereitstellung. Bestehende Ausrichtungsmethoden arbeiten hauptsächlich in der Trainingsphase, wie Fine-Tuning oder verstärktes Lernen basierend auf menschlichem Feedback, aber diese Methoden sind kostspielig und unflexibel und erfordern Umschulung bei neuen Anforderungen. Neuere Bemühungen zur Ausrichtung zur Inferenzzeit lindern einige Einschränkungen, erfordern aber weiterhin Zugriff auf das Modellinnere, was in der Praxis nicht machbar ist und für Drittanbieter-Stakeholder ohne Modellzugriff ungeeignet ist. Dieses Papier schlägt ein modellunabhängiges Black-Box-Sicherheitsausrichtungs-Framework vor, das kein Umtraining oder Zugriff auf die zugrunde liegende LLM-Architektur erfordert. Als Proof-of-Concept lösen wir das Dilemma zwischen der Generierung sicherer, aber uninformativer Antworten und nützlicher, aber potenziell riskanter Antworten. Wir modellieren dieses Dilemma als Zwei-Spieler-Nullsummenspiel, dessen Minimax-Gleichgewicht das optimale Gleichgewicht zwischen Sicherheit und Nützlichkeit erfasst. Der LLM-Agent implementiert dieses Framework, indem er zur Inferenzzeit einen linearen Programmierungslöser nutzt, um die Gleichgewichtsstrategie zu berechnen.

Forschungshintergrund und Motivation

Problemhintergrund

  1. Kernproblem: Wie kann die Sicherheitsausrichtung von LLMs zur Inferenzzeit erreicht werden, während die Nützlichkeit gewährleistet und die Sicherheit beibehalten wird?
  2. Einschränkungen bestehender Methoden:
    • Trainingsmethoden (RLHF, SFT, DPO) sind kostspielig und unflexibel
    • Inferenzmethoden erfordern weiterhin Zugriff auf interne Modellstrukturen
    • Benutzerunfreundlich für Drittanbieter, besonders für ressourcenbegrenzte Organisationen

Forschungsmotivation

  • Praktischer Bedarf: In vielen realen Anwendungen werden LLMs als Black-Box-APIs bereitgestellt, und Benutzer können interne Parameter nicht ändern
  • Demokratisierungsbedarf: Bereitstellung zugänglicher Sicherheitsmechanismen für kleine und mittlere Unternehmen, nationale Institutionen und Entwicklungsländer
  • Flexibilitätsbedarf: Schnelle Anpassung an neue Sicherheitsanforderungen ohne Umschulung

Kernbeiträge

  1. Spieltheoretisches Framework: Erstmaliges Vorschlag eines Black-Box-Ausrichtungs-Frameworks, das die Sicherheits-Nützlichkeits-Abwägung als Zwei-Spieler-Nullsummenspiel modelliert
  2. Praktische Validierung: Demonstration einer Proof-of-Concept-Implementierung zur Realisierung von Gleichgewichtsverhalten unter Verwendung von linearen Programmierungslösern zur Inferenzzeit
  3. Leistungsverbesserung: Überlegenheit gegenüber bestehenden Methoden in 11 von 15 Testfällen über drei Hauptsicherheitsausrichtungs-Datensätze, mit Genauigkeitsverbesserungen bis zum Doppelten
  4. Theoretische Garantien: Bereitstellung von adaptiver Sicherheitsgarantie, die gewährleistet, dass die gewählte Strategie im schlimmsten Fall nicht schlechter ist als die Sicherheitsbaseline

Methodische Details

Aufgabendefinition

  • Eingabe: Multiple-Choice-QA-Szenario, wobei jede Anfrage x mit einer endlichen Antwortsatzmenge R = {r₁, r₂, ..., rₘ} verknüpft ist
  • Ausgabe: Wahrscheinlichkeitsverteilung π über Kandidatenantworten, die Nützlichkeit und Sicherheit ausbalanciert
  • Einschränkungen: Einschließlich sicherer Fallback-Antwort rₛ mit null Risiko, aber auch null Information

Modellarchitektur

1. Spieltheoretische Modellierung

Modellierung der Interaktion zwischen LLM (Spieler 1) und Benutzer (Spieler 2) als einstufiges Spiel mit unvollständiger Information:

  • Strategie von Spieler 1: Wahrscheinlichkeitsverteilung über Kandidateantworten
  • "Strategie" von Spieler 2: Potenzielles Benutzerverhalten nach Erhalt der Antwort (wohlwollende vs. böswillige Nutzung)

2. Bewertungsmechanismus

Verwendung zweier binärer Sonden zur Bewertung von Kandidatenantworten:

  • Nützlichkeitssonde φH(x,r): "Ist diese Antwort nützlich?"
  • Sicherheitssonde φS(x,r): "Ist diese Antwort schädlich?"

Bewertungsberechnung:

hᵢ := logP(yᵢᴴ, nᵢᴴ), sᵢ := logP(yᵢˢ, nᵢˢ)
Mᵢ := hᵢ - hₛ, Δᵢ := sᵢ - sₛ

3. Beschränktes Optimierungsproblem

Kernoptimierungsziel:

max π∈Δᵐ Σᵢ πᵢMᵢ  s.t.  Σᵢ πᵢΔᵢ ≤ T

4. Begrenzte Multiplikator-Rekonstruktion

Einführung einer Sigmoid-Strafunktion zur Vermeidung von Grenzempfindlichkeit:

max π min λ Σᵢ πᵢMᵢ - λσ(κ[Σᵢ πᵢΔᵢ - T])

Technische Innovationen

  1. Black-Box-Betrieb: Vollständig auf Eingabe-Ausgabe-Basis, kein Zugriff auf Modellinnere erforderlich
  2. Spieltheoretische Garantien: Bereitstellung theoretischer Sicherheitsgarantien, ähnlich der adaptiven Sicherheit in Spielen mit unvollständiger Information
  3. Glatte Bestrafung: Verwendung von Sigmoid-Funktion statt linearer Bestrafung zur Vermeidung von Grenzüberlastungsproblemen
  4. Verzweigte Zerlegung: Zerlegung des Entscheidungsprozesses in Nützlichkeitsmuster und Sicherheitsausführungsmodus

Experimentelle Einrichtung

Datensätze

  1. HHH (Helpful, Honest, Harmless): 200 Multiple-Choice-Fragen, Messung der LM-Ausrichtung mit hochrangigen Qualitätsleitprinzipien
  2. TruthfulQA: 817 Fragen, die Bereiche abdecken, in denen Menschen häufig aufgrund von Missverständnissen falsch antworten
  3. SafetyBench: Englischer Testsatz, enthält sicherheitskritische Multiple-Choice-Benchmarks mit gefährlichen und grenzwertigen Themen

Bewertungsmetriken

  • HHH: Genauigkeit (%)
  • TruthfulQA: BLEU-Genauigkeit (BLEU-Acc)
  • SafetyBench: Genauigkeit (%)

Vergleichsmethoden

Ranking-Methoden aus der Consensus-Game-Literatur:

  • G (Generative Ranking): Ranking nach pθ(y|x)
  • D (Discriminative Ranking): Ranking nach gelerntem pφ(correct|x,y)
  • MI (Mutual Information Style): pθ(y|x)·pθ(correct|x,y)
  • SC (Self-Contrast): Neugewichtung durch normalisierte Generator-Korrektheitsposterior
  • ER-G/ER-D: Equilibrium-Ranking-Varianten, die Generator-/Diskriminator-Ansichten kombinieren

Implementierungsdetails

  • Modelle: LLaMA-2-7B/13B, Llama-3.1-8B, Llama-3.2-1B, GPT-OSS-20B
  • Hyperparameter: β=10, T=1.0, κ=30 (Sigmoid-Variante)
  • Kandidatengenerierung: MCQ mit Optionen, TruthfulQA generiert k=10 Kandidaten

Experimentelle Ergebnisse

Hauptergebnisse

DatensatzSG übertrifft Baseline für ModelleBeste Leistungsverbesserung
HHH3/5Gleichstand mit Beste (71,5%)
TruthfulQA5/5Umfassende Überlegenheit, signifikante Verbesserung
SafetyBench4/5+9-15 Prozentpunkte

Schlüsselfunde:

  • 11 von 15 Testfällen übertreffen die Baseline
  • Beste Leistung auf SafetyBench (größter Datensatz)
  • Konsistente Überlegenheit gegenüber anderen Methoden auf GPT-OSS-20B (fortgeschrittenstes Inferenzmodell)

Ablationsstudien

  1. Strafunktionsvergleich: Lineare Bestrafung verbessert Genauigkeit bei beiden Skalierungen, Sigmoid zeigt schlechte Leistung bei 1B-Modell, aber leichte Verbesserung bei 8B-Modell
  2. Sicherheitstoleranz-Sensitivität: T=1.0 zeigt konsistent beste Leistung mit geringeren Genauigkeitsschwankungen
  3. Beta-Sensitivität: β hat geringen Einfluss auf BLEU-Acc, kleinere Modelle profitieren nicht von größerer Kapazität
  4. Sicherheitskandidaten-Ablation: Einbeziehung expliziter Sicherheitsbaseline verbessert Genauigkeit leicht und erhält duale Aktivität

Belohnungsmodell-Bewertung

Verwendung von QRM (Quantized Reward Model) zur Bewertung von Antworten auf 19 Ziele wie Nützlichkeit, Wahrhaftigkeit, Sicherheit:

  • SG (Sigmoid) konzentriert sich um HHH-Referenzmittelwert
  • Zeigt positive Schiefe, unterdrückt signifikant negative linke Schwänze

Verwandte Arbeiten

Trainingszeit vs. Inferenzzeit-Methoden

  • Trainingszeit: SFT, RLHF, DPO usw. integrieren menschliche Präferenzen in Modellparameter
  • Inferenzzeit: InferAligner, InferenceGuard usw. passen Verhalten während der Dekodierung an

Spieltheoretische Ausrichtungs-Frameworks

  • KI-Sicherheitsdebatte: Zwei Modelle argumentieren gegensätzliche Positionen
  • Consensus Game: Modellierung der Generierung als unvollständiges Informationssignalspiel zwischen Generator und Diskriminator
  • Nash-Lernen: Rahmenwerk der Präferenzlernens in spieltheoretischen Begriffen

Extensive Form und Spiele mit unvollständiger Information

  • CFR (Counterfactual Regret Minimization) und PSRO (Policy Space Response Oracle) Algorithmen
  • Adaptive Sicherheitskonzept: Einschränkung adaptiver Strategien, um nicht leichter ausgenutzt zu werden als Referenz bei Ausbeutung des Gegners

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. Nachweis der Machbarkeit der Sicherheitsausrichtung für Black-Box-LLM-Agenten
  2. Spieltheoretisches Framework bietet prinzipielle Lösung für Sicherheits-Nützlichkeits-Abwägung
  3. Integration von LP-Lösern zur Inferenzzeit ermöglicht effektive Gleichgewichtsberechnung

Einschränkungen

  1. Diskreter Aktionsraum: Beschränkung auf Multiple-Choice-QA-Einstellung, keine offene Generierung
  2. Sonden-Abhängigkeit: Abhängigkeit von der Qualität von Nützlichkeits- und Sicherheitssonden
  3. Rechenlast: LP-Lösung bei jedem Inferenzschritt erforderlich, kann Antwortgeschwindigkeit beeinflussen

Zukünftige Richtungen

  1. Erweiterung auf Sequenzdialoge: Behandlung der Sicherheitsausrichtung in mehrrundigen Gesprächen
  2. Offene Generierung: Lockerung der Annahme diskreter bekannter Aktionsräume
  3. Dynamische Sicherheitsstandards: Anpassung an sich ändernde Sicherheitsanforderungen

Tiefgreifende Bewertung

Stärken

  1. Praktischer Wert: Löst dringende Anforderung der Black-Box-LLM-Sicherheitsausrichtung in der Praxis
  2. Theoretische Grundlage: Solide spieltheoretische Grundlage mit Sicherheitsgarantien
  3. Umfassende Experimente: Vollständige Bewertung über mehrere Benchmark-Datensätze
  4. Methodische Innovation: Erstmalige Anwendung des adaptiven Sicherheitskonzepts auf Sprachmodell-Ausrichtung

Mängel

  1. Szenario-Beschränkung: Validierung nur in Multiple-Choice-QA-Szenario, Generalisierbarkeit zu überprüfen
  2. Sonden-Design: Design von Nützlichkeits- und Sicherheitssonden kann Ergebnisse beeinflussen
  3. Rechnereffizienz: Rechenlast von LP-Lösung zur Inferenzzeit nicht ausreichend diskutiert
  4. Gegnerische Robustheit: Berücksichtigung möglicher Angriffsstrategien böswilliger Benutzer fehlt

Auswirkungen

  1. Akademischer Beitrag: Eröffnet neue Richtung für Inferenzzeit-Sicherheitsausrichtung
  2. Praktischer Wert: Bietet machbare Sicherheitslösung für ressourcenbegrenzte Organisationen
  3. Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Algorithmusbeschreibung

Anwendungsszenarien

  • Sicherheitsverbesserung für Drittanbieter-LLM-API-Benutzer
  • Schnelle Sicherheitsbereitstellung für ressourcenbegrenzte Organisationen
  • Anwendungsszenarien, die flexible Anpassung von Sicherheitsstandards erfordern
  • Sicherheitsoptimierung für Multiple-Choice-Entscheidungssysteme

Referenzen

Das Papier zitiert umfangreiche verwandte Arbeiten, einschließlich:

  • Askell et al. (2021): HHH-Bewertungs-Framework
  • Jacob et al. (2024): Consensus-Game-Methode
  • Zhang et al. (2023): SafetyBench-Benchmark
  • Ge et al. (2024): Theoretische Grundlagen der adaptiven Sicherheit