2025-11-16T22:37:12.905987

Learning the Exact SABR Model

Rensi, Rossi, Bianchetti
The SABR model is a cornerstone of interest rate volatility modeling, but its practical application relies heavily on the analytical approximation by Hagan et al., whose accuracy deteriorates for high volatility, long maturities, and out-of-the-money options, admitting arbitrage. While machine learning approaches have been proposed to overcome these limitations, they have often been limited by simplified SABR dynamics or a lack of systematic validation against the full spectrum of market conditions. We develop a novel SABR DNN, a specialized Artificial Deep Neural Network (DNN) architecture that learns the true SABR stochastic dynamics using an unprecedented large training dataset (more than 200 million points) of interest rate Cap/Floor volatility surfaces, including very long maturities (30Y) and extreme strikes consistently with market quotations. Our dataset is obtained via high-precision unbiased Monte Carlo simulation of a special scaled shifted-SABR stochastic dynamics, which allows dimensional reduction without any loss of generality. Our SABR DNN provides arbitrage-free calibration of real market volatility surfaces and Caps/Floors prices for any maturity and strike with negligible computational effort and without retraining across business dates. Our results fully address the gaps in the previous machine learning SABR literature in a systematic and self-consistent way, and can be extended to cover any interest rate European options in different rate tenors and currencies, thus establishing a comprehensive functional SABR framework that can be adopted for daily trading and risk management activities.
academic

Erlernen des exakten SABR-Modells

Grundinformationen

  • Paper-ID: 2510.10343
  • Titel: Learning the Exact SABR Model
  • Autoren: Giorgia Rensi, Pietro Rossi, Marco Bianchetti
  • Klassifizierung: q-fin.CP (Computational Finance), q-fin.PR (Pricing of Securities), q-fin.RM (Risk Management)
  • Veröffentlichungsdatum: 14. Oktober 2025
  • Paper-Link: https://arxiv.org/abs/2510.10343

Zusammenfassung

Das SABR-Modell ist ein Grundpfeiler der Modellierung von Zinsvolatilität, aber seine praktische Anwendung hängt stark von der analytischen Näherungsformel von Hagan et al. ab, deren Genauigkeit bei hoher Volatilität, langen Laufzeiten und aus-dem-Geld-Optionen verschlechtert sich und sogar Arbitragemöglichkeiten entstehen können. Obwohl bereits maschinelle Lernmethoden versucht haben, diese Grenzen zu überwinden, sind sie oft auf vereinfachte SABR-Dynamiken beschränkt oder es fehlt eine systematische Validierung über alle Marktbedingungen. Diese Forschung entwickelt eine neuartige SABR-DNN-Architektur, die durch einen großen Trainingsdatensatz von über 200 Millionen Datenpunkten die echte stochastische SABR-Dynamik erlernt und Laufzeiten von bis zu 30 Jahren sowie extreme Ausübungspreise abdeckt. Das Verfahren bietet arbitragefreie Kalibrierung von Marktvolatilitätsflächen, ist äußerst recheneffizient und erfordert kein Neutraining.

Forschungshintergrund und Motivation

Problemhintergrund

  1. Bedeutung des SABR-Modells: Das SABR-Modell (Stochastic Alpha Beta Rho) ist das weltweit am weitesten verbreitete Zinsvolatilitätsmodell, besonders dominant bei der Preisgestaltung von Zinsoptionen. Nach BIS-Daten sind Zinsoptionen die meistgehandelten Optionstypen auf dem Markt (Handelsvolumen von 600 Milliarden US-Dollar in der zweiten Hälfte 2024).
  2. Einschränkungen der Hagan-Näherung:
    • Genauigkeit verschlechtert sich erheblich bei hoher Volatilität, langen Laufzeiten und aus-dem-Geld-Optionen
    • Kann negative Wahrscheinlichkeitsdichten erzeugen, was zu Arbitragemöglichkeiten führt
    • Kann komplexe Produkte, die von den Flügeln der Volatilitätslächeln abhängen, nicht genau bewerten
  3. Unzulänglichkeiten bestehender maschineller Lernmethoden:
    • Die meisten Studien berücksichtigen nur vereinfachte lognormale SABR-Modelle (β=1)
    • Trainingsdatensätze sind begrenzt und decken nicht alle Marktbedingungen ab
    • Es fehlt eine systematische Validierung mit echten Marktdaten
    • Unzureichende Nutzung der vollständigen shifted-SABR-Dynamik

Forschungsmotivation

Aufbau eines Deep-Neural-Network-Rahmens, der das "exakte" SABR-Modell erlernen kann, um die Grenzen analytischer Näherungen zu überwinden und hochpräzise, effiziente Preisgestaltungsinstrumente für den täglichen Handel und das Risikomanagement bereitzustellen.

Kernbeiträge

  1. Konstruktion eines massiven Trainingsdatensatzes: Generierung von über 200 Millionen Datenpunkten von Zinsvolatilitätsflächen, die 30 Jahre Laufzeit und extreme Ausübungspreise (-1,5% bis 10%) abdecken
  2. Entwicklung einer speziellen SABR-DNN-Architektur: Entwurf von drei Deep-Neural-Networks für kurz-, mittel- und langfristige Perioden, die die vollständige shifted-SABR-Stochastik-Dynamik erlernen können
  3. Implementierung der Dimensionsreduktion: Realisierung der Dimensionsreduktion des Parameterraums durch das skalierte shifted-SABR-Modell, ohne Allgemeingültigkeit zu verlieren und die Trainingseffizienz zu verbessern
  4. Bereitstellung arbitragefreier Preisgestaltung: Realisierung arbitragefreier Kalibrierung echter Marktvolatilitätsflächen ohne Neutraining für verschiedene Handelstage
  5. Systematische Benchmarking: Erste umfassende Genauigkeitsbewertung der neuesten Version der Hagan-Näherungsformel, Quantifizierung von Fehlern in verschiedenen Marktregionen

Methodische Erläuterung

Aufgabendefinition

Eingabe: SABR-Modellparameter θ_SABR = {α̂, β, ρ, ν} und Kontraktparameter θ_CF = {T, K̂} Ausgabe: shifted-Black implizite Volatilität σ_DNN Ziel: Erlernen der Abbildungsbeziehung (θ_SABR, θ_CF) → σ_MC, sodass die DNN-Ausgabe die Ergebnisse der Monte-Carlo-Simulation approximiert

Modellarchitektur

1. Skalierte Shifted-SABR-Dynamik

Zur Reduzierung der Parameterdimension wird ein Normalisierungsprozess eingeführt:

X(t) = F̄(t)/F̄₀
dX(t) = σ̂(t)X^β(t)dW(t), X(0) = 1
dσ̂(t) = νσ̂(t)dZ(t), σ̂(0) = αF̂₀^(β-1)

2. Dreischichtige DNN-Architektur

  • Eingabeschicht: 6 Knoten empfangen {α̂, β, ρ, ν, T, K̂}
  • Verborgene Schichten: 5 Schichten mit je 64 Knoten, ELU-Aktivierungsfunktion
  • Ausgabeschicht: 1 Knoten gibt implizite Volatilität aus, lineare Aktivierungsfunktion
  • Optimierer: ADAM, maximal 500 Epochen, Early-Stopping-Mechanismus

3. Schichtweise Trainingsstrategie

Aufteilung des Laufzeitbereichs in drei Teilmengen:

  • DNN 1: Kurzfristig [0,25, 4 Jahre)
  • DNN 2: Mittelfristig [4, 10,5 Jahre)
  • DNN 3: Langfristig 10,5, 30 Jahre

Technische Innovationen

  1. Vollständige SABR-Dynamik: β-Parameter wird nicht fixiert, Modellflexibilität bleibt erhalten
  2. Hochpräzise Monte Carlo: Verwendung unverzerrter Monte-Carlo-Simulation zur Generierung von Referenzdaten, Vermeidung analytischer Näherungsfehler
  3. Intelligente Datenprobenahme: Lateinische Hyperwürfel-Probenahme gewährleistet vollständige Abdeckung des Parameterraums
  4. Fehlerfilterungsmechanismus: DNN fungiert als Filter, extrahiert echte Informationen und verwirft Monte-Carlo-Rauschen

Experimentelle Einrichtung

Datensatz

  • Trainingssatz: 1.572.864 zufällige Gitterflächen, insgesamt etwa 2,39 Milliarden Volatilitätspunkte
  • Validierungssatz: 20% des Trainingssatzes (etwa 47,7 Millionen Punkte)
  • Testsatz: Unabhängig generierte 40.960 Stichprobenpunkte
  • Parameterbereiche:
    • F₀: 0,25%, 5%
    • α: 0,001, 0,2
    • β: 0,05, 0,9
    • ρ: -0,8, 0,6
    • ν: 0,05, 1,6

Bewertungsmetriken

  • RMSE: Wurzel des mittleren quadratischen Fehlers
  • Relativer Fehler: |Δσ| = |σ_DNN - σ_MC|
  • RMSD: Relative quadratische Mitteldistanz
  • ARD: Absolute relative Differenz

Vergleichsmethoden

  • SABR Hagan: Verwendung der neuesten Version der analytischen Näherung von Hagan et al.
  • MC SABR: Hochpräzise Monte-Carlo-Simulation als Referenz

Implementierungsdetails

  • Rechenressourcen: 25.000-30.000 CPU-Stunden, 256 CPUs parallel
  • Trainingszeit: Etwa 5 GPU-Stunden pro DNN (einschließlich Hyperparameter-Optimierung)
  • Monte-Carlo-Einstellung: 2^18 Pfade, Zeitschritte 0,5-3 Tage

Experimentelle Ergebnisse

Hauptergebnisse

1. DNN-Trainingsleistung

MetrikTrainingssatzTestsatz
RMSE0,28%0,25%
|Δσ| > 1%1%-
|Δσ| > 5%0,26%-

2. Genauigkeit der Marktkalibrierung im Vergleich

Beispiel mit EUR Cap/Floor-Marktdaten vom 30. August 2024:

Kurzfristig (1,5 Jahre):

  • SABR DNN und MC SABR DNN sind nahezu identisch
  • SABR Hagan und MC SABR Hagan zeigen geringfügige Unterschiede

Langfristig (30 Jahre):

  • SABR DNN behält hohe Genauigkeit bei, RMSD < 1%
  • SABR Hagan-Fehler nehmen erheblich zu, RMSD > 5% bei niedrigsten Ausübungspreisen

3. Genauigkeitsverschlechterungsanalyse

Relativer Fehler der Hagan-Näherung variiert mit Laufzeit und Ausübungspreis:

  • Laufzeiteffekt: 30-Jahres-Optionen haben etwa 10-mal höhere Fehler als 1,5-Jahres-Optionen
  • Ausübungspreis-Effekt: Maximaler Fehler bei niedrigsten Ausübungspreisen (-1,5%), erreicht 10%
  • SABR DNN: Behält stabilen Fehler < 2% in allen Bereichen

Ablationsstudien

  1. Netzwerktiefe-Auswirkung: Reduzierung der verborgenen Schichten führt zu Leistungsabfall, Erhöhung zeigt abnehmende Erträge
  2. Datensatzgröße: Größere Datensätze verbessern die Filterung von Rausch-Daten
  3. Parameterbereiche: Iterativ optimierte Parameterbereiche gewährleisten Stabilitäten der Kalibrierungsergebnisse

Rechenleistung

  • Offline-Phase: Datengenerierung und Training erfordern erhebliche Rechenressourcen (einmalig)
  • Online-Phase: Einzelne Smile-Kalibrierung < 1 Sekunde, äußerst recheneffizient
  • Kein Neutraining erforderlich: Dasselbe DNN kann Marktdaten verschiedener Handelstage verarbeiten

Verwandte Arbeiten

Traditionelle SABR-Methoden

  • Hagan et al. (2002): Ursprüngliches SABR-Modell und analytische Näherung
  • Hagan et al. (2016): Shifted-SABR-Erweiterung zur Behandlung negativer Zinssätze

Maschinelle-Lernmethoden für SABR

  • McGhee (2021): Erste Anwendung neuronaler Netze auf SABR, begrenzt auf β=1
  • Jeon et al. (2022): GPU-beschleunigte Monte-Carlo-Datengenerierung
  • Funahashi (2023): Kontrollvariablen-Methode zur Trainingsverbesserung
  • Hoshisashi et al. (2024): Ableitungsbeschränkte neuronale Netze für Arbitragefreiheit

Vorteile dieses Papiers

  1. Vollständigkeit: Berücksichtigung der vollständigen shifted-SABR-Dynamik ohne β-Vereinfachung
  2. Skalierung: Trainingsdatensatzgröße übersteigt frühere Forschung um mehrere Größenordnungen
  3. Praktikalität: Direkte Anwendung auf echte Marktdaten und Handelspraxis
  4. Systematik: Bereitstellung einer vollständigen End-to-End-Lösung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Technische Machbarkeit: Deep Neural Networks können komplexe SABR-Stochastik-Dynamik erfolgreich erlernen
  2. Genauigkeitsvorteil: Signifikante Überlegenheit gegenüber analytischen Näherungen bei langen Laufzeiten und extremen Ausübungspreisen
  3. Praktischer Wert: Erfüllt Anforderungen an Genauigkeit und Effizienz für täglichen Handel und Risikomanagement
  4. Robustheit: Einmalig trainiertes Modell passt sich verschiedenen Marktumgebungen an

Einschränkungen

  1. Rechenkosten: Anfängliche Datengenerierung und Training erfordern erhebliche Rechenressourcen
  2. Marktabdeckung: Derzeit nur auf EUR Cap/Floor-Markt angewendet, Erweiterung auf andere Produkte erforderlich
  3. Marktinstitutionen: Größere Marktveränderungen könnten Neutraining erforderlich machen
  4. Modellrisiko: "Black-Box"-Natur neuronaler Netze könnte Modellrisiken mit sich bringen

Zukünftige Richtungen

  1. Produkterweiterung: Erweiterung auf Swaption-Würfel und Overnight-Rate-Produkte
  2. Mehrwährungen: Abdeckung anderer Hauptwährungsmärkte wie USD, GBP
  3. Netzwerk-Optimierung: Erkundung fortgeschrittener Netzwerk-Architekturen und Trainingsstrategien
  4. Risikoapplikationen: Anwendungen in historischem VaR und Stresstests

Tiefgreifende Bewertung

Stärken

  1. Hohe Innovativität: Erste Umsetzung großflächigen maschinellen Lernens für das vollständige SABR-Modell, neuartige technische Route
  2. Hoher praktischer Wert: Direkte Lösung von Kernproblemen in der Finanzpraxis mit klaren kommerziellen Anwendungsaussichten
  3. Umfassende Experimente: Massiver Datensatz und umfassendes Benchmarking gewährleisten Zuverlässigkeit der Ergebnisse
  4. Klare Darstellung: Detaillierte technische Details, starke Reproduzierbarkeit

Schwächen

  1. Generalisierungsfähigkeit: Nur auf EUR-Markt validiert, Anwendbarkeit auf anderen Märkten unklar
  2. Theoretische Analyse: Fehlende theoretische Analyse der Approximationsfehler neuronaler Netze
  3. Extreme Fälle: Unzureichende Analyse der Robustheit unter extremen Marktvolatilitäten
  4. Rechenschwelle: Hohe Rechenkosten könnten Anwendung in kleineren Institutionen begrenzen

Einflussfähigkeit

  1. Akademischer Beitrag: Wichtiges Beispiel für die Schnittstelle zwischen Computational Finance und maschinellem Lernen
  2. Brancheneinfluß: Könnte Branchenstandards bei der Preisgestaltung von Zinsderivaten verändern
  3. Methodologie: Bietet Ansätze für maschinelles Lernen bei anderen komplexen Finanzmodellen

Anwendungsszenarien

  1. Große Investmentbanken: Institutionen mit ausreichenden Rechenressourcen können direkt anwenden
  2. Risikomanagement: Szenarien mit hohen Anforderungen an präzise Preisgestaltung
  3. Algorithmischer Handel: Hochfrequenz-Handelsumgebungen mit extremen Effizienzanforderungen
  4. Akademische Forschung: Als Referenzmodell für weitere methodologische Forschung

Literaturverzeichnis

  1. Hagan, P. et al. (2002). Managing Smile Risk. Wilmott Magazine.
  2. Hagan, P. et al. (2016). Universal Smiles. Wilmott.
  3. McGhee, W. A. (2021). An artificial neural network representation of the SABR stochastic volatility model. Journal of Computational Finance.
  4. Baschetti, F. et al. (2024). Deep calibration with random grids. Quantitative Finance.

Gesamtbewertung: Dies ist eine hochwertige Forschungsarbeit mit wichtigem praktischem Wert im Bereich Computational Finance. Die Autoren lösen systematisch Schlüsseltechnische Probleme bei der Anwendung des SABR-Modells und bieten eine vollständige End-to-End-Lösung. Trotz Einschränkungen wie hoher Rechenkosten und zu validierender Generalisierungsfähigkeit machen technische Innovation und praktischer Wert dies zu einem wichtigen Beitrag in diesem Bereich.