2025-11-23T21:58:17.757337

Towards Richer Challenge Problems for Scientific Computing Correctness

Sottile, Tekriwal, Sarracino

Correctness in scientific computing (SC) is gaining increasing attention in the formal methods (FM) and programming languages (PL) community. Existing PL/FM verification techniques struggle with the complexities of realistic SC applications. Part of the problem is a lack of a common understanding between the SC and PL/FM communities of machine-verifiable correctness challenges and dimensions of correctness in SC applications. To address this gap, we call for specialized challenge problems to inform the development and evaluation of FM/PL verification techniques for correctness in SC. These specialized challenges are intended to augment existing problems studied by FM/PL researchers for general programs to ensure the needs of SC applications can be met. We propose several dimensions of correctness relevant to scientific computing, and discuss some guidelines and criteria for designing challenge problems to evaluate correctness in scientific computing.

academic

Vers des Problèmes de Défi Plus Riches pour la Correction du Calcul Scientifique

Informations Fondamentales

ID de l'article: 2510.13423
Titre: Towards Richer Challenge Problems for Scientific Computing Correctness
Auteurs: Matthew Sottile, Mohit Tekriwal, John Sarracino (Lawrence Livermore National Laboratory)
Classification: cs.SE cs.MS
Conférence de publication: International Workshop on Verification of Scientific Software (VSS 2025), EPTCS 432
Lien de l'article: https://arxiv.org/abs/2510.13423

Résumé

La correction du calcul scientifique (SC) a reçu une attention croissante de la part des communautés des méthodes formelles (FM) et des langages de programmation (PL). Les techniques de vérification PL/FM existantes rencontrent des difficultés pour traiter la complexité des applications de calcul scientifique réalistes. Une partie du problème réside dans l'absence de compréhension commune entre les communautés SC et PL/FM concernant les défis de correction vérifiables par machine et les dimensions de la correction dans les applications SC. Pour combler cette lacune, les auteurs appellent à l'établissement de problèmes de défi spécialisés pour guider le développement et l'évaluation des techniques de vérification FM/PL en SC. Ces défis spécialisés visent à enrichir les problèmes de programme générique existants étudiés par les chercheurs FM/PL, afin de garantir la satisfaction des besoins des applications SC.

Contexte de Recherche et Motivation

Problèmes à Résoudre

Lacune de compréhension entre communautés: Absence de compréhension commune entre la communauté du calcul scientifique et celle des méthodes formelles/langages de programmation concernant les défis de correction
Limitations des techniques de vérification existantes: Les techniques de vérification PL/FM existantes ont du mal à traiter la complexité des applications de calcul scientifique réalistes
Insuffisance des problèmes de défi: Absence d'ensemble standardisé de problèmes de défi spécialisés pour la correction du calcul scientifique

Importance du Problème

Les applications de calcul scientifique impliquent des calculs numériques complexes, du traitement parallèle, de la modélisation physique et plusieurs autres niveaux, dont la correction affecte directement la fiabilité des résultats de recherche scientifique. Les méthodes traditionnelles de vérification logicielle ne couvrent souvent pas adéquatement les besoins de correction spécifiques au calcul scientifique.

Limitations des Approches Existantes

Les problèmes de défi de vérification formelle existants ciblent principalement les programmes génériques, manquant de la complexité spécifique au calcul scientifique
Bien que la communauté de vérification numérique ait des travaux pertinents, elle manque d'un ensemble unifié de problèmes de défi
Les suites de tests de référence existantes se concentrent principalement sur la performance plutôt que sur la correction

Motivation de la Recherche

S'inspirant du succès des suites de tests de performance en calcul haute performance (comme NAS Parallel Benchmarks, Mantevo, etc.), établir un cadre de problèmes de défi similaire pour la correction du calcul scientifique.

Contributions Principales

Proposition de six dimensions de la correction du calcul scientifique: Calcul numérique, structures de données, structures de modélisation de domaine, équations différentielles, concurrence et parallélisme, schémas d'approximation
Identification des pièges clés dans la conception des problèmes de défi: Surspécialisation, problèmes « jouets », négligence des particularités du calcul scientifique, etc.
Établissement de la distinction entre problèmes de défi et tests de référence: Les problèmes de défi définissent les objectifs et les critères d'évaluation, tandis que les tests de référence fournissent des mesures objectives
Fourniture de principes directeurs de conception: Considération de l'incertitude, séparation des mathématiques et de l'implémentation, permission des hypothèses non vérifiées, etc.

Détails Méthodologiques

Définition de la Tâche

Cet article est un document de position (position paper) visant à établir un cadre de problèmes de défi compréhensif pour la correction du calcul scientifique, plutôt que de proposer des méthodes techniques spécifiques.

Conception du Cadre

Classification des Dimensions de Correction

Les auteurs divisent la correction du calcul scientifique en trois niveaux d'abstraction:

Niveau bas: Calcul numérique, structures de données traditionnelles
Niveau intermédiaire: Structures de données et calculs spécifiques au modèle
Niveau élevé: Abstractions mathématiques, invariants des systèmes physiques

Six Dimensions Fondamentales

Calcul Numérique (Numerics)
- Correspondance correcte entre opérations mathématiques et implémentations matériel/logiciel
- Problèmes de précision des opérations en virgule flottante
- Défis des algorithmes en précision mixte
Structures de Données (Data Structures)
- Correction des structures de données standard
- Transformations structurelles dues à l'optimisation de performance (par exemple, conversion SOA vers AOS)
- Garantie d'équivalence sémantique
Structures de Modélisation de Domaine (Domain-modeling Structures)
- Structures de données complexes telles que mailles et graphes
- Satisfaction des contraintes des systèmes physiques
- Lois de conservation et autres invariants de haut niveau
Équations Différentielles (Differential Equations)
- Cohérence entre EDP et modélisation physique
- Stabilité numérique, compatibilité des conditions aux limites
- Caractère bien posé (well-posedness)
Concurrence et Parallélisme (Concurrency and Parallelism)
- Combinaison de multiples modèles de programmation parallèle
- Parallélisme en mémoire partagée, vectorisation, parallélisme en mémoire distribuée
- Équilibre entre performance et correction
Schémas d'Approximation (Approximation Schemes)
- Méthodes heuristiques algorithmiques
- Méthodes d'interpolation
- Distinction par rapport aux méthodes numériques

Points d'Innovation Technique

Intégration multi-niveaux d'abstraction: Première formalisation systématique de la correction du calcul scientifique, des détails d'implémentation bas niveau aux contraintes physiques de haut niveau
Rôle de pont communautaire: Établissement d'un langage commun entre la communauté des méthodes formelles et celle du calcul scientifique
Orientation pratique: Éviter la théorisation excessive, se concentrer sur les besoins de correction dans les applications réelles

Configuration Expérimentale

En tant que document de position, cet article ne contient pas de configuration expérimentale traditionnelle, mais soutient ses arguments par l'analyse des suites de tests de référence et des problèmes de défi existants.

Objets d'Analyse

Tests de performance: NAS Parallel Benchmarks, Mantevo, Salishan problems, Shonan challenge
Défis de correction: VerifyThis, NSV-3 benchmarks, Gallery of Verified Programs
Tests spécialisés: FPbench, DataRaceBench, SPEC

Critères d'Évaluation

Les auteurs proposent les caractéristiques que les problèmes de défi devraient posséder:

Couverture de multiples dimensions de correction
Éviter la surspécialisation
Pertinence réaliste
Attention aux besoins spécifiques du calcul scientifique

Résultats Expérimentaux

Analyse de l'État Actuel

Les auteurs découvrent que les problèmes de défi existants présentent les insuffisances suivantes:

Couverture insuffisante: Manque de catégories d'algorithmes complexes telles que les algorithmes de graphes et les représentations de matrices creuses
Structures de données simples: Couverture insuffisante des représentations complexes de matrices creuses au-delà du CSR basique
Domaines mathématiques incomplets: Couverture insuffisante des domaines mathématiques fondamentaux

Cas de Succès à Apprendre

Évolution des tests de performance:

Linpack → Livermore Loops → NAS Parallel Benchmarks → Mantevo
Augmentation progressive de la complexité, de l'algèbre linéaire simple au code d'application complet
Extension des métriques d'évaluation de la simple performance à la correction et à la scalabilité

Travaux Connexes

Développement des Tests de Performance

Tests précoces: Linpack se concentre sur la performance des opérations en virgule flottante
Noyaux de boucles: Livermore Loops teste des motifs de calcul spécifiques
Tests parallèles: NAS Parallel Benchmarks introduit les considérations de parallélisme
Orientation applicative: Mantevo fournit des mini-applications proches des applications réelles

Défis de Vérification de Correction

Vérification générique: Les compétitions VerifyThis fournissent des défis fondamentaux
Vérification numérique: coq-num-analysis, Mathematical Components Library
Domaines spécialisés: FPbench (virgule flottante), DataRaceBench (conditions de course)

Vérification et Validation (V&V)

Les principes directeurs ASME V&V fournissent des normes de vérification et validation pour les disciplines d'ingénierie
Distinction entre les problèmes de vérification (verification) et de validation (validation)

Conclusions et Discussion

Conclusions Principales

La correction du calcul scientifique nécessite des problèmes de défi spécialisés pour guider le développement des méthodes formelles
Les problèmes de défi doivent traverser les niveaux d'abstraction informatique, intégrant les détails d'implémentation bas niveau et les contraintes de domaine de haut niveau
Il est nécessaire d'éviter la surspécialisation et les problèmes « jouets », en se concentrant sur la pertinence des applications réelles

Limitations

Nature théorique: En tant que document de position, il manque d'exemples concrets de problèmes de défi
Complexité de mise en œuvre: L'établissement d'un ensemble compréhensif de problèmes de défi nécessite une collaboration interdisciplinaire
Critères d'évaluation: Comment évaluer objectivement la qualité des problèmes de défi reste à étudier davantage

Directions Futures

Collaboration avec des experts en calcul scientifique et méthodes formelles pour concevoir des problèmes de défi concrets
Établissement d'un cadre d'évaluation standardisé et de normes de mesure
Considération de l'intégration de la quantification de l'incertitude et de la modélisation statistique
Extension aux problèmes de vérification et validation (V&V)

Évaluation Approfondie

Points Forts

Identification précise du problème: Identification précise des défis clés de la vérification de la correction du calcul scientifique
Systématicité du cadre: Le cadre de dimensions de correction proposé possède une très bonne systématicité et complétude
Orientation pratique: Évite les discussions purement théoriques, se concentrant sur les besoins des applications réelles
Perspective interdisciplinaire: Connexion efficace entre les communautés des méthodes formelles et du calcul scientifique
Apprentissage historique: Extraction d'expériences précieuses de l'évolution historique des tests de performance

Insuffisances

Manque d'exemples concrets: Absence d'exemples spécifiques de problèmes de défi pour valider la faisabilité du cadre
Chemin de mise en œuvre peu clair: Manque de planification détaillée sur la transition du cadre théorique à un ensemble de problèmes de défi pratiques
Absence de mécanisme d'évaluation: Manque de mécanismes concrets pour évaluer la qualité et l'efficacité des problèmes de défi
Acceptation communautaire inconnue: Le degré d'acceptation et la volonté de participation des deux communautés envers ce cadre restent inconnus

Potentiel d'Impact

Valeur académique: Fourniture d'un cadre théorique important pour la recherche sur la correction du calcul scientifique
Potentiel pratique: Susceptible de promouvoir le développement de techniques de vérification formelle plus pratiques
Construction communautaire: Peut favoriser une collaboration approfondie entre les communautés du calcul scientifique et des méthodes formelles
Signification à long terme: Fourniture d'une nouvelle direction de recherche pour l'assurance qualité des logiciels de calcul scientifique

Scénarios d'Application

Orientation de recherche: Fourniture aux chercheurs en méthodes formelles de directions de recherche dans les applications de calcul scientifique
Développement d'outils: Orientation de la conception et de l'évaluation des outils de vérification du calcul scientifique
Formation et éducation: Fourniture d'un cadre systématique pour l'éducation à la correction du calcul scientifique
Élaboration de normes: Fourniture de références pour l'élaboration de normes de qualité des logiciels de calcul scientifique

Références Bibliographiques

L'article cite 26 références importantes, couvrant:

Tests de performance: NAS Parallel Benchmarks 7,8, Mantevo 11, Linpack 14
Vérification formelle: Gallery of Verified Programs 1,17, VerifyThis 20
Vérification numérique: coq-num-analysis 6, Mathematical Components 2
Tests spécialisés: FPbench 12, DataRaceBench 21, SPEC 13
Normes V&V: Principes directeurs ASME 18

Bien que cet article soit un document de position, il fournit un cadre théorique important et des directions de développement pour le domaine de la vérification de la correction du calcul scientifique. Son cadre de dimensions de correction à six niveaux et ses principes directeurs de conception sont d'une grande importance pour promouvoir le développement de ce domaine, mais nécessitent des travaux ultérieurs pour mettre en œuvre et valider ces idées de manière concrète.