This research aims to explore the intersection of Large Language Models and confidence calibration in Entity Matching. To this end, we perform an empirical study to compare baseline RoBERTa confidences for an Entity Matching task against confidences that are calibrated using Temperature Scaling, Monte Carlo Dropout and Ensembles. We use the Abt-Buy, DBLP-ACM, iTunes-Amazon and Company datasets. The findings indicate that the proposed modified RoBERTa model exhibits a slight overconfidence, with Expected Calibration Error scores ranging from 0.0043 to 0.0552 across datasets. We find that this overconfidence can be mitigated using Temperature Scaling, reducing Expected Calibration Error scores by up to 23.83%.
Calibrazione della Confidenza nell'Abbinamento di Entità Basato su Modelli Linguistici di Grandi Dimensioni
- ID Articolo: 2509.19557
- Titolo: Confidence Calibration in Large Language Model-Based Entity Matching
- Autori: Iris Kamsteeg, Juan Cardenas-Cartagena, Floris van Beers, Gineke ten Holt, Tsegaye Misikir Tashu, Matias Valdenegro-Toro
- Classificazione: cs.CL cs.LG
- Data di Pubblicazione: 15 ottobre 2025 (arXiv v2)
- Istituzioni: Bernoulli Institute, University of Groningen, The Netherlands; Independent Researcher
- Link dell'Articolo: https://arxiv.org/abs/2509.19557
Questo studio esplora l'intersezione tra modelli linguistici di grandi dimensioni e la calibrazione della confidenza nell'abbinamento di entità. Attraverso uno studio empirico, confrontiamo la confidenza di base di RoBERTa nel compito di abbinamento di entità con la confidenza calibrata utilizzando temperature scaling, Monte Carlo Dropout e metodi di ensemble. Gli esperimenti sono condotti sui dataset Abt-Buy, DBLP-ACM, iTunes-Amazon e Company. I risultati mostrano che il modello RoBERTa migliorato presenta una leggera sovrafiducia, con l'errore di calibrazione atteso (ECE) che varia da 0,0043 a 0,0552 tra i diversi dataset. Lo studio scopre che l'utilizzo del temperature scaling può mitigare questa sovrafiducia, riducendo i punteggi ECE fino al 23,83%.
L'abbinamento di entità (Entity Matching, EM) è un sottotask cruciale della risoluzione di entità, che mira a determinare se coppie di voci di dati provenienti da diverse fonti di dati si riferiscono alla stessa entità del mondo reale. Si tratta di un problema di classificazione binaria che richiede di giudicare se le coppie di entità sono "abbinate" o "non abbinate".
- Valore Applicativo Multidisciplinare: Nel settore medico può migliorare l'assistenza ai pazienti, nella ricostruzione storica della popolazione può collegare registri di nascite, matrimoni e decessi, nell'applicazione della legge è cruciale per le indagini e la prevenzione dei crimini
- Necessità di Trasparenza: I modelli, oltre a fornire risultati di previsione, devono fornire punteggi di confidenza affidabili affinché gli utenti comprendano l'affidabilità del modello
- Guida per Compiti Successivi: I punteggi di confidenza precisi possono guidare le decisioni nei compiti successivi
- Problema di Sovrafiducia: I modelli linguistici di grandi dimensioni moderni mostrano sovrafiducia in altri compiti NLP, avendo difficoltà a esprimere accuratamente l'incertezza delle previsioni
- Lacuna nella Ricerca: Sebbene la ricerca sulla calibrazione della confidenza nei modelli LLM sia stata condotta, l'applicazione nel dominio dell'abbinamento di entità non è stata ancora sufficientemente esplorata
- Mancanza di Valutazione Sistematica: Manca uno studio comparativo sistematico dei metodi di calibrazione della confidenza per il compito di abbinamento di entità
Fornire trasparenza nelle previsioni del modello, aiutare a comprendere il meccanismo interno del modello, identificare i punti deboli del modello e migliorare le prestazioni. Quando si sa esplicitamente in quali situazioni specifiche il modello è incerto, è più facile scoprire direzioni di miglioramento.
- Primo Studio Sistematico: Primo studio sistematico della calibrazione della confidenza nei modelli LLM nel dominio dell'abbinamento di entità
- Confronto di Metodi di Calibrazione Multipli: Confronto completo degli effetti di calibrazione della confidenza del temperature scaling, Monte Carlo Dropout e metodi di ensemble nell'abbinamento di entità
- Validazione su Dataset Multipli: Validazione dell'efficacia e della capacità di generalizzazione dei metodi su 6 dataset di diversi domini e strutture
- Guida Pratica: Fornisce raccomandazioni sulle migliori pratiche per la calibrazione della confidenza nelle applicazioni pratiche, in particolare i vantaggi del metodo di temperature scaling
- Input: Coppie di entità provenienti da diverse fonti di dati
- Output: Etichetta di classificazione binaria ("abbinata"/"non abbinata") e punteggio di confidenza corrispondente
- Obiettivo: Fare in modo che il punteggio di confidenza rifletta accuratamente la vera probabilità che la previsione sia corretta
- RoBERTa Pre-addestrato: Utilizzo del modello RoBERTa-base di HuggingFace come encoder
- Strato Completamente Connesso: Aggiunta di una rete completamente connessa a strato singolo dopo RoBERTa
- Strato di Output Sigmoid: Produce punteggi di confidenza tra 0 e 1
- Serializzazione dei Dati: Utilizzo del metodo di Li et al. (2020) per convertire dati strutturati in sequenze di testo
1. Temperature Scaling
- Applicazione di un parametro di temperatura T per scalare i logit dopo l'output Sigmoid
- Ottimizzazione del parametro di temperatura mediante ricerca a griglia sul set di validazione: T ∈ {0,1, 0,2, ..., 10,0}
- Selezione del valore di temperatura che minimizza l'ECE
- Vantaggi: leggero, facile da implementare, non modifica il punteggio F1
2. Monte Carlo Dropout
- Applicazione di dropout (probabilità p) allo strato completamente connesso durante l'inferenza
- Esecuzione di 10 propagazioni in avanti e media degli output
- Ricerca a griglia della probabilità di dropout ottimale: p ∈ {0,05, 0,10, ..., 0,95}
- Selezione del valore p che minimizza l'ECE mantenendo il punteggio F1 non decrescente
3. Metodo di Ensemble
- Addestramento di 5 strati completamente connessi con diverse inizializzazioni casuali
- Media degli output dei 5 modelli come previsione finale
- Applicazione dell'ensemble solo agli strati completamente connessi e Sigmoid per ridurre i costi computazionali
- Implementazione Leggera: Monte Carlo Dropout e metodi di ensemble applicati solo allo strato completamente connesso, minimizzando i costi computazionali
- Ottimizzazione Multi-Metrica: A seconda delle esigenze dell'applicazione, è possibile scegliere di ottimizzare ECE, MCE o RMSCE
- Verifica della Significatività Statistica: Utilizzo del test t accoppiato (temperature scaling, Monte Carlo Dropout) e test t non accoppiato (metodo di ensemble) per valutare la significatività dei miglioramenti
Utilizzo di 6 dataset di abbinamento di entità di diversi domini:
| Dataset | Dominio | Set di Addestramento | Set di Validazione | Set di Test |
|---|
| Abt-Buy | Prodotti | 5.743 (10,72%) | 1.916 (10,75%) | 1.916 (10,75%) |
| DBLP-ACM-S/D | Citazioni | 7.417 (17,96%) | 2.473 (17,96%) | 2.473 (17,96%) |
| iTunes-Amazon-S/D | Canzoni | 321 (24,30%) | 109 (27,78%) | 109 (27,78%) |
| Company | Aziende | 67.596 (24,94%) | 22.533 (25,30%) | 22.503 (25,06%) |
Nota: S/D indica versioni strutturate/sporche, le percentuali tra parentesi rappresentano la proporzione di campioni positivi
- Errore di Calibrazione Atteso (ECE): Metrica principale, misura la differenza media tra la probabilità di previsione e la probabilità empirica
- Errore di Calibrazione Massimo (MCE): Misura la deviazione nel caso peggiore, appropriato per applicazioni ad alto rischio
- Errore di Calibrazione Quadratico Medio (RMSCE): Enfatizza maggiormente l'impatto degli errori più grandi
- Punteggio F1: Assicura che i miglioramenti di calibrazione non avvengano a scapito delle prestazioni di classificazione
- Analisi Visiva: Istogrammi di confidenza e grafici di affidabilità
- Metodo di Base: Output Sigmoid di RoBERTa non calibrato
- Metodi di Calibrazione: Temperature scaling, Monte Carlo Dropout, metodo di ensemble
- Numero di Epoche: 40 (seguendo l'impostazione di Li et al. 2020)
- Selezione del Modello: Selezione del checkpoint con il punteggio F1 più alto sul set di validazione
- Ripetizione degli Esperimenti: Ogni esperimento viene ripetuto 5 volte e vengono riportate media e deviazione standard
- Numero di Bin: √|D| (dove D è la dimensione del dataset)
Il modello RoBERTa mostra una leggera sovrafiducia su tutti i dataset:
- Intervallo ECE: 0,0043-0,0552, il più basso sul dataset DBLP-ACM, il più alto sul dataset Company
- Distribuzione di Confidenza: Il modello tende a produrre probabilità di previsione estremamente alte o estremamente basse
- Prestazioni F1: Raggiunge oltre il 98% sul dataset DBLP-ACM, circa l'82% sul dataset Company
| Dataset | ECE di Base | ECE Temperature Scaling | ECE MC Dropout | ECE Ensemble |
|---|
| Abt-Buy | 0,0193±0,0018 | 0,0147±0,0017 | 0,0193±0,0016 | 0,0173±0,0005 |
| DBLP-ACM-S | 0,0041±0,0010 | 0,0036±0,0011 | 0,0038±0,0010 | 0,0057±0,0023 |
| Company | 0,0552±0,0099 | 0,0424±0,0102 | 0,0543±0,0085 | - |
Temperature Scaling Mostra le Migliori Prestazioni:
- Riduzione significativa dell'ECE del 23,83% sul dataset Abt-Buy
- Miglioramenti significativi su 4 dataset
- Non influisce sulle prestazioni del punteggio F1
- Valore di Temperatura Ottimale: Tipicamente maggiore di 1,0 (media 1,72±0,51), indicando che il modello di base è effettivamente sovrafiducioso
- Stabilità dei Parametri: Esiste un valore di temperatura ottimale chiaro per ogni dataset e esecuzione
- Intervallo di Probabilità Ottimale: Tra 0,5-1,0, con alcuni dataset che superano anche 0,8
- Problema di Generalizzazione: La probabilità di dropout ottimale varia notevolmente tra i diversi dataset, mancando di coerenza
Gli istogrammi di confidenza mostrano:
- Previsioni Corrette: Principalmente concentrate nell'intervallo di confidenza elevata
- Previsioni Errate: Distribuzione più dispersa, ma con una proporzione considerevole di previsioni errate ad alta confidenza
- Problema di Sovrapposizione: Esiste una sovrapposizione significativa tra le distribuzioni di confidenza delle previsioni corrette e errate, indicando una calibrazione insufficiente
- Sovrafiducia Universale: RoBERTa mostra diversi gradi di sovrafiducia su tutti i dataset
- Temperature Scaling Più Efficace: Rispetto ad altri metodi, il temperature scaling mostra le migliori prestazioni nel miglioramento dell'ECE
- Vantaggi di Efficienza Computazionale: Il temperature scaling ha il minor costo computazionale ed è facile da distribuire
- Mantenimento delle Prestazioni: I metodi di calibrazione fondamentalmente non influiscono sulle prestazioni di classificazione
- Modelli della Serie BERT: Brunner e Stockinger (2020) hanno scoperto che modelli come BERT e RoBERTa mostrano un miglioramento F1 del 35,9% rispetto ai metodi tradizionali
- Sistema DITTO: Li et al. (2020) sistema di abbinamento di entità che combina LLM con tecniche di ottimizzazione
- Modelli Decoder: Applicazioni di GPT-3, ChatGPT, GPT-4 nell'abbinamento di entità
- Scoperte Iniziali: Guo et al. (2017) hanno scoperto che le reti neurali moderne soffrono universalmente di problemi di calibrazione
- Ricerca su BERT/RoBERTa: Studi di calibrazione di Desai e Durrett (2020), Xiao et al. (2022) su molteplici compiti NLP
- Metodi di Calibrazione: Evoluzione del temperature scaling, Monte Carlo Dropout e metodi di ensemble
- Primo nel Dominio: Primo ad applicare sistematicamente la calibrazione della confidenza al compito di abbinamento di entità
- Confronto dei Metodi: Confronto completo dell'efficacia di molteplici metodi di calibrazione
- Guida Pratica: Fornisce raccomandazioni sulle migliori pratiche per le applicazioni pratiche
- Conferma della Sovrafiducia: RoBERTa mostra effettivamente problemi di sovrafiducia nel compito di abbinamento di entità, con punteggi ECE di 0,0043-0,0552
- Temperature Scaling Ottimale: Il temperature scaling è il metodo di calibrazione più efficace, riducendo i punteggi ECE fino al 23,83%
- Mantenimento delle Prestazioni: La calibrazione della confidenza non danneggia le prestazioni di classificazione
- Forte Praticità: Il metodo di temperature scaling è semplice da implementare ed è adatto per la distribuzione pratica
- Limitazioni della Dimensione del Modello: La ricerca si concentra su modelli RoBERTa relativamente piccoli, non coinvolgendo modelli linguistici moderni più grandi
- Limitazioni delle Metriche di Valutazione: Le metriche ECE, MCE, RMSCE potrebbero non riflettere accuratamente la qualità della calibrazione in alcuni casi
- Vincoli Computazionali: A causa di limitazioni computazionali, gli esperimenti del metodo di ensemble non sono stati completati sul dataset Company
- Unicità del Metodo: Non è stata esplorata l'uso combinato di molteplici metodi di calibrazione
- Estensione a Modelli Grandi: Estendere la ricerca a modelli linguistici più grandi come GPT-4
- Combinazione di Metodi: Esplorare l'uso combinato di temperature scaling e altri metodi, come Ensembles+Temperature Scaling
- Utilizzo della Varianza: Utilizzare le informazioni di varianza prodotte da Monte Carlo Dropout e metodi di ensemble per migliorare la calibrazione
- Nuove Metriche di Valutazione: Sviluppare metriche di valutazione che riflettono più accuratamente la qualità della calibrazione
- Alto Valore di Ricerca: Colma il vuoto nella ricerca sulla calibrazione della confidenza nel dominio dell'abbinamento di entità
- Progettazione Sperimentale Rigorosa: Confronto completo su dataset multipli, metodi multipli e metriche multiple
- Rigore Statistico: Utilizzo di test statistici appropriati per verificare la significatività dei risultati
- Forte Praticità: Fornisce metodi direttamente applicabili e guida sulla selezione dei parametri
- Scrittura Chiara: Struttura dell'articolo ragionevole e descrizione accurata dei dettagli tecnici
- Copertura Limitata del Modello: Studio di una sola architettura di modello RoBERTa
- Analisi Teorica Insufficiente: Manca un'analisi teorica approfondita del perché il temperature scaling funziona meglio
- Dimensione del Dataset: Alcuni dataset (come iTunes-Amazon) hanno dimensioni relativamente piccole, il che potrebbe influire sulla generalizzabilità dei risultati
- Limitazioni delle Risorse Computazionali: Influisce sulla completezza di alcuni esperimenti
- Contributo Accademico: Introduce un'importante direzione di ricerca sulla calibrazione della confidenza nel dominio dell'abbinamento di entità
- Valore Pratico: Il metodo di temperature scaling è semplice ed efficace, facile da distribuire nei sistemi pratici
- Riproducibilità: La configurazione sperimentale è dettagliata e facile da riprodurre e estendere
- Ispirazione: Fornisce una base importante e una guida direzionale per la ricerca successiva
- Applicazioni ad Alto Rischio: Abbinamento di record medici e altri scenari che richiedono stime affidabili di confidenza
- Collaborazione Uomo-Macchina: Applicazioni che richiedono al modello di fornire informazioni di incertezza per assistere le decisioni umane
- Controllo di Qualità: Utilizzo dei punteggi di confidenza per identificare campioni difficili che richiedono revisione manuale
- Ottimizzazione del Modello: Utilizzo delle informazioni di confidenza per migliorare l'addestramento del modello e la strategia di raccolta dei dati
- Guo, C., et al. (2017). On Calibration of Modern Neural Networks. ICML.
- Li, Y., et al. (2020). Deep Entity Matching with Pre-Trained Language Models. VLDB.
- Desai, S., & Durrett, G. (2020). Calibration of Pre-trained Transformers. EMNLP.
- Brunner, U., & Stockinger, K. (2020). Entity Matching with Transformer Architectures. EDBT.
- Peeters, R., & Bizer, C. (2024). Entity Matching using Large Language Models. arXiv.
Riepilogo: Questo articolo fornisce importanti contributi alla ricerca sulla calibrazione della confidenza nel dominio dell'abbinamento di entità, offrendo un confronto sistematico dei metodi e una soluzione pratica. Le eccellenti prestazioni del metodo di temperature scaling forniscono una guida preziosa per le applicazioni pratiche. Nonostante alcune limitazioni, questa ricerca pone una base solida per il lavoro successivo e ha un importante valore accademico e pratico.