2025-11-15T08:46:11.807319

Part-of-speech tagging for Nagamese Language using CRF

Shohe, Khiamungam, Angami
This paper investigates part-of-speech tagging, an important task in Natural Language Processing (NLP) for the Nagamese language. The Nagamese language, a.k.a. Naga Pidgin, is an Assamese-lexified Creole language developed primarily as a means of communication in trade between the Nagas and people from Assam in northeast India. A substantial amount of work in part-of-speech-tagging has been done for resource-rich languages like English, Hindi, etc. However, no work has been done in the Nagamese language. To the best of our knowledge, this is the first attempt at part-of-speech tagging for the Nagamese Language. The aim of this work is to identify the part-of-speech for a given sentence in the Nagamese language. An annotated corpus of 16,112 tokens is created and applied machine learning technique known as Conditional Random Fields (CRF). Using CRF, an overall tagging accuracy of 85.70%; precision, recall of 86%, and f1-score of 85% is achieved. Keywords. Nagamese, NLP, part-of-speech, machine learning, CRF.
academic

Etichettatura morfosintattica per la lingua Nagamese utilizzando CRF

Informazioni di base

  • ID articolo: 2509.19343
  • Titolo: Part-of-speech tagging for Nagamese Language using CRF
  • Autori: Alovi N Shohe, Chonglio Khiamungam, Teisovi Angami
  • Istituzione: Department of Information Technology, Nagaland University, Kohima Campus, India
  • Classificazione: cs.CL cs.AI
  • Data di pubblicazione: 13 ottobre 2025 (arXiv v3)
  • Link articolo: https://arxiv.org/abs/2509.19343

Riassunto

Questo articolo affronta il compito di etichettatura morfosintattica (part-of-speech tagging) per la lingua Nagamese, un'attività fondamentale nell'elaborazione del linguaggio naturale (NLP). La lingua Nagamese, nota anche come Naga Pidgin, è una lingua creola con base lessicale assamese, sviluppatasi principalmente come mezzo di comunicazione commerciale tra i Naga e gli Assamese nel nord-est dell'India. Sebbene lingue ricche di risorse come l'inglese e l'hindi abbiano ricevuto ampia attenzione per l'etichettatura morfosintattica, la lingua Nagamese non ha ancora ricevuto alcuna ricerca in questo ambito. Secondo gli autori, questo rappresenta il primo tentativo di etichettatura morfosintattica per la lingua Nagamese. Lo studio ha creato un corpus annotato contenente 16.112 token e ha applicato la tecnica di apprendimento automatico Conditional Random Field (CRF), raggiungendo un'accuratezza complessiva di etichettatura del 85,70%, con precisione e recall entrambi pari al 86% e un punteggio F1 del 85%.

Contesto di ricerca e motivazione

Definizione del problema

Questo studio affronta il problema della mancanza di strumenti di etichettatura morfosintattica per la lingua Nagamese. L'etichettatura morfosintattica è un compito fondamentale dell'NLP che comporta l'assegnazione di etichette grammaticali appropriate a ogni parola in una frase.

Importanza

  1. Preservazione linguistica: Il Nagamese, come lingua comune dello stato del Nagaland, è ampiamente utilizzato nei media pubblici, nelle notizie, nelle trasmissioni radiofoniche e nei media governativi
  2. Scarsità di risorse: Il Nagamese appartiene alla categoria delle lingue a basse risorse, prive di strumenti e risorse di elaborazione linguistica
  3. Applicazioni fondamentali: L'etichettatura morfosintattica è la base per costruire altre applicazioni NLP, come l'analisi del sentimento e la traduzione automatica

Limitazioni esistenti

  • Gli strumenti NLP mainstream sono sviluppati principalmente per lingue ricche di risorse (come l'inglese e l'hindi)
  • La lingua Nagamese non aveva precedentemente alcun lavoro correlato all'etichettatura morfosintattica
  • Mancanza di corpus annotato standardizzato e set di etichette

Contributi principali

  1. Ricerca pioneristico: Primo studio di etichettatura morfosintattica per la lingua Nagamese
  2. Progettazione del set di etichette: Basato sul set di etichette Penn Treebank, è stato progettato un set di 15 etichette morfosinattiche adatte al Nagamese
  3. Costruzione del corpus: Creazione di un corpus annotato manualmente contenente 16.115 token
  4. Modello di base: Utilizzo della tecnica CRF per stabilire il modello di base per l'etichettatura morfosintattica del Nagamese
  5. Valutazione delle prestazioni: Fornitura di analisi dettagliata degli errori e valutazione delle prestazioni

Spiegazione dettagliata del metodo

Definizione del compito

Data una frase in lingua Nagamese, assegnare a ogni parola l'etichetta morfosintattica corrispondente.

Input: Sequenza di parole in una frase Nagamese Output: Sequenza corrispondente di etichette morfosinattiche Esempio:

Itu/ADJECTIVE dikhikena/VERB Isor/NOUN khusi/ADJECTIVE lagise/VERB ./SYM
(Dio era soddisfatto di ciò che vide.)

Caratteristiche della lingua Nagamese

Set di caratteri

  • Vocali: i, u, e, @, o, a (6 totali)
  • Consonanti: p, t, c, k, b, d, j, g, ph, th, ch, kh, m, n, ṅ, s, š, h, r, I, w, y (22 totali)

Modelli sillabici

  • Monosillabico: (C)(C)V(C)(C), ma V non può apparire da solo
  • Bisillabico: V(C)(C)(C)V(C) o (C)CV(C)(C)CV(C)(C)
  • Trisillabico: V(C)(C)CV(C)(C)CV(C) o (C)CV(C)(C)V(C)(C)(C)V(C)
  • Tetrasillabico: (C)V(C)CVCV(C)CV(C)
  • Nessuna parola pentasillabica (ad eccezione di evidenti parole composte)

Progettazione del set di etichette

Semplificazione dalle 36 etichette Penn Treebank a 15 etichette adatte al Nagamese:

N.CategoriaEtichetta
1AggettivoADJ
2AvverbioADV
3CongiunzioneCONJ
4Marcatore di complementoCMP
5DeterminanteDET
6Postposizione/PreposizionePP
7InteriezioneINTJ
8NomeN
9PronomePN
10QuantificatoreQN
11VerboV
12Parola stranieraFW
13SimboloSYM
14Parola sconosciutaUNK
15NumeraleNUM

Architettura del modello

Conditional Random Field (CRF)

È stato adottato un modello CRF a catena lineare, che può considerare le informazioni di contesto dei tag adiacenti nella sequenza, superando il problema della distorsione delle etichette del modello MEMM (Maximum Entropy Markov Model).

Ingegneria delle caratteristiche

È stato progettato un set ricco di caratteristiche:

  • Parola corrente
  • Se è la prima o l'ultima parola della frase
  • Informazioni sulla capitalizzazione della parola
  • Prefissi (lunghezza ≤3) e suffissi (lunghezza ≤4)
  • Parola precedente e parola successiva
  • Presenza di trattini
  • Se è un numero
  • Presenza di lettere maiuscole all'interno della parola

Configurazione dell'ottimizzazione

  • Discesa del gradiente: metodo L-BFGS
  • Numero di iterazioni: 100
  • Regolarizzazione: regolarizzazione L1 e L2 per prevenire l'overfitting

Configurazione sperimentale

Costruzione del dataset

  1. Fonte dei dati: Articoli raccolti dal giornale locale "Nagamese Khobor", contenenti contenuti diversificati come notizie di attualità e sport
  2. Dimensione del corpus: Circa 26.000 parole di corpus grezzo, con 16.115 token annotati manualmente (749 frasi)
  3. Processo di annotazione: Annotazione manuale eseguita da parlanti nativi di Nagamese
  4. Verifica della qualità: Un altro annotatore ha annotato 1.864 token per la verifica, con un tasso di disaccordo del 6,7% per le parole straniere e solo dell'1,23% escludendo le parole straniere

Distribuzione dei dati

La distribuzione della frequenza delle etichette mostra lo squilibrio dei dati:

  • Frequenza più alta: FW (parole straniere) - 3.744 occorrenze
  • Secondo: PP (postposizioni) - 2.418 occorrenze
  • Frequenza più bassa: CMP (marcatore di complemento) - 35 occorrenze

Metriche di valutazione

  • Accuratezza (Accuracy): Tasso di correttezza complessivo dell'etichettatura
  • Precisione (Precision): TP/(TP+FP)
  • Recall (Recall): TP/(TP+FN)
  • Punteggio F1: 2×(Precision×Recall)/(Precision+Recall)

Configurazione sperimentale

  • Divisione addestramento/test: 70:30
  • Strumento di implementazione: libreria sklearn-crfsuite

Risultati sperimentali

Risultati principali

MetricaValore
Accuratezza complessiva85,70%
Precisione media86%
Recall media86%
Punteggio F1 medio85%

Analisi delle prestazioni per etichetta

Prestazioni migliori:

  • SYM (simbolo): F1=0,99, Precisione=0,99, Recall=0,98
  • NUM (numerale): F1=0,95, Precisione=0,99, Recall=0,92
  • CONJ (congiunzione): F1=0,91, Precisione=0,95, Recall=0,87

Prestazioni inferiori:

  • UNK (parola sconosciuta): F1=0,33, Precisione=0,77, Recall=0,21
  • N (nome): F1=0,70, Precisione=0,70, Recall=0,69
  • ADV (avverbio): F1=0,71, Precisione=0,74, Recall=0,69

Analisi degli errori

I principali modelli di errore includono:

  1. ADJ etichettato erroneamente come: PP (15 volte), V (15 volte), N (12 volte), FW (11 volte)
  2. N etichettato erroneamente come: FW (76 volte), PP (26 volte), V (23 volte)
  3. FW etichettato erroneamente come: N (81 volte), indicando la sfida nel riconoscimento delle parole straniere

Analisi dei modelli di transizione

  • Transizione più probabile: UNK → UNK
  • Transizione meno probabile: PP → NUM

Lavori correlati

Poiché il Nagamese è una lingua creola lessicalizzata dall'assamese, l'articolo esamina i lavori correlati sull'etichettatura morfosintattica dell'assamese:

  1. Saharia et al. (2009): Utilizzo di HMM, 172 etichette, 10k parole di addestramento, accuratezza del 87%
  2. Phukan et al. (2024): LSTM a livello di carattere e Bi-LSTM, 60k parole, accuratezza del 93,36%
  3. Pathak et al. (2023): Architettura BiLSTM-CRF, 404k token, F1=0,925
  4. Talukdar et al. (2024): RNN e GRU, 30k parole, F1=94,56%

Questi lavori forniscono riferimenti tecnici per questa ricerca, ma il Nagamese, come lingua creola, presenta caratteristiche linguistiche uniche.

Conclusioni e discussione

Conclusioni principali

  1. Stabilimento con successo del primo sistema di base per l'etichettatura morfosintattica della lingua Nagamese
  2. Il modello CRF ha raggiunto prestazioni ragionevoli su questo compito (accuratezza del 85,70%)
  3. Il corpus annotato creato pone le basi per ricerche successive

Limitazioni

  1. Dimensione del set di etichette: Utilizzo di soli 15 tag, potrebbe non catturare completamente la complessità della lingua
  2. Dimensione dei dati: 16.115 token sono relativamente pochi, potrebbe influire sulla capacità di generalizzazione del modello
  3. Squilibrio dei dati: Alcuni tag (come CMP) hanno campioni molto limitati, influenzando l'apprendimento del modello
  4. Sfida delle parole straniere: L'alta frequenza e la confusione dell'etichetta FW indicano che il riconoscimento delle parole straniere è la principale difficoltà

Direzioni future

  1. Espansione del set di etichette: Aggiunta di tag morfosinattici più granulari
  2. Aumento della quantità di dati: Espansione della dimensione del corpus annotato
  3. Estensione delle applicazioni: Utilizzo dell'etichettatore morfosintattico per costruire applicazioni come analisi del sentimento e traduzione automatica
  4. Apprendimento per trasferimento: Esplorazione di metodi di apprendimento per trasferimento dall'assamese
  5. Apprendimento profondo: Sperimentazione di metodi moderni di apprendimento profondo come LSTM e BERT

Valutazione approfondita

Punti di forza

  1. Significato pioneristico: Colma il vuoto nella ricerca NLP per la lingua Nagamese
  2. Analisi linguistica: Descrizione dettagliata delle caratteristiche linguistiche del Nagamese (sistema fonologico, struttura sillabica, ecc.)
  3. Qualità dell'annotazione: Verifica della qualità dei dati attraverso doppia annotazione
  4. Analisi degli errori: Fornitura di matrice di confusione dettagliata e analisi dei modelli di errore
  5. Valore pratico: Fornisce un esempio per la ricerca NLP su lingue a basse risorse

Insufficienze

  1. Limitazioni metodologiche: Utilizzo solo del metodo CRF tradizionale, senza sperimentazione di tecniche moderne di apprendimento profondo
  2. Confronti insufficienti: Mancanza di esperimenti di confronto con altri metodi
  3. Distorsione dei dati: L'alta proporzione di parole straniere (23%) potrebbe influire sull'applicabilità pratica del modello
  4. Ingegneria delle caratteristiche: Caratteristiche relativamente semplici, potrebbe perdere importanti caratteristiche linguistiche
  5. Limitazioni della valutazione: Valutazione solo su un singolo dataset, mancanza di validazione cross-domain

Impatto

  1. Contributo accademico: Fornisce un importante riferimento per la ricerca NLP su lingue a basse risorse
  2. Valore sociale: Contribuisce alla protezione e allo sviluppo digitale della lingua Nagamese
  3. Base tecnica: Pone le fondamenta per costruire applicazioni NLP più complesse per il Nagamese
  4. Metodologia: Dimostra il processo completo di costruzione di strumenti NLP per lingue a basse risorse

Scenari di applicazione

  1. Applicazioni educative: Supporto all'insegnamento e all'apprendimento della lingua Nagamese
  2. Elaborazione dei media: Elaborazione automatizzata di contenuti di notizie e social media in Nagamese
  3. Servizi governativi: Supporto ai servizi governativi multilingue dello stato del Nagaland
  4. Base di ricerca: Fornitura di strumenti di base per ulteriori ricerche NLP sulla lingua Nagamese

Bibliografia

L'articolo cita i seguenti riferimenti chiave:

  1. Sreedhar, M. V. (1985). Standardized grammar of naga pidgin. - Studio sulla standardizzazione della grammatica Nagamese
  2. Saharia et al. (2009). Part of speech tagger for assamese text. - Lavoro pionieristico sull'etichettatura morfosintattica dell'assamese
  3. Pathak et al. (2022, 2023). Metodi di etichettatura morfosintattica dell'assamese con apprendimento profondo
  4. Phukan et al. (2023, 2024). Ricerca sull'etichettatura morfosintattica dell'assamese con LSTM

Valutazione complessiva: Questo è un articolo di importante significato pioneristico che, sebbene relativamente tradizionale nei metodi tecnici, stabilisce il primo sistema di etichettatura morfosintattica per il Nagamese, una lingua a basse risorse, con significativo valore accademico e sociale. La metodologia di ricerca è rigorosa, la costruzione dei dati è regolamentata e pone solide basi per ricerche successive.