2025-11-15T08:46:11.807319

Part-of-speech tagging for Nagamese Language using CRF

Shohe, Khiamungam, Angami

This paper investigates part-of-speech tagging, an important task in Natural Language Processing (NLP) for the Nagamese language. The Nagamese language, a.k.a. Naga Pidgin, is an Assamese-lexified Creole language developed primarily as a means of communication in trade between the Nagas and people from Assam in northeast India. A substantial amount of work in part-of-speech-tagging has been done for resource-rich languages like English, Hindi, etc. However, no work has been done in the Nagamese language. To the best of our knowledge, this is the first attempt at part-of-speech tagging for the Nagamese Language. The aim of this work is to identify the part-of-speech for a given sentence in the Nagamese language. An annotated corpus of 16,112 tokens is created and applied machine learning technique known as Conditional Random Fields (CRF). Using CRF, an overall tagging accuracy of 85.70%; precision, recall of 86%, and f1-score of 85% is achieved. Keywords. Nagamese, NLP, part-of-speech, machine learning, CRF.

academic

Etichettatura morfosintattica per la lingua Nagamese utilizzando CRF

Informazioni di base

ID articolo: 2509.19343
Titolo: Part-of-speech tagging for Nagamese Language using CRF
Autori: Alovi N Shohe, Chonglio Khiamungam, Teisovi Angami
Istituzione: Department of Information Technology, Nagaland University, Kohima Campus, India
Classificazione: cs.CL cs.AI
Data di pubblicazione: 13 ottobre 2025 (arXiv v3)
Link articolo: https://arxiv.org/abs/2509.19343

Riassunto

Questo articolo affronta il compito di etichettatura morfosintattica (part-of-speech tagging) per la lingua Nagamese, un'attività fondamentale nell'elaborazione del linguaggio naturale (NLP). La lingua Nagamese, nota anche come Naga Pidgin, è una lingua creola con base lessicale assamese, sviluppatasi principalmente come mezzo di comunicazione commerciale tra i Naga e gli Assamese nel nord-est dell'India. Sebbene lingue ricche di risorse come l'inglese e l'hindi abbiano ricevuto ampia attenzione per l'etichettatura morfosintattica, la lingua Nagamese non ha ancora ricevuto alcuna ricerca in questo ambito. Secondo gli autori, questo rappresenta il primo tentativo di etichettatura morfosintattica per la lingua Nagamese. Lo studio ha creato un corpus annotato contenente 16.112 token e ha applicato la tecnica di apprendimento automatico Conditional Random Field (CRF), raggiungendo un'accuratezza complessiva di etichettatura del 85,70%, con precisione e recall entrambi pari al 86% e un punteggio F1 del 85%.

Contesto di ricerca e motivazione

Definizione del problema

Questo studio affronta il problema della mancanza di strumenti di etichettatura morfosintattica per la lingua Nagamese. L'etichettatura morfosintattica è un compito fondamentale dell'NLP che comporta l'assegnazione di etichette grammaticali appropriate a ogni parola in una frase.

Importanza

Preservazione linguistica: Il Nagamese, come lingua comune dello stato del Nagaland, è ampiamente utilizzato nei media pubblici, nelle notizie, nelle trasmissioni radiofoniche e nei media governativi
Scarsità di risorse: Il Nagamese appartiene alla categoria delle lingue a basse risorse, prive di strumenti e risorse di elaborazione linguistica
Applicazioni fondamentali: L'etichettatura morfosintattica è la base per costruire altre applicazioni NLP, come l'analisi del sentimento e la traduzione automatica

Limitazioni esistenti

Gli strumenti NLP mainstream sono sviluppati principalmente per lingue ricche di risorse (come l'inglese e l'hindi)
La lingua Nagamese non aveva precedentemente alcun lavoro correlato all'etichettatura morfosintattica
Mancanza di corpus annotato standardizzato e set di etichette

Contributi principali

Ricerca pioneristico: Primo studio di etichettatura morfosintattica per la lingua Nagamese
Progettazione del set di etichette: Basato sul set di etichette Penn Treebank, è stato progettato un set di 15 etichette morfosinattiche adatte al Nagamese
Costruzione del corpus: Creazione di un corpus annotato manualmente contenente 16.115 token
Modello di base: Utilizzo della tecnica CRF per stabilire il modello di base per l'etichettatura morfosintattica del Nagamese
Valutazione delle prestazioni: Fornitura di analisi dettagliata degli errori e valutazione delle prestazioni

Spiegazione dettagliata del metodo

Definizione del compito

Data una frase in lingua Nagamese, assegnare a ogni parola l'etichetta morfosintattica corrispondente.

Input: Sequenza di parole in una frase Nagamese Output: Sequenza corrispondente di etichette morfosinattiche Esempio:

Itu/ADJECTIVE dikhikena/VERB Isor/NOUN khusi/ADJECTIVE lagise/VERB ./SYM
(Dio era soddisfatto di ciò che vide.)

Caratteristiche della lingua Nagamese

Set di caratteri

Vocali: i, u, e, @, o, a (6 totali)
Consonanti: p, t, c, k, b, d, j, g, ph, th, ch, kh, m, n, ṅ, s, š, h, r, I, w, y (22 totali)

Modelli sillabici

Monosillabico: (C)(C)V(C)(C), ma V non può apparire da solo
Bisillabico: V(C)(C)(C)V(C) o (C)CV(C)(C)CV(C)(C)
Trisillabico: V(C)(C)CV(C)(C)CV(C) o (C)CV(C)(C)V(C)(C)(C)V(C)
Tetrasillabico: (C)V(C)CVCV(C)CV(C)
Nessuna parola pentasillabica (ad eccezione di evidenti parole composte)

Progettazione del set di etichette

Semplificazione dalle 36 etichette Penn Treebank a 15 etichette adatte al Nagamese:

N.	Categoria	Etichetta
1	Aggettivo	ADJ
2	Avverbio	ADV
3	Congiunzione	CONJ
4	Marcatore di complemento	CMP
5	Determinante	DET
6	Postposizione/Preposizione	PP
7	Interiezione	INTJ
8	Nome	N
9	Pronome	PN
10	Quantificatore	QN
11	Verbo	V
12	Parola straniera	FW
13	Simbolo	SYM
14	Parola sconosciuta	UNK
15	Numerale	NUM

Architettura del modello

Conditional Random Field (CRF)

È stato adottato un modello CRF a catena lineare, che può considerare le informazioni di contesto dei tag adiacenti nella sequenza, superando il problema della distorsione delle etichette del modello MEMM (Maximum Entropy Markov Model).

Ingegneria delle caratteristiche

È stato progettato un set ricco di caratteristiche:

Parola corrente
Se è la prima o l'ultima parola della frase
Informazioni sulla capitalizzazione della parola
Prefissi (lunghezza ≤3) e suffissi (lunghezza ≤4)
Parola precedente e parola successiva
Presenza di trattini
Se è un numero
Presenza di lettere maiuscole all'interno della parola

Configurazione dell'ottimizzazione

Discesa del gradiente: metodo L-BFGS
Numero di iterazioni: 100
Regolarizzazione: regolarizzazione L1 e L2 per prevenire l'overfitting

Configurazione sperimentale

Costruzione del dataset

Fonte dei dati: Articoli raccolti dal giornale locale "Nagamese Khobor", contenenti contenuti diversificati come notizie di attualità e sport
Dimensione del corpus: Circa 26.000 parole di corpus grezzo, con 16.115 token annotati manualmente (749 frasi)
Processo di annotazione: Annotazione manuale eseguita da parlanti nativi di Nagamese
Verifica della qualità: Un altro annotatore ha annotato 1.864 token per la verifica, con un tasso di disaccordo del 6,7% per le parole straniere e solo dell'1,23% escludendo le parole straniere

Distribuzione dei dati

La distribuzione della frequenza delle etichette mostra lo squilibrio dei dati:

Frequenza più alta: FW (parole straniere) - 3.744 occorrenze
Secondo: PP (postposizioni) - 2.418 occorrenze
Frequenza più bassa: CMP (marcatore di complemento) - 35 occorrenze

Metriche di valutazione

Accuratezza (Accuracy): Tasso di correttezza complessivo dell'etichettatura
Precisione (Precision): TP/(TP+FP)
Recall (Recall): TP/(TP+FN)
Punteggio F1: 2×(Precision×Recall)/(Precision+Recall)

Configurazione sperimentale

Divisione addestramento/test: 70:30
Strumento di implementazione: libreria sklearn-crfsuite

Risultati sperimentali

Risultati principali

Metrica	Valore
Accuratezza complessiva	85,70%
Precisione media	86%
Recall media	86%
Punteggio F1 medio	85%

Analisi delle prestazioni per etichetta

Prestazioni migliori:

SYM (simbolo): F1=0,99, Precisione=0,99, Recall=0,98
NUM (numerale): F1=0,95, Precisione=0,99, Recall=0,92
CONJ (congiunzione): F1=0,91, Precisione=0,95, Recall=0,87

Prestazioni inferiori:

UNK (parola sconosciuta): F1=0,33, Precisione=0,77, Recall=0,21
N (nome): F1=0,70, Precisione=0,70, Recall=0,69
ADV (avverbio): F1=0,71, Precisione=0,74, Recall=0,69

Analisi degli errori

I principali modelli di errore includono:

ADJ etichettato erroneamente come: PP (15 volte), V (15 volte), N (12 volte), FW (11 volte)
N etichettato erroneamente come: FW (76 volte), PP (26 volte), V (23 volte)
FW etichettato erroneamente come: N (81 volte), indicando la sfida nel riconoscimento delle parole straniere

Analisi dei modelli di transizione

Transizione più probabile: UNK → UNK
Transizione meno probabile: PP → NUM

Lavori correlati

Poiché il Nagamese è una lingua creola lessicalizzata dall'assamese, l'articolo esamina i lavori correlati sull'etichettatura morfosintattica dell'assamese:

Saharia et al. (2009): Utilizzo di HMM, 172 etichette, 10k parole di addestramento, accuratezza del 87%
Phukan et al. (2024): LSTM a livello di carattere e Bi-LSTM, 60k parole, accuratezza del 93,36%
Pathak et al. (2023): Architettura BiLSTM-CRF, 404k token, F1=0,925
Talukdar et al. (2024): RNN e GRU, 30k parole, F1=94,56%

Questi lavori forniscono riferimenti tecnici per questa ricerca, ma il Nagamese, come lingua creola, presenta caratteristiche linguistiche uniche.

Conclusioni e discussione

Conclusioni principali

Stabilimento con successo del primo sistema di base per l'etichettatura morfosintattica della lingua Nagamese
Il modello CRF ha raggiunto prestazioni ragionevoli su questo compito (accuratezza del 85,70%)
Il corpus annotato creato pone le basi per ricerche successive

Limitazioni

Dimensione del set di etichette: Utilizzo di soli 15 tag, potrebbe non catturare completamente la complessità della lingua
Dimensione dei dati: 16.115 token sono relativamente pochi, potrebbe influire sulla capacità di generalizzazione del modello
Squilibrio dei dati: Alcuni tag (come CMP) hanno campioni molto limitati, influenzando l'apprendimento del modello
Sfida delle parole straniere: L'alta frequenza e la confusione dell'etichetta FW indicano che il riconoscimento delle parole straniere è la principale difficoltà

Direzioni future

Espansione del set di etichette: Aggiunta di tag morfosinattici più granulari
Aumento della quantità di dati: Espansione della dimensione del corpus annotato
Estensione delle applicazioni: Utilizzo dell'etichettatore morfosintattico per costruire applicazioni come analisi del sentimento e traduzione automatica
Apprendimento per trasferimento: Esplorazione di metodi di apprendimento per trasferimento dall'assamese
Apprendimento profondo: Sperimentazione di metodi moderni di apprendimento profondo come LSTM e BERT

Valutazione approfondita

Punti di forza

Significato pioneristico: Colma il vuoto nella ricerca NLP per la lingua Nagamese
Analisi linguistica: Descrizione dettagliata delle caratteristiche linguistiche del Nagamese (sistema fonologico, struttura sillabica, ecc.)
Qualità dell'annotazione: Verifica della qualità dei dati attraverso doppia annotazione
Analisi degli errori: Fornitura di matrice di confusione dettagliata e analisi dei modelli di errore
Valore pratico: Fornisce un esempio per la ricerca NLP su lingue a basse risorse

Insufficienze

Limitazioni metodologiche: Utilizzo solo del metodo CRF tradizionale, senza sperimentazione di tecniche moderne di apprendimento profondo
Confronti insufficienti: Mancanza di esperimenti di confronto con altri metodi
Distorsione dei dati: L'alta proporzione di parole straniere (23%) potrebbe influire sull'applicabilità pratica del modello
Ingegneria delle caratteristiche: Caratteristiche relativamente semplici, potrebbe perdere importanti caratteristiche linguistiche
Limitazioni della valutazione: Valutazione solo su un singolo dataset, mancanza di validazione cross-domain

Impatto

Contributo accademico: Fornisce un importante riferimento per la ricerca NLP su lingue a basse risorse
Valore sociale: Contribuisce alla protezione e allo sviluppo digitale della lingua Nagamese
Base tecnica: Pone le fondamenta per costruire applicazioni NLP più complesse per il Nagamese
Metodologia: Dimostra il processo completo di costruzione di strumenti NLP per lingue a basse risorse

Scenari di applicazione

Applicazioni educative: Supporto all'insegnamento e all'apprendimento della lingua Nagamese
Elaborazione dei media: Elaborazione automatizzata di contenuti di notizie e social media in Nagamese
Servizi governativi: Supporto ai servizi governativi multilingue dello stato del Nagaland
Base di ricerca: Fornitura di strumenti di base per ulteriori ricerche NLP sulla lingua Nagamese

Bibliografia

L'articolo cita i seguenti riferimenti chiave:

Sreedhar, M. V. (1985). Standardized grammar of naga pidgin. - Studio sulla standardizzazione della grammatica Nagamese
Saharia et al. (2009). Part of speech tagger for assamese text. - Lavoro pionieristico sull'etichettatura morfosintattica dell'assamese
Pathak et al. (2022, 2023). Metodi di etichettatura morfosintattica dell'assamese con apprendimento profondo
Phukan et al. (2023, 2024). Ricerca sull'etichettatura morfosintattica dell'assamese con LSTM

Valutazione complessiva: Questo è un articolo di importante significato pioneristico che, sebbene relativamente tradizionale nei metodi tecnici, stabilisce il primo sistema di etichettatura morfosintattica per il Nagamese, una lingua a basse risorse, con significativo valore accademico e sociale. La metodologia di ricerca è rigorosa, la costruzione dei dati è regolamentata e pone solide basi per ricerche successive.