Part-of-speech tagging for Nagamese Language using CRF
Shohe, Khiamungam, Angami
This paper investigates part-of-speech tagging, an important task in Natural Language Processing (NLP) for the Nagamese language. The Nagamese language, a.k.a. Naga Pidgin, is an Assamese-lexified Creole language developed primarily as a means of communication in trade between the Nagas and people from Assam in northeast India. A substantial amount of work in part-of-speech-tagging has been done for resource-rich languages like English, Hindi, etc. However, no work has been done in the Nagamese language. To the best of our knowledge, this is the first attempt at part-of-speech tagging for the Nagamese Language. The aim of this work is to identify the part-of-speech for a given sentence in the Nagamese language. An annotated corpus of 16,112 tokens is created and applied machine learning technique known as Conditional Random Fields (CRF). Using CRF, an overall tagging accuracy of 85.70%; precision, recall of 86%, and f1-score of 85% is achieved.
Keywords. Nagamese, NLP, part-of-speech, machine learning, CRF.
academic
Etichettatura morfosintattica per la lingua Nagamese utilizzando CRF
Questo articolo affronta il compito di etichettatura morfosintattica (part-of-speech tagging) per la lingua Nagamese, un'attività fondamentale nell'elaborazione del linguaggio naturale (NLP). La lingua Nagamese, nota anche come Naga Pidgin, è una lingua creola con base lessicale assamese, sviluppatasi principalmente come mezzo di comunicazione commerciale tra i Naga e gli Assamese nel nord-est dell'India. Sebbene lingue ricche di risorse come l'inglese e l'hindi abbiano ricevuto ampia attenzione per l'etichettatura morfosintattica, la lingua Nagamese non ha ancora ricevuto alcuna ricerca in questo ambito. Secondo gli autori, questo rappresenta il primo tentativo di etichettatura morfosintattica per la lingua Nagamese. Lo studio ha creato un corpus annotato contenente 16.112 token e ha applicato la tecnica di apprendimento automatico Conditional Random Field (CRF), raggiungendo un'accuratezza complessiva di etichettatura del 85,70%, con precisione e recall entrambi pari al 86% e un punteggio F1 del 85%.
Questo studio affronta il problema della mancanza di strumenti di etichettatura morfosintattica per la lingua Nagamese. L'etichettatura morfosintattica è un compito fondamentale dell'NLP che comporta l'assegnazione di etichette grammaticali appropriate a ogni parola in una frase.
Preservazione linguistica: Il Nagamese, come lingua comune dello stato del Nagaland, è ampiamente utilizzato nei media pubblici, nelle notizie, nelle trasmissioni radiofoniche e nei media governativi
Scarsità di risorse: Il Nagamese appartiene alla categoria delle lingue a basse risorse, prive di strumenti e risorse di elaborazione linguistica
Applicazioni fondamentali: L'etichettatura morfosintattica è la base per costruire altre applicazioni NLP, come l'analisi del sentimento e la traduzione automatica
Ricerca pioneristico: Primo studio di etichettatura morfosintattica per la lingua Nagamese
Progettazione del set di etichette: Basato sul set di etichette Penn Treebank, è stato progettato un set di 15 etichette morfosinattiche adatte al Nagamese
Costruzione del corpus: Creazione di un corpus annotato manualmente contenente 16.115 token
Modello di base: Utilizzo della tecnica CRF per stabilire il modello di base per l'etichettatura morfosintattica del Nagamese
Valutazione delle prestazioni: Fornitura di analisi dettagliata degli errori e valutazione delle prestazioni
È stato adottato un modello CRF a catena lineare, che può considerare le informazioni di contesto dei tag adiacenti nella sequenza, superando il problema della distorsione delle etichette del modello MEMM (Maximum Entropy Markov Model).
Fonte dei dati: Articoli raccolti dal giornale locale "Nagamese Khobor", contenenti contenuti diversificati come notizie di attualità e sport
Dimensione del corpus: Circa 26.000 parole di corpus grezzo, con 16.115 token annotati manualmente (749 frasi)
Processo di annotazione: Annotazione manuale eseguita da parlanti nativi di Nagamese
Verifica della qualità: Un altro annotatore ha annotato 1.864 token per la verifica, con un tasso di disaccordo del 6,7% per le parole straniere e solo dell'1,23% escludendo le parole straniere
Poiché il Nagamese è una lingua creola lessicalizzata dall'assamese, l'articolo esamina i lavori correlati sull'etichettatura morfosintattica dell'assamese:
Saharia et al. (2009): Utilizzo di HMM, 172 etichette, 10k parole di addestramento, accuratezza del 87%
Phukan et al. (2024): LSTM a livello di carattere e Bi-LSTM, 60k parole, accuratezza del 93,36%
Pathak et al. (2023): Architettura BiLSTM-CRF, 404k token, F1=0,925
Talukdar et al. (2024): RNN e GRU, 30k parole, F1=94,56%
Questi lavori forniscono riferimenti tecnici per questa ricerca, ma il Nagamese, come lingua creola, presenta caratteristiche linguistiche uniche.
Dimensione del set di etichette: Utilizzo di soli 15 tag, potrebbe non catturare completamente la complessità della lingua
Dimensione dei dati: 16.115 token sono relativamente pochi, potrebbe influire sulla capacità di generalizzazione del modello
Squilibrio dei dati: Alcuni tag (come CMP) hanno campioni molto limitati, influenzando l'apprendimento del modello
Sfida delle parole straniere: L'alta frequenza e la confusione dell'etichetta FW indicano che il riconoscimento delle parole straniere è la principale difficoltà
Espansione del set di etichette: Aggiunta di tag morfosinattici più granulari
Aumento della quantità di dati: Espansione della dimensione del corpus annotato
Estensione delle applicazioni: Utilizzo dell'etichettatore morfosintattico per costruire applicazioni come analisi del sentimento e traduzione automatica
Apprendimento per trasferimento: Esplorazione di metodi di apprendimento per trasferimento dall'assamese
Apprendimento profondo: Sperimentazione di metodi moderni di apprendimento profondo come LSTM e BERT
Sreedhar, M. V. (1985). Standardized grammar of naga pidgin. - Studio sulla standardizzazione della grammatica Nagamese
Saharia et al. (2009). Part of speech tagger for assamese text. - Lavoro pionieristico sull'etichettatura morfosintattica dell'assamese
Pathak et al. (2022, 2023). Metodi di etichettatura morfosintattica dell'assamese con apprendimento profondo
Phukan et al. (2023, 2024). Ricerca sull'etichettatura morfosintattica dell'assamese con LSTM
Valutazione complessiva: Questo è un articolo di importante significato pioneristico che, sebbene relativamente tradizionale nei metodi tecnici, stabilisce il primo sistema di etichettatura morfosintattica per il Nagamese, una lingua a basse risorse, con significativo valore accademico e sociale. La metodologia di ricerca è rigorosa, la costruzione dei dati è regolamentata e pone solide basi per ricerche successive.