2025-11-11T11:52:09.364797

Hebrew Diacritics Restoration using Visual Representation

Elboher, Pinter

Diacritics restoration in Hebrew is a fundamental task for ensuring accurate word pronunciation and disambiguating textual meaning. Despite the language's high degree of ambiguity when unvocalized, recent machine learning approaches have significantly advanced performance on this task. In this work, we present DIVRIT, a novel system for Hebrew diacritization that frames the task as a zero-shot classification problem. Our approach operates at the word level, selecting the most appropriate diacritization pattern for each undiacritized word from a dynamically generated candidate set, conditioned on the surrounding textual context. A key innovation of DIVRIT is its use of a Hebrew Visual Language Model, which processes undiacritized text as an image, allowing diacritic information to be embedded directly within the input's vector representation. Through a comprehensive evaluation across various configurations, we demonstrate that the system effectively performs diacritization without relying on complex, explicit linguistic analysis. Notably, in an ``oracle'' setting where the correct diacritized form is guaranteed to be among the provided candidates, DIVRIT achieves a high level of accuracy. Furthermore, strategic architectural enhancements and optimized training methodologies yield significant improvements in the system's overall generalization capabilities. These findings highlight the promising potential of visual representations for accurate and automated Hebrew diacritization.

academic

হিব্রু ডায়াক্রিটিক্স পুনরুদ্ধার ভিজ্যুয়াল প্রতিনিধিত্ব ব্যবহার করে

মৌলিক তথ্য

পেপার আইডি: 2510.26521
শিরোনাম: Hebrew Diacritics Restoration using Visual Representation
লেখক: Yair Elboher, Yuval Pinter (Ben-Gurion University of the Negev)
শ্রেণীবিভাগ: cs.CL (কম্পিউটেশনাল লিঙ্গুইস্টিক্স)
প্রকাশনার সময়: ২০২৫ সালের নভেম্বর ৩ (arXiv v2)
পেপার লিংক: https://arxiv.org/abs/2510.26521v2

সারসংক্ষেপ

হিব্রু ভাষার ডায়াক্রিটিক্স পুনরুদ্ধার সঠিক উচ্চারণ নিশ্চিত করা এবং পাঠ্য অস্পষ্টতা দূর করার জন্য একটি মৌলিক কাজ। যদিও চিহ্নহীন হিব্রু ভাষা অত্যন্ত অস্পষ্ট, সম্প্রতি মেশিন লার্নিং পদ্ধতি এই কাজের কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করেছে। এই পেপারটি DIVRIT উপস্থাপন করে, একটি নতুন সিস্টেম যা হিব্রু ডায়াক্রিটিক্স কাজকে শূন্য-শট শ্রেণীবিভাগ সমস্যা হিসাবে পুনর্নির্ধারণ করে। এই পদ্ধতিটি শব্দ স্তরে কাজ করে, গতিশীলভাবে উৎপন্ন প্রার্থী সেট থেকে প্রতিটি চিহ্নহীন শব্দের জন্য সবচেয়ে উপযুক্ত ডায়াক্রিটিক প্যাটার্ন নির্বাচন করে এবং আশেপাশের পাঠ্য প্রসঙ্গের উপর ভিত্তি করে শর্তাধীন। DIVRIT-এর মূল উদ্ভাবন হল হিব্রু ভাষার ভিজ্যুয়াল ভাষা মডেল ব্যবহার করা, যা চিহ্নহীন পাঠ্যকে ছবি হিসাবে প্রক্রিয়া করে, যাতে ডায়াক্রিটিক তথ্য সরাসরি ইনপুটের ভেক্টর প্রতিনিধিত্বে এম্বেড করা যায়।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার সংজ্ঞা

হিব্রু ভাষা সেমিটিক ভাষা পরিবারের প্রতিনিধি হিসাবে প্রধানত ব্যঞ্জনবর্ণ প্রকাশ করে এবং ডায়াক্রিটিক চিহ্ন (niqqud) অনুপস্থিতি গুরুতর শব্দ অস্পষ্টতার দিকে পরিচালিত করে। উদাহরণস্বরূপ, ব্যঞ্জনবর্ণ স্ট্রিং "mlk" "king" (melekh), "reigned" (malakh) এবং অন্যান্য একাধিক অর্থ হিসাবে ব্যাখ্যা করা যেতে পারে, যা প্রসঙ্গের উপর নির্ভর করে।

সমস্যার গুরুত্ব

১. ব্যবহারিক মূল্য: স্বয়ংক্রিয় ডায়াক্রিটিক্স ডিজিটাল পাঠ্যের অ্যাক্সেসযোগ্যতা এবং মানব-কম্পিউটার মিথস্ক্রিয়ার জন্য গুরুত্বপূর্ণ ২. ভাষাগত জটিলতা: সঠিক ডায়াক্রিটিক্স পুনরুদ্ধার বাক্যতাত্ত্বিক এবং শব্দার্থগত বোঝার প্রয়োজন ३. প্রযুক্তিগত চ্যালেঞ্জ: হিব্রু ভাষা একটি মরফোলজিক্যালি সমৃদ্ধ ভাষা হিসাবে, এর ডায়াক্রিটিক্স নিয়ম প্রয়োগ জটিল এবং লিঙ্গ, কাল, শব্দের অংশ ইত্যাদি তথ্য নিষ্কাশন প্রয়োজন

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

१. Dicta's Nakdan: গভীর শিক্ষা এবং ভাষাগত নিয়ম একত্রিত করে, উচ্চ নির্ভুলতা কিন্তু সীমিত সাধারণীকরণ ক্ষমতা २. Nakdimon: বিশুদ্ধ ডেটা-চালিত অক্ষর-স্তরের Bi-LSTM পদ্ধতি ३. MenakBERT: Transformer-ভিত্তিক অক্ষর-স্তরের প্রাক-প্রশিক্ষিত পদ্ধতি

বিদ্যমান সিস্টেমগুলি প্রধানত অক্ষর স্তরে কাজ করে, যখন হিব্রু মরফোলজি প্রধানত শব্দ-স্তরের টেমপ্লেট দ্বারা নিয়ন্ত্রিত হয়, যা নির্দেশ করে যে শব্দ-স্তরের বিশ্লেষণ এই কাজের জন্য আরও উপযুক্ত।

মূল অবদান

१. অগ্রণী পদ্ধতি: হিব্রু ডায়াক্রিটিক্স পুনরুদ্ধারকে শূন্য-শট শ্রেণীবিভাগ সমস্যা হিসাবে পুনর্নির্ধারণ করার প্রথম শব্দ-স্তরের সিস্টেম উপস্থাপন করে २. ভিজ্যুয়াল ভাষা মডেল: Vision Transformer-ভিত্তিক হিব্রু ভিজ্যুয়াল ভাষা মডেল বিকাশ করে, সরাসরি ছবি থেকে ডায়াক্রিটিক প্যাটার্ন শিখে ३. প্রার্থী উৎপাদন প্রক্রিয়া: KNN-ভিত্তিক প্রার্থী উৎপাদন অ্যালগরিদম ডিজাইন করে, প্রতিটি শব্দের জন্য গতিশীলভাবে ডায়াক্রিটিক প্রার্থী সেট উৎপন্ন করে ४. কর্মক্ষমতা অগ্রগতি: Oracle সেটিংসে ৯२.६८% শব্দ-স্তরের নির্ভুলতা এবং KNN সেটিংসে ८७.८७% অর্জন করে

পদ্ধতির বিস্তারিত ব্যাখ্যা

কাজের সংজ্ঞা

ইনপুট: চিহ্নহীন হিব্রু পাঠ্য আউটপুট: প্রতিটি শব্দের জন্য সবচেয়ে উপযুক্ত ডায়াক্রিটিক প্যাটার্ন নির্বাচন করা সীমাবদ্ধতা: গতিশীলভাবে উৎপন্ন প্রার্থী সেট থেকে নির্বাচন করা, প্রসঙ্গের উপর ভিত্তি করে শর্তাধীন

মডেল আর্কিটেকচার

DIVRIT একটি দ্বৈত-এনকোডার আর্কিটেকচার ব্যবহার করে:

१. প্রার্থী এনকোডার (Candidate Encoder)

PIXEL-base মডেলের উপর ভিত্তি করে ভিজ্যুয়াল এনকোডার
ছবিতে রেন্ডার করা ডায়াক্রিটিক প্রার্থী প্রক্রিয়া করে
প্রার্থী-নির্দিষ্ট এম্বেডিং প্রতিনিধিত্ব উৎপন্ন করে

२. প্রসঙ্গ এনকোডার (Context Encoder)

ALEPHBERTGIMMEL-SMALL হিব্রু ভাষা মডেল ব্যবহার করে
চিহ্নহীন শব্দের প্রসঙ্গ এম্বেডিং নিষ্কাশন করে
শব্দার্থগত এবং বাক্যতাত্ত্বিক প্রসঙ্গ তথ্য প্রদান করে

३. স্কোরিং প্রক্রিয়া

অভ্যন্তরীণ পণ্যের মাধ্যমে প্রার্থী এম্বেডিং এবং প্রসঙ্গ এম্বেডিংয়ের সাদৃশ্য গণনা করে:

score(candidate, context) = embedding_candidate · embedding_context

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. ভিজ্যুয়াল প্রতিনিধিত্ব শিক্ষা

ডায়াক্রিটিক্সকে ভিজ্যুয়াল উপাদান হিসাবে প্রক্রিয়া করে, স্পষ্ট শব্দভাণ্ডার বরাদ্দ এড়ায়
মাস্কড ইমেজ মডেলিং উদ্দেশ্য ব্যবহার করে হিব্রু PIXEL মডেল প্রাক-প্রশিক্ষণ করে
ডায়াক্রিটিক্স পাঠ্যে অতিরিক্ত প্রশিক্ষণ, মাস্কিং অনুপাত ০.२५ থেকে ०.१ এ হ্রাস করে

२. প্রার্থী উৎপাদন অ্যালগরিদম

KNN-ভিত্তিক প্রার্থী উৎপাদন প্রক্রিয়া:

প্যারামিটার k: বিবেচনা করা অনুরূপ শব্দের সংখ্যা
প্যারামিটার c: প্রত্যাবর্তিত প্রার্থী সেটের সর্বাধিক আকার
অক্ষর-স্তরের ম্যাচিং এবং অবস্থান সারিবদ্ধতার উপর ভিত্তি করে সাদৃশ্য গণনা করে
সেমিটিক ভাষার শব্দমূল-টেমপ্লেট মরফোলজিক্যাল বৈশিষ্ট্য ব্যবহার করে

३. শূন্য-শট শিক্ষা কাঠামো

প্রতিটি প্রার্থী স্বাধীন শ্রেণী হিসাবে
বিচক্ষণ প্রতিনিধিত্ব শিখে সবচেয়ে উপযুক্ত শ্রেণী নির্বাচন করে
কাজ-নির্দিষ্ট প্রশিক্ষণ ছাড়াই অদেখা শ্রেণীতে সাধারণীকরণ করে

পরীক্ষামূলক সেটআপ

ডেটাসেট

१. প্রাক-প্রশিক্ষণ ডেটা:

হিব্রু উইকিপিডিয়া: প্রায় १.९ GB
OSCAR হিব্রু অংশ: প্রায় ९.८ GB
३० অক্ষরের কম নমুনা ফিল্টার করা

२. ডায়াক্রিটিক্স ডেটা:

Gershuni এবং Pinter (२०२२) ডেটাসেট
প্রায় ३.४ মিলিয়ন টোকেন মূল ডায়াক্রিটিক্স হিব্রু পাঠ্য
আধুনিক হিব্রু, প্রাক-আধুনিক হিব্রু এবং স্বয়ংক্রিয় ডায়াক্রিটিক্স পাঠ্য অন্তর্ভুক্ত

३. পরীক্ষা সেট:

२० K টোকেন, বিভিন্ন আধুনিক হিব্রু উৎস থেকে

মূল্যায়ন মেট্রিক্স

WOR: শব্দ-স্তরের নির্ভুলতা
CHA: অক্ষর-স্তরের নির্ভুলতা
DEC: ডায়াক্রিটিক্স-স্তরের সিদ্ধান্ত নির্ভুলতা
VOC: শব্দ-স্তরের উচ্চারণ সংরক্ষণ হার

তুলনামূলক পদ্ধতি

বেসলাইন পদ্ধতি: বহুসংখ্যক শ্রেণী পূর্বাভাস বেসলাইন, KNN বেসলাইন
ডেটা-চালিত সিস্টেম: Nakdimon, MenakBERT
হাইব্রিড সিস্টেম: Dicta's Nakdan

বাস্তবায়ন বিবরণ

প্রাক-প্রশিক্ষণ: २M পদক্ষেপ, ব্যাচ আকার १२८, ४টি ४८GB Nvidia RTX६०००० GPU
সূক্ষ্ম-সুর: २४०K পদক্ষেপ, ব্যাচ আকার ३२, २টি GPU
PangoCairo রেন্ডারার এবং Noto Sans Hebrew ফন্ট ব্যবহার করে
হিব্রু ডান থেকে বাম লেখা হওয়ায়, সমস্ত পাঠ্য ছবি ইনস্ট্যান্স স্তরে অনুভূমিকভাবে মিরর করা হয়

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

সিস্টেম	DEC	CHA	WOR	VOC
MAJORITY BASELINE	93.79	90.01	84.87	86.19
KNN BASELINE	96.20	94.09	87.09	87.39
NAKDIMON	97.91	96.37	89.75	91.64
MENAKBERT	98.82	97.95	94.12	95.22
DIVRIT (Oracle)	98.36	97.42	92.68	94.69
DIVRIT (KNN-based)	96.85	95.03	87.87	90.38
DICTA	98.94	98.23	95.83	95.93

বিলোপন পরীক্ষা

१. প্রার্থী সংখ্যার প্রভাব

দুই-প্রার্থী নির্বাচন: ९१.४५% WOR নির্ভুলতা
তিন-প্রার্থী নির্বাচন: ७४.१६% WOR নির্ভুলতা
প্রার্থী সংখ্যা বৃদ্ধি কর্মক্ষমতা হ্রাস করে, স্কোরিং প্রক্রিয়ায় অপূর্ণতা নির্দেশ করে

२. সূক্ষ্ম-সুর সময়কাল

१४०K পদক্ষেপ: ९०.५४% WOR নির্ভুলতা
२४०K পদক্ষেপ: ९१.४५% WOR নির্ভুলতা
সূক্ষ্ম-সুর সময়কাল বর্ধন উল্লেখযোগ্যভাবে কর্মক্ষমতা উন্নত করে

३. সহায়ক কাজ

ডায়াক্রিটিক্স ব্যাগ পূর্বাভাস সহায়ক কাজ:

L(w,C,cgt) = CELoss(P(c|w), one_hot(cgt)) + 
             0.5/Ncands * Σ BCELoss(ydiac(ci), ytarget_diac(ci))

দুই-প্রার্থী: ९०.५४% থেকে ९१.४१% এ উন্নতি
তিন-প্রার্থী: ७३.५५% থেকে ७१.४९% এ হ্রাস

४. RTL ছবি প্রক্রিয়াকরণ

দুই-প্রার্থী: ८८.६०% WOR নির্ভুলতা
তিন-প্রার্থী: ८४.९३% WOR নির্ভুলতা
মিরর প্রক্রিয়াকরণ বহু-প্রার্থী পরিস্থিতিতে উল্লেখযোগ্যভাবে সাধারণীকরণ ক্ষমতা উন্নত করে

পরীক্ষামূলক আবিষ্কার

१. ভিজ্যুয়াল প্রতিনিধিত্বের কার্যকারিতা: DIVRIT হিব্রু ডায়াক্রিটিক্সে ভিজ্যুয়াল প্রতিনিধিত্বের সম্ভাবনা প্রমাণ করে २. প্রার্থী উৎপাদনের গুরুত্ব: Oracle এবং KNN সেটিংসের মধ্যে কর্মক্ষমতা ব্যবধান প্রার্থী উৎপাদন উন্নতির গুরুত্ব তুলে ধরে ३. সাধারণীকরণ চ্যালেঞ্জ: প্রার্থী সংখ্যা বৃদ্ধির সাথে সাথে মডেল সাধারণীকরণ ক্ষমতা হ্রাস পায় ४. প্রসঙ্গ এনকোডার নির্বাচন: পাঠ্য-ভিত্তিক প্রসঙ্গ এনকোডার বিশুদ্ধ ভিজ্যুয়াল পদ্ধতির চেয়ে উত্তম

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. DIVRIT সফলভাবে হিব্রু ডায়াক্রিটিক্স পুনরুদ্ধারকে শূন্য-শট শ্রেণীবিভাগ সমস্যা হিসাবে পুনর্নির্ধারণ করে २. ভিজ্যুয়াল প্রতিনিধিত্ব জটিল ভাষাগত বিশ্লেষণ ছাড়াই ডায়াক্রিটিক প্যাটার্ন কার্যকরভাবে ক্যাপচার করতে পারে ३. Oracle সেটিংসে বিদ্যমান পদ্ধতির সাথে প্রতিযোগিতামূলক কর্মক্ষমতা অর্জন করে ४. শব্দ-স্তরের পদ্ধতি হিব্রু ডায়াক্রিটিক্সে অক্ষর-স্তরের পদ্ধতির চেয়ে আরও উপযুক্ত

সীমাবদ্ধতা

१. প্রার্থী উৎপাদন নির্ভরতা: সিস্টেম এখনও ডেটা-চালিত প্রার্থী উৎপাদন পদ্ধতির উপর নির্ভর করে २. প্রসঙ্গ এনকোডার: সর্বোত্তম কনফিগারেশন এখনও পাঠ্য-ভিত্তিক প্রসঙ্গ এনকোডার ব্যবহার করে ३. বহু-প্রার্থী সাধারণীকরণ: প্রার্থী সংখ্যা বৃদ্ধির সাথে সাথে উল্লেখযোগ্য কর্মক্ষমতা হ্রাস ४. ভাষা-নির্দিষ্টতা: হিব্রুতে বিকশিত, অন্যান্য ভাষায় প্রয়োগ চ্যালেঞ্জের সম্মুখীন হতে পারে

ভবিষ্যত দিকনির্দেশনা

१. প্রার্থী উৎপাদন উন্নতি: আরও নির্ভুল প্রার্থী উৎপাদন অ্যালগরিদম বিকাশ করা २. বহুভাষিক সম্প্রসারণ: পদ্ধতি আরবি, ভিয়েতনামী এবং অন্যান্য ডায়াক্রিটিক্স-সমৃদ্ধ ভাষায় প্রয়োগ করা ३. আর্কিটেকচার অপ্টিমাইজেশন: বৃহত্তর মডেল আর্কিটেকচার এবং দীর্ঘতর প্রাক-প্রশিক্ষণ প্রক্রিয়া অন্বেষণ করা ४. বহু-মোডাল একীকরণ: ভিজ্যুয়াল এবং প্রসঙ্গ তথ্যের একীকরণ আরও অপ্টিমাইজ করা

গভীর মূল্যায়ন

সুবিধা

१. পদ্ধতি উদ্ভাবনীতা: প্রথমবার ডায়াক্রিটিক্স কাজকে শূন্য-শট শ্রেণীবিভাগ সমস্যা হিসাবে পুনর্নির্ধারণ করে, অগ্রগামী २. প্রযুক্তি অগ্রগতি: ভিজ্যুয়াল ভাষা মডেল এবং ঐতিহ্যবাহী NLP পদ্ধতি চতুরভাবে একত্রিত করে ३. পরীক্ষামূলক সম্পূর্ণতা: ব্যাপক বিলোপন পরীক্ষা এবং আর্কিটেকচার তুলনা পরিচালনা করে ४. তাত্ত্বিক অবদান: মরফোলজিক্যাল কাজে ভিজ্যুয়াল প্রতিনিধিত্বের কার্যকারিতা প্রমাণ করে

অসুবিধা

१. কর্মক্ষমতা ব্যবধান: ব্যবহারিক প্রয়োগ পরিস্থিতিতে এখনও বিদ্যমান সর্বোত্তম পদ্ধতি অতিক্রম করে না २. গণনামূলক জটিলতা: দ্বৈত-এনকোডার আর্কিটেকচার অতিরিক্ত গণনামূলক ওভারহেড নিয়ে আসতে পারে ३. প্রার্থী উৎপাদন সরলতা: KNN-ভিত্তিক পদ্ধতি তুলনামূলকভাবে সহজ, সিস্টেম সম্ভাবনা সীমিত করতে পারে ४. সাধারণীকরণ ক্ষমতা: বহু-প্রার্থী পরিস্থিতিতে কর্মক্ষমতা হ্রাস মডেল সাধারণীকরণ ক্ষমতা সীমিত নির্দেশ করে

প্রভাব

१. ক্ষেত্র অবদান: ডায়াক্রিটিক্স কাজের জন্য নতুন গবেষণা প্যারাডাইম প্রদান করে २. প্রযুক্তি অনুপ্রেরণা: NLP কাজে ভিজ্যুয়াল পদ্ধতির প্রয়োগ সম্ভাবনা প্রমাণ করে ३. ব্যবহারিক মূল্য: হিব্রু পাঠ্য প্রক্রিয়াকরণের জন্য নতুন সরঞ্জাম পছন্দ প্রদান করে ४. পুনরুৎপাদনযোগ্যতা: কোড এবং ডেটা প্রকাশের প্রতিশ্রুতি, পরবর্তী গবেষণা সুবিধা করে

প্রযোজ্য পরিস্থিতি

१. হিব্রু পাঠ্য প্রক্রিয়াকরণ: ডিজিটাল লাইব্রেরি, শিক্ষা সফটওয়্যার ইত্যাদি २. বহুভাষিক সিস্টেম: অন্যান্য সেমিটিক ভাষায় সম্প্রসারণযোগ্য ३. ভিজ্যুয়াল পাঠ্য প্রক্রিয়াকরণ: OCR পরবর্তী-প্রক্রিয়াকরণ, ঐতিহাসিক নথি ডিজিটালীকরণ ইত্যাদি ४. গবেষণা সরঞ্জাম: ভাষাগত গবেষণার জন্য স্বয়ংক্রিয় সরঞ্জাম প্রদান করে

সংদর্ভ

পেপারটি সমৃদ্ধ সম্পর্কিত কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

Gershuni এবং Pinter (२०२२): Nakdimon সিস্টেম
Cohen et al. (२०२४): MenakBERT সিস্টেম
Shmidman et al. (२०२०): Dicta's Nakdan সিস্টেম
Rust et al. (२०२३): PIXEL মডেল
He et al. (२०२२): Vision Transformer আর্কিটেকচার

সামগ্রিক মূল্যায়ন: এটি একটি উদ্ভাবনী গবেষণা পেপার যা প্রথমবার ভিজ্যুয়াল ভাষা মডেল হিব্রু ডায়াক্রিটিক্স কাজে প্রয়োগ করে এবং শূন্য-শট শ্রেণীবিভাগের নতুন কাঠামো প্রস্তাব করে। যদিও নির্দিষ্ট সেটিংসে কর্মক্ষমতা এখনও বিদ্যমান পদ্ধতি অতিক্রম করে না, এর অগ্রগামী পদ্ধতি এবং ব্যাপক পরীক্ষামূলক যাচাইকরণ এই ক্ষেত্রে মূল্যবান অবদান এবং নতুন গবেষণা দিকনির্দেশনা প্রদান করে।