Linguistic diversity across the world creates a disparity with the availability of good quality digital language resources thereby restricting the technological benefits to majority of human population. The lack or absence of data resources makes it difficult to perform NLP tasks for low-resource languages. This paper presents a novel scalable and fully automated methodology to extract bilingual parallel corpora from newspaper articles using image and text analytics. We validate our approach by building parallel data corpus for two different language combinations and demonstrate the value of this dataset through a downstream task of machine translation and improve over the current baseline by close to 3 BLEU points.
論文ID : 2510.13211タイトル : A fully automated and scalable Parallel Data Augmentation for Low Resource Languages using Image and Text Analytics著者 : Prawaal Sharma (Infosys)、Navneet Goyal (BITS Pilani)、Poonam Goyal (BITS Pilani)、Vishnupriyan K R (Infosys)分類 : cs.CL (計算言語学)発表会議 : SAC '23 (第38回 ACM/SIGAPP応用計算シンポジウム)、2023年3月27-31日、タリン、エストニア論文リンク : https://arxiv.org/abs/2510.13211 世界的な言語多様性により、質の高いデジタル言語資源の利用可能性に格差が生じており、大多数の人口が技術的利益を得ることが制限されている。データリソースの欠如または不足により、低リソース言語(LRL)に対するNLPタスクの実行が困難になっている。本論文は、新規で、スケーラブルで、完全自動化されたアプローチを提案し、画像とテキスト分析を用いて新聞記事から二言語並列コーパスを抽出する。著者らは、2つの異なる言語ペアの並列データコーパスを構築することでアプローチを検証し、機械翻訳の下流タスクを通じてデータセットの価値を実証し、現在のベースラインと比較して約3 BLEUポイントの改善を達成した。
中核的問題 : 世界の7,000言語のうち、インターネット上で十分なリソースを持つのはわずか20言語であり、残りは低リソース言語(LRL)と呼ばれ、デジタルデータサポートが不足している影響範囲 : 25億人以上が2,000の低リソース言語を使用しており、主にインドとアフリカに分布している技術的障害 : 現代のNLPタスクは大量の訓練データを必要とするが、低リソース言語のデジタルデータの希少性は、NLP技術を大衆に普及させるための主要な課題である低リソース言語向けの並列コーパスを構築すること、特にリソース不足-リソース豊富な言語ペアを対象とする Konkani-Marathiを主要な例として選択:Konkhaniは典型的な低リソース言語であり、デジタルリソースが希少で母語話者が少ない;Marathiはリソースが豊富である 大手出版社の地方新聞が、リソース最適化のため異なる言語版間で画像を繰り返し使用していることを観察 革新的方法 : 新聞記事の画像をハブとして使用して記事をマッピングするのは初めてであり、同様の研究ではまだ探索されていない技術的ブレークスルー : 低リソース言語ペアに対して言語非依存埋め込みを使用した文マッピングを実施し、実証的検証を提供したデータセット貢献 : 人間による注釈付けを必要としない最大のKonkani-Marathiコーパスを作成した汎用性検証 : Punjabi-Hindiの言語ペアでメソッドの言語非依存性を検証した入力 : 異なる言語の新聞PDFファイル
出力 : 二言語並列文ペアコーパス
制約 : 完全自動化、人間による注釈付けなし、言語非依存
データ拡張パイプライン全体は4つのコア要素で構成されている:
オンラインソースから新聞コピーをダウンロード ファイルを個別ページに分割 日付、ページ番号、言語コードで適切にラベル付け 機能 :
個別記事の境界をマーク マークされた記事内の画像とテキスト(OCRを使用)を抽出 技術実装 :
PRIMAのレイアウト分析データセットを使用した記事境界検出 OpenCVを使用した関心領域(ROI)の抽出 EasyOCR、PaddleOCR、Tesseractを組み合わせ、多数決投票決定を採用 記事分割 : 記事を4つのROIに分割:
タイトル(H):副題を含む 画像(I) 画像キャプション(P) コンテンツ(C) マッピング戦略 : 2つの言語間の記事画像の類似性を比較アルゴリズム : SIFT(スケール不変特徴変換)を画像マッチングアルゴリズムとして使用数学的表現 :{(a^L1_1, a^L2_1), (a^L1_2, a^L2_2)...} ≡ θ(I^L1_i, I^L2_j)
ここでθは画像マッチングアルゴリズム関数である
中核的課題 : マップされた記事内の文は順序通りに配列されていない可能性がある3つの類似性尺度 :
言語非依存文埋め込み(LAS) : BERTアーキテクチャに基づき、119言語で訓練、コサイン類似度を使用単純長さヒューリスティック(SLAS) : 文の長さと記事内の位置に基づく語彙重複(LO) : 英語をハブ言語として使用した精度、再現率、F値画像ハブ戦略 : 新聞の言語間版が画像を再利用するという特性を活用し、画像を記事マッピングの信頼できるアンカーポイントとして使用マルチモーダル融合 : 画像分析とテキスト分析を組み合わせ、マッピング精度を向上言語非依存性 : 事前訓練された多言語モデルを使用し、特定の言語ペアのカスタマイズが不要エンドツーエンド自動化 : 生のPDFから最終的な並列コーパスまでの完全自動化プロセス主要言語ペア : Konkani-Marathi検証言語ペア : Punjabi-Hindiデータソース : オンライン新聞PDFファイル時間範囲 : 同じ日付の異なる言語版内在評価 : 意味的テキスト類似性(STS)、6段階序数スコア(0-5)
5: 完全な意味的等価性 0: 完全な意味的非類似性 外在評価 : 機械翻訳タスクのBLEUスコア文マッピング戦略の比較:LAS対SLAS対LO 既存のKonkani-Marathiベースライン(BLEU=23.5)との比較 人間による評価 : 900文ペアの2段階サンプリング第1段階 : 各文ペア対齢戦略200ペア(合計600ペア)第2段階 : 最適戦略の追加300ペアサンプリング戦略 : 層化ランダムサンプリング、順序保持なし文の長さ 記事の長さ LAS SLAS LO 1-10語 1-5文 3.8 3.4 2.9 11-19語 6-15文 3.7 3.4 3.0 20+語 16+文 3.8 3.2 2.6
指標 Konkani-Marathi Punjabi-Hindi マップされた記事数 1,320 150 マップされた文ペア 14,448 2,200 人間による評価サンプル 600 100 STS平均スコア 3.70 3.73
LAS性能が最適 : すべての文の長さと記事の長さの組み合わせにおいて、言語非依存文埋め込み(LAS)が最高の性能を示した高品質マッピング : マップされた文の92%以上がSTS評価スコア>3を達成言語非依存性 : Punjabi-Hindi実験結果は主実験と同等であり、メソッドの汎用性を検証したモデル : mT5(多言語事前訓練テキスト・ツー・テキスト変換器)に基づく微調整訓練データ : Konkani-Marathiの並列コーパス(タイトルと記事コンテンツ)テストデータ : 画像キャプションをゴールドスタンダードとして使用結果 : BLEUスコア26.4、既存ベースライン(23.5)と比較して約3 BLEUポイント改善異なる文マッピング戦略の比較を通じて、以下を実証した:
言語非依存埋め込みは長さヒューリスティックと語彙重複メソッドと比較して著しく優れている メソッドは異なる記事の長さと文の長さにおいて安定した性能を維持 埋め込みベースの記事処理戦略の有効性 記事分割 : ヒューリスティック方法、グラフ埋め込み方法、深層学習方法画像マッチング : SIFT、SURF、BRIEFなどの従来的方法、およびCNNなどのニューラルネットワーク方法OCR技術 : Devanagari文字を対象とした広範な研究文対齢 : 長さヒューリスティック、語彙対応、言語非依存文埋め込みに基づく深層学習に基づく既存研究 : 主にPOS標注、感情分析、固有表現認識などの基本的なタスクに限定ILCIプロジェクト : 25,000文のHindi-Konkhaniコーパスを作成し、23.5のBLEUスコアを達成提案されたメソッドは、低リソース言語の並列コーパス構築において言語非依存性と良好なスケーラビリティを有する 記事マッピングのハブとしての画像戦略は有効かつ革新的であることが証明された 言語非依存文埋め込みは低リソース言語の文ペア対齢タスクにおいて優れた性能を示す 画像依存性 : メソッドは言語間版間で共有される画像に依存しており、適用範囲を制限している品質制約 : データセット品質をさらに向上させるには追加の制約が必要規模制限 : 現在、主に新聞分野で検証されており、他の分野への適用可能性はさらなる検証が必要画像ソースの拡張 : 同じニュースイベントを異なる人物が撮影した画像を検討品質向上 : データセット品質を向上させるための追加の制約条件を探索領域拡張 : メソッドをより多くのテキストタイプと領域に適用革新性が強い : 画像を言語間記事マッピングのハブとして初めて使用し、アプローチが新規実用価値が高い : 低リソース言語NLP研究に実用的なデータ拡張メソッドを提供システム的に完全 : データ収集から最終評価までの完全なプロセス設計検証が十分 : 内在評価と外在評価を通じた多角的なメソッド有効性の検証再現性が良好 : メソッド記述が詳細で、技術選択に根拠がある適用範囲が限定的 : 新聞の言語間版が画像を共有するという特定のシナリオに大きく依存評価規模が小さい : 人間による評価サンプルが相対的に少ない(600-900文ペア)ベースライン比較が不足 : 他の自動並列コーパス構築メソッドとの比較が不足エラー分析が欠落 : 失敗事例とエラーパターンの深い分析がない学術的貢献 : 低リソース言語並列コーパス構築に新しい視点を提供実用的応用 : 多言語新聞を持つ地域に直接適用可能技術推進 : 画像ハブ戦略は他のマルチモーダルNLPタスクにインスピレーションを与える可能性がある理想的シナリオ : 多言語新聞があり、画像が共有される地域拡張シナリオ : 言語間画像共有特性を持つ他のメディアコンテンツ制限シナリオ : 純粋なテキストまたは画像共有がない言語ペア論文は19の関連文献を引用しており、以下を含む:
多言語検索とパーソナライゼーションシステム ドキュメントレイアウト分析と画像処理 文対齢と並列コーパス構築 低リソース言語NLP研究 ニューラル機械翻訳関連研究 総合評価 : これは低リソース言語並列コーパス構築分野における革新的な研究である。メソッドの適用シナリオは相対的に特定的であるが、対応するシナリオにおいて良好な効果を示している。画像ハブ戦略の提案はマルチモーダルNLP研究に価値のある視点を提供し、低リソース言語のデジタル化推進に積極的な意義を持つ。