2025-11-16T09:28:12.651883

Quantifying Phonosemantic Iconicity Distributionally in 6 Languages

Flint, Kislay

Language is, as commonly theorized, largely arbitrary. Yet, systematic relationships between phonetics and semantics have been observed in many specific cases. To what degree could those systematic relationships manifest themselves in large scale, quantitative investigations--both in previously identified and unidentified phenomena? This work undertakes a distributional approach to quantifying phonosemantic iconicity at scale across 6 diverse languages (English, Spanish, Hindi, Finnish, Turkish, and Tamil). In each language, we analyze the alignment of morphemes' phonetic and semantic similarity spaces with a suite of statistical measures, and discover an array of interpretable phonosemantic alignments not previously identified in the literature, along with crosslinguistic patterns. We also analyze 5 previously hypothesized phonosemantic alignments, finding support for some such alignments and mixed results for others.

academic

৬টি ভাষায় বিতরণগত পদ্ধতিতে ফোনোসেমান্টিক আইকনিসিটি পরিমাপ করা

মৌলিক তথ্য

পেপার আইডি: 2510.14040
শিরোনাম: ৬টি ভাষায় বিতরণগত পদ্ধতিতে ফোনোসেমান্টিক আইকনিসিটি পরিমাপ করা
লেখক: জর্জ ফ্লিন্ট (ইউসি বার্কলে), কৌস্তুভ কিসলে (ইউডাব্লু ম্যাডিসন)
শ্রেণীবিভাগ: cs.CL (কম্পিউটেশনাল লিঙ্গুইস্টিক্স)
কোড: https://github.com/roccoflint/quantifying-iconicity

সারসংক্ষেপ

ভাষা সাধারণত প্রধানত নির্বিচারী হিসাবে তাত্ত্বিক করা হয়, তবে অনেক নির্দিষ্ট ক্ষেত্রে ধ্বনি এবং অর্থের মধ্যে সিস্টেমেটিক সম্পর্ক পর্যবেক্ষণ করা হয়েছে। এই গবেষণা একটি বিতরণগত পদ্ধতি গ্রহণ করে, ছয়টি ভিন্ন ভাষায় (ইংরেজি, স্প্যানিশ, হিন্দি, ফিনিশ, তুর্কি এবং তামিল) বৃহৎ পরিসরে ফোনোসেমান্টিক আইকনিসিটি পরিমাপ করে। গবেষণা প্রতিটি ভাষায় মর্ফিম্যাটিক্সের ধ্বনি এবং অর্থগত সাদৃশ্য স্থানের সারিবদ্ধতা বিশ্লেষণ করে, সাহিত্যে এর আগে চিহ্নিত করা হয়নি এমন ব্যাখ্যাযোগ্য ফোনোসেমান্টিক সারিবদ্ধতা এবং ভাষাজুড়ে প্যাটার্ন আবিষ্কার করে। একই সাথে পাঁচটি পূর্বে অনুমানকৃত ফোনোসেমান্টিক সারিবদ্ধতা বিশ্লেষণ করে, কিছু সারিবদ্ধতার জন্য সমর্থনকারী প্রমাণ এবং অন্যদের জন্য মিশ্র ফলাফল পায়।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

এই গবেষণা যে মূল সমস্যা সমাধান করতে চায় তা হল: ধ্বনি এবং অর্থের মধ্যে সিস্টেমেটিক সম্পর্ক বৃহৎ পরিসরের পরিমাণগত তদন্তে কতটা প্রতিফলিত হতে পারে, যার মধ্যে চিহ্নিত এবং অচিহ্নিত ঘটনা রয়েছে?

গবেষণার গুরুত্ব

১. তাত্ত্বিক তাৎপর্য: ভাষাগত নির্বিচারিতার ঐতিহ্যবাহী দৃষ্টিভঙ্গিকে চ্যালেঞ্জ করে, ফোনোসেমান্টিক আইকনিসিটির সার্বজনীনতা অন্বেষণ করে ২. ভাষাজুড়ে দৃষ্টিভঙ্গি: ছয়টি টাইপোলজিক্যালি বৈচিত্র্যময় ভাষার মাধ্যমে ফোনোসেমান্টিক সম্পর্কের ভাষাজুড়ে প্যাটার্ন যাচাই করে ३. পদ্ধতিগত অবদান: বৃহৎ পরিসরে ফোনোসেমান্টিক আইকনিসিটি পরিমাপের একটি বিতরণগত পদ্ধতি প্রদান করে

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

१. স্কেল সীমাবদ্ধতা: পূর্ববর্তী গবেষণা প্রায়শই নির্দিষ্ট ঘটনা বা ছোট শব্দভাণ্ডারে মনোনিবেশ করে २. ভাষা কভারেজ অপর্যাপ্ত: ভাষাজুড়ে সিস্টেমেটিক তুলনার অভাব ३. একক পদ্ধতি: ব্যাপক পরিসংখ্যানগত বিশ্লেষণ পদ্ধতির অভাব

মূল অবদান

१. বৃহৎ পরিসরে ফোনোসেমান্টিক আইকনিসিটি পরিমাপের জন্য একটি বিতরণগত পদ্ধতি প্রস্তাব করেছে, একাধিক পরিসংখ্যানগত পরিমাপ একত্রিত করে २. সাহিত্যে এর আগে চিহ্নিত করা হয়নি এমন ব্যাখ্যাযোগ্য ফোনোসেমান্টিক সারিবদ্ধতা আবিষ্কার করেছে, ক্যানোনিক্যাল কোরিলেশন বিশ্লেষণের মাধ্যমে ३. পাঁচটি পূর্বে অনুমানকৃত ফোনোসেমান্টিক সারিবদ্ধতা যাচাই করেছে, ভাষাজুড়ে প্রমাণ প্রদান করে ४. ছয়টি ভাষার জন্য মর্ফোলজিক্যাল সেগমেন্টেশন ডেটাসেট তৈরি করেছে, GPT-4 ব্যবহার করে ফিউ-শট লার্নিং করে ५. ফোনোসেমান্টিক আইকনিসিটির ভাষাজুড়ে প্যাটার্ন বিশ্লেষণ প্রদান করেছে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট: প্রতিটি ভাষার উচ্চ ফ্রিকোয়েন্সি শব্দভাণ্ডার (শীর্ষ ৫০০০ শব্দ) আউটপুট: ধ্বনি এবং অর্থগত সাদৃশ্য স্থানের সারিবদ্ধতার পরিমাণ সীমাবদ্ধতা: ট্রানজিটিভিটি বিভ্রান্তি এড়াতে মর্ফোলজিক্যাল সেগমেন্টেশন প্রয়োজন

মডেল আর্কিটেকচার

ডেটা প্রি-প্রসেসিং প্রবাহ

१. শব্দভাণ্ডার নির্বাচন: প্রতিটি ভাষার শীর্ষ ৫০০০ উচ্চ ফ্রিকোয়েন্সি শব্দ পেতে Wordfreq মডিউল ব্যবহার করে २. মর্ফোলজিক্যাল সেগমেন্টেশন:

শব্দ লেমাটাইজেশনের জন্য Stanza ব্যবহার করে
মর্ফোলজিক্যাল সেগমেন্টেশনের জন্য GPT-4 এর ১০-শট প্রম্পট লার্নিং গ্রহণ করে
নির্দেশনা মেনে চলার ক্ষমতা বৃদ্ধির জন্য স্ট্রাকচার্ড আউটপুট API ব্যবহার করে
মাতৃভাষী যাচাইকরণের মাধ্যমে, ত্রুটির হার ০-৪.৬৭% এ নিয়ন্ত্রিত

३. এমবেডিং অধিগ্রহণ:

অর্থগত এমবেডিং: মর্ফিম্যাটিক্সের সাব-ওয়ার্ড এমবেডিং পেতে FastText ব্যবহার করে
ধ্বনি এমবেডিং: PanPhon বৈশিষ্ট্য ভেক্টরের গড় পুলিং ব্যবহার করে

গ্লোবাল বিশ্লেষণ পদ্ধতি

१. প্রতিনিধিত্ব সাদৃশ্য বিশ্লেষণ (RSA)

ধ্বনি এবং অর্থগত সাদৃশ্য ম্যাট্রিক্সের Spearman সহসম্বন্ধ গুণাঙ্ক গণনা করে
গ্লোবাল মনোটোনিক সারিবদ্ধতা সনাক্ত করে

२. পারস্পরিক তথ্য (MI) পরীক্ষা

সাদৃশ্যকে ২০টি সমান-প্রস্থ ব্যবধানে বিচ্ছিন্ন করে
অ-রৈখিক পরিসংখ্যানগত নির্ভরতা পরিমাপ করে

३. k-নিকটতম প্রতিবেশী ওভারল্যাপ (kNN overlap)

প্রতিটি মর্ফিম্যাটিক্সের ধ্বনি এবং অর্থগত স্থানে ১০টি নিকটতম প্রতিবেশীর ওভারল্যাপ অনুপাত গণনা করে
স্থানীয় প্রতিবেশী সারিবদ্ধতা মূল্যায়ন করে

४. ক্যানোনিক্যাল কোরিলেশন বিশ্লেষণ (CCA)

শীর্ষ ৫টি ক্যানোনিক্যাল ভেরিয়েবল জোড় নিষ্কাশন করে
সর্বাধিক ফোনোসেমান্টিক সারিবদ্ধতা মাত্রা চিহ্নিত করে

সাব-স্পেস বিশ্লেষণ পদ্ধতি

পাঁচটি অনুমানকৃত ফোনোসেমান্টিক স্কেলের জন্য:

আকার-সোনোরিটি (magnitude-sonority)
কোণ-বাধা (angularity-obstruency, অর্থাৎ কিকি-বুবা প্রভাব)
প্রবাহিতা-ধারাবাহিকতা (fluidity-continuity)
উজ্জ্বলতা-স্বরধ্বনি সামনে (brightness-vowel frontness)
চপলতা-ফোনোলজিক্যাল হালকাতা (agility-phonological lightness)

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. LLM-সহায়ক মর্ফোলজিক্যাল সেগমেন্টেশন: বৃহৎ পরিসরে বহুভাষিক মর্ফোলজিক্যাল সেগমেন্টেশনের জন্য প্রথমবার GPT-4 ব্যবহার করে २. বহু-মাত্রিক পরিসংখ্যানগত বিশ্লেষণ: ফোনোসেমান্টিক সারিবদ্ধতা সম্পূর্ণভাবে মূল্যায়ন করতে রৈখিক এবং অ-রৈখিক পদ্ধতি একত্রিত করে ३. ক্যানোনিক্যাল ভেরিয়েবল ব্যাখ্যা কাঠামো: ফোনোসেমান্টিক সারিবদ্ধতার ব্যাখ্যাযোগ্য বিশ্লেষণ প্রদান করে ४. ভাষাজুড়ে তুলনামূলক ডিজাইন: ৩টি ভাষা পরিবারের ৬টি টাইপোলজিক্যালি বৈচিত্র্যময় ভাষা অন্তর্ভুক্ত করে

পরীক্ষামূলক সেটআপ

ডেটাসেট

ভাষা নির্বাচন: ইংরেজি, স্প্যানিশ, হিন্দি, ফিনিশ, তুর্কি, তামিল
ডেটা স্কেল: প্রতিটি ভাষায় ১২১७-२१५३ মর্ফিম্যাটিক্স
ডেটা উৎস: Wordfreq মডিউলের ৮টি পাঠ্য ডোমেইন (উইকিপিডিয়া, সাবটাইটেল, সংবাদ ইত্যাদি)

মূল্যায়ন মেট্রিক্স

গ্লোবাল বিশ্লেষণ: Spearman সহসম্বন্ধ গুণাঙ্ক, পারস্পরিক তথ্য মান, kNN ওভারল্যাপ অনুপাত
সাব-স্পেস বিশ্লেষণ: প্রজেকশন স্থানাঙ্কের র্যাঙ্ক সহসম্বন্ধ
তাৎপর্য পরীক্ষা: ১০০০ বার পারমুটেশন পরীক্ষা, p-মান থ্রেশহোল্ড ০.০५

বাস্তবায়ন বিবরণ

ধ্বনি বৈশিষ্ট্য: PanPhon এর ২१-মাত্রিক ধ্বনি বৈশিষ্ট্য ভেক্টর
অর্থগত বৈশিষ্ট্য: FastText এর ३००-মাত্রিক ঘন এমবেডিং
পরিসংখ্যানগত পরীক্ষা: শূন্য বিতরণ তৈরি করতে ५००-পয়েন্ট ব্যবহার করে, স্থিতিশীলতা যাচাইয়ের জন্য পুনরাবৃত্তি চালায়

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

গ্লোবাল বিশ্লেষণ ফলাফল

ভাষা	মর্ফিম্যাটিক্স সংখ্যা	RSA(ρ)	MI(bits)	kNN ওভারল্যাপ	CCA CV1(ρ)
ইংরেজি	२१५३	-०.०२७	०.००१	०.०२०*	०.३७६*
স্প্যানিশ	१९२९	०.०२१	०.००१	०.०३२*	०.५९८*
হিন্দি	१७१४	-०.०३८	०.००४	०.०२५*	०.५५४*
ফিনিশ	१७१९	०.१२३	०.०१५	०.०३४*	०.५१९*
তুর্কি	१६२६	०.१३२	०.०१५	०.०३४*	०.५३८*
তামিল	१२१७	०.०३४	०.००७	०.०३९*	०.५३८*

মূল আবিষ্কার:

সমস্ত ভাষার RSA এবং MI মান অ-উল্লেখযোগ্য, গ্লোবাল আইসোমর্ফিজমের অভাব নির্দেশ করে
সমস্ত ভাষার kNN ওভারল্যাপ উল্লেখযোগ্য (p<०.००१), স্থানীয় প্রতিবেশী সারিবদ্ধতার অস্তিত্ব নির্দেশ করে
ইংরেজি ছাড়া, সমস্ত ভাষার প্রথম ক্যানোনিক্যাল ভেরিয়েবল সহসম্বন্ধ ०.५ অতিক্রম করে

সাব-স্পেস বিশ্লেষণ ফলাফল

ভাষা	আকার-সোনোরিটি	কোণ-বাধা	প্রবাহিতা-ধারাবাহিকতা	উজ্জ্বলতা-স্বরধ্বনি সামনে	চপলতা-হালকাতা
ইংরেজি	०.०५०*	०.००९	०.०२१*	-०.०१२	०.०१७
স্প্যানিশ	-०.०७५*	०.१११*	-०.०८८*	-०.०२५*	०.०७४*
হিন্দি	०.०६१*	०.००८	०.०००	०.०२८*	०.०२४*
ফিনিশ	०.०१८	०.१३६*	०.१०५*	०.१०१*	-०.००१
তুর্কি	०.०२१*	०.०११	-०.०८५*	०.००२	-०.०३९*
তামিল	०.००१	०.११३*	-०.०३६*	-०.००६	-०.०३२*

ক্যানোনিক্যাল ভেরিয়েবল ব্যাখ্যা আবিষ্কার

ইংরেজি ক্যানোনিক্যাল ভেরিয়েবল ব্যাখ্যা

१. CV१: টান/দিকনির্দেশনা সংযুক্তি ↔ টান (ρ=०.३७६) २. CV२: স্কেলার গুণ ↔ ঘনত্ব (ρ=०.३१८) ३. CV३: অনানুষ্ঠানিকতা ↔ উচ্চারণ সহজতা (ρ=०.३१५) ४. CV४: নথিভুক্তি ↔ সংকোচন (ρ=०.१७६)

ভাষাজুড়ে প্যাটার্ন

অনানুষ্ঠানিকতা-উচ্চারণ সহজতা স্কেল ইংরেজি এবং ফিনিশ উভয়েই চিহ্নিত করা হয়েছে
হিন্দিতে স্থির-অনুরণন স্কেল আবিষ্কৃত হয়েছে, "ॐ" (ওম) এর মতো পবিত্র শব্দকে অনুরণন ধ্বনি বৈশিষ্ট্যের সাথে সংযুক্ত করে

অ্যাবলেশন পরীক্ষা

গবেষণা মর্ফোলজিক্যাল সেগমেন্টেশনের প্রয়োজনীয়তা যাচাই করে, শব্দভাণ্ডার স্তরে ট্রানজিটিভিটি বিভ্রান্তি এড়ায়।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. ফোনোসেমান্টিক আইকনিসিটি প্রধানত নির্দিষ্ট মাত্রা এবং স্থানীয় প্রতিবেশীর মাধ্যমে কাজ করে, গ্লোবাল মনোটোনিক বৈশিষ্ট্যের পরিবর্তে २. ভাষাগত নির্বিচারিতা এবং ফোনোসেমান্টিক আইকনিসিটির পকেট সহ-অস্তিত্ব তত্ত্ব সমর্থন করে ३. কোণ-বাধা স্কেল শক্তিশালী ভাষাজুড়ে সমর্থন পায়, কিকি-বুবা প্রভাব যাচাই করে ४. একাধিক নতুন ব্যাখ্যাযোগ্য ফোনোসেমান্টিক সারিবদ্ধতা আবিষ্কার করেছে

সীমাবদ্ধতা

१. নমুনা স্কেল: LLM সেগমেন্টেশন খরচ দ্বারা সীমাবদ্ধ, মর্ফিম্যাটিক্স সেট স্কেল সীমিত २. ভাষা কভারেজ: শুধুমাত্র ६টি ভাষা কভার করে, ভাষাজুড়ে প্যাটার্নের আরও যাচাইকরণ প্রয়োজন ३. সরঞ্জাম নির্ভরতা: নিম্ন-সম্পদ ভাষার ভাষাবিজ্ঞান সরঞ্জামের গুণমান ফলাফল প্রভাবিত করতে পারে ४. পুনরুৎপাদনযোগ্যতা: LLM পদ্ধতি সম্পূর্ণ পুনরুৎপাদন কঠিন করে তোলে

ভবিষ্যত দিকনির্দেশনা

१. ভাষা কভারেজ সম্প্রসারণ: ভাষাজুড়ে পরিবর্তনশীলতা প্যাটার্ন স্পষ্ট করতে আরও ভাষা বিশ্লেষণ করে २. বহু-মোডাল আইকনিসিটি: চিনা অক্ষরের গ্রাফিক-অর্থগত আইকনিসিটি, সাইন ভাষা আইকনিসিটি গবেষণা করে ३. আরও সাব-স্পেস বিশ্লেষণ: আরও হাতে তৈরি ফোনোসেমান্টিক সারিবদ্ধতা মূল্যায়ন করে

গভীর মূল্যায়ন

শক্তি

१. পদ্ধতিগত উদ্ভাবন: ফোনোসেমান্টিক আইকনিসিটি পরিমাপের জন্য প্রথমবার সিস্টেমেটিক বিতরণগত পদ্ধতি ব্যবহার করে २. ভাষাজুড়ে দৃষ্টিভঙ্গি: ३টি ভাষা পরিবারের টাইপোলজিক্যালি বৈচিত্র্যময় ডিজাইন অন্তর্ভুক্ত করে ३. পরিসংখ্যানগত কঠোরতা: একাধিক পরিপূরক পরিসংখ্যানগত পদ্ধতি ব্যবহার করে, ফলাফল বিশ্বাসযোগ্যতা বৃদ্ধি করে ४. ব্যাখ্যাযোগ্যতা: ক্যানোনিক্যাল ভেরিয়েবল বিশ্লেষণ স্বজ্ঞাত ফোনোসেমান্টিক সারিবদ্ধতা ব্যাখ্যা প্রদান করে ५. অভিজ্ঞতামূলক আবিষ্কার: পরিচিত ঘটনা যাচাই করে এবং নতুন ফোনোসেমান্টিক সারিবদ্ধতা আবিষ্কার করে

দুর্বলতা

१. তাত্ত্বিক গভীরতা: ফোনোসেমান্টিক আইকনিসিটির জ্ঞানীয় প্রক্রিয়ার গভীর অন্বেষণের অভাব २. পদ্ধতি সীমাবদ্ধতা: মর্ফোলজিক্যাল সেগমেন্টেশন LLM এর উপর নির্ভর করে, সিস্টেমেটিক পক্ষপাত প্রবর্তন করতে পারে ३. ফলাফল ব্যাখ্যা: কিছু ক্যানোনিক্যাল ভেরিয়েবলের অর্থগত মেরু ব্যাখ্যা অনেকটা বিষয়গত ४. পরিসংখ্যানগত শক্তি: কিছু বিশ্লেষণের প্রভাব আকার ছোট, বাস্তব তাৎপর্য সীমিত

প্রভাব

१. একাডেমিক অবদান: ধ্বনি প্রতীকবাদ গবেষণার জন্য নতুন কম্পিউটেশনাল পদ্ধতিবিদ্যা প্রদান করে २. ব্যবহারিক মূল্য: ভাষা অধিগ্রহণ, ব্র্যান্ড নামকরণ ইত্যাদি ব্যবহারিক পরিস্থিতিতে প্রয়োগ করা যায় ३. পুনরুৎপাদনযোগ্যতা: সম্পূর্ণ কোড এবং ডেটা প্রদান করে, পরবর্তী গবেষণা প্রচার করে

প্রযোজ্য পরিস্থিতি

१. ভাষাবিজ্ঞান গবেষণা: ভাষাজুড়ে ধ্বনি প্রতীকবাদ তুলনামূলক গবেষণা २. মনোভাষাবিজ্ঞান: ধ্বনি উপলব্ধি এবং অর্থগত প্রক্রিয়াকরণের সম্পর্ক গবেষণা ३. প্রয়োগিত ভাষাবিজ্ঞান: ভাষা শিক্ষা, ব্র্যান্ড নামকরণ, কবিতা বিশ্লেষণ ইত্যাদি

সংদর্ভ

१. Blasi, D. E., et al. (२०१६). Sound–meaning association biases evidenced across thousands of languages. PNAS. २. Ćwiek, A., et al. (२०२१). The bouba/kiki effect is robust across cultures and writing systems. Phil. Trans. R. Soc. B. ३. Bolinger, D. L. (१९५०). Rime, assonance, and morpheme analysis. WORD. ४. Vainio, L. (२०२१). Magnitude sound symbolism influences vowel production. Journal of Memory and Language.

এই পত্রটি ফোনোসেমান্টিক আইকনিসিটি গবেষণার জন্য গুরুত্বপূর্ণ পদ্ধতিগত অবদান এবং অভিজ্ঞতামূলক আবিষ্কার প্রদান করে। যদিও তাত্ত্বিক গভীরতা এবং পদ্ধতি পরিপূর্ণতার ক্ষেত্রে এখনও উন্নতির অবকাশ রয়েছে, তবে এর ভাষাজুড়ে দৃষ্টিভঙ্গি এবং কম্পিউটেশনাল পদ্ধতি উদ্ভাবন এই ক্ষেত্রের উন্নয়নের জন্য একটি গুরুত্বপূর্ণ ভিত্তি স্থাপন করে।