Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction
Guichoux, Lemerle, Mehta et al.
Human communication is multimodal, with speech and gestures tightly coupled, yet most computational methods for generating speech and gestures synthesize them sequentially, weakening synchrony and prosody alignment. We introduce Gelina, a unified framework that jointly synthesizes speech and co-speech gestures from text using interleaved token sequences in a discrete autoregressive backbone, with modality-specific decoders. Gelina supports multi-speaker and multi-style cloning and enables gesture-only synthesis from speech inputs. Subjective and objective evaluations demonstrate competitive speech quality and improved gesture generation over unimodal baselines.
academic
Gelina: ইন্টারলিভড টোকেন প্রেডিকশনের মাধ্যমে একীভূত বক্তৃতা এবং অঙ্গভঙ্গি সংশ্লেষণ
মানুষের যোগাযোগ প্রকৃতিগতভাবে বহুমাত্রিক, যেখানে বক্তৃতা এবং অঙ্গভঙ্গি ঘনিষ্ঠভাবে সংযুক্ত থাকে। তবে বেশিরভাগ বক্তৃতা এবং অঙ্গভঙ্গি উৎপাদনকারী গণনামূলক পদ্ধতি ক্রমিক সংশ্লেষণ ব্যবহার করে, যা সমন্বয়তা এবং ছন্দ সারিবদ্ধতা হ্রাস করে। এই পেপারটি Gelina উপস্থাপন করে, যা একটি একীভূত কাঠামো যা বিচ্ছিন্ন স্বয়ংক্রিয় রিগ্রেসিভ ব্যাকবোনে ইন্টারলিভড টোকেন সিকোয়েন্স ব্যবহার করে এবং নির্দিষ্ট মোডালিটি ডিকোডার সহ, পাঠ্য থেকে যৌথভাবে বক্তৃতা এবং সহ-বক্তৃতা অঙ্গভঙ্গি সংশ্লেষণ করে। Gelina বহু-বক্তা এবং বহু-শৈলী ক্লোনিং সমর্থন করে এবং বক্তৃতা ইনপুট থেকে শুধুমাত্র অঙ্গভঙ্গি সংশ্লেষণ সক্ষম করে। বিষয়গত এবং উদ্দেশ্যমূলক মূল্যায়ন নির্দেশ করে যে একক-মোডালিটি ভিত্তিরেখার তুলনায়, Gelina প্রতিযোগিতামূলক বক্তৃতা গুণমান এবং উন্নত অঙ্গভঙ্গি উৎপাদন ক্ষমতা রয়েছে।
বিদ্যমান বহুমাত্রিক সিস্টেমগুলি বেশিরভাগ ক্যাসকেড ডিজাইন গ্রহণ করে, প্রথমে বক্তৃতা উৎপাদন করে, তারপর অঙ্গভঙ্গি যোগ করে। এই পদ্ধতিতে নিম্নলিখিত সমস্যা রয়েছে:
সমন্বয়তা হ্রাস: বক্তৃতা উৎপাদন প্রক্রিয়া অঙ্গভঙ্গির ধরন এবং সময় সম্পর্কে অবগত নয়
সীমিত ছন্দ সারিবদ্ধতা: বক্তৃতা এবং অঙ্গভঙ্গির মধ্যে সমন্বয়ের অভাব
হ্রাসপ্রাপ্ত প্রকাশশীলতা: মনোভাষাতাত্ত্বিক প্রমাণ দ্বারা প্রদর্শিত বক্তৃতা এবং অঙ্গভঙ্গি যৌথ পরিকল্পনার নীতির বিরুদ্ধে
প্রথম ইন্টারলিভড টোকেন স্বয়ংক্রিয় রিগ্রেসিভ আর্কিটেকচার: বক্তৃতা-অঙ্গভঙ্গি সংশ্লেষণের জন্য প্রথম ইন্টারলিভড টোকেন স্বয়ংক্রিয় রিগ্রেসিভ আর্কিটেকচার প্রস্তাব করে, একীভূত ব্যাকবোনের মধ্যে মোডালিটি সারিবদ্ধ করে
উদ্ভাবনী প্রশিক্ষণ কৌশল: বৃহৎ একক-মোডালিটি পাঠ্য-বক্তৃতা ডেটাসেট ব্যবহার করে বিরল যুক্ত ডেটার অধীনে সাধারণীকরণ ক্ষমতা উন্নত করার প্রশিক্ষণ কৌশল প্রস্তাব করে
নমনীয় ইনপুট মোড: শুধুমাত্র পাঠ্য বক্তৃতা + অঙ্গভঙ্গি উৎপাদন, বা পাঠ্য + বক্তৃতা শুধুমাত্র অঙ্গভঙ্গি সংশ্লেষণ সমর্থন করে
দ্বি-মোডালিটি শৈলী ক্লোনিং: ক্রম ধারাবাহিকতার মাধ্যমে বক্তৃতা এবং অঙ্গভঙ্গির যৌথ ক্লোনিং সক্ষম করে, স্পষ্ট বক্তা এম্বেডিং প্রয়োজন নেই
বক্তৃতা টোকেনাইজেশন: WavTokenizer ব্যবহার করে 24kHz বক্তৃতাকে 75Hz এর বিচ্ছিন্ন টোকেনে রূপান্তরিত করে
অঙ্গভঙ্গি টোকেনাইজেশন: অবশিষ্ট ভেক্টর কোয়ান্টাইজেশন ভেরিয়েশনাল অটোএনকোডার (RVQ-VAE) ব্যবহার করে, ক্রমাগত গতি সিকোয়েন্সকে 5Hz এর স্তরযুক্ত বিচ্ছিন্ন টোকেনে রূপান্তরিত করে
পাঠ্য টোকেনাইজেশন: মান বাইট পেয়ার এনকোডিং (BPE) অ্যালগরিদম
ইন্টারলিভড টোকেন ডিজাইন: সৃজনশীলভাবে বক্তৃতা এবং অঙ্গভঙ্গি টোকেনকে সময় মাত্রায় ইন্টারলিভ করে, মোডালিটির মধ্যে সময় সারিবদ্ধতা নিশ্চিত করে
দুই-পর্যায়ের প্রশিক্ষণ কৌশল: প্রথমে বৃহৎ-স্কেল একক-মোডালিটি ডেটায় পাঠ্য-বক্তৃতা সারিবদ্ধতা প্রতিষ্ঠা করে, তারপর যুক্ত ডেটায় বহুমাত্রিক সমন্বয় শিখে
প্রবাহ ম্যাচিং ডিকোডিং: স্বয়ংক্রিয় রিগ্রেসিভ ব্যাকবোনের শব্দার্থিক সমৃদ্ধ এম্বেডিং স্থান ব্যবহার করে, শর্তসাপেক্ষ প্রবাহ ম্যাচিংয়ের মাধ্যমে অঙ্গভঙ্গি গুণমান উন্নত করে
অঙ্গভঙ্গি গুণমান: Gelina ক্লোনিং FGD-B-তে সর্বোত্তম পারফরম্যান্স প্রদর্শন করে (0.0839), অন্যান্য অঙ্গভঙ্গি উৎপাদন ভিত্তিরেখার চেয়ে উল্লেখযোগ্যভাবে উন্নত
বক্তৃতা গুণমান: Lina-Speech এর তুলনায়, WER 10.9% থেকে 9.2% এ হ্রাস পায়, NMOS 2.98 থেকে 3.21 এ বৃদ্ধি পায়
চালনা দক্ষতা: A5000 GPU-তে RTF 1.47, প্রায় রিয়েল-টাইমের কাছাকাছি, একই সাথে দুটি মোডালিটি সংশ্লেষণ করে
একীভূত কাঠামোর কার্যকারিতা: Gelina প্রমাণ করে যে যৌথ বক্তৃতা-অঙ্গভঙ্গি উৎপাদন প্রতিযোগিতামূলক বজায় রাখতে পারে, এমনকি একক-মোডালিটি ভিত্তিরেখা অতিক্রম করতে পারে
ইন্টারলিভড টোকেনের সুবিধা: একক স্বয়ংক্রিয় রিগ্রেসিভ প্রবাহে বক্তৃতা এবং অঙ্গভঙ্গি টোকেন যৌথভাবে উৎপাদন করে, সমন্বিত বহুমাত্রিক আউটপুট নিশ্চিত করে
প্রশিক্ষণ কৌশলের সাফল্য: দুই-পর্যায়ের প্রশিক্ষণ বিদ্যমান একক-মোডালিটি এবং দ্বি-মোডালিটি ডেটা সম্পদ কার্যকরভাবে ব্যবহার করে
পেপারটি 67টি সম্পর্কিত রেফারেন্স উদ্ধৃত করে, যা অঙ্গভঙ্গি সংশ্লেষণ, বক্তৃতা সংশ্লেষণ, বহুমাত্রিক শেখার একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।
সামগ্রিক মূল্যায়ন: এটি বহুমাত্রিক সংশ্লেষণ ক্ষেত্রে গুরুত্বপূর্ণ উদ্ভাবন তাৎপর্য সহ একটি পেপার। Gelina ইন্টারলিভড টোকেন পূর্বাভাসের মাধ্যমে সত্যিকারের অর্থে একীভূত বক্তৃতা-অঙ্গভঙ্গি সংশ্লেষণ অর্জন করে, প্রযুক্তিগত পথ উদ্ভাবনী, পরীক্ষামূলক মূল্যায়ন ব্যাপক, গুরুত্বপূর্ণ একাডেমিক মূল্য এবং প্রয়োগ সম্ভাবনা রয়েছে। যদিও কিছু সীমাবদ্ধতা রয়েছে, তবে এটি এই ক্ষেত্রের উন্নয়নের জন্য মূল্যবান নতুন চিন্তাভাবনা প্রদান করে।