The Fréchet mean is an important statistical summary and measure of centrality of data; it has been defined and studied for persistent homology captured by persistence diagrams. However, the complicated geometry of the space of persistence diagrams implies that the Fréchet mean for a given set of persistence diagrams is not necessarily unique, which prohibits theoretical guarantees for empirical means with respect to population means. In this paper, we derive a variance expression for a set of persistence diagrams exhibiting a multi-matching between the persistence points known as a grouping. Moreover, we propose a condition for groupings, which we refer to as flatness; we prove that sets of persistence diagrams that exhibit flat groupings give rise to unique Fréchet means. We derive a finite sample convergence result for general groupings, which results in convergence for Fréchet means if the groupings are flat. We then interpret flat groupings in a recently-proposed general framework of Fréchet means in Alexandrov geometry. Finally, we show that for manifold-valued data, the persistence diagrams can be truncated to construct flat groupings.
- معرّف الورقة: 2207.03943
- العنوان: شرط هندسي لتفرد متوسطات فريشيه لمخططات الاستمرارية
- المؤلفون: يويتشي كاو، أنثيا مونود (كلية إمبريال لندن)
- التصنيف: math.MG (الهندسة المترية)، stat.ME (الإحصاء - المنهجية)
- تاريخ النشر: يوليو 2022 (نسخة أولية على arXiv، محدثة إلى الإصدار الثالث في يناير 2025)
- رابط الورقة: https://arxiv.org/abs/2207.03943
متوسط فريشيه هو ملخص إحصائي مهم للبيانات ومقياس مركزية تم تعريفه ودراسته لمخططات الاستمرارية في علم التماثل المستمر. ومع ذلك، فإن البنية الهندسية المعقدة لفضاء مخططات الاستمرارية تعني أن متوسط فريشيه لمجموعة معينة من مخططات الاستمرارية ليس بالضرورة فريداً، مما يعيق الضمانات النظرية للمتوسط التجريبي بالنسبة للمتوسط السكاني. تشتق هذه الورقة تعبيرات التباين لمجموعات مخططات الاستمرارية التي تظهر مطابقات متعددة بين النقاط المستمرة تسمى التجميع (grouping). بالإضافة إلى ذلك، يتم اقتراح شرط للتجميع يسمى التسطح (flatness)؛ ويثبت أن مجموعات مخططات الاستمرارية التي تظهر تجميعاً مسطحاً تنتج متوسط فريشيه فريداً. تم اشتقاق نتائج التقارب ذات العينة المحدودة للتجميع العام، مع الحصول على تقارب متوسط فريشيه عندما يكون التجميع مسطحاً. ثم يتم تفسير التجميع المسطح في إطار عام لمتوسطات فريشيه في الهندسة الإسكندرية. أخيراً، يتم إظهار أنه بالنسبة للبيانات ذات القيم المتعددة، يمكن بناء تجميع مسطح من خلال اقتطاع مخططات الاستمرارية.
- الحاجة للتحليل الإحصائي للتماثل المستمر: يعتبر التماثل المستمر طريقة مهمة في تحليل البيانات الطوبولوجية، والمخرجات الرئيسية له هي مخططات الاستمرارية. مع التطبيق الواسع لهذه الطريقة في مختلف المجالات العلمية، أصبحت دراسة الخصائص الإحصائية لمخططات الاستمرارية مسألة أساسية.
- أهمية متوسط فريشيه: متوسط فريشيه هو تعميم مهم للمتوسط الحسابي العادي على فضاءات مترية عامة، وقد تم تعريفه ودراسته في فضاء مخططات الاستمرارية، وهو أداة رئيسية لقياس المركزية في مجموعة مخططات الاستمرارية.
- تحدي مشكلة عدم التفرد: نظراً للبنية الهندسية المعقدة لفضاء مخططات الاستمرارية (S2,W2) ذات الانحناء غير السالب، فإن متوسط فريشيه عادة ما يكون غير فريد، مما يحد بشدة من التحليل النظري والتطبيقات العملية.
- غياب شروط التفرد: تفترض الدراسات الموجودة تفرد متوسط فريشيه لإنشاء نتائج التقارب، لكنها تفتقر إلى شروط لتحديد متى يكون فريداً.
- عدم كفاية الضمانات النظرية: لا يمكن توفير ضمانات نظرية لمتوسط فريشيه التجريبي المحسوب من البيانات الحقيقية.
- التعقيد الحسابي: نظراً لعدم التفرد، قد تتقارب الخوارزميات الموجودة إلى حلول محلية مثلى.
تهدف هذه الورقة إلى إيجاد شروط تضمن تفرد متوسط فريشيه من خلال التحليل الهندسي، وبالتالي توفير أساس نظري متين للتحليل الإحصائي لمخططات الاستمرارية، وإنشاء نظرية التقارب المقابلة.
- اقتراح مفهوم التجميع المسطح: تعريف شرط هندسي "التجميع المسطح" (flat grouping) لمجموعات مخططات الاستمرارية، وهو شرط كافٍ لضمان تفرد متوسط فريشيه.
- اشتقاق تعبيرات التباين: اشتقاق تعبير دقيق للتباين للتجميع العام (النظرية 8)، مما يكشف تأثير المساهمة القطرية على التباين.
- إثبات نظرية التفرد: إثبات أن مجموعات مخططات الاستمرارية ذات التجميع المسطح لها متوسط فريشيه فريد (النظرية 10).
- إنشاء نظرية التقارب: اشتقاق معدلات التقارب ذات العينة المحدودة للتجميع العام (النظرية 11)، وخاصة توفير ضمانات التقارب لمتوسط فريشيه للتجميع المسطح.
- تفسير الهندسة الإسكندرية: إعادة تفسير التجميع المسطح في إطار نظرية فضاء الإسكندرية، مما يوفر الحدس الهندسي والرؤى النظرية.
- طريقة التطبيق العملي: إظهار كيفية بناء تجميع مسطح من خلال اقتطاع مخططات الاستمرارية، مما يوفر طريقة عملية لتقريب التماثل المستمر لبيانات المتعددات.
بالنظر إلى مجموعة مخططات الاستمرارية {D1,…,DL}، ندرس شروط تفرد متوسط فريشيه الخاص بها. يتم تعريف دالة فريشيه على النحو التالي:
F(D)=L1∑i=1LW22(D,Di)
حيث W2 هي مسافة 2-Wasserstein.
التعريف 4: التجميع G هو مصفوفة رسمية بحجم K×L تحتوي عناصرها على نقاط غير قطرية من D1,…,DL ونسخ من الخط القطري ∂Ω. يُطلق على كل صف اسم اختيار (selection).
يمثل التجميع بشكل أساسي مطابقات متعددة بين نقاط مخططات الاستمرارية، مما يعمم مفهوم المطابقة الثنائية بين مخططي استمرارية.
النظرية 8: بالنسبة للتجميع G، يكون التباين الخاص به:
V(G)=L21∑i=1K∑1≤w<ℓ≤L∥Giw−Giℓ∥2+∑i=1KL2siL−si(∑1≤w<ℓ≤si∥(Gjwi)⊤−(Gjℓi)⊤∥2)
حيث si هو عدد النقاط غير القطرية في الصف i. يعكس الحد الأول مساهمة المسافات بين النقاط، بينما يجسد الحد الثاني الدور الخاص للخط القطري.
التعريف 9: التجميع G مسطح إذا كان هناك λ>0 بحيث:
- (i) قطر كل اختيار غير تافه محدود: ∥Giw−Giℓ∥<λ
- (ii) المسافة بين الاختيارات المختلفة لها حد أدنى: ∥Giw−Gjℓ∥>λ (للقيم المختلفة i,j)
- (iii) النقاط غير القطرية بعيدة عن الخط القطري: ∥Giw−∂Ω∥>λ
يوازن شرط التجميع المسطح بذكاء بين ثلاثة قيود هندسية:
- الإحكام داخل المجموعة (الشرط i)
- الفصل بين المجموعات (الشرط ii)
- البعد عن الحدود (الشرط iii)
يضمن هذا التصميم تفرد المطابقة المثلى.
من خلال تحليل نقاط مخططات الاستمرارية إلى مكونات متوازية وعمودية للخط القطري، تم حساب تعبير التباين بدقة يتضمن تأثير الخط القطري، وهذا يمثل اختراقاً تقنياً مهماً.
الاستفادة من الخصائص الهندسية لفضاءات الإسكندرية ذات الانحناء غير السالب، خاصة مفاهيم المخاريط الجزئية الهيلبرتية ودوال الاحتضان (hugging function)، لتوفير تفسير هندسي عميق للتجميع المسطح.
- بيانات دائرية: دائرة بنصف قطر 0.5، 1000 نقطة موزعة بشكل موحد
- بيانات حلقية: حلقة بنصف قطر خارجي 0.8 ونصف قطر داخلي 0.3، 10000 نقطة موزعة بشكل موحد
استخدام طريقة bootstrap:
- استخراج B مجموعة فرعية X1,…,XB من مجموعة البيانات الأصلية X
- حساب مخطط الاستمرارية D[Xi] لكل مجموعة فرعية
- بناء تجميع مسطح من خلال الاقتطاع
- حساب متوسط فريشيه لمخططات الاستمرارية المقتطعة كتقريب لـ D[X]
بناءً على ثابت الفصل للمتعددة λ(M)، تعيين عتبة الاقتطاع 21λ(M)، وإزالة النقاط القريبة جداً من الخط القطري، مما يضمن أن النقاط المتبقية تشكل تجميعاً مسطحاً.
- يحتوي مخطط الاستمرارية الأصلي ثنائي الأبعاد على نقطة واحدة غير قطرية رئيسية (0.0227,0.8754) و4 نقاط قريبة من الخط القطري
- 50 مجموعة فرعية (كل منها 600 نقطة)، عتبة الاقتطاع 0.2
- متوسط فريشيه: (0.0395,0.8582)، يقارب بشكل جيد مخطط الاستمرارية الحقيقي
- يحتوي مخطط الاستمرارية الأصلي ثنائي الأبعاد على نقطتين غير قطريتين رئيسيتين (0.0382,0.5220) و(0.0326,0.8884)، بالإضافة إلى 478 نقطة قريبة من الخط القطري
- 20 مجموعة فرعية (كل منها 4000 نقطة)، عتبة الاقتطاع 0.3
- متوسط فريشيه: (0.0597,0.5222) و(0.0537,0.8887)، يحافظ بدقة على الخصائص الطوبولوجية للحلقة
- فعالية الاقتطاع: يمكن بناء تجميع مسطح بنجاح من خلال الاقتطاع المناسب
- جودة التقريب: متوسط فريشيه بعد الاقتطاع يمكن أن يقارب بشكل جيد الخصائص الطوبولوجية الرئيسية لمخطط الاستمرارية الأصلي
- الاستقرار الحسابي: يضمن التجميع المسطح تفرد متوسط فريشيه، مما يتجنب تقارب الخوارزمية إلى حلول محلية مثلى مختلفة
- نظرية متوسط فريشيه: عرّف ميليكو وآخرون (2011) لأول مرة متوسط فريشيه لمخططات الاستمرارية، وأنشأ تيرنر وآخرون (2014) نتائج التقارب بافتراض التفرد
- الخوارزميات الحسابية: اقترح تيرنر وآخرون (2014) خوارزمية جشعة، وطور لاكومب وآخرون (2018) خوارزميات قائمة على النقل الأمثل
- الطرق الاحتمالية: أدخل مونش وآخرون (2015) متوسط فريشيه الاحتمالي للتعامل مع مخططات الاستمرارية المتغيرة بمرور الوقت
- النظرية العامة: أنشأ لو جويك وآخرون (2022) نظرية تقارب عامة للمتوسطات التجريبية لفريشيه في فضاءات الإسكندرية
- أمثلة التطبيق: تم تطبيق هذه النظرية بنجاح على عدة مجالات بما فيها مراكز التوزيعات الغاوسية وأنماط تشوه القوالب
- الخصائص الهندسية: أثبت تيرنر وآخرون (2014) أن (S2,W2) هو فضاء إسكندري ذو انحناء غير سالب
بالمقارنة مع الأعمال الموجودة، توفر هذه الورقة للمرة الأولى شروطاً هندسية لتفرد متوسط فريشيه لمخططات الاستمرارية، مما يملأ الفراغ النظري، ويوفر فهماً جديداً في إطار الهندسة الإسكندرية.
- المساهمة النظرية: يوفر التجميع المسطح شروطاً هندسية قابلة للتحقق لتفرد متوسط فريشيه لمخططات الاستمرارية
- نظرية التقارب: إنشاء معدل تقارب محدود العينة يتضمن حد التباين E[W22(Dˉ,D∗)]≤σ2/B
- الطريقة العملية: تقنية الاقتطاع توفر طريقة عملية لبناء تجميع مسطح للتطبيقات الفعلية
- تقييد الشروط: شرط التجميع المسطح نسبياً صارم، وقد لا ينطبق على جميع مجموعات مخططات الاستمرارية
- خسارة الاقتطاع: قد تؤدي عملية الاقتطاع إلى فقدان معلومات طوبولوجية مهمة
- اختيار المعاملات: يتطلب اختيار عتبة الاقتطاع معرفة مسبقة أو طرقاً استكشافية
- الاقتطاع التكيفي: تطوير طرق اقتطاع تكيفية بناءً على فترات الثقة الإحصائية، موازنة الحفاظ على الإشارة وبناء التسطح
- بحث الوسيط: توسيع النظرية إلى وسيط فريشيه لمخططات الاستمرارية، مما يتطلب دراسة الخصائص الهندسية لفضاء (S1,W1)
- متوسط فريشيه المعمم c: دراسة تطبيق نظرية متوسط فريشيه المعممة c الأكثر عمومية في فضاء مخططات الاستمرارية
- الابتكار النظري: توفير حل هندسي كامل لمشكلة تفرد متوسط فريشيه لمخططات الاستمرارية للمرة الأولى
- الصرامة الرياضية: إثباتات كاملة وصارمة، اشتقاق تفصيلي لتعبيرات التباين، حدس هندسي واضح
- القيمة العملية: توفر طريقة الاقتطاع خوارزمية تقريبية مدعومة نظرياً لتحليل التماثل المستمر للبيانات الكبيرة
- التكامل متعدد التخصصات: دمج ناجح لأدوات نظرية من تحليل البيانات الطوبولوجية والهندسة المترية والإحصاء
- تقييد نطاق التطبيق: شرط التجميع المسطح صارم نسبياً، وقد يكون من الصعب تحقيقه في البيانات الفعلية
- تبسيط استراتيجية الاقتطاع: طريقة الاقتطاع الحالية نسبياً خشنة، وقد تحتاج إلى استراتيجية حفظ إشارة أكثر دقة
- التعقيد الحسابي: لم تتم دراسة التعقيد الحسابي لتحقق التسطح واختيار معاملات الاقتطاع بالتفصيل
- التأثير النظري: وضع أساس مهم لنظرية إحصائيات التماثل المستمر، من المتوقع أن يدفع تطور النظريات ذات الصلة
- الآفاق التطبيقية: توفير طرق مدعومة نظرياً لتحليل البيانات الطوبولوجية على نطاق واسع، مع إمكانيات تطبيق واسعة
- المساهمة المنهجية: يمكن تعميم نمط البحث الذي يجمع بين الشروط الهندسية والخصائص الإحصائية على فضاءات مترية أخرى
- تعلم المتعددات: مناسب لاستخراج وتحليل الخصائص الطوبولوجية من بيانات العينات من المتعددات
- تحليل الطوبولوجيا الزمنية: يمكن استخدامه للنمذجة الإحصائية للهياكل الطوبولوجية المتغيرة بمرور الوقت
- الحسابات الطوبولوجية على نطاق واسع: توفير إرشادات نظرية لتقريب التماثل المستمر في الحالات التي تكون فيها موارد الحوسبة محدودة
- Turner, K., Mileyko, Y., Mukherjee, S., & Harer, J. (2014). Fréchet means for distributions of persistence diagrams. Discrete & Computational Geometry, 52(1), 44-70.
- Le Gouic, T., Paris, Q., Rigollet, P., & Stromme, A. J. (2022). Fast convergence of empirical barycenters in alexandrov spaces and the wasserstein space. Journal of the European Mathematical Society, 25(6), 2229-2250.
- Mileyko, Y., Mukherjee, S., & Harer, J. (2011). Probability measures on the space of persistence diagrams. Inverse Problems, 27(12), 124007.
- Munch, E., Turner, K., Bendich, P., Mukherjee, S., Mattingly, J., & Harer, J. (2015). Probabilistic Fréchet means for time varying persistence diagrams. Electronic Journal of Statistics, 9(1), 1173-1204.
ملاحظة: تمثل هذه الورقة مساهمة نظرية مهمة في المجال المتقاطع لتحليل البيانات الطوبولوجية والهندسة المترية، وتوفر أساساً رياضياً متيناً للتطبيقات الإحصائية للتماثل المستمر. من المتوقع أن يكون لمفهوم التجميع المسطح والإطار النظري المقابل الذي تقترحه تأثير عميق على هذا المجال.