2025-11-18T18:37:13.503826

Generalized Task-Driven Medical Image Quality Enhancement with Gradient Promotion

Zhang, Cheng

Thanks to the recent achievements in task-driven image quality enhancement (IQE) models like ESTR, the image enhancement model and the visual recognition model can mutually enhance each other's quantitation while producing high-quality processed images that are perceivable by our human vision systems. However, existing task-driven IQE models tend to overlook an underlying fact -- different levels of vision tasks have varying and sometimes conflicting requirements of image features. To address this problem, this paper proposes a generalized gradient promotion (GradProm) training strategy for task-driven IQE of medical images. Specifically, we partition a task-driven IQE system into two sub-models, i.e., a mainstream model for image enhancement and an auxiliary model for visual recognition. During training, GradProm updates only parameters of the image enhancement model using gradients of the visual recognition model and the image enhancement model, but only when gradients of these two sub-models are aligned in the same direction, which is measured by their cosine similarity. In case gradients of these two sub-models are not in the same direction, GradProm only uses the gradient of the image enhancement model to update its parameters. Theoretically, we have proved that the optimization direction of the image enhancement model will not be biased by the auxiliary visual recognition model under the implementation of GradProm. Empirically, extensive experimental results on four public yet challenging medical image datasets demonstrated the superior performance of GradProm over existing state-of-the-art methods.

academic

تحسين جودة الصور الطبية المدفوع بالمهام مع تعزيز التدرج

المعلومات الأساسية

معرّف الورقة: 2501.01114
العنوان: Generalized Task-Driven Medical Image Quality Enhancement with Gradient Promotion
المؤلفون: Dong Zhang, Kwang-Ting Cheng
التصنيف: cs.CV (رؤية الحاسوب)
تاريخ النشر/المؤتمر: طبعة arXiv، 2 يناير 2025
رابط الورقة: https://arxiv.org/abs/2501.01114

الملخص

تقدم هذه الورقة استراتيجية تدريب تعزيز التدرج المعمم (GradProm) لمعالجة مشكلة تحسين جودة الصور الطبية المدفوع بالمهام. على الرغم من أن نماذج تحسين جودة الصور المدفوعة بالمهام الحالية (مثل ESTR) يمكنها تحقيق التعزيز المتبادل بين نموذج تحسين الصور ونموذج التعرف البصري، إلا أنها تتجاهل حقيقة مهمة: المهام البصرية المختلفة لها متطلبات مختلفة وأحياناً متضاربة من ميزات الصور. لحل هذه المشكلة، تقسم الورقة نظام IQE المدفوع بالمهام إلى نموذجين فرعيين: نموذج تحسين الصور الرئيسي ونموذج التعرف البصري المساعد. يستخدم GradProm تدرجات كلا النموذجين لتحديث معاملات نموذج تحسين الصور فقط عندما تكون اتجاهات التدرج متسقة، وإلا يستخدم فقط تدرج نموذج تحسين الصور نفسه. تثبت الورقة نظرياً أن هذه الطريقة تضمن عدم انحياز اتجاه التحسين لنموذج تحسين الصور من قبل نموذج التعرف البصري المساعد، وتتحقق النتائج التجريبية من تفوقها على أربع مجموعات بيانات طبية متاحة للجمهور.

خلفية البحث والدافع

تعريف المشكلة

يلعب تحليل الصور الطبية دوراً متزايد الأهمية في الأنظمة الطبية الحديثة، حيث يساعد الأطباء على تصور الهياكل التشريحية الداخلية وتقييم تطور المرض. تعتبر جودة الصور حاسمة لتحليل الصور الطبية، حيث تؤدي الصور ذات الجودة الأعلى عادة إلى أداء تعرف أكثر دقة.

قيود الطرق الموجودة

مشاكل الطرق الموجهة للإدراك: تركز طرق معالجة الصور الطبية الموجهة للإدراك التقليدية على تحقيق جودة عالية قريبة من الإدراك البصري البشري، لكن جودة الصور المحسنة المرئية هذه لا تعادل المعلومات المفيدة التي يحصل عليها نموذج التعرف البصري اللاحق.
عيوب الطرق المدفوعة بالمهام: على الرغم من أن طرق IQE المدفوعة بالمهام الحالية يمكنها تدريب نموذج تحسين الصور ونموذج التعرف البصري معاً، إلا أنها تتجاهل حقيقة مهمة - المهام المختلفة لرؤية الحاسوب لها متطلبات مختلفة وأحياناً متضاربة من ميزات الصور.

دافع البحث

كما هو موضح في الشكل 2، تحت نفس الصورة المدخلة، تركز مهمة إزالة الضوضاء على جميع مناطق الصورة، وتركز مهمة التقسيم الدلالي على مناطق الأجسام الأمامية، بينما تركز مهمة التشخيص على المناطق المحلية المميزة للأجسام الأمامية. يؤدي عدم الاتساق هذا في متطلبات الميزات إلى صراع محتمل بين نموذج تحسين الصور الأمامي ونموذج التعرف البصري اللاحق، مما يؤثر على الأداء.

المساهمات الأساسية

اقتراح نموذج جديد لـ IQE الطبي المدفوع بالمهام: يقسم النظام بوضوح إلى نموذجين فرعيين - نموذج تحسين الصور الرئيسي ونموذج التعرف البصري المساعد
تصميم استراتيجية تدريب GradProm: استراتيجية تدريب عامة بسيطة وفعالة يمكنها تدريب النموذجين الفرعيين ديناميكياً وتحقيق تحسن مستمر في الأداء، دون الحاجة إلى بيانات إضافية أو تغييرات في معمارية الشبكة
توفير إثبات نظري: يثبت أن GradProm يمكنه التقارب إلى الحد الأدنى المحلي دون أن ينحاز من قبل نموذج التعرف البصري المساعد
التحقق التجريبي الشامل: إجراء تجارب واسعة على أربع مجموعات بيانات طبية متاحة للجمهور، مما يثبت أن GradProm حقق أداء متقدمة في مهام IQE

شرح الطريقة

تعريف المهمة

يعتبر IQE الطبي المدفوع بالمهام في الأساس مهمة تحسين صور، حيث يكون الإدخال صورة منخفضة الجودة X، والصورة عالية الجودة المقابلة Y بمثابة تسميات. تهدف عملية التدريب إلى جعل X بعد ترميزها بواسطة نموذج تحسين الصور IP ونموذج التعرف البصري VR قريبة قدر الإمكان من Y.

التعبير الرياضي للطرق التقليدية

إجمالي الخسارة للتدريب المشترك التقليدي هو:

L_total = L_IP + λL_VR

حيث L_IP هي خسارة تحسين الصور، L_VR هي خسارة التعرف البصري، و λ هي معامل التوازن الفائق.

الفكرة الأساسية لـ GradProm

الفكرة الأساسية لـ GradProm هي تقسيم نظام IQE الطبي المدفوع بالمهام بوضوح إلى:

النموذج الرئيسي: نموذج تحسين الصور IP (المعاملات θ)
النموذج المساعد: نموذج التعرف البصري VR (المعاملات φ)

استراتيجية تعزيز التدرج

يعدل GradProm هدف التدريب ديناميكياً بناءً على تشابه جيب التمام لتدرجات النموذجين الفرعيين s = cos(G_IP, G_VR):

الحالة 1: عندما يكون s ≥ 0 (اتجاهات التدرج متسقة)

G_T = [∇_θ(L_IP(θ) + λL_VR(φ)); ∇_φL_VR(φ)]

الحالة 2: عندما يكون s < 0 (اتجاهات التدرج غير متسقة)

G_T = [∇_θ(L_IP(θ)); ∇_φL_VR(φ)]

التحليل النظري

اللمة 3.1: يمكن لـ GradProm تحقيق الحد الأدنى المحلي من خلال قاعدة التحديث التالية:

θ^(t+1)_T := θ^t_T - α_t(G^t_IP + G^t_VR * max(0, cos(G^t_IP, G^t_VR)))

نقاط الإثبات: من خلال إثبات أن اتجاه التحديث له منتج داخلي موجب مع تدرج النموذج الرئيسي، يضمن صحة اتجاه التحسين ويمنع النموذج المساعد من إدخال انحياز.

إعداد التجارب

مجموعات البيانات

ISIC 2018: مجموعة بيانات آفات الجلد، 2,594 صورة RGB، بدقة 600×450
COVID-CT: مجموعة بيانات CT، 349 صورة CT موجبة لـ COVID-19 و 397 صورة سالبة
Lizard: 238 صورة PNG، تحتوي على 6 فئات من الأنوية الخلوية
CAMUS: مجموعة بيانات تخطيط صدى القلب، صور الموجات فوق الصوتية ثنائية الأبعاد من 500 مريض

مهام التجارب

مهمة تحسين الصور: إزالة الضوضاء، الدقة الفائقة
مهام التعرف البصري: التشخيص (التصنيف)، التقسيم الدلالي

طرق المقارنة

Benchmark-i: استخدام SR-ResNet فقط لتحسين الصور
Benchmark-ii/iii: ResNet النقي للتشخيص / UNet للتقسيم
التدريب المشترك: استراتيجية التدريب المشترك
تدريب المعاملات المجمدة: استراتيجية التدريب مع تجميد معاملات VR (طريقة ESTR)

مؤشرات التقييم

جودة الصور: PSNR، SSIM
أداء التعرف: الدقة (التشخيص)، mIoU (التقسيم)

نتائج التجارب

النتائج الرئيسية

نتائج إزالة الضوضاء على مجموعة بيانات ISIC 2018

مقارنة الأداء عند مستويات ضوضاء مختلفة (الجدول 1 والجدول 2):

σ=0.1 الضوضاء	PSNR↑	SSIM↑
المعاملات المجمدة	32.152	0.906
GradProm	33.383	0.915

يتفوق GradProm على طرق المقارنة الأساسية عند جميع مستويات الضوضاء، على سبيل المثال عند σ=0.1 يحقق تحسناً بمقدار 1.231 PSNR و 0.009 SSIM مقارنة بطريقة المعاملات المجمدة.

المقارنة مع طرق الحالة الفنية الحديثة

يعرض الجدول 5 المقارنة مع طرق SOTA على ISIC 2018:

الطريقة	σ=0.1 PSNR	σ=0.2 PSNR	σ=0.3 PSNR
ESTR (ResNet-101)	33.723	25.925	20.163
ADAP	34.858	24.926	20.373
GradProm (ResNet-101)	36.173	28.024	23.703

التجارب الاستئصالية

مقارنة استراتيجيات التدريب المختلفة

تظهر النتائج التجريبية أن GradProm يتفوق على التدريب المشترك واستراتيجيات تجميد المعاملات في كل من الإعدادات الموجهة وغير الموجهة.

تحليل التعلم متعدد المهام

لم يؤد استخدام التشخيص والتقسيم معاً كمهام مساعدة إلى تحسن في الأداء، بل حدث انخفاض، مما يؤكد فرضية عدم اتساق متطلبات الميزات بين مهام الرؤية المختلفة.

اختبار السيناريوهات الصعبة

في السيناريو الصعب للغاية للضوضاء المركبة (ضوضاء غاوسية + ضوضاء بواسون + ضبابية غاوسية)، لا يزال GradProm يحقق تحسناً بمقدار 0.384 PSNR.

تجارب التعميم عبر المجالات

في التجارب عبر المجالات (التدريب على ISIC 2018 والاختبار على Lizard)، يحقق GradProm تحسناً في الأداء مقابل ESTR بمقدار 13.273/0.325 و 13.825/0.458 PSNR/SSIM في الإعدادات غير الموجهة والموجهة على التوالي.

التحليل الكيفي

النتائج المرئية: تحافظ الصور التي ينتجها GradProm على سلامة الأجسام الأمامية بشكل أفضل أثناء إزالة الضوضاء
تحليل خريطة التفعيل: تركز خريطة CAM الخاصة بـ GradProm بشكل أكبر على مناطق الأجسام الأمامية، مما يتحقق من فعالية المهام المساعدة

الأعمال ذات الصلة

تحسين جودة الصور الطبية

يمكن تقسيم مهام IQE الطبية الموجودة إلى فئتين:

استعادة الصور: تحسين جودة الصور الطبية المتدهورة أو الضوضائية
تحسين الصور: تحسين تباين الصور وشحذ تفاصيل الصور

التعلم متعدد المهام والتعلم المساعد

التعلم متعدد المهام: الاستفادة من المعرفة المفيدة من المهام ذات الصلة لتحسين الأداء الكلي لجميع المهام المعنية
التعلم المساعد: عندما تكون المهام المتعددة ذات أهمية غير متساوية، يتم تقسيم المهام إلى مهام رئيسية ومهام مساعدة

تعتبر هذه الورقة نظام تحسين جودة الصور الطبية المدفوع بالمهام كنموذج تعلم مساعد، حيث تكون معالجة الصور هي المهمة الرئيسية وتعرف الصور هو المهمة المساعدة.

الاستنتاجات والمناقشة

الاستنتاجات الرئيسية

يمكن لـ GradProm حل مشكلة الصراع في متطلبات الميزات بين النماذج المختلفة في IQE المدفوع بالمهام بشكل فعال
من خلال آلية اختيار التدرج الديناميكية، يضمن عدم انحياز نموذج تحسين الصور الرئيسي من قبل النموذج المساعد
حقق أداء متقدمة على عدة مجموعات بيانات طبية
تتمتع الطريقة بقابلية تعميم جيدة وتنطبق على طرائق الصور الطبية المختلفة

القيود

التكلفة الحسابية: على الرغم من عدم وجود تكلفة إضافية أثناء الاستدلال، إلا أن التدريب يتطلب حساب تشابه التدرج
نطاق التطبيق: يركز بشكل أساسي على مجال الصور الطبية، وتحتاج فعاليته في المجالات الأخرى إلى التحقق الإضافي
الحالات القصوى: في حالات تدهور جودة الصور الشديد، يكون تحسن الأداء محدوداً

الاتجاهات المستقبلية

توسيع التطبيقات: توسيع نطاق GradProm إلى عمليات تدريب أخرى مدفوعة بالمهام، مثل التعلم متعدد الأهداف وتعزيز البيانات المدفوع بالمهام
التطبيقات الطبية: استكشاف التطبيقات في مهام تحليل الصور الطبية الأخرى مثل تسجيل الصور الطبية وإعادة البناء
دمج التقنيات: البحث عن دمج GradProm مع تقنيات التعلم الانتقالي والتكيف مع المجالات

التقييم المتعمق

المزايا

رؤية المشكلة عميقة: تحديد دقيق للمشكلة الأساسية في الطرق المدفوعة بالمهام الحالية - الصراع في متطلبات الميزات بين المهام المختلفة
تصميم الطريقة ذكي: حل مشكلة الصراع في التدرجات بطريقة بسيطة وفعالة من خلال تشابه جيب التمام للتدرج
أساس نظري قوي: توفير إثبات رياضي صارم يضمن الصحة النظرية للطريقة
تجارب شاملة وكافية: إجراء تحقق شامل عبر مجموعات بيانات متعددة ومهام متعددة وإعدادات متعددة
قيمة عملية عالية: لا تتطلب تعديل معمارية الشبكة أو زيادة تكلفة الاستدلال، مما يسهل التطبيق العملي

أوجه القصور

تكلفة حساب التدرج: يتطلب حساب تشابه التدرج الإضافي، مما يزيد من وقت التدريب
تعيين الحد الأدنى بسيط: استخدام 0 فقط كحد أدنى قد يكون خشناً جداً، وقد تؤدي استراتيجية أكثر دقة إلى نتائج أفضل
التحقق عبر المجالات محدود: على الرغم من التحقق من قابلية التعميم عبر طرائق الصور الطبية المختلفة، إلا أن التحقق عبر المجالات غير كافٍ
اختيار طرق المقارنة: قد لا تكون بعض طرق المقارنة أحدث طرق SOTA

التأثير

القيمة الأكاديمية: توفير أفكار وطرق جديدة لمجال التعلم المدفوع بالمهام
القيمة العملية: ذات أهمية تطبيقية كبيرة لمعالجة الصور الطبية
قابلية الاستنساخ: وصف الطريقة واضح والتنفيذ نسبياً بسيط، مع قابلية استنساخ جيدة
الدلالة الإرشادية: قد تلهم طريقة حل الصراع في التدرجات البحث في مشاكل التعلم متعدد المهام الأخرى

السيناريوهات المطبقة

معالجة الصور الطبية: مهام تحسين جودة الصور لمختلف طرائق الصور الطبية
التعلم متعدد المهام: سيناريوهات وجود علاقة بين المهام الرئيسية والمساعدة وقد يكون هناك صراع محتمل
تحسين الصور: تطبيقات تحسين جودة الصور التي تتطلب دمج المهام اللاحقة
التعلم المساعد: سيناريوهات تتطلب الاستفادة من المهام المساعدة لتحسين أداء المهمة الرئيسية

المراجع

تستشهد الورقة بأعمال ذات صلة غنية، تشمل بشكل أساسي:

ESTR 1 - عمل تمثيلي في تحسين جودة الصور المدفوع بالمهام
ResNet 6 - معمارية التعلم العميق الكلاسيكية
UNet 39 - الطريقة الكلاسيكية لتقسيم الصور الطبية
أوراق ذات صلة بمجموعات البيانات الطبية المختلفة 40-43

التقييم الشامل: هذه ورقة عالية الجودة في مجال رؤية الحاسوب، تقترح حلاً مبتكراً لمشكلة رئيسية في تحسين جودة الصور الطبية المدفوع بالمهام. الطريقة بسيطة وفعالة، والأساس النظري قوي، والتحقق التجريبي شامل، وتتمتع بقيمة أكاديمية وعملية مهمة.