2025-11-25T01:46:17.329771

Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training

Milkert, Hyde, Laine

In a neural network with ReLU activations, the number of piecewise linear regions in the output can grow exponentially with depth. However, this is highly unlikely to happen when the initial parameters are sampled randomly, which therefore often leads to the use of networks that are unnecessarily large. To address this problem, we introduce a novel parameterization of the network that restricts its weights so that a depth $d$ network produces exactly $2^d$ linear regions at initialization and maintains those regions throughout training under the parameterization. This approach allows us to learn approximations of convex, one dimensional functions that are several orders of magnitude more accurate than their randomly initialized counterparts. We further demonstrate a preliminary extension of our construction to multidimensional and non-convex functions, allowing the technique to replace traditional dense layers in various architectures.

academic

ReLU নেটওয়ার্ককে আরম্ভণ এবং প্রশিক্ষণের সময় সূচকীয়ভাবে অনেক রৈখিক অঞ্চল প্রদর্শন করতে বাধ্য করা

মৌলিক তথ্য

পেপার আইডি: 2311.18022
শিরোনাম: ReLU নেটওয়ার্ককে আরম্ভণ এবং প্রশিক্ষণের সময় সূচকীয়ভাবে অনেক রৈখিক অঞ্চল প্রদর্শন করতে বাধ্য করা
লেখক: ম্যাক্স মিলকার্ট, ডেভিড হাইড, ফরেস্ট লেইন
শ্রেণীবিভাগ: cs.LG cs.AI
প্রকাশনার সময়/সম্মেলন: মেশিন লার্নিং এর ৪২তম আন্তর্জাতিক সম্মেলনের কার্যবিবরণী, ভ্যাঙ্কুভার, কানাডা। PMLR 267, 2025
পেপার লিংক: https://arxiv.org/abs/2311.18022

সারসংক্ষেপ

ReLU সক্রিয়করণ ফাংশন সহ নিউরাল নেটওয়ার্কে, আউটপুটের বিভাজিত রৈখিক অঞ্চলের সংখ্যা তাত্ত্বিকভাবে গভীরতার সাথে সূচকীয়ভাবে বৃদ্ধি পেতে পারে। তবে যখন প্রাথমিক পরামিতিগুলি এলোমেলোভাবে নমুনা করা হয়, তখন এটি অত্যন্ত অসম্ভব ঘটে, যা প্রায়শই অপ্রয়োজনীয়ভাবে বড় নেটওয়ার্ক ব্যবহারের দিকে পরিচালিত করে। এই সমস্যা সমাধানের জন্য, এই পেপারটি একটি উপন্যাস নেটওয়ার্ক পুনঃপ্যারামিটারাইজেশন পদ্ধতি প্রস্তাব করে যা ওজনগুলিকে সীমাবদ্ধ করে যাতে গভীরতা $d$ এর নেটওয়ার্ক আরম্ভণে ঠিক $2^d$ রৈখিক অঞ্চল তৈরি করে এবং প্রশিক্ষণের সময় এই অঞ্চলগুলি বজায় রাখে। এই পদ্ধতিটি উত্তল এক-মাত্রিক ফাংশন অনুমান শেখার সময় এলোমেলো আরম্ভণ করা সংশ্লিষ্ট নেটওয়ার্কের তুলনায় কয়েক দশক বেশি নির্ভুল। লেখকরা এই নির্মাণটি বহুমাত্রিক এবং অ-উত্তল ফাংশনে প্রসারিত করার প্রাথমিক ফলাফলও প্রদর্শন করেছেন, যা এই কৌশলটিকে বিভিন্ন স্থাপত্যে ঐতিহ্যবাহী ঘন স্তরগুলি প্রতিস্থাপন করতে সক্ষম করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার সংজ্ঞা

ReLU নেটওয়ার্কগুলি তাত্ত্বিকভাবে শক্তিশালী প্রকাশমূলক ক্ষমতা রাখে, রৈখিক অঞ্চলের সংখ্যা গভীরতার সাথে সূচকীয়ভাবে বৃদ্ধি পেতে পারে, কিন্তু বাস্তব প্রয়োগে উল্লেখযোগ্য ব্যবধান রয়েছে:

তত্ত্ব এবং অনুশীলনের মধ্যে ব্যবধান: যদিও তাত্ত্বিকভাবে গভীরতা $d$ এর ReLU নেটওয়ার্ক $2^d$ রৈখিক অঞ্চল তৈরি করতে পারে, হানিন এবং রোলনিক (২০১৯) প্রমাণ করেছেন যে এলোমেলো আরম্ভণ করা নেটওয়ার্কের গড় রৈখিক অঞ্চলের সংখ্যা গভীরতার সাথে স্বাধীন, শুধুমাত্র নিউরনের মোট সংখ্যার সাথে সম্পর্কিত।
গ্রেডিয়েন্ট ডিসেন্টের সীমাবদ্ধতা: গ্রেডিয়েন্ট ডিসেন্ট নতুন সক্রিয়করণ অঞ্চল তৈরি করতে কঠিন, কারণ রৈখিক অঞ্চলের সংখ্যা পরামিতি স্থানে "স্থানীয়" সম্পত্তি নয়, গ্রেডিয়েন্ট অপ্টিমাইজেশনের মাধ্যমে সরাসরি অপ্টিমাইজ করা যায় না।
নেটওয়ার্ক অপ্রয়োজনীয়তা সমস্যা: অনুশীলনে প্রায় ৯৫% ওজন নির্ভুলতাকে উল্লেখযোগ্যভাবে প্রভাবিত না করে দূর করা যেতে পারে, যা ঐতিহ্যবাহী প্রশিক্ষণ পদ্ধতির অদক্ষতা নির্দেশ করে।

গবেষণা প্রেরণা

এই পেপারের মূল প্রেরণা হল এলোমেলো আরম্ভণের সীমাবদ্ধতা এড়াতে গাণিতিক অ্যালগরিদম বিকাশ করা, ReLU নেটওয়ার্ককে তাদের তাত্ত্বিক প্রকাশমূলক ক্ষমতা উপলব্ধি করতে বাধ্য করা, এবং এইভাবে ছোট নেটওয়ার্ক দিয়ে আরও ভাল কর্মক্ষমতা অর্জন করা।

মূল অবদান

উপন্যাস পুনঃপ্যারামিটারাইজেশন পদ্ধতি: ৪ নিউরন প্রস্থ, যেকোনো গভীরতার ReLU নেটওয়ার্কের জন্য একটি পুনঃপ্যারামিটারাইজেশন কৌশল প্রস্তাব করে, যা আরম্ভণে গভীরতা $d$ নেটওয়ার্ক $2^d$ সক্রিয়করণ অঞ্চল তৈরি করা নিশ্চিত করে।
প্রাক-প্রশিক্ষণ কৌশল: অপ্টিমাইজেশন প্রক্রিয়ায় $2^d$ সক্রিয়করণ অঞ্চলের উপস্থিতি বাধ্য করার জন্য একটি প্রাক-প্রশিক্ষণ পদ্ধতি বিকশিত করা।
উল্লেখযোগ্য কর্মক্ষমতা উন্নতি: এক-মাত্রিক পরীক্ষার ক্ষেত্রে দশকের অর্ডার নেটওয়ার্ক কর্মক্ষমতা উন্নতি অর্জন করা।
সম্প্রসারণ প্রয়োগ: পদ্ধতিটি অ-উত্তল এবং বহুমাত্রিক ফাংশনে প্রসারিত করা এবং যেকোনো নেটওয়ার্কে ঘন স্তরের প্লাগ-এন্ড-প্লে প্রতিস্থাপন হিসাবে কাজ করা।

পদ্ধতির বিস্তারিত ব্যাখ্যা

মূল ধারণা

এই পদ্ধতিটি ত্রিভুজ তরঙ্গ ফাংশনের সমন্বয়ের উপর ভিত্তি করে সূচকীয় স্তরের রৈখিক অঞ্চল সহ নেটওয়ার্ক তৈরি করে:

ত্রিভুজ ফাংশন সংজ্ঞা

Ti(x) = {
    x/ai,           0 ≤ x ≤ ai
    1-(x-ai)/(1-ai), ai ≤ x ≤ 1
}

যেখানে $0 < ai < 1$ হল $i$ -তম স্তরের ত্রিভুজ ফাংশনের শিখর অবস্থান।

সমন্বিত তরঙ্গরূপ

প্রতিটি স্তর ফাংশন সমন্বয়ের মাধ্যমে ত্রিভুজ তরঙ্গ উৎপন্ন করে:

Wi(x) = Ti ∘ Ti-1 ∘ ... ∘ T0(x)

এই তরঙ্গরূপগুলি $2^i$ রৈখিক অঞ্চল রাখে, প্রতিটি স্তর দ্বিগুণ হয়।

নেটওয়ার্ক আউটপুট

চূড়ান্ত নেটওয়ার্ক আউটপুট বিভিন্ন স্তরের ত্রিভুজ তরঙ্গের ওজনযুক্ত যোগফল:

F(x) = Σ(i=0 to ∞) si * Wi(x)

নেটওয়ার্ক স্থাপত্য ডিজাইন

একক স্তর বাস্তবায়ন

প্রতিটি ত্রিভুজ ফাংশন দুটি ReLU নিউরন দ্বারা বাস্তবায়িত হয়:

নিউরন t1: ইনপুট ওজন ১, আউটপুট ওজন ১/a, সর্বদা সক্রিয়
নিউরন t2: পক্ষপাত -a, আউটপুট ওজন -১/(a-a²), x>a এ সক্রিয়

বহু-স্তর সমন্বয়

ফাংশন সমন্বয় বাস্তবায়নের জন্য গভীরতা স্ট্যাকিংয়ের মাধ্যমে, প্রতিটি স্তরে রয়েছে:

t1, t2 নিউরন: ত্রিভুজ ফাংশন বাস্তবায়ন
sum নিউরন: পূর্ববর্তী স্তরের ত্রিভুজ তরঙ্গ আউটপুট সংগ্রহ
bias নিউরন: সূচকীয় হ্রাসের পক্ষপাত পরিচালনা

ওজন ম্যাট্রিক্স ফর্ম

লুকানো স্তরের ম্যাট্রিক্স ফর্ম:

[1  ±[Si/ai  -Si/(ai-ai²)]  0    ]   [sum ]
[0   Si/ai   -Si/(ai-ai²)   0    ] × [t1  ]
[0   Si/ai   -Si/(ai-ai²)  -Siai+1]   [t2  ]
[0   0       0              Si   ]   [bias]

পার্থক্যযোগ্যতা সীমাবদ্ধতা

উপপাদ্য ৩.১

নেটওয়ার্ক আউটপুট অসীম গভীরতার সীমায় পার্থক্যযোগ্য নিশ্চিত করতে, স্কেলিং সহগ অবশ্যই সন্তুষ্ট করবে:

si+1 = si(1-ai+1)ai+2

এই সীমাবদ্ধতা ডেরিভেটিভের ধারাবাহিকতা নিশ্চিত করে, আউটপুটকে ফ্র্যাক্টাল বক্ররেখা হওয়া থেকে প্রতিরোধ করে।

প্রশিক্ষণ অ্যালগরিদম

তিন-পর্যায়ের প্রশিক্ষণ প্রক্রিয়া

পুনঃপ্যারামিটারাইজেশন এবং আরম্ভণ: ত্রিভুজ শিখর অবস্থানের উপর ভিত্তি করে নেটওয়ার্ক ওজন সেট করা
প্রাক-প্রশিক্ষণ: পুনঃপ্যারামিটারাইজেশন সীমাবদ্ধতার অধীনে নেটওয়ার্ক প্রশিক্ষণ
মান প্রশিক্ষণ: সরাসরি নেটওয়ার্ক ওজন অপ্টিমাইজ করা

অ্যালগরিদম প্রবাহ

অ্যালগরিদম ১: আরম্ভণ এবং প্রাক-প্রশিক্ষণ
A ← র্যান্ডম((0,1)^n)  # ত্রিভুজ শিখর অবস্থান
যখন Epochs > 0:
    নেটওয়ার্ক ← সেট_ওজন(A)  # A এর উপর ভিত্তি করে ওজন সেট করা
    ক্ষতি ← (নেটওয়ার্ক(x) - y)²
    নেটওয়ার্ক_গ্রেডিয়েন্ট ← ∂ক্ষতি/∂নেটওয়ার্ক
    A_গ্রেডিয়েন্ট ← ∂নেটওয়ার্ক/∂A  # ওজন সেটিংয়ের মাধ্যমে ব্যাকপ্রপাগেশন
    গ্রেডিয়েন্ট ← নেটওয়ার্ক_গ্রেডিয়েন্ট × A_গ্রেডিয়েন্ট
    A ← A - ε × গ্রেডিয়েন্ট  # A আপডেট করা, নেটওয়ার্ক ওজন নয়

পরীক্ষামূলক সেটআপ

এক-মাত্রিক ফাংশন পরীক্ষা

ডেটাসেট

ঘন ডেটা: 0,1 ব্যবধানে ৫০০টি সমান দূরত্বের বিন্দু
বিরল ডেটা: ১০টি প্রশিক্ষণ বিন্দু, ১০টি পরীক্ষা বিন্দু (প্রশিক্ষণ বিন্দুর মধ্যে অবস্থিত)

লক্ষ্য ফাংশন

$x^3$ , $x^{11}$ (উত্তল ফাংশন, বিয়োগ সমন্বয়)
$\sin(x)$ , $\tanh(3x)$ (সংযোজন সমন্বয়ের মাধ্যমে অনুমান)

নেটওয়ার্ক কনফিগারেশন

৪ নিউরন প্রস্থ, ৫টি লুকানো স্তর
Adam অপ্টিমাইজার, শেখার হার ০.০০১, ১০০০ epoch

তুলনা পদ্ধতি

ডিফল্ট নেটওয়ার্ক: Kaiming আরম্ভণ
RAAI বিতরণ: উন্নত ওজন বিতরণ আরম্ভণ
প্রাক-প্রশিক্ষণ এড়ানো: এই পেপারের আরম্ভণ ব্যবহার কিন্তু শুধুমাত্র মান প্রশিক্ষণ
নিয়মিতকরণ ছাড়াই প্রাক-প্রশিক্ষণ: পার্থক্যযোগ্যতা সীমাবদ্ধতা বাধ্য না করে
সম্পূর্ণ পদ্ধতি: প্রাক-প্রশিক্ষণ + পার্থক্যযোগ্যতা সীমাবদ্ধতা

সম্প্রসারণ পরীক্ষা

অ-উত্তল এবং বহুমাত্রিক ফাংশন

অ-উত্তল ফাংশন: $y = x^3 - x$ (দুটি নেটওয়ার্কের পার্থক্য)
দ্বি-মাত্রিক ফাংশন: $z = r^3$ (দুটি নেটওয়ার্কের যোগফল)

ছবি শ্রেণীবিভাগ

ImageNet এ VGG-16: শ্রেণীবিভাগকারীর ঘন স্তর প্রতিস্থাপন
CIFAR-10: CNN স্থাপত্যে প্রয়োগ

পরীক্ষামূলক ফলাফল

এক-মাত্রিক ফাংশন অনুমান ফলাফল

ঘন ডেটা কর্মক্ষমতা (ন্যূনতম MSE ত্রুটি)

পদ্ধতি	$x^3$	$x^{11}$	$\sin(x)$	$\tanh(3x)$
Kaiming আরম্ভণ	2.11×10⁻⁵	2.19×10⁻⁵	4.50×10⁻⁵	5.75×10⁻⁵
RAAI বিতরণ	2.14×10⁻⁵	4.40×10⁻⁵	3.59×10⁻⁵	1.09×10⁻⁵
প্রাক-প্রশিক্ষণ এড়ানো	7.63×10⁻⁷	1.86×10⁻⁵	1.96×10⁻⁷	1.07×10⁻⁶
নিয়মিতকরণ ছাড়াই প্রাক-প্রশিক্ষণ	1.64×10⁻⁷	3.20×10⁻⁶	4.41×10⁻⁸	1.49×10⁻⁷
সম্পূর্ণ পদ্ধতি	7.86×10⁻⁸	8.86×10⁻⁷	5.06×10⁻⁸	6.82×10⁻⁸

মূল আবিষ্কার

দশকের অর্ডার উন্নতি: সম্পূর্ণ পদ্ধতি ডিফল্ট নেটওয়ার্কের চেয়ে ৩ দশক বেশি নির্ভুল
প্রাক-প্রশিক্ষণের গুরুত্ব: এমনকি প্রাক-প্রশিক্ষণ এড়িয়ে গেলেও, শুধুমাত্র আরম্ভণ উল্লেখযোগ্য উন্নতি দেখায়
পার্থক্যযোগ্যতা সীমাবদ্ধতার প্রভাব: পার্থক্যযোগ্যতা বাধ্য করা আরও স্থিতিশীলতা এবং নির্ভুলতা উন্নত করে
মৃত ReLU সমস্যা: ঐতিহ্যবাহী পদ্ধতি প্রায় ৫০% নেটওয়ার্ক মৃত ReLU ঘটনার কারণে ব্যর্থ হয়

বিরল ডেটা সাধারণীকরণ ক্ষমতা

পদ্ধতি	$x^3$	$x^{11}$	$\sin(x)$	$\tanh(3x)$
Kaiming আরম্ভণ	2.41×10⁻⁴	2.14×10⁻³	2.27×10⁻⁵	1.60×10⁻⁴
সম্পূর্ণ পদ্ধতি	5.65×10⁻⁶	6.53×10⁻⁴	7.92×10⁻⁷	5.09×10⁻⁶

সম্প্রসারণ প্রয়োগ ফলাফল

অ-উত্তল এবং বহুমাত্রিক ফাংশন

$x^3-x$ অনুমান: এই পেপারের পদ্ধতি ত্রুটি 5.52×10⁻⁷ বনাম মান 8×5 নেটওয়ার্ক ত্রুটি 8×10⁻⁶
$z=r^3$ অনুমান: এই পেপারের পদ্ধতি ত্রুটি 3.5×10⁻⁶ বনাম মান নেটওয়ার্ক ত্রুটি 1.5×10⁻⁴ (প্রায় দুই দশকের উন্নতি)

ছবি শ্রেণীবিভাগ কর্মক্ষমতা

ImageNet VGG-16: প্রশিক্ষণের প্রাথমিক পর্যায়ে সুবিধা, চূড়ান্ত নির্ভুলতা সমান (73.3%)
CIFAR-10: মান পদ্ধতির সাথে সমান কর্মক্ষমতা, পদ্ধতির সার্বজনীনতা প্রদর্শন

সিদ্ধান্ত এবং আলোচনা

প্রধান সিদ্ধান্ত

তাত্ত্বিক অগ্রগতি: ReLU নেটওয়ার্ককে সূচকীয় স্তরের রৈখিক অঞ্চল উৎপন্ন করতে বাধ্য করার প্রথম ব্যবহারিক পদ্ধতি
উল্লেখযোগ্য উন্নতি: এক-মাত্রিক ফাংশন অনুমান কাজে দশকের অর্ডার নির্ভুলতা উন্নতি অর্জন
সম্প্রসারণ সম্ভাবনা: বহুমাত্রিক এবং অ-উত্তল ফাংশনে পদ্ধতির প্রযোজ্যতা প্রমাণ
ব্যবহারিক মূল্য: বিদ্যমান স্থাপত্যে ঘন স্তরের প্লাগ-এন্ড-প্লে প্রতিস্থাপন হিসাবে কাজ করতে পারে

সীমাবদ্ধতা

স্থাপত্য সীমাবদ্ধতা: বর্তমান পদ্ধতি ৪ নিউরন প্রস্থের নির্দিষ্ট কাঠামোতে সীমাবদ্ধ
ফাংশন শ্রেণী সীমাবদ্ধতা: সরাসরি এক-মাত্রিক উত্তল ফাংশনে প্রযোজ্য, বহুমাত্রিক সম্প্রসারণ সমন্বয় কৌশল প্রয়োজন
শ্রেণীবিভাগ কাজে সীমিত প্রভাব: ছবি শ্রেণীবিভাগ ইত্যাদি কাজে উল্লেখযোগ্য উন্নতি নেই
তাত্ত্বিক সম্পূর্ণতা: যেকোনো ReLU নেটওয়ার্কের জন্য সার্বজনীন তাত্ত্বিক কাঠামোর অভাব

ভবিষ্যত দিকনির্দেশনা

তাত্ত্বিক সম্প্রসারণ: দক্ষতার সাথে প্রতিনিধিত্বযোগ্য এক-মাত্রিক ফাংশনের ঘন সেট খোঁজা
বহুমাত্রিক পদ্ধতি: আরও প্রাকৃতিক বহুমাত্রিক ফাংশন প্রতিনিধিত্ব পদ্ধতি বিকাশ
বিরল কাঠামো: বর্তমানে শুধুমাত্র বিরল ব্লক-তির্যক ম্যাট্রিক্স তৈরি করার সীমাবদ্ধতা অতিক্রম করা
প্রয়োগ অন্বেষণ: আরও উপযুক্ত ব্যবহারিক রিগ্রেশন কাজ খোঁজা

গভীর মূল্যায়ন

সুবিধা

তাত্ত্বিক উদ্ভাবন: তাত্ত্বিক প্রকাশমূলক ক্ষমতা এবং বাস্তব বাস্তবায়নের মধ্যে সেতু প্রদান করে
গাণিতিক কঠোরতা: সম্পূর্ণ পার্থক্যযোগ্যতা বিশ্লেষণ এবং সংগ্রহ প্রমাণ
পরীক্ষা সম্পূর্ণ: এক-মাত্রিক থেকে বহুমাত্রিক, রিগ্রেশন থেকে শ্রেণীবিভাগ পর্যন্ত ব্যাপক যাচাইকরণ
ব্যবহারিক মূল্য: বিদ্যমান স্থাপত্যে সরাসরি প্রয়োগযোগ্য, পুনঃডিজাইনের প্রয়োজন নেই

অপূর্ণতা

সীমিত প্রযোজ্যতা পরিসীমা: প্রধান সুবিধা নির্দিষ্ট ধরনের ফাংশন অনুমান কাজে কেন্দ্রীভূত
সম্প্রসারণ সমস্যা: বহুমাত্রিক সম্প্রসারণ সাধারণ সমন্বয়ের উপর নির্ভর করে, তাত্ত্বিক গ্যারান্টি অভাব
বাস্তব প্রয়োগ প্রভাব: বাস্তব শ্রেণীবিভাগ কাজে সীমিত উন্নতি
গণনা জটিলতা: দুই-পর্যায়ের প্রশিক্ষণ বাস্তবায়ন জটিলতা বৃদ্ধি করে

প্রভাব

তাত্ত্বিক অবদান: গভীর শেখার তত্ত্বে নতুন দৃষ্টিভঙ্গি এবং সরঞ্জাম প্রদান করে
পদ্ধতিগত তাৎপর্য: নিউরাল নেটওয়ার্ক ডিজাইনে গাণিতিক নির্মাণের মূল্য প্রদর্শন করে
ব্যবহারিক সম্ভাবনা: বৈজ্ঞানিক গণনা এবং প্রকৌশল প্রয়োগে গুরুত্বপূর্ণ মূল্য থাকতে পারে
অনুপ্রেরণা প্রভাব: পরবর্তী গবেষণার জন্য নতুন চিন্তাভাবনা এবং দিকনির্দেশনা প্রদান করে

প্রযোজ্য পরিস্থিতি

বৈজ্ঞানিক গণনা: উচ্চ-নির্ভুলতা ফাংশন অনুমান প্রয়োজনীয় সংখ্যাগত গণনা কাজ
প্রকৌশল প্রয়োগ: নিয়ন্ত্রণ ব্যবস্থা, সংকেত প্রক্রিয়াকরণ ইত্যাদি নির্ভুল মডেলিং প্রয়োজনীয় ক্ষেত্র
ছোট ডেটা পরিস্থিতি: প্রশিক্ষণ ডেটা দুর্লভ কিন্তু ভাল সাধারণীকরণ প্রয়োজনীয় কাজ
তাত্ত্বিক গবেষণা: নিউরাল নেটওয়ার্ক প্রকাশমূলক ক্ষমতা গবেষণার সরঞ্জাম হিসাবে

সংদর্ভ

Hanin, B. & Rolnick, D. (2019). গভীর ReLU নেটওয়ার্কের অবাক করে কম সক্রিয়করণ প্যাটার্ন রয়েছে।
Telgarsky, M. (2015). গভীর ফিডফরওয়ার্ড নেটওয়ার্কের প্রতিনিধিত্ব সুবিধা।
Yarotsky, D. (2017). গভীর ReLU নেটওয়ার্কের সাথে অনুমানের জন্য ত্রুটি সীমা।
Montúfar, G. F. et al. (2014). গভীর নিউরাল নেটওয়ার্কের রৈখিক অঞ্চলের সংখ্যায়।
Perekrestenko, D. et al. (2018). সীমিত-প্রস্থ গভীর ReLU নেটওয়ার্কের সার্বজনীন অনুমান শক্তি।

সামগ্রিক মূল্যায়ন: এটি একটি উৎকৃষ্ট পেপার যা তত্ত্ব এবং অনুশীলনকে সমান গুরুত্ব দেয়, ReLU নেটওয়ার্কের প্রকাশমূলক ক্ষমতা বাস্তবায়নে গুরুত্বপূর্ণ অগ্রগতি অর্জন করেছে। যদিও বর্তমান প্রয়োগ পরিসীমা সীমিত, তবে এটি গভীর শেখার তত্ত্ব এবং অনুশীলনে মূল্যবান অবদান এবং অনুপ্রেরণা প্রদান করে।