شبکه های عصبی مصنوعی

شبکه های عصبی مصنوعی
Instructor : Saeed Shiry

مقدمه
شبکه عصبی مصنوعی روشی عملی برای یادگیری توابع گوناگون نظیر توابع با مقادیر حقیقی، توابع با مقادیر گسسته و توابع با مقادیر برداری میباشد.
یادگیری شبکه عصبی در برابر خطاهای داده های آموزشی مصون بوده و اینگونه شبکه ها با موفقیت به مسائلی نظیر شناسائی گفتار، شناسائی و تعبیر تصاویر، و یادگیری روبات اعمال شده است.

شبکه عصبی چیست؟
روشی برای محاسبه است که بر پایه اتصال به هم پیوسته چندین واحد پردازشی ساخته میشود.
شبکه از تعداد دلخواهی سلول یا گره یا واحد یا نرون تشکیل میشود که مجموعه ورودی را به خروجی ربط میدهند.

شبکه عصبی چه قابلیتهائی دارد؟
محاسبه یک تابع معلوم
تقریب یک تابع ناشناخته
شناسائی الگو
پردازش سیگنال
یادگیری

خطا در داده های آموزشی وجود داشته باشد.
مثل مسائلی که داده های آموزشی دارای نویز حاصل از دادهای سنسورها نظیر دوربین و میکروفن ها هستند.
مواردی که نمونه ها توسط مقادیر زیادی زوج ویژگی-مقدار نشان داده شده باشند. نظیر داده های حاصل از یک دوربین ویدئوئی.
تابع هدف دارای مقادیر پیوسته باشد.
زمان کافی برای یادگیری وجود داشته باشد. این روش در مقایسه با روشهای دیگر نظیر درخت تصمیم نیاز به زمان بیشتری برای یادگیری دارد.
نیازی به تعبیر تابع هدف نباشد. زیرا به سختی میتوان وزنهای یادگرفته شده توسط شبکه را تعبیر نمود.
مسائل مناسب برای یادگیری شبکه های عصبی

الهام از طبیعت
مطالعه شبکه های عصبی مصنوعی تا حد زیادی ملهم از سیستم های یادگیر طبیعی است که در آنها یک مجموعه پیچیده از نرونهای به هم متصل در کار یادگیری دخیل هستند.
گمان میرود که مغز انسان از تعداد 10 11 نرون تشکیل شده باشد که هر نرون با تقریبا 104 نرون دیگر در ارتباط است.
سرعت سوئیچنگ نرونها در حدود 10-3 ثانیه است که در مقایسه با کامپیوترها 10 -10 ) ثانیه ( بسیار ناچیز مینماید. با این وجود آدمی قادر است در 0.1 ثانیه تصویر یک انسان را بازشناسائی نماید. این قدرت فوق العاده باید از پردازش موازی توزیع شده در تعدادی زیادی از نرونها حاصل شده باشد.

x1
x2
xn
{1 or –1}
X0=1
w0
w1
w2
wn
Σ
نوعی از شبکه عصبی برمبنای یک واحد محاسباتی به نام پرسپترون ساخته میشود. یک پرسپترون برداری از ورودیهای با مقادیر حقیقی را گرفته و یک ترکیب خطی از این ورودیها را محاسبه میکند. اگر حاصل از یک مقدار آستانه بیشتر بود خروجی پرسپترون برابر با 1 و در غیر اینصورت معادل -1 خواهد بود.
Perceptron

خروحی پرسپترون توسط رابطه زیر مشخص میشود:

که برای سادگی آنرا میتوان بصورت زیر نشان داد:
یادگیری یک پرسپترون
O(x1,x2,…,xn) =
1 if w0 + w1x1 + w2x2 + … + wnxn > 0
-1 otherwise
O(X) = sgn(WX) where

Sgn(y) =
1 if y > 0
-1 otherwise
یادگیری پرسپترون عبارت است از:
پیدا کردن مقادیردرستی برای W
بنابراین فضای فرضیه H در یادگیری پرسپترون عبارت است ازمجموعه تمام مقادیر حقیقی ممکن برای بردارهای وزن.

پریسپترون را میتوان بصورت یک سطح تصمیم hyperplane در فضای n بعدی نمونه ها در نظر گرفت. پرسپترون برای نمونه های یک طرف صفحه مقدار 1 و برای مقادیر طرف دیگر مقدار -1 بوجود میاورد.

توانائی پرسپترون
+
+
+
–
–
–
Decision boundary (WX = 0)

یک پرسپترون فقط قادر است مثالهائی را یاد بگیرد که بصورت خطی جداپذیر باشند. اینگونه مثالها مواردی هستند که بطور کامل توسط یک hyperplaneقابل جدا سازی میباشند.
توابعی که پرسپترون قادر به یادگیری آنها میباشد
+
+
+
–
–
–
+
+
+
–
–
–
Linearly separable
Non-linearly separable

یک پرسپترون میتواند بسیاری از توابع بولی را نمایش دهد نظیر AND, OR, NAND, NOR
اما نمیتواند XORرا نمایش دهد.

در واقع هر تابع بولی را میتوان با شبکه ای دوسطحی از پرسپترونها نشان داد.
توابع بولی و پرسپترون
AND:
x1
x2
X0=1
W0 = -0.8
W1=0.5
W2=0.5
Σ

اضافه کردن بایاس
افزودن بایاس موجب میشود تا استفاده از شبکه پرسپترون با سهولت بیشتری انجام شود.
برای اینکه برای یادگیری بایاس نیازی به استفاده از قانون دیگری نداشته باشیم بایاس را بصورت یک ورودی با مقدار ثابت 1 در نظر گرفته و وزن W0 را به آن اختصاص میدهیم.

چگونه وزنهای یک پرسپترون واحد را یاد بگیریم به نحوی که پرسپترون برای مثالهای آموزشی مقادیر صحیح را ایجاد نماید؟
دو راه مختلف :
قانون پرسپترون
قانون دلتا

آموزش پرسپترون

الگوریتم یادگیری پرسپترون
مقادیری تصادفی به وزنها نسبت میدهیم
پرسپترون را به تک تک مثالهای آموزشی اعمال میکنیم.اگر مثال غلط ارزیابی شود مقادیر وزنهای پرسپترون را تصحیح میکنیم.
آیا تمامی مثالهای آموزشی درست ارزیابی میشوند:
بله  پایان الگوریتم
خیربه مرحله 2 برمیگردیم
آموزش پرسپترون

برای یک مثال آموزشیX = (x1, x2, …, xn) در هر مرحله وزنها بر اساس قانون پرسپتون بصورت زیر تغییر میکند:
wi = wi + Δwi

که در آن

قانون پرسپترون
Δwi = η ( t – o ) xi
t: target output
o: output generated by the perceptron
η: constant called the learning rate (e.g., 0.1)

اثبات شده است که برای یک مجموعه مثال جداپذیرخطی این روش همگرا شده و پرسپترون قادر به جدا سازی صحیح مثالها خواهد شد.

قانون دلتا Delta Rule
وقتی که مثالها بصورت خطی جداپذیر نباشند قانون پرسپترون همگرا نخواهد شد. برای غلبه بر این مشکل از قانون دلتا استفاده میشود.
ایده اصلی این قانون استفاده از gradient descent برای جستجو در فضای فرضیه وزنهای ممکن میباشد. این قانون پایه روش Back propagation است که برای آموزش شبکه با چندین نرون به هم متصل بکار میرود.
همچنین این روش پایه ای برای انواع الگوریتمهای یادگیری است که باید فضای فرضیه ای شامل فرضیه های مختلف پیوسته را جستجو کنند.

قانون دلتا Delta Rule
برای درک بهتر این روش آنرا به یک پرسپترون فاقد حد آستانه اعمال میکنیم. در انجا لازم است ابتدا تعریفی برای خطا ی آموزش ارائه شود. یک تعریف متداول این چنین است:
E = ½ Σi (ti – oi) 2

که این مجموع برای تمام مثالهای آموزشی انجام میشود.

الگوریتم gradient descent
با توجه به نحوه تعریف E سطح خطا بصورت یک سهمی خواهد بود. ما بدنبال وزنهائی هستیم که حداقل خطا را داشته باشند . الگوریتم gradient descent در فضای وزنها بدنبال برداری میگردد که خطا را حداقل کند. این الگوریتم از یک مقدار دلخواه برای بردار وزن شروع کرده و در هر مرحله وزنها را طوری تغییر میدهد که در جهت شیب کاهشی منحنی فوق خطا کاهش داده شود.
w1
w2
E(W)

بدست آوردن قانون gradient descent
ایده اصلی: گرادیان همواره در جهت افزایش شیب E عمل میکند.
گرادیان E نسبت به بردار وزن w بصورت زیر تعریف میشود:

E (W) = [ E’/w0, E’/w1, …, E’/wn]
که در آن E (W) یک بردارو E’مشتق جزئی نسبت به هر وزن میباشد.

Δ
Δ

قانون دلتا Delta Rule
برای یک مثال آموزشیX = (x1, x2, …, xn) در هر مرحله وزنها بر اساس قانون دلتا بصورت زیر تغییر میکند:
wi = wi + Δwi

Where Δwi = -η E’(W)/wi

η: learning rate (e.g., 0.1)
علامت منفی نشاندهنده حرکت در جهت کاهش شیب است.

محاسبه گرادیان
با مشتق گیری جزئی از رابطه خطا میتوان بسادگی گرادیان را محاسبه نمود:
E’(W)/ wi = Σi (ti – Oi) (-xi)
لذا وزنها طبق رابطه زیر تغییر خواهند نمود.
Δwi = η Σi (ti – oi) xi

خلاصه یادگیری قانون دلتا
الگوریتم یادگیری با استفاده از قانون دلتا بصورت زیر میباشد.
به وزنها مقدار تصادفی نسبت دهید
تا رسیدن به شرایط توقف مراحل زیر را ادامه دهید
هر وزن wi را با مقدار صفر عدد دهی اولیه کنید.
برای هر مثال: وزن wi را بصورت زیر تغییر دهید:
wi = wi + η (t – o) xi
مقدار wi را بصورت زیر تغییر دهید:
wi = wi + wi
تا خطا بسیار کوچک شود
Δ
Δ
Δ
Δ
Δ

مشکلات روش gradient descent
ممکن است همگرا شدن به یک مقدار مینیمم زمان زیادی لازم داشته باشد.
اگر در سطح خطا چندین مینیمم محلی وجود داشته باشد تضمینی وجود ندارد که الگوریتم مینیمم مطلق را پیدا بکند.

در ضمن این روش وقتی قابل استفاده است که:
فضای فرضیه دارای فرضیه های پارامتریک پیوسته باشد.
رابطه خطا قابل مشتق گیری باشد.

تقریب افزایشی gradient descent
میتوان بجای تغییر وزنها پس از مشاهده همه مثالها، آنها را بازا هر مثال مشاهده شده تغییر داد. در این حالت وزنها بصورت افزایشی incremental تغییر میکنند. این روش را stochastic gradient descent نیزمینامند.
wi = η (t-o) xi
در بعضی موارد تغییر افزایشی وزنها میتواند از بروز مینیمم محلی جلوگیری کند. روش استاندارد نیاز به محاسبات بیشتری دارد درعوض میتواند طول step بزرگتری هم داشته باشد.
Δ

مقایسه آموزش یکجا و افزایشی
آموزش یکجا (Batch learning)
آموزش افزایشی (Online learning)
w1
w2
w1
w2

بر خلاف پرسپترونها شبکه های چند لایه میتوانند برای یادگیری مسائل غیر خطی و همچنین مسائلی با تصمیم گیری های متعدد بکار روند.
Input nodes
Internal nodes
Output nodes
شبکه های چند لایه

x1
x2
مثال

x1
x2
xn
X0=1
w0
w1
w2
wn
Σ
O = σ(net) = 1 / 1 + e -net
net
یک سلول واحد
برای اینکه بتوانیم فضای تصمیم گیری را بصورت غیر خطی از هم جدا بکنیم، لازم است تا هر سلول واحد را بصورت یک تابع غیر خطی تعریف نمائیم. مثالی از چنین سلولی میتواند یک واحد سیگموئید باشد:

O(x1,x2,…,xn) =
σ ( WX )
where: σ ( WX ) = 1 / 1 + e -WX

d σ(y) / dy = σ(y) (1 – σ(y))

تابع σ تابع سیگموئید یا لجستیک نامیده میشود. این تابع دارای خاصیت زیر است:
تابع سیگموئید
خروجی این سلول واحد را بصورت زیر میتوان بیان نمود:

الگوریتم Back propagation
برای یادگیری وزن های یک شبکه چند لایه از روش Back Propagation استفاده میشود. در این روش با استفاده از gradient descent سعی میشود تا مربع خطای بین خروجی های شبکه و تابع هدف مینیمم شود.
خطا بصورت زیر تعریف میشود:
مراد ازoutputs خروجیهای مجموعه واحد های لایه خروجی و tkdو okd مقدار هدف و خروجی متناظر با k امین واحد خروجی و مثال آموزشی d است.

الگوریتم Back propagation
فضای فرضیه مورد جستجو در این روش عبارت است از فضای بزرگی که توسط همه مقادیر ممکن برای وزنها تعریف میشود. روش gradient descent سعی میکند تا با مینیمم کردن خطا به فرضیه مناسبی دست پیدا کند. اما تضمینی برای اینکه این الگوریتم به مینیمم مطلق برسد وجود ندارد.

الگوریتم BP
شبکه ای با ninگره ورودی، nhidden گره مخفی، و nout گره خروجی ایجاد کنید.
همه وزنها را با یک مقدار تصادفی کوچک عدد دهی کنید.
تا رسیدن به شرط پایانی ) کوچک شدن خطا( مراحل زیر را انجام دهید:
برای هر xمتعلق به مثالهای آموزشی:
مثال X را به سمت جلو در شبکه انتشار دهید
خطای E را به سمت عقب در شبکه انتشار دهید.
هر مثال آموزشی بصورت یک زوج (x,t) ارائه میشود که بردار x مقادیر ورودی و بردار t مقادیر هدف برای خروجی شبکه را تعیین میکنند.

انتشار به سمت جلو
برای هر مثال X مقدار خروجی هر واحد را محاسبه کنید تا به گره های خروجی برسید.
Input nodes
Internal nodes
Output nodes
Example X
Compute sigmoid
function

انتشار به سمت عقب
برای هر واحد خروجی جمله خطا را بصورت زیر محاسبه کنید: δk = Ok (1-Ok)(tk – Ok)
برای هر واحد مخفی جمله خطا را بصورت زیر محاسبه کنید: δh = Oh (1-Oh) Σk Wkh δk
مقدارهر وزن را بصورت زیر تغییر دهید:
Wji = Wji + ΔWji
که در آن :
ΔWji = η δj Xji
ηعبارت است از نرخ یادگیری

شرط خاتمه
معمولا الگوریتم BP پیش از خاتمه هزاران بار با استفاده همان داده های آموزشی تکرار میگردد شروط مختلفی را میتوان برای خاتمه الگوریتم بکار برد:
توقف بعد از تکرار به دفعات معین
توقف وقتی که خطا از یک مقدار تعیین شده کمتر شود
توقف وقتی که خطا در مثالهای مجموعه تائید از قاعده خاصی پیروی نماید
اگر دفعات تکرار کم باشد خطا خواهیم داشت و اگر زیاد باشد مسئله Overfitting رخ خواهد داد.

محنی یادگیری

مرور الگوریتم BP
این الگوریتم یک جستجوی gradient descent در فضای وزنها انجام میدهد.
ممکن است در یک مینیمم محلی گیر بیافتد.
در عمل بسیار موثر بوده است.

برای پرهیز از مینیمم محلی روشهای مختلفی وجود دارد:
افزودن ممنتم
استفاده از stochastic gradient descent
استفاده ازشبکه های مختلف با مقادیر متفاوتی برای وزنهای اولیه

افزودن ممنتم
میتوان قانون تغییر وزنها را طوری در نظر گرفت که تغییر وزن در تکرار n ام تا حدی به اندازه تغییروزن در تکرار قبلی بستگی داشته باشد.
ΔWji (n) = η δj Xji + αΔWji (n-1)

که در آن مقدارممنتم α بصورت 0 <= α <= 1 میباشد.
افزودن ممنتم باعث میشود تا با حرکت در مسیر قبلی در سطح خطا:
از گیر افتادن در مینیم محلی پرهیز شود
از قرارگرفتن در سطوح صاف پرهیز شود
با افزایش تدریجی مقدار پله تغییرات، سرعت جستجو افزایش یابد.
قانون تغییر وزن
عبارت ممنتم

قدرت نمایش توابع
گرچه قدرت نمایش توابع به توسط یک شبکه feedforward بسته به عمق و گستردگی شبکه دارد، با این وجود موارد زیر را میتوان به صورت قوانین کلی بیان نمود:
توابع بولی: هر تابع بولی را میتوان توسط یک شبکه دو لایه پیاده سازی نمود.
توابع پیوسته: هر تابع پیوسته محدود را میتوان توسط یک شبکه دو لایه تقریب زد. تئوری مربوطه در مورد شبکه هائی که از تابع سیگموئید در لایه پنهان و لایه خطی در شبکه خروجی استفاده میکنند صادق است.
توابع دلخواه: هر تابع دلخواه را میتوان با یک شبکه سه لایه تا حد قابل قبولی تفریب زد.
با این وجود باید درنظر داست که فضای فرضیه جستجو شده توسط روش gradient deescent ممکن است در برگیرنده تمام مقادیر ممکن وزنها نباشد.

فضای فرضیه و بایاس استقرا
فضای فرضیه مورد جستجو را میتوان بصورت یک فضای فرضیه اقلیدسی n بعدی از وزنهای شبکه در نظر گرفت )کهn تعداد وزنهاست(
این فضای فرضیه بر خلاف فضای فرضیه درخت تصمیم یک فضای پیوسته است.
بایاس استقرا این روش را میتوان بصورت زیر بیان کرد:
“smooth interpolation between data points”
به این معنا که الگوریتم BP سعی میکند تا نقاطی را که به هم نزدیکتر هستند در یک دسته بندی قرار دهد.

x1
x2
Smooth regions
مثال

قدرت نمایش لایه پنهان
یکی از خواص BP این است که میتواند در لایه های پنهان شبکه ویژگیهای نا آشکاری از داده ورودی نشان دهد.
برای مثال شبکه 8x3x8 زیر طوری آموزش داده میشود که مقدارهرمثال ورودی را عینا در خروجی بوجو د آورد )تابع f(x)=x را یاد بگیرد( ساختار خاص این شبکه باعث میشود تا واحد های لایه وسط ویژگی های مقادیر ورودی را به نحوی کد بندی کنند که لایه خروحی بتواند از آنان برای نمایش مجدد داده ها استفاده نماید.

قدرت نمایش لایه پنهان

10000000
01000000
00100000
00010000
00001000
00000100
00000010
00000001

10000000
01000000
00100000
00010000
00001000
00000100
00000010
00000001
Hidden nodes
در این آزمایش که به تعداد 5000 بار تکرار شده از 8 داده مختلف به عنوان ورودی استفاده شده و شبکه با استفاده از الگوریتم BP موفق شده تا تابع هدف را بیاموزد.
با مشاهده خروجی واحد های لایه میانی مشخص میشود که بردار حاصل معادل انکدینگ استاندارد داده ههای ورودی بوده است (000,001,,…,111)

Error
iterations
Different units
iterations
Different weights
weight
نمودارخطا

Number of weight updates
Error
Validation set error
Training set error
قدرت تعمیم و overfitting
شرط پاین الگوریتم BP چیست؟
یک انتخاب این است که الگوریتم را آنقدر ادامه دهیم تا خطا از مقدار معینی کمتر شود. این امر میتواند منجر به overfitting شود.

دلایل رخ دادن overfitting
overfitting ناشی از تنظیم وزنها برای در نظر گرفتن مثالهای نادری است که ممکن است با توزیع کلی داده ها مطابقت نداشته باشند. تعداد زیاد وزنهای یک شبکه عصبی باعث میشود تا شبکه درجه آزادی زیادی برای انطباق با این مثالها داشته باشد.
با افزایش تعداد تکرار، پیچیدگی فضای فرضیه یادگرفته شده توسط الگوریتم بیشتر و بیشتر میشود تا شبکه بتواند نویز و مثالهای نادر موجود در مجموعه آموزش را بدرستی ارزیابی نماید.

راه حل
استفاده از یک مجموعه تائید Vallidation و توقف یادگیری هنگامی که خطا در این مجموعه به اندازه کافی کوچک میشود.
بایاس کردن شبکه برای فضاهای فرضیه ساده تر: یک راه میتواند استفاده از weight decayباشد که در آن مقدار وزنها در هر بارتکرار باندازه خیلی کمی کاهش داده میشود.
k-fold cross validation وقتی که تعداد مثالهای آموزشی کم باشد میتوان m داده آموزشی را به K دسته تقسیم بندی نموده و آزمایش را به تعداد k دفعه تکرار نمود. در هر دفعه یکی از دسته ها بعنوان مجموعه تست و بقیه بعنوان مجموعه آموزشی استفاده خواهند شد. تصمیم گیری بر اساس میانگین نتایج انجام میشود.

روشهای دیگر
راه های بسیار متنوعی برای ایجاد شبکه های جدید وجود دارد از جمله:
استفاده از تعاریف دیگری برای تابع خطا
استفاده از روشهای دیگری برای کاهش خطا در حین یادگیری
Hybrid Global Learning
Simulated Annealing
Genetic Algorithms
استفاده از توابع دیگری در واحدها
Radial Basis Functions
استفاده از ساختار های دیگری برای شبکه
Recurrent Network

مثال: تشخیص ارقام
فرض کنید بخواهیم با استفاده از یک شبکه دو لایه ارقام دستنویس را تشخیص دهیم.
نرونهای لایه اول شدت روشنائی پیکسلها را تقریب میزنند ونرونهای لایه آخر شکل ارقام را تعیین میکنند.

0 1 2 3 4 5 6 7 8 9

روشی که وزنها یاد گرفته میشوند:
تصویر به شبکه ارائه شده و وزنهای پیکسلهای فعال بتدریج اضافه میشوند. وزن پیکسلهای غیر موثر نیز بتدریج کاهش میابد.
تصویر ورودی
1 2 3 4 5 6 7 8 9 0

شکل گیری وزنها:
1 2 3 4 5 6 7 8 9 0
تصویر ورودی

1 2 3 4 5 6 7 8 9 0
تصویر ورودی

شبکه چه چیزی را یاد میگیرد؟
در این مثال یک شبکه با دو لایه معادل با استفاده از یک سری template یا قالب است که شبکه قالبی را که بهترین تطبیق با ورودی را داشته باشد بر میگزیند!
اما برای مسئله ارقام دستنویس شکلهای ورودی بسیار متنوع هستند لذا یک قالب ساده که با همه ورودیها سازگار باشد وجود ندارد. در نتیجه چنین شبکه ای هم نمیتواند راه حل مسئله در حالت کلی باشد!
برای اینکه بتوان مسئله را در حالت کلی حل نمود بایدشکل های ورودی به مجموعه ای از ویژگی ها تبدیل شده و شبکه را بر اساس ویژگی ها آموزش داد.

مثالی از تنوع ارقام دستنویس

انواع اتصالات شبکه
Feedforward networks

Recurrent networks
این شبکه ها بیشتر به سیستم های بیولوژیکی شبیه تر هستند.
بعلت داشتن فید بک دارای دینامیک پیچیده تری هستند.

hidden units
output units
input units

انواع مختلف یادگیری
Supervised learning
سیستم یاد میگیرد که با داشتن بردار ورودی مقدار خروجی را پیش بینی کند
ناظری لازم است تا خروجی صحیح را تهیه نماید.
Reinforcement learning
سیستم یاد میگیرد که پاداش دریافتی را حدااکثر کند
سیگنال پاداش اطلاعات زیادی ندارد
اغلب با تاخیر است
Unsupervised learning
یک مدل داخلی از ورودی درست میشود مثلا از طریق کلاسترینگ
چگونه میتوان فهمید که این مدل صحیح است؟

اعمال Backpropagation به تشخیص اشیا
انسانها براحتی میتوانند اسکال را تشخیص دهند
در صورتیکه اینکار برای کامپیوتر ها بسیار سخت است.
دلایل سختی این کار عبارت است از:

Segmentation: Real scenes are cluttered.
Invariances: We are very good at ignoring all sorts of variations that do not affect the shape.
Deformations: Natural shape classes allow variations (faces, letters, chairs).
A huge amount of computation is required.

The invariance problem
Our perceptual systems are very good at dealing with invariances
translation, rotation, scaling
deformation, contrast, lighting, rate
We are so good at this that its hard to appreciate how difficult it is.
Its one of the main difficulties in making computers perceive.
We still don’t have generally accepted solutions.

The invariant feature approach
Extract a large, redundant set of features that are invariant under transformations
e.g. “pair of parallel lines with a dot between them.

With enough of these features, there is only one way to assemble them into an object.
we don’t need to represent the relationships between features directly because they are captured by other features.
We must avoid forming features from parts of different objects!

The normalization approach
Do preprocessing to normalize the data
e. g. put a box around an object and represent the locations of its pieces relative to this box.
Eliminates as many degrees of freedom as the box has.
translation, rotation, scale, shear, elongation
But its not always easy to choose the box

R
d
b d

The replicated feature approach
Use many different copies of the same feature detector.
The copies all have slightly different positions.
Could also replicate across scale and orientation.
Tricky and expensive
Replication reduces the number of free parameters to be learned.
Use several different feature types, each with its own replicated pool of detectors.
Allows each patch of image to be represented in several ways.

The red connections all have the same weight.

Backpropagation with weight constraints
It is easy to modify the backpropagation algorithm to incorporate linear constraints between the weights.
We compute the gradients as usual, and then modify the gradients so that they satisfy the constraints.
So if the weights started off satisfying the constraints, they will continue to satisfy them.

Combining the outputs of replicated features
Get a small amount of translational invariance at each level by averaging four neighboring replicated detectors to give a single output to the next level.
Taking the maximum of the four should work better.
Achieving invariance in multiple stages seems to be what the monkey visual system does.
Segmentation may also be done in multiple stages.

The hierarchical partial invariance approach
At each level of the hierarchy, we use an “or” to get features that are invariant across a bigger range of transformations.
Receptive fields in the brain look like this.
We can combine this approach with an initial approximate normalization.

or
or
or

Le Net
Yann LeCun and others developed a really good recognizer for handwritten digits by using backpropagation in a feedforward net with:
Many hidden layers
Many pools of replicated units in each layer.
Averaging of the outputs of nearby replicated units.
A wide net that can cope with several characters at once even if they overlap.
Look at all of the demos of LENET at http://yann.lecun.com

The architecture of LeNet5

The 82 errors made by LeNet5
Notice that most of the errors are cases that people find quite easy.
The human error rate is probably 20 to 30 errors

A brute force approach
LeNet uses knowledge about the invariances to design:
the network architecture
or the weight constraints
or the types of feature
But its much simpler to incorporate knowledge of invariances by just creating extra training data:
for each training image, produce new training data by applying all of the transformations we want to be insensitive to (Le Net can benefit from this too)
Then train a large, dumb net on a fast computer.
This works surprisingly well if the transformations are not too big (so do approximate normalization first).

Making dumb backpropagation work really well for recognizing digits
Using the standard viewing transformations plus local deformation fields to get LOTS of data.
Use a single hidden layer with very small initial weights:
it needs to break symmetry very slowly to find a good local minimum
Use a more appropriate error measure for multi-class categorization.

Problems with squared error
The squared error measure has some drawbacks
If the desired output is 1 and the actual output is 0.00000001 there is almost no gradient for a logistic unit to fix up the error.
If we are trying to assign probabilities to class labels, we know that the outputs should sum to 1, but we are depriving the network of this knowledge.
Is there a different cost function that is more appropriate and works better?
Force the outputs to represent a probability distribution across discrete alternatives.

Softmax
The output units use a non-local non-linearity:
The cost function is the negative log prob of the right answer
The steepness of C exactly balances the flatness of the output non-linearity
output units
x
y
x
y
x
y
1
1
2
2
3
3
desired value

تعداد صفحات : 86 | فرمت فایل : powerpoint

بلافاصله بعد از پرداخت لینک دانلود فعال می شود