Learning and development in neural networks: the importance of starting small
1
مقدمه
انسان از موجودات دیگر از دو جنبه متفاوت است :
ظرفیت حافظه
زمان طولانی رشد
باعث
مزیت یادگیری :انتقال رفتارها رشد سریع
فهم اینکه چرا فشارهای تکاملی باعث حذف دوره طولانی رشد نمی شود، مشکل است.
موفقیت افراد در زمینه خاص بوسیله مشارکت همه ویژگی هایشان حاصل می شود.
برای مطالعه یادگیری باید به این نکته توجه نمود که بیشترین یادگیری در انسانها دقیقا در نقطه ای از زمان اتفاق می افتد .
2
مقدمه
شرایط فعالسازی
تغییرات رشد موثرترین یادگیری
Start small
شرایطی که مدلهای یادگیری ANN بهتر کار می کنند
شروع با حافظه محدود
گزارش نتایج شبیه سازی ها آموزش شبکه برای پردازش جمله های پیچیده
این مقاله به دو بخش تقسیم می شود
Start small همیشه مناسب نیست
3
مقدمه
شبکه ها هنگامی قادر به یادگیری یک task هستند تحت فشار قرار گرفتن با محدودیت های حافظه شدید
جمله بالا با یافته های دیگر در تناقض است
4
اهمیت کوچک شروع کردن
یکی از بیشترین حوزه های مطالعه شده زبان است این یکی از دامنه های مشکل مسئله طرح ریزی
اگر وظیفه یادگیرنده زبان کشف قاعده های اساسی (گرامر) باشد ممکن است داده موجود کافی نباشد
این مسئله کافی نبودن ظاهری داده در متن های بسیاری بحث شده است.
ساده ترین اثبات ها از کاری کهGold در سال 1967 انجام داد ،بدست می آید.
Goldنشان داد اگر یاد گیرنده زبان ارائه داده فقط مثبت زبانهای با قاعده فقط یاد گرفته می شود
به نظر می رسد زبانهای طبیعی به کلاس قوی تری تعلق داشته باشند.
مسئله
دلیل محکمی وجود ندارد که بچه ها از داده منفی در طول یادگیری استفاده می کنند
5
اهمیت کوچک شروع کردن
فاکتور سوم به غیر از فطرت وشواهد غیر مستقیم تغییرات رشدی
PlunkettوMarchman یادگیری بهتر زمانی حاصل می شود که مجموعه آموزشی برای شبکه به آرامی رشد نماید
اجازه دادن به مکانسیم یادگیری برای تغییر خودش تسهیل یادگیری میشود
6
شبیه سازی ها
The girls who the teacher has picked for the play which will be produced next month practice every afternoon .
ماهیت بازگشتی relative clause ها زبان طبیعی قادر به مدل شدن توسط آتاماتای وضعیت متناهی
مسئله شبکه ها باید دارای چه ویژگی هایی باشند که ظرفیت پردازشی ماورای آتاماتای وضعیت متناهی داشته باشند.
7
شبیه سازی ها
8
ورودی افزایشی
برای فهم اینکه کجا شکست بروز می دهد وچطور پیچیدگی زبان را شبکه می تواند یاد بگیردپنج مجموعه آموزشی ساخته شد که ورودی آموزشی به مجموعه ای از پیچیدگی افزایشی سازماندهی شد.
یک مغایرت مهمی که بین روشی که شبکه آموزش داده می شود و روشی که کودکان زبان یاد می گیرند وجود دارد ،بر خلاف شبکه ،کودکان نمونه هایی از همه جنبه های زبان بزرگسال را در ابتدا می شنوند.
9
حافظه افزایشی
یک تغییر رشدی که مربوط به یادگیری است افزایش تدریجی در حافظه
حافظه در شبکه یعنی دسترسی شبکه به وضعیت های داخلی قبلی اش.
درا ین شبیه سازی شبکه از ابتدا با زبان بزرگسال آموزش داده شد.
اگر شبکه به خود اجازه دهد که در طول یادگیری تحت تغییرات رشدی قرار گیرد(افزایش ظرفیت حافظه ) سپس نتیجه به اندازه ای که اگر آن محیط خودش را به تدریج پیچیده نماید خوب خواهد بود.
10
حافظه افزایشی
شبکه از ابعاد مختلف وضعیت درونی برای نمایش فاکتورهای مختلفی که به عملکرد مربوطند استفاده می کند
آیتم واژگانی مجزا(تنها)
رده گرامری(اسم ، فعل و ضمیر و …)
تعداد (مفرد در برابر جمع)
نقش دستوری (فاعل در برابر مفعول و …)
سطح تعبیر(عبارت اصلی ، تابع و ..)
بحث فعل
ارائه های درونی جمله های خاص می توانند به عنوان حرکت هایی از این فضای وضعیت تصور شوند
11
حافظه افزایشی
کدگذاری تفاوت بین مفرد وجمع
12
حافظه افزایشی
کد گذاری تفاوت معماری فعل
13
حافظه افزایشی
ارائه در فضای بزرگتر و شکبه های بزرگتر با جملات بیشتر
14
حافظه افزایشی
تعداد نسبتا کمی از منابع واریانس وجود دارد : تعداد، رده دستوری، نوع افعال و سطح تعبیر
The girl who the dogs that I chased down the block frightened.
هنگامی که پروسه یادگیری در مد افزایشی است، شبکه فقط زیر مجموعه ای از داده ها را می بیند. داده ها تنها جملات ساده هستند.
این زیر مجموعه از داده ها (جملات ساده) فقط شامل 3 تا از 4 منبع واریانس هستند : تعداد، رده دستوری و نوع افعال
نتیجه اثر یادگیری اولیه این است که فضای راه حل به محدوده بسیار کوچکتری محدود می شود
محدودیت های حافظه اولیه به عنوان فیلتر در ورودی عمل می کنند
15
شبکه ها چگونه یاد می گیرند؟
مساله شروع با داده های کم (start small)
مثال : تابع XOR
Input Output
1 0 1
0 1 1
0 0 0
1 1 0
16
شبکه ها چگونه یاد می گیرند؟
4 خاصیت اساسی یادگیری در مدلهای پیوندگرا :
آمار به عنوان پایه واساس برای یادگیری، مساله اندازه گیری نمونه
ارائه تجارب
محدودیت در فرضیه های جدید
چگونگی یادگیری تغییرات در طول زمان
هر خصوصیت یک محدودیت کوچک در یادگیری اعمال می کند، اما این 4 ویژگی با هم محدودیت شدیدی در قدرت شبکه اعمال می کنند
17
مراحل اولیه یادگیری
ساختار شبکه عصبی
18
مراحل اولیه یادگیری
نمودار وزن ها به نسبت خطا ها
19
مراحل اولیه یادگیری
به صورت تجربی وزن ها را محاسبه می کنیم
که تمام وزن های ممکن را بالا، پایین می کنیم و به ازای هر کدام شبکه را تست می کنیم.
تغییرات کوچک و نرم وزن ها با یادگیری افزایشی
فواید: یادگیری تدریجی زبان
معایب: گیرکردن در بهینه های محلی
20
تابع فعالسازی
در اکثر موارد تابع سیگموید است
که در ابتدای یادگیری خالص ورودی به یک گره نزدیک صفر است
بسیار حساس به ورودی در طول شروع یادگیری می باشند .
تحجر:"تحجر" یک فرایند مستقل از بلوغ نیست بلکه نتیجه مستقیم خود یادگیریست. بیشتر سیستم می داند (جدا از درست یا غلط بودن) و این سخت تر از آن است که چیز جدیدی یادبگیرد.
همه بدبختی های ما ناشی از این است که نسل کهنه ی ما به تحجر مبتلا است و نسل جدید به هیچ و پوچ (شریعتی)
21
مثال پیرامون کودکی انسان
ویژگی برای شبکه
در اکثر موارد یک سایز نمونه کوچک ، یک شبکه نمی تواند تعمیم شاخص های یک جمعیت بزرگ را کشف کند.
22
مثال پیرامون تفاوت جمله ها
من رفتم
ای بس که نباشیم و جهان خواهد بود
نی نام ز ما و نه نشان خواهد بود
زین پیش نبودیم و نبد هیچ خلل
زین پس چو نباشیم همان خواهد بود
ویژگی برای شبکه
شبکه ها در دوره یادگیری اولیه بیشترین حساسیت را دارند. و در طول فرایند کمتر می توانند وزن هایشان را دستکاری کنند.
شیب نزول یادگیری برای شبکه ، تغییرات زیاد در فرض ها را سخت می کند. وقتی یک شبکه در تعمیم دچار اشتباه میشود نمی تواند از local minimum ها رها شود.
شبکه نمی تواند ساختار های دستوری پیچیه را یاد بگیرد زیرا برای رمز گشایی آنها به بازنمایی اولیه نیاز است.
یک مکانیزم برای فیلتر کردن که به سیستم فقط اجازه ی پردازش جملات ساده را می دهد. با گذشت زمان حافظه تقویت میشود جملات پیچیده تری را پردازش می کند.
23
اعمال محدودیت
ظرفیت محدود باعث کاهش فضای جستجو میشود.
یادگیرنده های جوانتر سرگرم تعداد کمی از فرضیه های جهان شوند.
24
اعمال محدودیت
الیزا نیوپرت پیشنهاد داده که محدودیت زودهنگام منابع ممکن است دوره ای شود که در طول آن می توان زبان را شبیه مهارت نوع بومی آن آموخت.
دیر یادگیرنگان کنترل ناقصی بر روی ریخت شناسی دارند .(با ذکر مثال)
زبان آموزان جوان دچار خطای افزونگی حذف میشوند.
25
کسانی که دیر شروع به یادگیری می کنند.
کسانی که یادگیر جوان و بومی هستند..
اعمال محدودیت
نیوپرت پیشنهاد داد زبان آموزان جوان تعداد محدودی از اشکال را درک کنند و به خاطر بسپرند. این عمل با نگاشت فضای بزرگتر به کوچکتر انجام میشود.
جالب اینکه : حافظه بزرگتر و مهارت محاسبه برای بالغ ها مضر است:
The adult’s greater storage and computational skills actually work to their disadvantage.
26
چالش ها و موضوعات پیشرو
شاید ویژگی های غیر ذاتی کشش بیشتری در دوره های بلند مدت کودکی بگزارند.
در انسانها بخش عمده ای از طول عمر فرد در دوران کودکیست
نیروهای تکاملی برای کسی که با تمام قابلیت ها متولد می شود ، انتخاب نشده است. در نتیجه انسان نیاز به تکامل دارد…
27
با تشکر
28