عنوان:
استفاده از روش های شبکه عصبی در
طبقه بندی پروتئین ها
چکیده
تشخیص فولد1 پروتئین ها از جمله مسائل چالش برانگیزی است که در طی 35 سال گذشته محققان بسیاری در سراسر دنیا در این زمینه تحقیق کرده اند. امروزه به کارگیری علوم مهندسی برای حل مسائل حوزه علوم زیستی و پزشکی به سرعت و با موفقیت رو به افزایش است، بنابراین بسیاری از دانشمندان کامپیوتر به این سمت گرایش پیدا کرده اند تا بتوانند از روش های مختلف یادگیری ماشین در پیاده سازی سیستم های خودکار و هوشمند به منظور طبقه بندی پروتئین ها کمک بگیرند. هدف نهایی در پیاده سازی این سیستم ها نزدیک بودن هرچه بیشتر تصمیم اتخاذ شده توسط ماشین به تصمیم فرد خبره بیولوژیست می باشد.
با این وجود به خاطر پیچیدگی بسیار این مساله که ناشی از تعداد کلاس های نسبتا زیاد پروتئین ها و بزرگ بودن ابعاد ویژگی آنهاست، بدست آوردن جواب قابل قبول در طبقه بندی پروتئین ها با استفاده از روش های معمول یادگیری ماشین تقریبا امکان پذیر نمی باشد. در این پژوهش ما از یک مدل ترکیبی طبقه بندی با استفاده از شبکه های عصبی MLP، RBF و روش ترکیب طبقه بندی کننده های بیزی برای تعیین فولد پروتئین ها استفاده کرده ایم. نتایج بدست آمده نشان می دهد که شبکه های عصبی RBF دارای نرخ طبقه بندی صحیح بهتری نسبت به سایر روش ها مانند MLP و ماشین های بردار پشتیبان داشته است. این امر می تواند به علت فضای جستجوی بسیار بالا برای یافتن پارامترهای بهینه ماشین های بردار پشتیبان و زمان نسبی زیاد یادگیری در این نوع طبقه بندی کننده ها باشد. همچنین نتایج بدست آمده نشان می دهد که نرخ طبقه بندی صحیح پروتئین ها با استفاده از روش ترکیب بیزی به ٪59 افزایش یافته است. که البته در مقاله دیگری توانسته اند با استفاده از کلاسیفایر svm به 62.5٪ برسند. که نشان می دهد هنوز این پژوهش نیاز به بررسی بیشتر دارد.
کلمات کلیدی: MLP، RBF، Bayesian Classifier Fusion، Protein Folding.
عنوان شماره صفحه
1 .مقدمه 5
.2شبکه های عصبی 6
3. طبقه بندی ترکیبی 9
1.3رای گیری اکثریت 9
2.3ترکیب طبقه بندی کننده ها به روش بیزی 9
4 .نتایج آزمایشات 12
1.4آماده سازی داده ها 12
2.4 نتایج آزمایشات 13
3.4مقایسه با کارهای پیشین 14
5 .نتیجه گیری و کارهای آینده 17
منابع 18
فهرست شکل ها شماره صفحه
شکل 1: یک شبکه پرسپترونی سه لایه 8
شکل 2: تاثیر ورودی از نرون i با وزن بر نرون j 8
شکل 3: نرخ طبقه بندی صحیح برای طبقه بندی کننده های MLP 14
شکل 4: نرخ طبقه بندی صحیح برای طبقه بندی کننده های RBF 14
1. مقدمه
پروتئین ها ماکرومولکول های بیولوژیک بزرگی هستند که اجزاء اصلی ارگانیسم های زنده را تشکیل می دهند و تمام اعمال حیاتی آنها را کنترل می کنند. عملکرد یک پروتئین مربوط به واکنش های شیمیایی پروتئین با محیط اطراف و سایر پروتئین ها می باشد. از طرف دیگر خود این امر وابسته به شکل و ساختار سه بعدی پروتئین و نحوه فولدینگ اجزاء آن می باشد. تعیین ساختار سه بعدی پروتئین به طور تجربی بسیار دشوار است و از آنجایی که معمولا ترتیب زنجیره هر پروتئین دانسته است، پژوهشگران می کوشند تا با استفاده از روش های زیست فیزیکی گوناگون پدیده تاخوردگی پروتئین ها را مدل کرده و به این ترتیب ساختار سه بعدی نهایی را از روی دنباله اسیدهای آمینه پیش بینی کنند. بر اساس باور بسیاری از پژوهشگران پروتئین ها برای عملکرد صحیح می بایست ساختار سه بعدی درست خود را بدانند. لذا اگر پروتئینی نتواند به ساختار درست خود تا شود، غیرفعال خواهد شد. دلیل برخی از بیماری ها انباشتگی پروتئین های بد تاخورده پنداشته می شود.
انبوه پروتئین های تعیین توالی شده که در صف طویل تعیین خواص ساختاری و شناسایی عملکرد قرار گرفته اند، نیاز به روش های محاسباتی برای تعیین ساختار و توپولوژی پروتئین ها را آشکار می سازد. این مساله به عنوان یکی از چالش های 35 سال اخیر دانشمندان بیولوژی توجه بسیاری از محققان علوم کامپیوتر را به خود جلب کرده است [1][2][3][4][5] . با این وجود به دلیل طبیعت پیچیده ناشی از تعداد زیاد کلاس های پروتئین و همچنین بالا بودن ابعاد فضای ویژگی، عموما روش های معمول یادگیری ماشین به نتایج چندان رضایت بخشی نمی رسند [3][6] . در چنین مسائل طبقه بندی فرض می شود که فولدهای ممکن محدود است و هر پروتئین به کلاس یکی از انواع محدود فولدها تعلق دارد. می توان گفت شناسایی الگوی فولد یک پروتئین در سطحی عمیق تر از شناسایی کلاس ساختارهای نوع دوم پروتئین قرار می گیرد و به طبع دشوارتر و پیچیده تر از آن است. دشواری این مساله از آنجا ناشی می شود که با توجه به ساختارهای نوع دوم تشکیل دهنده پروتئین تعداد زیادی توپولوژی شناخته شده می توانند کاندید انتخاب به عنوان توپولوژی مناسب برای یک پروتئین با توپولوژی ناشناخته شوند.
روش استفاده شده در این تحقیق برای روبرو شدن با چنین مساله دشواری ترکیب تصمیم هایی است که هر یک با توجه به زاویه دیدی متفاوت به موضوع اتخاذ شده اند. در این تحقیق کلاسیفایرهای مورد استفاده در مواردی چون شناسایی ساختار دوم2، آبگریزی3، حجم واندروالس4، قطبیت5، و قابلیت قطبی شدن از روی مجموعه داده های آموزش به خبرگی مورد نیاز رسیده اند.
در این پژوهش ما از یک مدل ترکیبی طبقه بندی با استفاده از شبکه های عصبی MLP، RBF و روش ترکیب طبقه بندی کننده های بیزی برای تعیین فولد پروتئین ها استفاده کرده ایم. در ادامه در بخش دوم این گزارش ابتدا مقدمه ای مختصر درباره شبکه های عصبی مصنوعی آورده شده است. بخش سوم به شرح روش رای گیری اکثریت و همچنین روش بیز در ترکیب تصمیم طبقه بندی کننده های مختلف می پردازد. در بخش چهارم به بیان مشخصات داده ها و همچنین عملیات های انجام شده به منظور آماده سازی داده های مساله پرداخته ایم. در بخش های پنجم و ششم و هفتم نیز به ترتیب نتایج آزمایشات، مقایسه با کارهای انجام شده قبلی و کارهای آینده آورده شده است.
فصل دوم:
مروری بر شبکه های عصبی
2. شبکه های عصبی
شبکه های عصبی با الهام از فعالیت سیستم عصبی مغز انسان می توانند با یادگیری از تجربیات خود و عمومیت دادن به این تجربیات، دانش خود را افزایش دهند. تحقیقات گسترده انجام شده بر روی شبکه های عصبی توانایی بالای این دسته از روش های هوش مصنوعی را در دسته بندی و تشخیص الگو نشان داده اند. پیشبینی، یکی از کاربردهای معرفی شده برای شبکه های عصبی است. چندین ویژگی شبکه های عصبی موجب شده است که این روش ها بعنوان یکی از روش های هوش مصنوعی در مسائل پیشبینی مورد استفاده قرار گیرد. نخست، بر خلاف روش های سنتی مبتنی بر مدل، شبکه های عصبی روش هایی خود تنظیم مبتنی بر داده ها هستند که با فرضیات اندکی درباره مدل مساله مورد نظر به حل آن می پردازند. شبکه های عصبی با مشاهده مثال های آموزشی پی به ارتباط (هر چند نامشخص) داده ها می برند. بهمین دلیل این روش ها برای مسائلی که حل آنها نیاز به دانشی دارد که استحصال آن مشکل است ولی داده های موجود و مرتبط با آن زیاد می باشد، مناسب است. این رویکرد حل مساله از طریق یادگیری تجارب گذشته، در کاربردهایی که تهیه داده های زیادی در مورد آنها از تشخیص (یا حدس) قوانین حاکم بر مساله ساده تر است، مورد استفاده می باشد. هرچند ممکن است قوانین و الگوهای مورد جستجو در مساله مورد نظر براحتی قابل تشخیص نبوده و یا حتی داده های ورودی همراه با اغتشاش باشد، در عمل استفاده از روش های مبتنی بر داده ها مانند شبکه های عصبی، تنها راه ممکن برای حل مسائل دنیای واقعی می باشد.
دوم، شبکه های عصبی از قابلیت تعمیم برخوردارند. بدین معنی که پس از یادگیری داده های آموزشی می توانند نسبت به دادهای مشاهده نشده نیز اظهار نظر کنند (حتی اگر داده های آموزشی همراه با اغتشاش باشند). از آنجاییکه پیشبینی اتفاقات آتی (داده های مشاهده نشده) براساس داده های گذشته (داده های آموزشی) انجام می شود، بنظر می رسد که بتوان از شبکه های عصبی در این زمینه بهره برد.
سوم، شبکه های عصبی بعنوان تخمین زننده های عمومی توابع6 نیز معرفی می شوند. ثابت شده است که می توان با استفاده از یک شبکه عصبی مصنوعی پرسپترونی چند لایه یک تابع پیوسته را با هر درجه از دقت مورد نیاز تخمین زد. هر مدل پیشبینی فرض می کند که رابطه ای (شناخته شده یا ناشناخته) بین ورودی ها (مقادیر گذشته سری زمانی) و خروجی ها (مقادیر آینده) وجود دارد. عموما مدل های سنتی آماری پیشبینی برای تعیین یا تخمین این رابطه با محدودیت هایی روبرو می شوند که در این حالات شبکه های عصبی جایگزین مناسبی برای تعیین این رابطه می باشند.
چهارم، شبکه های عصبی بصورت غیرخطی عمل می کنند. روش های سنتی پیش بینی سری های زمانی، سری زمانی مورد نظر را بصورت یک فرآیند خطی فرض می کنند. مدل های خطی حاصل، این مزیت را دارند که می توان آنها را براحتی درک و بصورت دقیق تحلیل و پیاده سازی نمود. هرچند با توجه به اینکه اغلب سیستم های دنیای واقعی غیرخطی هستند، استفاده از مدل های خطی برای دنیای واقعی دقیق بنظر نمی رسند. البته مدل های غیرخطی نیز مانند مدل دوخطی7 و مدل خودرگوسیون آستانه ای8 ارائه شده اند که به علت اینکه باید رابطه صریحی برای سری مورد نظر با استفاده از اطلاعات اندک قوانین حاکم بر سیستم بدست آورند، محدود می باشد. در واقع از آنجایی که ممکن است الگوهای غیرخطی بسیار زیادی در مجموعه ای از داده های غیرخطی وجود داشته باشند، فرموله کردن یک مدل غیرخطی عمومی که بتواند کلیه ویژگی های مجموعه داده ها را در بر گیرد بسیار مشکل است. شبکه های عصبی که بر خلاف روش های فوق رویکردی غیرخطی به مدلسازی سری های زمانی دارند، می توانند بدون هیچگونه دانش اولیه ای از رابطه متغیرهای ورودی و خروجی، مساله مورد نظر را بصورت یک مدل غیرخطی مدلسازی کنند.
ایده استفاده از شبکه های عصبی مصنوعی در مسائل پیشبینی نخستین بار توسط Hu در سال 1964 ارائه شد که طی آن از شبکه تطبیقی ویدرو برای پیشبینی وضع هوا استفاده کرد. اما بعلت نبود قانونی برای یادگیری شبکه های چند لایه، تا معرفی روش انتشار خطا به عقب در دهه 1980، تحقیقی در زمینه استفاده از شبکه های عصبی در مسائل پیشبینی انجام نشد. Werbos در سال 1988 از الگوریتم انتشار خطا به عقب برای یادگیری یک شبکه عصبی استفاده کرد و نشان داد که شبکه عصبی نسبت به دیگر روش های پیش بینی مانند رگرسیون و باکس-جنکنیز بهتر عمل می کند. پس از آن تحقیقات بر روی کاربرد شبکه های عصبی ادامه یافت تا جایی که در سال 1993 طی برگزاری یک رقابت پیشبینی در انستیتوی سانتافا برنده های تمامی مسائل از شبکه های عصبی برای ایجاد یک سیستم پیشبینی استفاده کرده بودند. [7]
شبکه های عصبی که در ابتدا برای شبیه سازی سیستم های عصبی طبیعی ساخته شده بودند از تعدادی عنصر پردازشی ساده بنام نرون یا گره تشکیل شده اند (شکل 1). هر نرون تعدادی ورودی از سایر نرون ها یا سیگنال های خارجی دارد که با پردازش آن با استفاده از یک تابع انتقال سیگنال، خروجی خود را تولید و به نرون های دیگر یا خروجی سیستم ارسال می کند. تاثیر هر یک از اتصالات ورودی به نرون با سایر اتصالات متفاوت است. بعنوان نمونه در شکل 2تاثیر نرون i بر نرون j با نشان داده شده است که مشخص کننده وزن اتصال نرون i به نرون j می باشد. به این ترتیب که افزایش مقدار موجب تقویت و کاهش آن موجب تضعیف تاثیر این ارتباط می شوند.
در این تحقیق، تاکید بر شبکه های RBF و شبکه های پرسپترونی چند لایه پیش خور9 می باشد. این شبکه ها از چند لایه نرون تشکیل شده اند. نخستین لایه، لایه ورودی می باشد که ورودی شبکه به آن متصل است. پس از لایه ورودی یک یا چند لایه میانی قرار دارند که لایه های مخفی نامیده می شوند. در انتها نیز لایه خروجی قرار دارد که نتایج شبکه را مشخص می کند. در یک شبکه پیش خور برخلاف شبکه های پس خور، تمامی اتصالات رو به جلو و در جهت لایه ورودی به خروجی است. شکل 1 نمایی از یک شبکه پرسپترونی سه لایه پیش خور را نشان می دهد.
شکل 1: یک شبکه پرسپترونی سه لایه
یکی از روش های یادگیری در شبکه های پرسپترونی چند لایه استفاده از فرآیند یادگیری انتشار خطا به عقب10 است که طی آن شبکه الگوهای آموزشی ورودی را یاد گرفته و وزن های اتصالات بین نرون ها را تنظیم می کنند. به این ترتیب که الگوریتم انتشار خطا به عقب یک بردار آموزشی را انتخاب کرده و آنرا از لایه ورودی به لایه خروجی منتقل می کند. در لایه خروجی با محاسبه مقدار خطا (میانگین مربع خطا) خطای شبکه را به سمت عقب (لایه ورودی) حرکت می دهد و وزن های اتصالات را تصحیح می نماید. این فرآیند تا زمانی که میانگین مربع خطا به یک مقدار مشخص برسد ادامه می یابد. نشان داده شده است که می توان هر تابع پیوسته ای را با استفاده از یک شبکه پیش خور سه لایه با هر دقتی تخمین زد. اما در استفاده از این شبکه باید توجه داشت که سرعت یادگیری با افزایش نرون ها و لایه های شبکه بشدت، کاهش می یابد.
شکل 2: تاثیر ورودی از نرون i با وزن بر نرون j
معماری شبکه هایRBF مشابه معماری شبکه MLP است با این تفاوت که عموما این شبکه ها تنها دارای یک لایه میانی می باشند. در این شبکه ها نگاشت ورودی به خروجی عموما شفاف تر ازشبکه های MLP است. برای نرون های میانی در این شبکه ها از توابع Radial Basis که توابعی گوسی می باشند استفاده می شود و به همین دلیل مشهور به شبکه های RBF می باشند. نرون های لایه خروجی نیز رگرسیون خطی روی خروجی نرون های لایه میانی انجام می دهند. همچنین برای یادگیری در این شبکه ها می توان از الگوریتم های متفاوتی که برخی از آنها با سرپرست و برخی دیگر بدون سرپرست می باشند استفاده کرد. [4][9]
فصل سوم:
طبقه بندی ترکیبی
3. طبقه بندی ترکیبی
ایده اصلی روش های ترکیب، دست یابی به دقت بالاتر با استفاده از ترکیب نتایج چند الگوریتم مختلف می باشد. از آنجا که الگوریتم های مختلف توانایی های مختلف و متفاوتی درطبقه بندی نمونه ها دارند، ترکیب نتایج این الگوریتم ها منجر به دستیابی به دقت بالاتری می گردد. روش های مختلفی در تئوری ترکیب وجود دارد که در تمام سطوح طبقه بندی کننده از قبیل ویژگی ها، خروجی هر طبقه بندی کننده و یا در سطح یادگیری بکار می رود. در این تحقیق ترکیب در خروجی الگوریتم های طبقه بندی انجام شده است. روش های زیادی وجود دارد که ترکیب را در سطح خروجی الگوریتم های طبقه بندی کننده انجام می دهد که می توان به موارد زیر اشاره کرد:
* رای گیری اکثریت
* رای اکثریت وزن دار
* الگوریتم ترکیبی بیز
استفاده از کلاس بندی ترکیبی نتایج قابل توجهی را در تشخیص فولد پروتئین ها در برداشته است. در این تحقیق ما با بررسی اثر تئوری ترکیب از روش رای اکثریت و طبقه کننده ترکیبی بیز در خروجی شش طبقه بندی کننده ارائه شده در بخش 5 این گزارش استفاده می نماییم. در ادامه این بخش، توضیح مختصری از این دو روش آورده شده است.
1.3 رای گیری اکثریت
روش رای گیری اکثریت شاید یکی از قدیمی ترین استراتژی ها برای تصمیم گیری است. این روش بارزترین مثال از رویه دموکراتیک در جوامع واقعی، به خصوص در انتخابات به حساب می آید. رای اکثریت شکل ساده ای از رای گیری است که در آن گروه با اکثریت آراء به پیروزی می رسد.
2.3 ترکیب طبقه بندی کننده ها به روش بیزی
روش بیز یک روش بسیار ساده اما مفید در ترکیب طبقه بندی کننده هاست. در این روش ازConfusion ماتریس های نرمالیزه شده طبقه بندی کننده ها به منظور ترکیب نتایج آنها استفاده می شود. به منظور شرح روش ترکیب بیزی فرض کنید که قرار است هریک از نمونه ها در یکی از کلاسهای طبقه بندی گردد. همچنین فرض کنید که برای پیش بینی کلاس واقعی یک نمونه از N کلاسیفایر مختلف استفاده می شود که نحوه عملکرد این طبقه بندی کننده ها از یکدیگر مستقل می باشد در این صورت اگر تصمیم طبقه بندی کننده های مختلف برای کلاس نمونه مورد نظر به ترتیب باشد به منظور ترکیب نظر این طبقه بندی کننده ها ما کلاسی را به عنوان تصمیم بهینه نهایی انتخاب می کنیم که احتمال پسین آن به شرط مشاهدات از مابقی کلاس ها بیشتر باشد. به عبارتی در این روش می توان پیدا کردن کلاس بهینه را بصورت زیر فرموله کرد:
در این روش به منظور پیدا کردن مقدار احتمال با شرط استقلال تصمیم های از قضیه بیز استفاده می شود به این صورت که:
از آنجایی که نهایتا می خواهیم تصمیم بهینه بیزی را از مقایسه مقادیر مختلف احتمال های بدست آمده انتخاب کنیم می توان از مخرج عبارت بالا صرف نظر کرد به این ترتیب خواهیم داشت:
بدلیل ملاحظات پیاده سازی و عدم گنجایش کافی رجیسترهای یک کامپیوتر در نمایش اعداد می بایست از عبارت بالا لگاریتم گرفته شود و از آنجایی که لگاریتم یک تابع اکیدا صعودی است نهایتا حاصل مقاسیه احتمال ها با مقایسه لگاریتم های آنها یکسان خواهد بود. به این ترتیب می توان در روش ترکیب بیزی مساله پیدا کردن کلاس بهینه را بصورت زیر فرموله کرد:
عموما برای یافتن مقدار عبارت دو راه وجود دارد که یا فرض می شود توزیع نمونه ها روی کلاس های مختلف یک توزیع یکنواخت می باشد و یا از پراکندگی کلاس های مختلف بر روی داده های آموزش استفاده برای پیدا کردن احتمال پیشین کلاس ها استفاده می گردد. در این پژوهش ما از راه حل دوم به منظور یافتن احتمال های پیشین کلاس ها استفاده کرده ایم. همچنین باید توجه داشت که برای محاسبه می توان از ماتریس نرمالیزه Confusion مربوط به طبقه بندی کننده های مختلف استفاده کرد. اما از آنجایی که عموما بسیاری از درایه های این ماتریس برابر صفر خواهند بود لذا برای بدست آوردن نتایج کاربردی ناگزیر به هموارسازی11 مقادیر احتمال های موجود در این ماتریس می باشیم. در این پژوهش از تخمین لاپلاس12 به منظور هموارسازی مقادیر احتمال های واقع در ماتریس confusion استفاده شده است. درروش لاپلاس اگر احتمال پیشین رخداد X برابر و همچنین احتمال پسین رخداد X برابر باشد در این صورت احتمال هموار شده رخداد X برابر خواهد بود با که مقدار ثابت برحسب میزان درجه اطمینان ما به دانش پیشین مشخص می شود. همچنین لازم به ذکر است در این پژوهش مقدار احتمال پیشین برابر گرفته شده است که در آن K تعداد کلاس های مختلف مساله می باشد.
فصل چهارم:
نتایج آزمایشات
4. نتایج آزمایشات
1.4 آماده سازی داده ها
مجموعه داده های مورد استفاده نیز از بانک اطلاعاتی مربوط به پژوهش Ding و [1] Dubchakکه در نشانی http://ranger.uta.edu/~chqding/protein قرار دارد تامین شده است. مجموعه داده های اولیه آموزش و تست هریک به ترتیب شامل 313 و 385 پروتئین می باشند. به دلیل فقدان توالی اسیدهای آمینه برای دو پروتئین در مجموعه داده های آموزش(2SCMC و 2GPS) و دو پروتئین در مجموعه داده های تست (2YHX_1 و 2YHX_2) در مجموع این 4 پروتئین از مجموعه داده های آموزش و تست حذف شدند و در نتیجه 311 پروتئین برای آموزش و 383 پروتئین برای تست مورد استفاده قرار گرفتند.
طبق گزارش Ding و Dubchak هیچ پروتئینی در مجموعه تست از لحاظ توالی بیش از 35درصد همانندی با پروتئین های مجموعه آموزش ندارد. بر اساس طبقه بندی SCOP مجموعه داده های آموزش و تست در همان مرجع به 27 فولد پروتئینی مختلف تقسیم شده اند.
به لحاظ ساختاری از میان 27 فولد ذکر شده، 6 عدد در ساختار ، 9 عدد در ساختار ، 9 عدد در ساختار ، و 3 فولد هم در ساختار قرار دارند. بنابر این ملاحظه می شود که یافتن فولد دشوارتر از یافتن کلاس ساختار نوع دوم پروتئین می باشد. برای انجام این کار Ding و Dubchak شش ویژگی را از توالی پروتئین ها استخراج کردند:
1. ترکیب اسیدهای آمینه
2. ساختار دوم پیش بینی شده
3. میزان آبگریزی
4. حجم واندروالس نرمالیزه شده
5. قطبیت
6. قابلیت قطبی شدن
از میان ویژگی های فوق فقط ترکیب اسیدهای آمینه13 است که برای هر پروتئین برداری به طول 20 (به تعداد اسیدهای آمینه پایه) بوجود می آورد. در واقع تمام پروتئین های موجود در بافت های موجودات زنده تنها از توالی 20 اسید آمینه به وجود آمده اند. هر درایه این بردار نشان دهنده تعداد تکرار اسید آمینه مربوطه در ساختار این پروتئین می باشد.
در مورد مساله مورد بحث ما هر یک از 5 ویژگی باقیمانده (ساختار دوم پیش بینی شده، میزان آبگریزی، حجم واندروالس نرمالیزه شده، قطبیت، و قابلیت قطبی شدن) دارای 21 ویژگی می باشند. جدول 1 نشان دهنده 6 پارامترهایی است که از توالی یک پروتئین بدست می آیند.
جدول 1- 6 پارامتری که برای طبقه بندی فولد پروتئین ها از توالی یک پروتئین استخراج می گردند.
به منظور تعیین فولد پروتئین ها در این تحقیق، ابتدا هریک از داده های موجود در مجموعه داده را به بازه [-1,1] نرمالیزه کردیم این عمل باعث می شود که هر یک از داده های ورودی مدل دارای مقیاس نسبتا یکسان باشند.
1
2
2.4 نتایج آزمایشات
ما در این تحقیق به منظور تعیین فولد پروتئین، یک مدل ترکیبی از طبقه بندی کنند ه های RBF و MLP با استفاده از روش رای اکثریت و ترکیب کننده بیزی روی داده های موجود در مجموعه داده های14 مربوطه آموزش دادیم. لازم به ذکر است، از آنجا که تعداد کلاس های موجود در این مساله برابر 27 می باشد لذا در لایه خروجی شبکه های MLP و RBF از 27 نرون استفاده شده است و در حقیقت برچسب نرونی که ماکزیمم مقدار را در لایه خروجی دارا باشد به عنوان برچسب کلاس پروتئین انتخاب می شود.
در پایان کلاس نهایی هر یک از داده های آموزش بوسیله ترکیب تصمیم های اتخاذ شده توسط شش کلاسیفایر آموزش داده شده بر روی مجموعه داده های آورده شده در بخش 4 محاسبه می گردد. نتایج به دست آمده نشان می دهد که استفاده از روش ترکیب رای اکثریت نرخ طبقه بندی صحیح پروتئین ها را تقریبا 2 درصد بهبود داده است. همچنین استفاده از روش بیزی در ترکیب تصمیم طبقه بندی کننده ها در حدود 12 در صد نتایج را بهبود داده است. در شکل های 3 و 4 نتایج مربوط به نرخ طبقه بندی صحیح پروتئین ها توسط روش های مختلف بر داده های تست نشان داده شده است.
شکل 3: نرخ طبقه بندی صحیح برای طبقه بندی کننده های MLP
شکل 4: نرخ طبقه بندی صحیح برای طبقه بندی کننده های RBF
1
2
3
3.4 مقایسه با کارهای پیشین
در این بخش نتایج 3 پژوهش مشابه صورت گرفته بر روی این مجموعه داده ها را بررسی خواهیم کرد.
همان گونه که گفته شد این مجموعه داده ها از بانک اطلاعاتی مربوط به پژوهش Ding و [1] Dubchakگرفته شده است. در این مقاله از ماشین بردار پشتیبان و شبکه های عصبی به عنوان کلاسیفایرهای پایه و از رای حداکثر برای ترکیب امتیاز پارامترهای چندگانه مجموعه داده ها استفاده کرده اند. در کل نرخ موفقیت سیستم تشخیص آنها ٪56 گزارش شده است. نتایج این پژوهش در جدول 3 آمده است.
در پژوهش دیگری (مرجع [11] ) که بر روی این مجموعه داده ها صورت گرفته، از روش های یادگیری ماشین برای طبقه بندی فولد پروتئین ها توسط معماری یادگیری سلسه مراتبی استفاده کرده اند. این معماری یادگیری سلسه مراتبی توسط شبکه های عصبی و ماشین بردار پشتیبان شکل داده شده است. نتایج این پژوهش در جدول 3 آمده است.
در پژوهش دیگری که اخیرا صورت گرفته (مرجع [3]) نرخ موفقیت ٪62 بر روی مجموعه داده های تست گزارش شده است. نرخ گزارش شده، 6 تا 21 در صد بیشتر از نرخ های به دست آمده از روش های موجود شبکه های عصبی و ماشین بردار پشتیبان است که نشان می دهد ترکیب طبقه بندی کننده ها روش مناسبی برای شناسایی فولد پروتئین است. در این مقاله از روش 15OET-KNN استفاده کرده اند و نتایج بر اساس رای گیری وزن دار ترکیب شده اند.
تفاوت اساسی این تحقیق با پژوهش انجام شده در مرجع [3] این است که داده های مربوط به مجموعه ترکیب اسیدهای آمینه بر اساس داده های مربوط به APAC با های متفاوت نیز استفاده شده است. این مجموعه جدید داده در جدول 2 آمده است. همان گونه که مشاهده می شود در مرجع [3] از 9 مجموعه داده برای پیش بینی فولد پروتئین استفاده شده است.
جدول 2- مجموعه داده های استفاده شده در [3]
در جدول 3 نتایج حاصل از اعمال کلاسیفایرهای مختلف به مجموعه داده های مساله آورده شده است.
طبقه بندی کننده
مرجع مورد استفاده
CCR (%)
MLP16
[11]
8.48
GRNN17
[11]
2.44
RBFN18
[11]
4.49
NN (الف)
[1]
8.41
SVM (الف)
[1]
2.45
SVM (ب)
[1]
1.51
SVM (پ)
[1]
0.56
Ensemble Classifier (ت)
[3]
1.62
ترکیب رای اکثریت MLP
پژوهش جاری
40.46
ترکیب بیزی MLP
پژوهش جاری
44.51
ترکیب رای اکثریت RBF
پژوهش جاری
49.71
ترکیب بیزی RBF
پژوهش جاری
58.96
جدول 3- نتایج به دست آمده از پژوهش های صورت گرفته بر اساس میزان صحت عملکرد روش های مختلف طبقه بندی بر روی مجموعه داده های واحد آموزش و تست
الف-نحوه آموزش One against others بوده است. در این روش فاز آموزش در یک مساله طبقه بندی با K کلاس تبدیل به K مساله طبقه بندی با دو کلاس می شود. در هر یک از این کلاسیفایر ها دو کلاس تشکیل می شود. یکی کلاس درست و یکی کلاس نادرست که از ترکیب همه کلاس ها غیر از کلاس اصلی حاصل می شوند. در فاز تست یک داده به همه K کلاسیفایر عرضه می شود و نتیجه نهایی مشخص می گردد. امکان بروزFalse positive زیاد است و باید به نحوی با آن مقابله شود.
ب- نحوه آموزش Unique one against others بوده است. ایده اصلی در این شیوه مقابله با مساله False Positive ها در روش الف از طریق اضافه کردن یک فاز دوم پردازش داده هاست. اطلاعات تکمیلی را می توان از [1] بدست آورد.
پ- نحوه آموزش All against all بوده است. این روش تعمیم یافته روش ب می باشد و بهبود زیادی در نتایج حاصل می کند. اطلاعات تکمیلی را می توان از [1] بدست آورد.
ت- ensemble classifier بر اساس 9 کلاسیفایر OET-KNN ساخته شده است و تعداد همسایگان در هر کلاسیفایر OET-KNN، 8 تا می باشد.
فصل پنجم:
نتیجه گیری
5. نتیجه گیری و کارهای آینده
از آنجا که امر طبقه بندی پروتئین ها با یک نظام سلسله مراتبی صورت می گیرد، برای هدایت یک پروتئین ناشناخته در مسیر مناسب، باید بتوان با استفاده از کلاسیفایرهای قدرتمند در هر طبقه، عمل طبقه بندی را به صورت مناسب انجام داد. در غیر این صورت چنانچه در طبقه بندی یک پروتئین در مراحل اولیه دچار خطا شویم، این خطا با پایین رفتن در طبقات بزرگتر شده و موجب می گردد تا طبقه بندی نامطلوبی صورت گیرد.
ترکیب کلاسیفایرها به عنوان ابزاری قدرتمند قادر است تا به نحو مطلوبی با عدم قطعیت موجود در داده ها و نیز سطح تصمیم خروجی تک کلاسیفایرها مواجهه نماید و به این ترتیب تصمیمات دقیق تری نسبت به کلاس فولد پروتئین اتخاذ شود.
همچنبن لازم به ذکر است که در این تحقیق عملکرد ماشین های بردار پشتیبان نیز برای تعیین فولد مورد بررسی قرار گرفت با این وجود از آنجایی که در اجراهای اولیه این طبقه بندی کننده جواب های قابل قبولی بدست نیامد در ادامه تحقیق تنها بر روی طبقه بندی کننده های MLP و RBF متمرکز شدم. دلیل این امر را می توان به علت فضای جستجوی پیوسته و چند بعدی برای پیدا کردن پارامترهای بهینه کننده ماشین بردار پشتیبان دانست که ما را نیازمند به یک الگوریتم جستجوی کارآمد برای یافتن آنها می کند.
در ادامه این مسیر با استناد به نتایج گزارش شده در مراجع [1,3] به نظر می رسد از یک سو استفاده از ماشین های بردار پشتیبان به همراه یک الگوریتم جستجوی کارآمد تاثیر بسزایی در بهبود نتایج طبقه بندی خواهد داشت. از سوی دیگر می توان تاثیر استفاده از تکنیک های پیشرفته تر ترکیب خروجی کلاسیفایرها مانند انتگرال های فازی و کلاسیفایرهای سلسه مراتبی و همچنین استفاده از تکنیک های کاهش و تبدیل فضای ویژگی مانند PCA و ICA در مساله تعیین فولد آزمایش شود.
منابع
[1] C.H. Ding, I. Dubchak, "Multi-class protein fold recognition using support vector machines and neural networks". Bioinformatics, 17, 349-358.a3, 2006.
[2] H. Bhaskar, D. C. Hoyle, A. Singh, "Machine Learning in bioinformatics: A brief survey and recommendations for practitioners". Journal of computers in biology and Medicine-Vol. 36, P. 1104-1125, 2006.
[3] H.B. Shen, K.C. Chou, "Ensemble Classifier for protein fold pattern recognition". Journal of Bioinformatics, vol 22, no. 14, P. 1717-1722, 2006.
[4] P. Baldi, S. Brunak, "Bioinformatics: The Machine Learning Approach". adaptive computation and machine learning, second ed. MIT press, 2001.
[5] G. W. Greenwood, J. Shin, B. Lee, G. B. Fogel, "A Survey of Recent Works on Evolutionary Approaches to the Protein Folding". IEEE, P. 488-495, 1999.
[6] L. Nanni, A. Lumini, "Ensemblator: An ensemble of classifiers for reliable classification of biological data". journal of Pattern Recognition Letters, Vol 28, P. 622-630, 2007.
[7] A.S. Weigend, N.A. Gershenfeld, "Time Series Prediction: Forecasting the Future and Understanding the Past". Addison-Wesley, Reading, MA, 1993.
[8] W. S. Noble, "Support vector machine applications in computational biology" 2003.
[9] C. M. Bishop, "Pattern Recognition and Machine Learning", second edition: Springer 2006.
[10] E. Bauer, R. Kohavi, "An empirical comparison of voting classification algorithms: Bagging, Boosting and variants", Machine Learning, Vol. 36, P. 105-142, 1999.
[11] Chung, I. F. & Huang, C. D., "Recognition of structure classification of protein folding by NN and SVM hierarchical learning architecture", In Lecture Notes in Computer Sciences (Kaynak, O., Alpaydin, E., Oja, E. & Xu, L., eds.), Vol. 2714, pp. 1159-1167. Springer, Istanbul, Turkey. a10, 2003.
1 Folding
Secondary Structure 2
Hydrophobicity 3
Van der waals volume 4
Polarity 5
6 Universal function approximator
7 Bilinear model
8 Threshold auto-aggressive model
Feed Forward Multi Layer Perceptron 9
10 Error back propagation
Smoothing 11
Laplace Estimate 12
Protein Composition Data set 13
Data Set 14
Optimized Evidence-Theoretic K-Nearest Neighbor 15
Multi Layer Perceptron neural network 16
General Regression Neural Networks 17
Radial Basis Function Network 18
—————
————————————————————
—————
————————————————————
1
فهرست مطالب
فهرست شکل ها
16
مقدمه
مروری بر شبکه های عصبی
طبقه بندی ترکیبی
ققققبش
نتیجه گیری