مقدمه ای بر داده کاوی و اکتشاف دانش
مقدمه
امروزه با گسترش سیستم های پایگاهی و حجم بالای داده ها ی ذخیره شده در این سیستم ها ، نیاز به ابزاری است تا بتوان داده های ذخیره شده پردازش کرد و اطلاعات حاصل از این پردازش را در اختیار کاربران قرار داد .
با استفاده ار پرسش های ساده در SQL و ابزارهای گوناگون گزارش گیری معمولی ، می توان اطلاعاتی را در اختیار کاربران قرار داد تا بتوانند به نتیجه گیری در مورد داده ها و روابط منطقی میان آنها بپردازند
وقتی که حجم داده ها بالا باشد ، کاربران هر چند زبر دست و با تجربه باشند نمی توانند الگوهای مفید را در میان حجم انبوه داده ها تشخیص دهند و یا اگر قادر به این کار هم با شند ، هزینه عملیات از نظر نیروی انسانی و مادی بسیار بالا است
مقدمه
از سوی دیگر کاربران معمولا فرضیه ای را مطرح می کنند و سپس بر اساس گزارشات مشاهده شده به اثبات یا رد فرضیه می پردازند ، در حالی که امروزه نیاز به روشهایی است که اصطلاحا به کشف دانش بپردازند یعنی با کمترین دخالت کاربر و به صورت خودکار الگوها و رابطه های منطقی را بیان نمایند .
داده کاوی یکی از مهمترین این روشها است که به وسیله آن الگوهای مفید در داده ها با حداقل دخالت کاربران شناخته می شوند و اطلاعاتی را در اختیار کاربران و تحلیل گران قرار می دهند تا براساس آنها تصمیمات مهم و حیاتی در سازمانها اتخاذ شوند .
مفاهیم پایه در داده کاوی
در داده کاوی معمولا به کشف الگوهای مفید از میان داده ها اشاره می شود . منظور از الگوی مفید ، مدلی در داده ها است که ارتباط میان یک زیر مجموعه از داده ها را توصیف می کند و معتبر ، ساده ، قابل فهم و جدید است .
تعریف داده کاوی
داده کاوی عبارت است از فرایند استخراج اطلاعات معتبر ، از پیش ناشناخته ، قابل فهم و قابل اعتماد از پایگاه داده های بزرگ و استفاده از آن در تصمیم گیری در فعالیت های تجاری مهم.
اصطلاح داده کاوی به فرایند نیم خودکار تجزیه و تحلیل پایگاه داده های بزرگ به منظور یافتن الگوهای مفید اطلاق می شود
داده کاوی یعنی جستجو در یک پایگاه داده ها برای یافتن الگوهایی میان داده ها
تعریف داده کاوی
داده کاوی یعنی استخراج دانش کلان ، قابل استناد و جدید از پایگاه داده ها ی بزرگ .
داده کاوی یعنی تجزیه و تحلیل مجموعه داده های قابل مشاهده برای یافتن روابط مطمئن بین داده ها .
کاربردهای داده کاوی
خرده فروشی : از کاربردهای کلاسیک داده کاوی است که می توان به موارد زیر اشاره کرد :
تعیین الگوهای خرید مشتریان
تجزیه و تحلیل سبد خرید بازار
پیشگویی میزان خرید مشتریان از طریق پست(فروش الکترونیکی)
کاربردهای داده کاوی
بیمه :
تجزیه و تحلیل دعاوی
پیشگویی میزان خرید بیمه نامه های جدید توسط مشتریان
پزشکی :
تعیین نوع رفتار با بیماران و پیشگویی میزان موفقیت اعمال جراحی
تعیین میزان موفقیت روشهای درمانی در برخورد با بیماریهای سخت
کاربردهای داده کاوی
بانکداری :
پیش بینی الگوهای کلاهبرداری از طریق کارتهای اعتباری
تشخیص مشتریان ثابت
تعیین میزان استفاده از کارتهای اعتباری بر اساس گروههای اجتماعی
مراحل فرایند کشف دانش از پایگاه داده ها
انبارش داده ها
انتخاب داده ها
تبدیل داده ها
کاوش در داده ها
تفسیر نتیجه
انبارش داده ها
هدف از فرایند انبارش داده ها فراهم کردن یک محیط یکپارچه جهت پردازش اطلاعات است .
در این فرایند ، اطلاعات تحلیلی و موجز در دوره های مناسب زمانی سازماندهی و ذخیره می شود تا بتوان از آنها در فرایند های تصمیم گیری که از ملزومات آن داده کاوی است ، استفاده شود
انبار داده ها ، مجموعه ای است موضوعی، مجتمع، متغیر در زمانو پایداراز داده ها که به منظور پشتیبانی از فرایند مدیریت تصمیم گیری مورد استفاده قرار می گیرد
انتخاب داده ها
برای فرایند داده کاوی باید داده ها ی مورد نیاز انتخاب شوند
به عنوان مثال در یک پایگاه داده های مربوط به سیستم فروشگاهی ، اطلاعاتی در مورد خرید مشتریان ، خصوصیات آماری آنها ، تامین کنندگان ، خرید ، حسابداری و … وجود دارند .
برای تعیین نحوه چیدن قفسه ها تنها به داده ها یی در مورد خرید مشتریان و خصوصیات آماری آنها نیاز است .
حتی در مواردی نیاز به کاوش در تمام محتویات پایگاه نیست بلکه ممکن است به منظور کاهش هزینه عملیات ، نمونه هایی از عناصر انتخاب و کاوش شوند .
تبدیل داده ها
هنگامی که داده های مورد نیاز انتخاب شدند و داده ها ی مورد کاوش مشخص گردیدند ، معملا به تبدیلات خاصی روی داده ها نیاز است .
نوع تبدیل به عملیات و تکنیک داده کاوی مورد استفاده بستگی دارد : تبدیلاتی ساده همچون تبدیل نوع داده ای به نوع دیگر تا تبدیلات پیچیده تر همچون تعریف صفات جدید با انجام عملیاتهای ریاضی و منطقی روی صفات موجود .
کاوش در داده ها
داده های تبدیل شده با استفاده از تکنیکها و عملیاتهای داده کاوی مورد کاوش قرار می گیرند تا الگوهای مورد نظر کشف شوند .
تفسیر نتیجه
اطلاعات استخراج شده با توجه به هدف کاربر تجزیه و تحلیل و بهترین نتایج معین می گردند .
هدف از این مرحله تنها ارائه نتیجه (بصورت منطقی و یا نموداری) نیست ، بلکه پالایش اطلاعات ارایه شده به کاربر نیز از اهداف مهم این مرحله است .
عملیاتهای داده کاوی
مدلسازی پیشگویی کننده
تقطیع پایگاه داده ها
تحلیل پیوند
تشخیص انحراف
معیارهای انتخاب عملیات داده کاوی
تناسب با نوع داده های ورودی
شفافیت خروجی داده کاوی
مقاومت در مقابل اشتباه در مقادیر داده ها
میزان صحت خروجی
توانایی کار کردن با حجم بالای داده ها
عملیاتها و تکنیکهای داده کاوی
مدلسازی پیشگویی کننده
رده بندی ، پیشگویی مقدار
تقطیع پایگاه داده ها
خوشه بندی آماری ، خوشه بندی
تحلیل پیوند
کشف بستگی ، کشف الگوهای متوالی ، کشف دنباله های زمانی مشابه
تشخیص انحراف
آمار ، تجسم مدل
تحلیل پیوند
کشف بستگی
کشف الگوهای متوالی
کشف دنباله های زمانی مشابه
پارامترهای قوانین وابستگی
درجه پشتیبانی
کسری از جمعیت است که در یک قاعده ، هم مقدم و هم تالی را دارند
درجه اطمینان
در یک جمعیت مورد بررسی ، کسری از موارد است که وقتی مقدم قاعده در آنها ظاهر شده است ، تالی نیز در آنها وجود دارد
مدلها و الگوریتمهای داده کاوی
شبکه های عصبی
شبکه های عصبی به طور خاصی مورد استفاده اند چرا که آنها ابزاری موثر برای مدلسازی مسائل بزرگ و پیچیده که ممکن است در آنها صدها متغیر پیش بینی کننده که فعل و انفعالات زیادی دارند وجود داشته باشد
شبکه های عصبی می توانند در مسائل طبقه بندی یا حدسهای بازگشتی(که در آنها متغیر خروجی پیوسته است) استفاده شوند.
مدلها و الگوریتمهای داده کاوی
یک شبکه عصبی با یک لایه داخلی شروع می شود که در آن هر گره به یک متغیر پیشگو منسوب می گردد.
این گره های ورودی به یک تعداد از گره ها در لایه پنهان متصل می شوند.گره ها در لایه پنهان می توانند به گره هایی در یک لایه پنهان دیگر یا به یک لایه خروجی متصل شود.
لایه خروجی خود شامل یک یا بیشتر متغیرهای جواب می باشد.
مدلها و الگوریتمهای داده کاوی
درخت های انتخاب
درخت های انتخاب راهی برای نمایش یک سری از قوانین که به یک کلاس یا مقدار منجر می شود می باشند.
برای مثال شما ممکن است بخواهید درخواستهای وام را برحسب ریسک اعتبار خوب یا بد طبقه بندی کنید.
درخت های انتخاب
استنتاج قانون
استنتاج قانون روشی برای بدست آوردن یک سری از قوانین برای طبقه بندی موارد می باشد.
اگرچه درختهای تصمیم می توانند یک سری قوانین تولید کنند روشهای استنتاج قانون یک مجموعه از قوانین وابسته که ضرورتا درختی تشکیل نمی دهند را تولید می نماید.
چون استنتاج کننده قوانین لزوما انشعابی در هر سطح قرار نمی دهد و می تواند گام بعدی را تشخیص دهد گاهی اوقات می تواند الگوهای مختلف و بهتری را برای طبقه بندی بیابد.
برخلاف درختان قوانین تولیدی ممکن است تمام حالتهای ممکن را پوشش ندهند.
الگوریتمهای ژنتیک
الگوریتمهای ژنتیک برای یافت الگوها استفاده نمی شود بلکه بیشتر به منظور راهنمایی در مورد فرآیند یادگیری الگوریتمهای داده کاوی مانند شبکه های عصبی مورد استفاده قرار می گیرد.
الگوریتمهای ژنتیک به عنوان یک متد جهت انجام یک جستجوی هدایت شده برای مدلهای خوب در فضای حل مساله عمل می کند.
الگوریتمهای ژنتیک
این الگوریتمها, الگوریتمهای ژنتیک نامیده می شوند چون بطور بی قاعده ای الگوی تکامل زیستی که در آن اعضای یک نسل بر سر انتقال خصوصیات خود به نسل بعد رقابت می کنند تا نهایتا بهترین مدل یافت شود را دنبال می کنند.
اطلاعاتی که باید انتقال داده شود در قالب کروموزمها که شامل پارامترهایی برای ساختن مدل می باشد قرار می گیرد.
گامهای اصلی داده کاوی جهت کشف دانش
تعریف مساله
ساختن پایگاه داده مربوط به داده کاوی
جستجوی داده
آماده ساختن داده برای مدل سازی
ساختن مدل
ارزیابی مدل
ساخت مدل ونتایج
مراحل لازم برای ساخت یک پایگاه داده داده کاوی
جمع آوری داده ها
توضیح داده ها
انتخاب داده ها
تعیین کیفیت داده ها و پاک کردن آن
تثبیت و یکپارچگی
ساختن فوق داده (داده هایی که خود بیانگر توضیحی در مورد داده های موجود می باشند.)
بارکردن پایگاه داده مربوط به داده کاوی
نگهداری پایگاه داده مربوط به داده کاوی
آماده سازی داده برای مدل سازی
انتخاب متغیرها
انتخاب سطرها
ساختن متغیرهای جدید
تغییر شکل متغیرها
منابع و مراجع:
[1] Introduction to Data Mining and Knowledge Discovery By Two Crows Corporation
[2] Jeffery W. Seifert , Analyst in information science and Technology Policy, ‘ Data Mining : An Overview ‘ December 2004.
[3] David J. HAND , Data Mining: Statistics and More? , December 2002.
[4] Eamonn Keogh , Stefano Lonardi , Chotirat Ann Ratanamahatana , ‘Towards Parameter-Free Data Mining ‘ Semtember 2005.