تارا فایل

تحقیق داده کاوی و اکتشاف دانش




پایان نامه دوره کارشناسی کامپیوتر
گرایش نرم افزار

موضوع :
Data Mining

داده کاوی و اکتشاف دانش

استاد راهنما :

نام دانشجویان :

بی شک هر تحقیقی در جهت تکامل علم و دانش وآگاهی دانش پژوهان و دانشجویان مفید و مثمر ثمر است. اما نمی توان ادعا کرد که هرتحقیق به صورت صددرصد کامل باشد. لذا ما به عنوان گردآورندگان این تحقیق در اینجا اعلام می نماییم که اگر در این تحقیق کاستی دیده می شود ناشی از عدم آگاهی ما محققین است و اگر مزیتی دیده می شود ناشی از راهنمایی ها و مساعدت های صمیمانه استاد گرامیمان جناب آقای …………………… می باشد.
با تشکر

چکیده:
داده کاوی پل ارتباطی میان علم آمار ، علم کامپیوتر ، هوش مصنوعی ، الگوشناسی ، فراگیری ماشین و بازنمایی بصری داده می باشد. داده کاوی فرآیندی پیچیده جهت شناسایی الگوها و مدل های صحیح ، جدید و به صورت بالقوه مفید ، در حجم وسیعی از داده می باشد ، به طریقی که این الگو ها و مدلها برای انسانها قابل درک باشند.
داده کاوی به صورت یک محصول قابل خریداری نمی باشد ، بلکه یک رشته علمی و فرآیندی است که بایستی به صورت یک پروژه پیاده سازی شود.
داده ها اغلب حجیم می باشند و به تنهایی قابل استفاده نیستند ، بلکه دانش نهفته در داده ها قابل استفاده می باشد. بنابراین بهره گیری از قدرت فرآیند داده کاوی جهت شناسایی الگوها و مدلها و نیز ارتباط عناصر مختلف در پایگاه داده جهت کشف دانش نهفته در داده ها و نهایتا تبدیل داده به اطلاعات ، روز به روز ضروری تر می شود.
یکی از نمونه های بارز داده کاوی را می توان در فروشگاه های زنجیره ای مشاهده نمود ، که در آن سعی می شود ارتباط محصولات مختلف هنگام خرید مشتریان مشخص گردد. فروشگاه های زنجیره ای مشتاقند بدانند که چه محصولاتی با یکدیگر به فروش می روند .
به روشنی این مطلب قابل درک است که این نوع استفاده از داده کاوی می تواند فروشگاه ها را در برگزاری هوشمندانه فستیوال های فروش و نحوه ارائه اجناس به مشتریان یاری رساند.
نمونه دیگر استفاده از داده کاوی در زمینه فروش را می توان در یک شرکت بزرگ دوبلاژ و تکثیر و عرضه فیلم های سینمایی در آمریکای شمالی مشاهده نمود که در آن عملیات داده کاوی ، روابط مشتریان و هنرپیشه های سینمایی و نیز گروه های مختلف مشتریان بر اساس سبک فیلم ها ( ترسناک ، رمانتیک ، حادثه ای و …) مشخص گردید.
از دیگر زمینه های به کارگیری داده کاوی ، استفاده بیمارستانها و کارخانه های داروسازی جهت کشف الگوها و مدلهای ناشناخته تاثیر دارو ها بر بیماری های مختلف و نیز بیماران گروه های سنی مختلف را می توان نام برد.
استفاده از داده کاوی در زمینه های مالی و بانکداری به شناخت مشتریان پر خطر و سودجو بر اساس معیار هایی از جمله سن ، درآمد ، وضعیت سکونت ، تحصیلات ، شغل و غیره می انجامد.
کلمات کلیدی :
داده کاوی ، انبارداده ، کسب و کار هوشمند ، تحلیل دسته ای ، درخت های تصمیم گیری و قوا عد تصمیم گیری ، مجموعه های فازی و منطق فازی ، قواعد انجمنی ، شبکه عصبی مصنوعی و داده کاوی توزیع شده .

فهرست مطالب

عنوان
صفحه
فصل اول : مقدمه ای بر داده کاوی
7
1-1 مقدمه
8
1-2 داده کاوی چیست ؟
8
1- 3 مفاهیم پایه در داده کاوی
9
1- 4 تعریف داده کاوی
9
1- 5 تاریخچه داده کاوی
10
1- 6 برخی از کاربردهای داده کاوی در محیطهای واقعی عبارتند از :
10
1- 6- 1 خرده فروشی
10
1- 6- 2 بانکداری
10
1- 6- 3 بیمه
11
1- 6- 4 پزشکی
11
1- 7 مراحل فرایند کشف دانش از پایگاه داده ها
11
1- 8 عملیاتهای داده کاوی
12
1- 9 الگوریتمهای داده کاوی
14
1- 10 مدل فرآیند دو سویه
16
1- 11 ساختن یک پایگاه داده داده کاوی
17
1-12 نتیجه گیری
19
فصل دوم : داده کاوی درمدیریت ارتباط بامشتری
20
2- 1 چکیده
21
2- 2 مقدمه
21
2- 3 داده کاوی
21
2- 4 مدیریت ارتباط با مشتری
22
2- 5 چرخه زندگی مشتری
23
2- 6 نتیجه گیری
23
فصل سوم : کاربردهای داده کاوی در کتابخانه ها و موسسات دانشگاهی
25
3- 1 چکیده
26
3- 2 مقدمه
26
3- 3 پیشرفت در تکنولوژیهای داده پردازی
27
3- 4 عناصر داده کاوی
29
3- 5 فنون داده کاوی
29
3- 6 کاربردهای داده کاوی در کتابخانه ها و محیط های دانشگاهی
31
3- 7 مدیریت و خدمات کتابخانه
31
3- 8 مدیریت موسسات دانشگاهی
32
3- 9 تذکرات نهایی
34
فصل چهارم : کسب و کار هوشمند و داده کاوی
36
4- 1 مقدمه
37
4- 2 تکامل تاثیر گذاری داده ها
37
4- 3 از داده ها تا تصمیم گیریها
38
4- 4 مفهوم ذخیره داده ها
40
4- 5 تعریفی برای داده کاوی
41
4- 6 کاربردها و عملیات داده کاوی
42
4- 7 لزوم داده کاوی
43
4- 8 داده کاوی در مقابل پرس و جو ها در پایگاه های داده سنتی
44
4- 9 الگوریتم های انجمنی
46
4- 10 تکنیکهای مرتبط با داده کاوی
48
4- 11 ابزارهای داده کاوی
48
4- 12 درخت های تصمیم گیری
65
4- 13 داده کاوی – یک مدل و نمونه خلاصه
51
4- 14 نرم افزار Low end
55
4- 15 فرآیند داده کاوی
55
4- 16 نرمال سازی
60
4- 17 یادگیری داده ها
61
4- 18 درخت های تصمیم گیری و قواعد تصمیم گیری
65
4- 19 نتیجه گیری
65
فصل پنجم : تفاوت داده کاوی و آنالیز های آماری
66
5- 1 مقدمه
67
5- 2 روش آنالیز آماری
68
5- 3 روش داده کاوی
68
5- 4 فواید و نقش داده کاوی در فعالیت شرکتها
68
5- 5 مراحل اصلی داده کاوی
69
فصل ششم : داده کاوی توزیع شده
70
6- 1 مقدمه
71
6- 2 دلایل پیدایش داده کاوی توزیع شده
71
6- 3 تکنیکها و رویکردها در داده کاوی توزیع شده
72
6- 4 عاملها و داده کاوی توزیع شده
6- 5 داده کاوی و حریم خصوصی
72
6- 6 کاربرد های داده کاوی
72
6- 7 تکنیک های داده کاوی
73
6- 8 قوانین انجمنی
73
6- 9 تشخیص قوانین انجمنی به کمک الگوریتم apriori
73
6- 10 فرآیند استخراج قوانین وابستگی
74
Apriori Based DDM Algorithms 11- 6
74
Count Distribution 12- 6
75
Data Distribution 13- 6
75
فصل هفتم : نرمافزار داده کاوی Weka
76
7-1 مقدمه
77
7-2 روش استفاده از Weka
78
3-7 قابلیتهای Weka
80
4-7دریافت Weka
80
5-7 مروری بر Explorer
80
فصل هشتم : نتیجه گیری و ارائه پیشنهادات
89

فصل اول

مقدمه ای بر داده کاوی

مقدمه ای بر داده کاوی
1- 1 مقدمه :
امروزه با گسترش سیستم های پایگاهی و حجم بالای داده ها ی ذخیره شده در این سیستم ها ، نیاز به ابزاری است تا بتوان داده های ذخیره شده را پردازش کرد واطلاعات حاصل از این پردازش را در اختیار کاربران قرار داد . [1]
با استفاده ار پرسش های ساده در SQL و ابزارهای گوناگون گزارش گیری معمولی ، می توان اطلاعاتی را در اختیار کاربران قرار داد تا بتوانند به نتیجه گیری در مورد داده ها و روابط منطقی میان آنها بپردازند اما وقتی که حجم داده ها بالا باشد ، کاربران هر چند زبر دست و با تجربه باشند نمی توانند الگوهای مفید را در میان حجم انبوه داده ها تشخیص دهند و یا اگر قادر به این کار هم با شند ، هزینه عملیات از نظر نیروی انسانی و مادی بسیار بالا است [1] .
از سوی دیگر کاربران معمولا فرضیه ای را مطرح می کنند و سپس بر اساس گزارشات مشاهده شده به اثبات یا رد فرضیه می پردازند ، در حالی که امروزه نیاز به روشهایی است که اصطلاحا به کشف دانش بپردازند یعنی با کمترین دخالت کاربر و به صورت خودکار الگوها و رابطه های منطقی را بیان نمایند [2] .
داده کاوی یکی از مهمترین این روشها است که به وسیله آن الگوهای مفید در داده ها با حداقل دخالت کاربران شناخته می شوند و اطلاعاتی را در اختیار کاربران و تحلیل گران قرار می دهند تا براساس آنها تصمیمات مهم و حیاتی در سازمانها اتخاذ شوند [1] .
در داده کاوی از بخشی از علم آمار به نام تحلیل اکتشافی داده ها استفاده می شود که در آن بر کشف اطلاعات نهفته و ناشناخته از درون حجم انبوه داده ها تاکید می شود . علاوه بر این داده کاوی با هوش مصنوعی و یادگیری ماشین نیز ارتباط تنگاتنگی دارد ، بنابراین می توان گفت در داده کاوی تئوریهای پایگاه داده ها ، هوش مصنوعی ، یادگیری ماشین و علم آمار را در هم می آمیزند تا زمینه کاربردی فراهم شود [2] .
باید توجه داشت که اصطلاح داده کاوی زمانی به کار برده می شود که با حجم بزرگی از داده ها ، در حد مگا یا ترابایت ، مواجه باشیم . در تمامی منابع داده کاوی بر این مطلب تاکید شده است .
هر چه حجم داده ها بیشتر و روابط میان آنها پیچیده تر باشد دسترسی به اطلاعات نهفته در میان داده ها مشکلتر می شود و نقش داده کاوی به عنوان یکی از روشهای کشف دانش ، روشن تر می گردد [3] .
1- 2 داده کاوی چیست ؟
داده کاوی یا کشف دانش در پایگاه داده ها علم نسبتا تازه ای است که با توجه به پیشرفت کشور در زمینه IT و نگاه های ویژه به دولت الکترونیک و نفوذ استفاده از سیستم های رایانه ای در صنعت و ایجاد بانک های اطلاعاتی بزرگ توسط ادارات دولتی ، بانک ها و بخش خصوصی نیاز به استفاده از آن به طور عمیقی احساس می شود . داده کاوی یعنی کشف دانش و اطلاعات معتبر پنهان در پایگاه های داده. یا به بیان بهتر تجزیه و تحلیل ماشینی داده ها برای پیدا کردن الگوهای مفید و تازه و قابل استناد در پایگاه داده های بزرگ ، داده کاوی نامیده می شود. داده کاوی در پایگاه های داده کوچک نیز بسیار پرکاربرد است و از نتایج و الگوهای تولید شده بوسیله آن در تصمیم گیری های استراتژیک تجاری شرکتهای کوچک نیز می توان بهره های فراوان برد.کاربرد داده کاوی در یک جمله را این گونه می توان بیان کرد : "داده کاوی اطلاعاتی می دهد ، که شما برای گرفتن تصمیم هوشمندانه ای درباره مشکلات سخت شغلتان به آنها نیاز دارید".
داده کاوی پل ارتباطی میان علم آمار، علم کامپیوتر، هوش مصنوعی ، الگوشناسی ، فراگیری ماشین و بازنمایی بصری داده می باشد. داده کاوی فرآیندی پیچیده جهت شناسایی الگوها و مدلهای صحیح ، جدید و به صورت بالقوه مفید ، در حجم وسیعی از داده می باشد، به طریقی که این الگو ها و مدلها برای انسانها قابل درک باشند. داده کاوی به صورت یک محصول قابل خریداری نمی باشد، بلکه یک رشته علمی و فرآیندی است که بایستی به صورت یک پروژه پیاده سازی شود[2] .
داده ها اغلب حجیم می باشند و به تنهایی قابل استفاده نیستند ، بلکه دانش نهفته در داده ها قابل استفاده می باشد . بنابراین بهره گیری از قدرت فرآیند
داده کاوی جهت شناسایی الگوها و مدلها و نیز ارتباط عناصر مختلف در پایگاه داده جهت کشف دانش نهفته در داده ها و نهایتا تبدیل داده به اطلاعات ، روز به روز ضروریتر می شود.
داده کاوی از دیدگاه های مختلف :
داده کاوی استخراج اطلاعات مفهومی ، ناشناخته و به صورت بالقوه مفید از پایگاه داده می باشد
داده کاوی علم استخراج اطلاعات مفید از پایگاه های داده یا مجموعه داده ای می باشد
داده کاوی استخراج نیمه اتوماتیک الگوها ، تغییرات ، وابستگی ها ، نابهنجاری ها و دیگر ساختارهای معنی دار آماری از پایگاه های بزرگ داده می باشد[1] .
1- 3 مفاهیم پایه در داده کاوی :
در داده کاوی معمولا به کشف الگوهای مفید از میان داده ها اشاره می شود . منظور از الگوی مفید ، مدلی در داده ها است که ارتباط میان یک زیر مجموعه از داده ها را توصیف می کند و معتبر ، ساده ، قابل فهم و جدید است .
1- 4 تعریف داده کاوی :
در متون آکادمیک تعاریف گوناگونی برای داده کاوی ارائه شده است . در برخی از این تعاریف داده کاوی در حد ابزاری که کاربران را قادر به ارتباط مستقیم با حجم عظیم داده ها می سازد معرفی گردیده است و در برخی دیگر ، تعاریف دقیقتر که درآنها به کاوش در داده ها توجه می شود موجود است . برخی از این تعاریف عبارتند از :
* داده کاوی عبارت است از فرایند استخراج اطلاعات معتبر ، از پیش ناشناخته ، قابل فهم و قابل اعتماد از پایگاه داده های بزرگ و استفاده از آن در تصمیم گیری در فعالیت های تجاری مهم[3] .
* اصطلاح داده کاوی به فرایند نیم خودکار تجزیه و تحلیل پایگاه داده های بزرگ به منظور یافتن الگوهای مفید اطلاق می شود
* داده کاوی یعنی جستجو در یک پایگاه داده ها برای یافتن الگوهایی میان داده ها [] .
* داده کاوی یعنی استخراج دانش کلان ، قابل استناد و جدید از پایگاه داده ها ی بزرگ [4] .
* داده کاوی یعنی تجزیه و تحلیل مجموعه داده های قابل مشاهده برای یافتن روابط مطمئن بین داده ها [5] .
همانگونه که در تعاریف گوناگون داده کاوی مشاهده می شود ، تقریبا در تمامی تعاریف به مفاهیمی چون استخراج دانش ، تحلیل و یافتن الگوی بین داده ها اشاره شده است .
1- 5 تاریخچه داده کاوی :
اخیرا داده کاوی موضوع بسیاری از مقالات ، کنفرانس ها و رساله ها ی عملی شده است ، اما این واژه تا اوایل دهه نود مفهومی نداشت وبه کار برده نمی شد .
در دهه شصت و پیش از آن زمینه هایی برای ایجاد سیستم ها ی جمع آوری و مدیریت داده ها ایجاد شد و تحقیقاتی در این زمینه انجام پذیرفت که منجر به معرفی و ایجاد سیستم های مدیریت پایگاه داده ها گردید
ایجاد و توسعه مدلهای داده ای برای پایگاه سلسله مراتبی ، شبکه ای و بخصوص رابطه ای در دهه هفتاد ، منجر به معرفی مفاهیمی همچون شاخص گذاری و سازماندهی داده ها و در نهایت ایجاد زبان پرسش SQL در اوایل دهه هشتاد گردید تا کاربران بتوانند گزارشات و فرمهای اطلاعاتی مورد نظر خود را ، از این طریق ایجاد نمایند [3] .
توسعه سیستم های پایگاهی پیشرفته در دهه هشتاد و ایجاد پایگاه های شی گرا ، کاربرد گرا و فعال باعث توسعه همه جانبه و کاربردی شدن این سیستم ها در سراسر جهان گردید . بدین ترتیب DBMS هایی همچون DB2 ، Oracle ، Sybase ، … ایجاد شدند و حجم زیادی از اطلاعات با استفاده از این سیستم ها مورد پردازش قرار گرفتند . شاید بتوان مهمترین جنبه در معرفی داده کاوی را مبحث کشف دانش از پایگاه داده ها دانست بطوری که در بسیاری موارد DM و KDD بصورت مترادف مورد استفاده قرار می گیرند .
برای اولین بار مفهوم داده کاوی در کارگاه IJCAI در زمینه KDD توسط Shapir مطرح گردید . به دنبال آن در سالهای 1991 تا 1994 ، کارگاههای KDD مفاهیم جدیدی را در این شاخه از علم ارائه کردند بطوری که بسیاری از علوم و مفاهیم با آن مرتبط گردیدند[4] .
1- 6 برخی از کاربردهای داده کاوی در محیطهای واقعی عبارتند از :
1- 6- 1 خرده فروشی : از کاربردهای کلاسیک داده کاوی است که می توان به موارد زیر اشاره کرد :
* تعیین الگوهای خرید مشتریان
* تجزیه و تحلیل سبد خرید بازار
* پیشگویی میزان خرید مشتریان از طریق پست ( فروش الکترونیکی )
1- 6- 2 بانکداری :
* پیش بینی الگوهای کلاهبرداری از طریق کارتهای اعتباری
* تشخیص مشتریان ثابت
* تعیین میزان استفاده از کارتهای اعتباری بر اساس گروههای اجتماعی
1- 6- 3 بیمه :
* تجزیه و تحلیل دعاوی
* پیشگویی میزان خرید بیمه نامه های جدید توسط مشتریان
1- 6- 4 پزشکی :
* تعیین نوع رفتار با بیماران و پیشگویی میزان موفقیت اعمال جراحی
* تعیین میزان موفقیت روشهای درمانی در برخورد با بیماریهای سخت
1- 7 مراحل فرایند کشف دانش از پایگاه داده ها :
فرایند کشف دانش از پایگاه داده ها شامل پنج مرحله است که عبارتند از :
1. انبارش داده ها
2. انتخاب داده ها
3. تبدیل داده ها
4. کاوش در داده ها
5. تفسیر نتیجه
همانگونه که مشاهده می شود داده کاوی یکی از مراحل این فرایند است که به عنوان بخش چهارم آن نقش مهمی در کشف دانش از داده ها ایفا می کند .انبارش داده ها
وجود اطلاعات صحیح و منسجم یکی از ملزوماتی است که در داده کاوی به آن نیازمندیم . اشتباه و عدم وجود اطلاعات صحیح باعث نتیجه گیری غلط و در نتیجه اخذ تصمیمات ناصحیح در سازمانها می گردد و منتج به نتایج خطرناکی خواهد گردید که نمونه های آن کم نیستند .
اکثر سازمانها دچار یک خلا اطلاعاتی هستند . در اینگونه سازمانها معمولا سیستم های اطلاعاتی در طول زمان و با معماری و مدیریت های گوناگون ساخته شده اند ، به طوری که سازمان اطلاعاتی یکپارچه و مشخصی مشاهده نمی گردد . علاوه بر این برای فرایند داده کاوی به اطلاعات خلاصه و مهم در زمینه تصمیم گیریهای حیاتی نیازمندیم [2] .
هدف از فرایند انبارش داده ها فراهم کردن یک محیط یکپارچه جهت پردازش اطلاعات است . در این فرایند ، اطلاعات تحلیلی و موجز در دوره های مناسب زمانی سازماندهی و ذخیره می شود تا بتوان از آنها در فرایند های تصمیم گیری که از ملزومات آن داده کاوی است ، استفاده شود . به طور کلی تعریف زیر برای انبار داده ها ارائه می گردد :
انبار داده ها ، مجموعه ای است موضوعی ، مجتمع ، متغیر در زمان و پایدار از داده ها که به منظور پشتیبانی از فرایند مدیریت تصمیم گیری مورد استفاده قرار می گیرد .
انبارش داده ها خود موضوع مفصلی است که مقاله ها و رساله ها ی گوناگونی در مورد آن نگاشته شده اند . در این فصل به منظور آشنایی با این فرایند به آن اشاره ای شد .
* انتخاب داده ها
انبار داده ها شامل انواع مختلف و گوناگونی از داده ها است که همه آنها در داده کاوی مورد نیاز نیستند . برای فرایند داده کاوی باید داده ها ی مورد نیاز انتخاب شوند . به عنوان مثال در یک پایگاه داده های مربوط به سیستم فروشگاهی ، اطلاعاتی در مورد خرید مشتریان ، خصوصیات آماری آنها ، تامین کنندگان ، خرید ، حسابداری و … وجود دارند . برای تعیین نحوه چیدن قفسه ها تنها به داده ها یی در مورد خرید مشتریان و خصوصیات آماری آنها نیاز است . حتی در مواردی نیاز به کاوش در تمام محتویات پایگاه نیست بلکه ممکن است به منظور کاهش هزینه عملیات ، نمونه هایی از عناصر انتخاب و کاوش شوند [2] .
* تبدیل داده ها
هنگامی که داده های مورد نیاز انتخاب شدند و داده ها ی مورد کاوش مشخص گردیدند ، معمولا به تبدیلات خاصی روی داده ها نیاز است . نوع تبدیل به عملیات و تکنیک داده کاوی مورد استفاده بستگی دارد : تبدیلاتی ساده همچون تبدیل نوع داده ای به نوع دیگر تا تبدیلات پیچیده تر همچون تعریف صفات جدید با انجام عملیاتهای ریاضی و منطقی روی صفات موجود .
* کاوش در داده ها
داده های تبدیل شده با استفاده از تکنیکها و عملیاتهای داده کاوی مورد کاوش قرار می گیرند تا الگوهای مورد نظر کشف شوند .
* تفسیر نتیجه
اطلاعات استخراج شده با توجه به هدف کاربر تجزیه و تحلیل و بهترین نتایج معین می گردند . هدف از این مرحله تنها ارائه نتیجه ( بصورت منطقی و یا نموداری ) نیست ، بلکه پالایش اطلاعات ارایه شده به کاربر نیز از اهداف مهم این مرحله است [3] .
1- 8 عملیاتهای داده کاوی :
در داده کاوی ، چهار عمل اصلی انجام می شود که عبارتند از :
1. مدلسازی پیشگویی کننده
2. تقطیع پایگاه داده ها
3. تحلیل پیوند
4. تشخیص انحراف
از عملیاتهای اصلی مذکور ، یک یا بیش از یکی از آنها در پیاده سازی کاربرد های گوناگون داده کاوی استفاده می شوند . به عنوان مثال برای کاربرد های خرده فروشی معمولا از عملیات تقطیع و تحلیل پیوند استفاده می شود در حالی که برای تشخیص کلاهبرداری ، می توان از هر یک از چهار عملیات مذکور استفاده نمود . علاوه برا ین می توان از دنباله ای از عملیاتها برای یک منظور خاص استفاده کرد . مثلا برای شناسایی مشتریان ، ابتدا پایگاه تقطیع می شود و سپس مدلسازی پیشگویی کننده در قطعات ایجاد شده اعمال می گردد [4] .
تکنیکها ، روشها و الگوریتمهای داده کاوی ، راههای پیاده سازی عملیاتهای داده کاوی هستند . اگر چه هر عملیات نقاط ضعف و قوت خود را دارد ، ابزارهای گوناگون داده کاوی عملیاتها را بر اساس معیارهای خاصی ، انتخاب می کنند . این معیارها عبارتند از :
* تناسب با نوع داده های ورودی
* شفافیت خروجی داده کاوی
* مقاومت در مقابل اشتباه در مقادیر داده ها
* میزان صحت خروجی
* توانایی کار کردن با حجم بالای داده ها
مدلسازی پیشگویی کننده :
مدلسازی پیشگویی کننده ، شبیه تجربه یادگیری انسان در به کار بردن مشاهدات برای ایجاد یک مدل از خصوصیات مهم پدیده ها است . در این روش از تعمیم دنیای واقعی و قابلیت تطبیق داده های جدید با یک قالب کلی ، استفاده می شود [3] .
در این مدل ، می توان با تحلیل یک پایگاه داده های موجود ، خصوصیات مجموعه های داده را تعیین کرد . این مدل با استفاده از روش یادگیری نظارت شده، شامل دو فاز آموزش و آزمایش ایجاد شده است . در فاز آموزش با استفاده از نمونه های عظیمی از داده های سابقه ای ، مدلی ساخته می شود که به آن مجموعه آموزشی می گویند . در فاز آزمایش این مدل روی داده هایی که در مجموعه آموزشی قرار ندارند ، اعمال می شود تا صحت و خصو صیات آن تایید گردد [4] .
از کاربردهای عمده این مدل می توان به مدیریت مشتریان ، تصویب اعتبار ، بازاریابی مستقیم در خرده فروشی و … اشاره کرد .
تقطیع پایگاه داده ها
هدف از تقطیع پایگاه داده ها ، تقسیم آن به تعداد نامعینی از قطعات یا خوشه هایی از رکوردهای مشابه است ، یعنی رکوردهایی که خصوصیاتی مشابه دارند و می توان آنها را همگن فرض کرد . پیوستگی داخلی این قطعات بسیار زیاد است در حالی که همبستگی خارجی میان آنها کم می باشد [2] .
در این مدل بر خلاف مدل قبل ، از یادگیری نظارت نشده برای تعیین زیرشاخه های ممکن از جمعیت داده ای استفاده می شود . دقت تقطیع پایگاه داده ها از روشهای دیگر کمتر است ، بنابراین در مقابل خصوصیات نامربوط و افزونگی ، حساسیت کمتری از خود نشان می دهد .
از کاربردهای این روش می توان به شناسایی مشتریان ، بازاریابی مستقیم و … اشاره کرد .
تحلیل پیوند
در این روش پیوند هایی مرسوم به بستگی میان رکوردها و یا مجموعه ای از رکوردها بازشناسی می شوند . سه رده ویژه از تحلیل پیوند وجود دارند که عبارتند از :
1. کشف بستگی
2. کشف الگوهای متوالی
3. کشف دنباله های زمانی مشابه
تشخیص انحراف
داده کاوی فرآیندی است که طی آن با استفاده از انواع مختلف ابزار تحلیل داده به دنبال کشف الگوها و ارتباطات میان داده های موجود که ممکن است منجر به استخراج اطلاعات جدیدی از پایگاه داده گردند می باشد.
اولین وساده ترین گام تحلیل داده در داده کاوی توضیح و شرح مشخص داده ( از جمله معنی داده وانحراف استاندارد کلمه) می باشد که این کار می تواند به وسیله نمودارها و گراف ها وهمچنین کلماتی که با این کلمه ارتباط معنایی نزدیکی دارند انجام گردد در نتیجه جمع آوری ، جستجو و انتخاب داده درست در این بخش بسیار مهم و حیاتی می باشد[5] .
اما این کار به تنهایی کار خاصی انجام نمی دهد شما باید یک مدل پیش بینی کننده بر اساس الگوهایی که از نتایج دانش به دست آورده شده بسازید سپس آزمایش کنید که آیا آن مدل با نمونه اصلی سازگار است. یک مدل خوب نباید با جهان واقع تفاوت چندانی داشته باشد
آخرین گام نیز تشخیص صحت وسقم عملکرد مدل بصورت تجربی می باشد. برای مثال از یک بانک مربوط به مشتریان وپاسخ هایی که به یک پیشنهاد خاص داده اند یک مدل می سازید که بر اساس آن مشخص می شود که کدام حدس وانتظار بیشترین نزدیکی را با یک پیشنهاد مانند پیشنهاد قبلی دارد و اینکه آیا شما می توانید بر این حدس اعتماد کنید یا نه؟
1- 9 الگوریتمهای داده کاوی :
حال بیایید برخی از الگوریتمها و مدلهایی را که برای کاوش داده استفاده می شود را بررسی کنیم. اغلب محصولات از انواع گوناگونی از الگوریتمها که در علم کامپیوتر یا مقالات آماری ارائه شده به همراه پیاده سازی خاص آنها که جهت رسیدن به هدف فروشنده می باشد استفاده می نمایند. برای مثال بسیاری از فروشندگان نسخه هایی از درختهای تصمیم CART یا CHAID را به همراه امکاناتی برای کار بر روی کامپیوترهای موازی می فروشند. برخی از فروشندگان الگوریتمهای مختص خود دارند که گرچه ممکن است وابستگی ها یا امکانات اضافی نداشته باشد اما می تواند خوب کار کند[3] .
شاید مهمترین نکنه ای باشد که هیچ مدل یا الگوریتمی نمی تواند و نباید به تنهایی استفاده شود. برای هر مساله داده شده طبیعت داده استفاده شده بر روی انتخاب مدلها و الگوریتمهایی که شما بر می گزینید تاثیر خواهد گذاشت. نمی توان هیچ مدل یا الگوریتمی را در این زمینه بهترین نامید. نتیجتا شما به یک سری ابزار و تکنولوژی جهت یافتن بهترین مدل ممکنه نیاز خواهید داشت.
شبکه های عصبی
شبکه های عصبی به طور خاصی مورد استفاده اند چرا که آنها ابزاری موثر برای مدلسازی مسائل بزرگ و پیچیده که ممکن است در آنها صدها متغیر پیش بینی کننده که فعل و انفعالات زیادی دارند وجود داشته باشد. ( شبکه های عصبی زیستی بطور غیر قابل مقایسه ای پیچیده تر هستند.) شبکه های عصبی می توانند در مسائل طبقه بندی یا حدسهای بازگشتی ( که در آنها متغیر خروجی پیوسته است ) استفاده شوند[2] .
یک شبکه عصبی با یک لایه داخلی شروع می شود که در آن هر گره به یک متغیر پیشگو منسوب می گردد. این گره های ورودی به یک تعداد از گره ها در لایه پنهان متصل می شوند.گره ها در لایه پنهان می توانند به گره هایی در یک لایه پنهان دیگر یا به یک لایه خروجی متصل شود. لایه خروجی خود شامل یک یا بیشتر متغیرهای جواب می باشد.

شکل 1- 1 : یک شبکه عصبی با یک لایه پنهان

درخت های انتخاب
درخت های انتخاب راهی برای نمایش یک سری از قوانین که به یک کلاس یا مقدار منجر می شود می باشند. برای مثال شما ممکن است بخواهید درخواستهای وام را برحسب ریسک اعتبار خوب یا بد طبقه بندی کنید. شکل بعد یک مدل ساده از یک درخت انتخاب به همراه توضیح در مورد تمام بسته های پایه آن یعنی گره انتخاب ، شاخه ها و برگهای آن که این مساله را حل می کند نشان می دهد[2] .

شکل 1- 2 : درخت انتخاب

اولین بسته گره بالایی تصمیم یا ریشه می باشد که یک بررسی جهت برقراری شرط خاصی می نماید. گره ریشه در این مثال "Income>$40، 000" می باشد. نتایج این بررسی منجر می شود که درخت به دوشاخه تقسیم گرددکه هر یک نشان دهنده جوابهای ممکن است.در این مورد بررسی شرط مذکور می تواند دارای جواب خیر یا بله باشد در نتیجه دو شاخه داریم.
براساس نوع الگوریتم هر گره می تواند دو یا تعداد بیشتری شاخه داشته باشد. برای مثال CART درختهایی با تنها دوشاخه در هر گره تولید می کند.چنین درختی یک درخت دودویی می باشد[1] .
مدلهای مختلف درخت تصمیم بطور عمومی در داده کاوی برای کاوش داده و برای استنتاج درخت و قوانین آن که برای پیش بینی مورد استفاده قرار می گیرد استفاده می شوند. یک تعداد از الگوریتمهای مختلف می توانند برای ساخت درختهای تصمیم شامل CHAID ، CART، Quest و C5.0 بکار روند.
اندازه درخت می تواند از طریق قوانین متوقف شونده که رشد درخت را محدود می کنند کنترل شود.
استنتاج قانون
استنتاج قانون روشی برای بدست آوردن یک سری از قوانین برای طبقه بندی موارد می باشد. اگرچه درختهای تصمیم می توانند یک سری قوانین تولید کنند روشهای استنتاج قانون یک مجموعه از قوانین وابسته که ضرورتا درختی تشکیل نمی دهند را تولید می نماید. چون استنتاج کننده قوانین لزوما انشعابی در هر سطح قرار نمی دهد و می تواند گام بعدی را تشخیص دهد گاهی اوقات می تواند الگوهای مختلف و بهتری را برای طبقه بندی بیابد. برخلاف درختان قوانین تولیدی ممکن است تمام حالتهای ممکن را پوشش ندهند[2] .
الگوریتمهای ژنتیک
الگوریتمهای ژنتیک برای یافت الگوها استفاده نمی شود بلکه بیشتر به منظور راهنمایی در مورد فرآیند یادگیری الگوریتمهای داده کاوی مانند شبکه های عصبی مورد استفاده قرار می گیرد. الگوریتمهای ژنتیک به عنوان یک متد جهت انجام یک جستجوی هدایت شده برای مدلهای خوب در فضای حل مساله عمل می کند.
این الگوریتمها ، الگوریتمهای ژنتیک نامیده می شوند چون بطور بی قاعده ای الگوی تکامل زیستی که در آن اعضای یک نسل بر سر انتقال خصوصیات خود به نسل بعد رقابت می کنند تا نهایتا بهترین مدل یافت شود را دنبال می کنند. اطلاعاتی که باید انتقال داده شود در قالب کروموزمها که شامل پارامترهایی برای ساختن مدل می باشد قرار می گیرد[3] .
1- 10 مدل فرآیند دو سویه :
مدل فرآیند دو سویه که در زیر توضیح داده شده است برخی از موارد پیش بینی را از مدل CRISP-DM به ارث می برد.
گامهای اصلی داده کاوی جهت کشف دانش عبارتند از :
1. تعریف مساله
2. ساختن پایگاه داده مربوط به داده کاوی
3. جستجوی داده
4. آماده ساختن داده برای مدل سازی
5. ساختن مدل
6. ارزیابی مدل
7. ساخت مدل ونتایج
به سراغ این گامها می رویم تا فرآیند کشف دانش را بهتر متوجه شویم.
1- تعریف مساله
در ابتدای امر پیش زمینه کشف دانش فهم درست داده و مساله می باشد. بدون این فهم درست هیچ الگوریتمی صرف نظر از خبره بودن آن نمی تواند نتیجه مطمئنی برای شما حاصل نماید و همچنین شما قادر نخواهید بود که مسائلی را که سعی در حل آن دارید تعریف کرده و همچنین داده را جهت کاوش آماده نموده و یا نتایج را به طور صحیح تفسیر نمائید. برای استفاده بهتر از داده کاوی شما باید یک بیان واضح از هدف خود داشته باشید[2] .
1- 11 ساختن یک پایگاه داده داده کاوی :
این گام به همراه دو گام بعدی هسته آماده سازی داده را تشکیل می دهند. در مجموع گامهای گفته شده وقت و کار بیشتری از سایر گامها می برند. ممکن است شما گامهای تکراری در آماده سازی داده و ساختن مدل داشته باشید چرا که در هر مرحله ممکن است به نکته ای برسید که شما را بر آن دارد داده خود را بهبود بخشید. این گامهای آماده سازی داده می تواند 50% تا 90% وقت و کار از تمام فرآیند کشف دانش را به خود اختصاص دهد[3] .
داده ای که می خواهد کاوش شود باید در یک پایگاه داده ذخیره شود. بر اساس مقدار داده ، پیچیدگی داده و استفاده هایی که قرار است از آن شود یک فایل معمولی و یا یک SpreadSheet برای این کار کافی است.
به احتمال زیاد شما می خواهید داده موجود در انباره داده را تغییر دهید. به علاوه شما ممکن است بخواهید فیلدهای جدیدی که از فیلدهای موجود محاسبه شده است را به انبار داده خود بیافزایید.این یکی از دلایل استفاده از یک پایگاه داده جداگانه است[5] .
دلیل دیگر برای این کار آن است که انبار داده های یکی شده ممکن است به آسانی انواع جستجوهایی را که شما برای فهم داده به آنها نیاز دارید انجام ندهد. مانند پرس و جوهایی که داده را خلاصه می کند ، گزارشات چند بعدی و بسیاری از انواع دیگر از گرافها یا مصورات.
و دلیل آخر اینکه شما ممکن است بخواهید این داده را در یک سیستم مدیریت پایگاه داده به همراه یک طراحی فیزیکی متفاوت از انبار داده خود ذخیره کنید. مردم به طور روز افزونی در حال انتخاب پایگاه داده های خاص منظوره ای هستند که این نیازهای داده کاوی را به نحو مناسبی حمایت کند. به هرحال اگر داده موجود در انبار داده شما اجازه می دهد که مراکز منطقی داده ای ایجادکنید و اگر شما می توانید تقاضای داده کاوی را ارضا نمایید پایگاه داده شما به خوبی وظیفه خود را انجام می دهد[3] .
مراحل لازم برای ساخت یک پایگاه داده داده کاوی به شکل زیر می باشد :
1. جمع آوری داده ها
2. توضیح داده ها
3. انتخاب داده ها
4. تعیین کیفیت داده ها و پاک کردن آن
5. تثبیت و یکپارچگی
6. ساختن فوق داده ( داده هایی که خود بیانگر توضیحی در مورد داده های موجود می باشند.)
7. بارکردن پایگاه داده مربوط به داده کاوی
8. نگهداری پایگاه داده مربوط به داده کاوی
این کارها ممکن است لزوما به همین ترتیب گفته شده انجام نگردند.
جستجوی داده
به بخش توضیح داده برای داده کاوی که توضیح مختصری راجع به اشکال ، تجزیه و تحلیل ارتباط و دیگر وسایل جستجوی داده می باشد نگاهی بیاندازید.
هدف شناسایی مهمترین فیلدها در پیش بینی نتیجه و تعیین اینکه کدام یک از داده های بدست آمده مفید می باشد است.
در یک مجموعه داده ای با صدها یا حتی هزاران ستون جستجوی داده می تواند کار و زمان بر باشد. یک واسط مناسب و جواب کامپیوتر سریع در این فاز مهم و حیاتی می باشند زیرا هنگامی که شما برای دریافت پاسخ برخی گراف ها مجبور باشید 20 دقیقه صبر کنید ماهیت جستجوی شما به کلی تغییر خواهد کرد.
آماده سازی داده برای مدل سازی
این آخرین گام آماده سازی داده قبل از ساخت مدلهاست. چهار قسمت مهم در این مرحله وجود دارد :
1. انتخاب متغیرها
2. انتخاب سطرها
3. ساختن متغیرهای جدید
4. تغییر شکل متغیرها
ساختن مدل داده کاوی
مهمترین مساله برای یادآوری در مورد ساخت مدل آن است که این کار یک فرآیند تکراری است. شما برای جستجو به مدلهای جایگزین جهت یافتن سودمندترین آنها جهت حل مسائلتان نیاز دارید. آنچه که شما در جستجوی یک مدل مناسب یاد می گیرید می تواند شما را به بازگشتن به عقب و انجام برخی تغییرات در داده مورد استفاده خود و حتی بهبود بیان ساله راهنمایی کند.
هنگامی که شما در مورد نوع پیش بینی که می خواهید انجام دهید تصمیم گرفتید باید یک نوع مدل برای ساخت تصمیم خود انتخاب کنید.
آماده سازی و آزمایش مدل داده کاوی احتیاج به این دارد که داده به حداقل دو گروه شکسته شود: یکی برای آماده کردن مدل و دیگری جهت تست مدل مربوطه. اگر شما از آماده سازی و تست متفاوتی استفاده ننمائید دقت مدل خواهد بود[6] .
تائید اعتبارساده
پایه ای ترین روش تست داده تایید اعتبار ساده می باشد. برای انجام این کار چون درصدی از پایگاه داده را به عنوان یک تست پایگاه داده کنار بگذارید و به هر صورت از آن در برآورد و ساخت مدل استفاده ننمائید. این درصد معمولا بین 5 تا 33 می باشد.
بعد از ساخت یک مدل شما باید نتایج آن را ارزیابی نموده و همچنین اهمیت آن را نیز توضیح دهید[2] .
ایجاد معماری مدل و نتایج
هنگامی که یک مدل ساخته و تایید اعتبار می شود می تواند در دو راه اصلی مورد استفاده قرار گیرد. راه اول برای تحلیل گر است که اعمالی را بر اساس دید ساده از مدل و نتایج آن معرفی می کند. راه دوم بکاربردن مدلها در مجموعه داده ای مختلف است. این مدل می تواند برای مشخص نمودن رکوردها بر اساس گروه بندیشان و یا مقدار دهی یک امتیاز مثلا احتمال انجام یک عمل استفاده گردد.
هنگام به دست آوردن یک کاربرد پیچیده داده کاوی اغلب اگر چه بخش بحرانی اما کوچک پروژه نهایی به حساب می آید. برای مثال دانشی که از داده کاوی کشف می شود می تواند با دانش متخصصان داده و تراکنشهای ورودی ترکیب شود. در یک سیستم تشخیص فرآیند الگوهای موجود فرآیند می توانند با الگوهای کشف شده تلفیق شوند. هنگامی که موارد مفروض این فرآیند برای ارزیابی به بررسی کنندگان فرستاده می شوند بررسی کنندگان ممکن است نیاز داشته باشند که به رکوردهایی در پایگاه داده که مربوط به قسمتهای ادعا شده توسط یک سازنده است دسترسی پیدا کنند.
به طور کلی مراحلی که توضیح داده شد برای انجام هر فرآیند داده کاوی لازم به نظر می رسد[3] .

فصل دوم

داده کاوی درمدیریت ارتباط بامشتری

داده کاوی درمدیریت ارتباط بامشتری
2- 1 چکیده :
شرکتهای امروزی از طریق تجزیه و تحلیل چرخه زندگی مشتری به افزایش ارزش مشتری دست یافته اند. ابزارها و فناوریهای انبار داده ، داده کاوی و دیگر تکنیک های مدیریت ارتباط با مشتری ، روشهایی هستند که فرصتهای جدیدی را برای تجارت فراهم کرده اند.
در واقع دیدگاه محصول محوری جای خود را به مشتری محوری داده است. بنابراین، با جمع آوری داده های مربوط به مشتری و تصمیم گیری براساس الگوهای استخراج شده از روابط پنهان میان داده ها به وسیله ابزار داده کاوی ، می توان به خواسته مشتری محوری خود جامه عمل پوشاند. این مقاله مفاهیمی از مدیریت ارتباط با مشتری و یکی از عناصر آن – داده کاوی – را مورد بررسی قرار می دهد[1] .
2- 2 مقدمه :
در سالهای اخیر فرهنگ تجارت به پیشرفتهایی نایل گشته است. مطابق با آن روابط اقتصادی مشتریان به شیوه های بنیادی و اساسی در حال تغییر است. شرکتها به منظور نظارت بر اینگـــــونه تغییرات نیازمند ارایه راه حلها هستند. ظهور و پیدایش اینترنت در تغییر جهت مرکز توجه بازاریابی نقش بسزایی داشته است. چنانچـــــه اطلاعات بر خط بیشتر در دسترس قرار گیرد موجب آگاهی و هوشیاری بیشتر مشتریان می گردد. آنها در جریان تمام آنچه ارایـــــه و پیشنهاد می شود قرار می گیرند و تقاضای بهترینها را دارند. برای از عهده برآمدن در چنین شرایطی باید سیستم هایی که بتواند به طور دقیق نسبت به مشتریان واکنش نشان دهد به کـــار رود. جمع آوری آمار مشتریان و داده های رفتاری آنها این هدف اصلی و دقیق را ممکن می سازد. این نوع هدفگیری به یک برنامه ریزی عالی هنگام ایجاد یک رقابت سخت و به مشخص کردن مشتریان بالقـوه هنگام عرضه محصولات جدید کمک می کند.
2- 3 داده کاوی :
امروزه با حجم عظیمی از داده ها روبرو هستیم. برای استفاده از آنها به ابزارهای کشف دانش نیاز داریم. داده کاوی به عنوان یک توانایی پیشرفته در تحلیل داده و کشف دانش مورد استفاده قرار می گیرد. داده کاوی در علوم ( ستاره شناسی ، …) در تجارت ( تبلیغات ، مدیریت ارتباط با مشتری ، …) در وب ( موتورهای جستجو ، …) در مسایل دولتی ( فعالیتهای ضد تروریستی ، …) کاربرد دارد. عبارت داده کاوی شباهت به استخراج زغال سنگ و طلا دارد. داده کاوی نیز اطلاعات را که در انبارهای داده مدفون شده است ، استخراج می کند[5] .
در واقع هـــــدف از داده کاوی ایجاد مدل هایی برای تصمیم گیری است. این مدلها رفتارهای آینده را براساس تحلیلهای گذشته پیش بینی می کنند. به کاربردن داده کاوی به عنوان اهرمی برای آماده سازی داده ها و تکمیل قابلیتهای انباره داده ، بهترین موقعیت را برای به دست آوردن برتریهای رقابتی ایجاد می کند.
سیستم های بانک داده ، نقشی کلیدی در سیستم های مدیریت و انبار داد ه ، بازی می کنند. یک سیستم بانک داده، شامل فایل های بانک داده و سیستم های مدیریت بانک داده است.
اغلب تجارت ها به تصمیم گیریهای استراتژیک و یا اتخاذ خط مشی های جدید برای خدمت رسانی بهتر به مشتریان نیاز دارند. به عنوان مثال فروشگاهها آرایش مغازه خود را برای ایجاد میل بیشتر به خرید مجدداً طراحی می کنند و یا خطوط هواپیمایی تسهیلات خاصی را برای مشتریان جهت پروازهای مکرر آنها در نظر می گیرند. این دو مثال به داده هایی در مورد رفتار مصرفی گذشته مشتریان برای تعیین الگوهایی به وسیله داده کاوی ، نیاز دارد. براساس این الگوها تصمیمـــات لازم اتخاذ می شود. در واقع ابزار داده کــــاوی، داده را می گیرد و یک تصویر از واقعیت به شکل مدل می سازد ، این مدل روابط موجود در داده ها را شرح می دهد[5] .
از نظر فرایندی فعالیتهای داده کاوی به سه طبقه بندی عمومی تقسیم می شوند :
اکتشاف : فرایند جستجو در یک بانک داده برای یافتن الگوهای پنهان، بدون داشتن یک فرضیه از پیش تعیین شده درباره اینکه این الگو ممکن است چه باشد.
مانند تحلیلهایی که برحسب کالاهای خریداری شده صورت می گیرد ، اینگونه تحلیلهای سبدی نشانگر مواردیست که مشتری تمایل به خرید آنها دارند. این اطلاعات می تواند به بهبود موجودی ، استراتژی طراحی ، آرایش فروشگاه و تبلیغات منجر گردد.
مدل پیش بینی : فرایندی که الگوهای کشف شــده از بانک داده را می گیرد و آنها را برای پیش بینی آینده به کار می برد.
مانند پیش بینی فروش در خرده فروشی، الگوهای کشف شده برای فروش به آنها کمک می کند تا تصمیماتی را در رابطه با موجودی اتخاذ کنند.
تحلیلهای دادگاهی : به فرایند به کارگیری الگوهای استخراج شده برای یافتن عوامــل داده ای نامعقول و متناقض مربوط می شود[6] .
مانند شناسایی و تشخیص کلاهبرداری در موسسات مالی. کلاهبرداری به میزان زیادی پرهزینه و زیان آور است ، بانکها می توانند با تحلیل دادوستدهای جعلی گذشته الگوهایی را برای تشخیص و کشف کلاهبرداری به دست آورند.
2- 4 مدیریت ارتباط با مشتری :
مدیریت ارتباط با مشتری یک فرایند تجاری است که تمام جوانب مشخصه های مشتری را آدرس دهی می کند ، دانش مشتری را بــه وجود می آورد ، روابط را با مشتری شکل می دهد و برداشت آنها را از محصولات یا خدمات سازمان ایجاد می کند. مدیریت ارتباط با مشتری توسط چهار عنصر از یک چارچوب ساده تعریف شده است: دانش ، هدف ، فروش و خدمت.
مدیریت ارتباط با مشتری با درنظر گرفتن اینکه چه محصولات یا خدماتی، به چه مشتریانی ، در چه زمانی و از طریق چه کانالی عرضه شود، بهبود را در پی خواهد داشت. این مدیریت از اجزای مختلفی تشکیل شده است[3] .
پیش از اینکه فرایند آن آغاز شود ، شرکت باید اطلاعات مشتری را در اختیار داشته باشد. این اطلاعات می تواند از داده های داخلی مشتریان و یا از داده های منابع خارجی خریداری شده ، به دست آید. برای داده های داخلی منابع مختلفی وجود دارد مانند پــرسشنامه ها و بلاگ ها ، سوابق کارت اعتباری و….
منابع داده خارجی یا بانکهای داده خریداری شده مانند آدرسها ، شماره تلفن ها ، پروفایل های بازدید از وب سایتها کلیدی برای به دست آوردن دانش بیشتری از مشتری است.
بیشتر شرکتها ، بانکهای داده ای عظیمی شامل داده های بازاریابی، منابع انسانی و مالی را دارا هستند. بنابراین ، سرمایه گذاری در زمینه انبار داده ، یکی از اجزای حیاتی در استراتژی مدیریت ارتباط با مشتری است[8] .
پس از تهیه و تخصیص منابع داده ، سیستم مدیریت ارتباط با مشتری باید با به کارگیری ابزارهایی مانند داده کاوی ، داده ها را تجزیه و تحلیل کند. اعم از اینکه شرکت تکنیک های آماری سنتی را به کار می برد یا یکی از ابزارهای نرم افزاری مانند داده کاوی را، کارشناسان نیاز به فهم داده های مشتری و روابط تجاری دارند. بنابراین، داشتـــن افرادی متخصص که این داده ها را با ابزارهای مربوطه استخراج و به صورت اطلاعات درآورند، مهم است[2] .
2- 5 چرخه زندگی مشتری :
واژه چرخه زندگی مشتری به مراحلی در ارتباط بین مشتری و تجارت بر می گردد و آگاهی نسبت به آن موجب سودآوری مشتری می شود. عموماً چهار مرحله در چرخه زندگی مشتری وجود دارد :
1 – مشتریهای بالقوه : افرادی که هنوز مشتری نیستند ولی در هدف بازار قرار دارند
2 – مشتریهایی که عکس العمل نشان می دهند: مشتریان بالقوه یا احتمالی که به یک محصول یا خدمت علاقه و واکنش نشان می دهند.
3 – مشتریهای بالفعل : افرادی که در حال حاضر محصول یا خدمتی را به کار می برند.
4 – مشتریهای سابق : اینگونه افراد مشتریان مناسبی نیستند چرا که مدت زیادی در هدف فروش قرار ندارند و یا خریدشان را به سمت محصولات رقیب برده اند.
فرایند داده کاوی در مدیریت ارتباط با مشتری
داده کاوی یکی از عناصر مدیریت ارتباط با مشتری است و می تواند به حرکت شرکتها به سمت مشتری محوری کمک کند[5] .
داده های خام از منابع مختلفی جمع آوری می شوند و از طریق استخراج ، ترجمه و فرایندهای فراخوانی به انبار داده این مدیریت وارد می شوند. در بخش مهیـــاسازی داده ، داده ها از انبار خارج شده و به صورت یک فرمت مناسب برای داده کاوی در می آیند.
بخش کشف الگو شامل چهار لایه است :
1 – سوالهای تجاری مانند توصیف مشتری
2 – کاربردها مانند امتیازدهی ، پیش گویی
3 – روشها مانند سری های زمانی ، طبقه بندی
4 – الگوریتم ها.
در این بخش روشهای داده کاوی با کاربرد مخصوص خود برای پاسخ به سوالهای تجاری که به ذهن می رسند ، الگوریتم هایی را استخراج می کنند و از این الگوریتم ها برای ساخت الگو استفاده می شود.
در بخش تجزیه و تحلیل الگو، الگوها به یک دانش مفید و قابل استفاده تبدیل می شوند و پس از بهبود آنها، الگوهایی که کارا محسوب می شوند در یک سیستم اجرایی به کار گرفته خواهند شد[3] .

فصل سوم

کاربردهای داده کاوی در کتابخانه ها و موسسات دانشگاهی

کاربردهای داده کاوی در کتابخانه ها و موسسات دانشگاهی
3- 1 چکیده :
کتابخانه ها و موسسات آموزشی با مشکل مدیریت کارآمد بار سنگین داده ها که دائما نیز در حال افزایش است روبرو می باشند. نرم افزارهای کامپیوتری بکار گرفته شده برای این منظور، غالبا فقط برای پرس و جوهای معمولی و پشتیبانی از مسائل مدیریتی و برنامه ریزی کوتاه مدت اداری جوابگو هستند. در حالیکه در عمق درون این حجم داده ها، الگوها و روابط بسیار جالبی میان پارامترهای مختلف بصورت پنهان باقی میماند. داده کاوی یکی از پیشرفتهای اخیر در حوزه کامپیوتر برای اکتشاف عمیق داده هاست. داده کاوی از اطلاعات پنهانی که برای برنامه ریزیهای استراتژیک و طولانی مدت میتواند حیاتی باشد پرده برداری میکند. تبیین مشخصه های اساسی فراینده داده کاوی و کشف کاربردهای ممکن آن در کتابداری و موسسات دانشگاهی اهداف اصلی این مقاله را شکل میدهند[7] .
3- 2 مقدمه :
در دنیای بشدت رقابتی امروز، اطلاعات بعنوان یکی از فاکتورهای تولیدی مهم پدیدار شده است. در نتیجه تلاش برای استخراج اطلاعات از داده ها توجه بسیاری از افراد دخیل در صنعت اطلاعات و حوزه های وابسته را به خود جلب نموده است.
حجم بالای داده های دائما در حال رشد در همه حوزه ها و نیز تنوع آنها به شکل داده متنی ، اعداد ، گرافیکها ، نقشه ها ، عکسها ، تصاویر ماهواره ای و عکسهای گرفته شده با اشعه ایکس نمایانگر پیچیدگی کار تبدیل داده ها به اطلاعات است. علاوه بر این، تفاوت وسیع در فرآیندهای تولید داده مثل روش آنالوگ مبتنی بر کاغذ و روش دیجیتالی مبتنی بر کامپیوتر، مزید بر علت شده است. استراتژیها و فنون متعددی برای گردآوری ، ذخیره ، سازماندهی و مدیریت کارآمد داده های موجود و رسیدن به نتایج معنی دار بکار گرفته شده اند. بعلاوه ، عملکرد مناسب ابرداده که داده ای درباره داده است در عمل عالی بنظر میرسد.
پیشرفتهای حاصله در علم اطلاع رسانی و تکنولوژی اطلاعات، فنون و ابزارهای جدیدی برای غلبه بر رشد مستمر و تنوع بانکهای اطلاعاتی تامین می کنند. این پیشرفتها هم در بعد سخت افزاری و هم نرم افزاری حاصل شده اند. ریزپردازنده های سریع، ابزارهای ذخیره داده های انبوه پیوسته و غیر پیوسته ، اسکنرها ، چاپگرها و دیگر ابزارهای جانبی نمایانگر پیشرفتهای حوزه سخت افزار هستند. پیشرفتهای حاصل در نظامهای مدیریت بانک اطلاعات در طی چهار دهه گذشته نمایانگر تلاشهای بخش نرم افزاری است. این تلاشها در بخش نرم افزار را میتوان بعنوان یک حرکت پیشرونده از ایجاد یک بانک اطلاعات ساده تا شبکه ها و بانکهای اطلاعاتی رابطه ای و سلسله مراتبی برای پاسخگویی به نیاز روزافزون سازماندهی و بازیابی اطلاعات ملاحظه نمود. بدین منظور در هر دوره ، نظامهای مدیریت بانک اطلاعاتی مناسب سازگار با نرم افزار سیستم عامل و سخت افزار رایج گسترش یافته اند. در این رابطه میتوان از محصولاتی مانند ، Dbase-IV ، Unify ، Sybase ، Oracle و غیره نام برد[8] .
داده کاوی یکی از پیشرفتهای اخیر در راستای فن آوریهای مدیریت داده هاست. داده کاوی مجموعه ای از فنون است که به شخص امکان میدهد تا ورای داده پردازی معمولی حرکت کند و به استخراج اطلاعاتی که در انبوه داده ها مخفی و یا پنهان است کمک می کند. انگیزه برای گسترش داده کاوی بطور عمده از دنیای تجارت در دهه 1990 پدید آمد. مثلا داده کاوی در حوزه بازاریابی ، بدلیل پیوستگی غیرقابل انتظاری که بین پروفایل یک مشتری و الگوی خرید او ایجاد میکند اهمیتی خاص دارد.
تحلیل رکوردهای حجیم نگهداری سخت افزارهای صنعتی، داده های هواشناسی و دیدن کانالهای تلوزیونی از دیگر کاربردهای آن است. در حوزه مدیریت کتابخانه کاربرد داده کاوی بعنوان فرایند ماخذ کاوی نامگذاری شده است. این مقاله به کاربردهای داده کاوی در مدیریت کتابخانه ها و موسسات آموزشی می پردازد. در ابتدا به چند سیستم سازماندهی داده ها که ارتباط نزدیکی به داده کاوی دارند می پردازد ؛ سپس عناصر داده ای توصیف میشوند و درپایان چگونگی بکارگیری داده کاوی در کتابخانه ها و موسسات آموزشی مورد بحث قرار گرفته و مسائل عملی مرتبط در نظر گرفته می شوند[7] .
3- 3 پیشرفت در تکنولوژیهای داده پردازی :
سازمانهای بزرگ و چند – مکانه مثل بانکها ، دفاتر هواپیمایی و فروشگاههای زنجیره ای با حجم زیادی از داده ها که ناشی از عملکرد روزانه آنهاست روبرو هستند. بطور سنتی چنین داده هایی به دو دسته تقسیم شده اند :
1. رکوردهای اصلی
2. رکوردهای عملیاتی
فرض بر این است که رکوردهای اصلی حاوی اطلاعات پایه هستند که معمولا چندان تغییر نمی کنند در حالیکه رکوردهای عملیاتی با توجه به طبیعت عملیات تجاری حتی بطور ساعتی تغییر خواهند کرد.
سیستمهای مدیریت پایگاه داده مناسب برای پیوند دادن این دو مجموعه اطلاعاتی و تهیه گزارشهای استاندارد جهت کنترل فعالیتها گسترش یافتند. سیستم اطلاعات مدیریت رایج برای پشتیبانی عملیات و سرویس دهی به چند کاربر در سطوح مختلف سازمان مبتنی بر این نظریه است.
بمنظور کمک به تصمیم گیری راهبردی ، نظریه تاسیس بانک اطلاعات رکوردهای اصلی به نظریه سازماندهی دیتا مارت و انبار داده ها تغییر یافت. استخراج اطلاعات از رکوردهای عملیاتی یا پایگاههای اطلاعات عملیاتی و سازماندهی آن برای تحلیل استاندارد یا زمانی فلسفه اولیه و اصولی چنین پیشرفتهایی است. گرچه ، دیتا مارت و انبار داده ها از نظر هدف و ساختار با هم متفاوتند.
دیتامارت
دیتا مارت اغلب کوچک است و بر یک موضوع یا دپارتمان خاص متمرکز است. بنابراین پاسخگوی یک نیاز داخلی است. طرح بانک اطلاعات برای یک دیتامارت حول ساختار اتصال ستاره ای ساخته شده است که بهینه برای نیازهای کاربران دپارتمان است. دیتامارت معمولا با ابزارهای کامپیوتری که انعطاف پذیری تحلیل را تامین میکنند اما ممکن است برای سازماندهی حجم بالای داده ها مناسب نباشند؛ نیرومند میشود. رکوردهای ذخیره شده در دیتامارتها بخوبی نمایه شده اند[7] .
یک دیتامارت در صورتیکه داده ها را از منابع داده ای بسیار سازماندهی شده مثل انبار داده ها بگیرد؛ دیتامارت وابسته نامیده میشود. مسلما دیتامارتهای وابسته از لحاظ ساختاری و معماری منطقی هستند. منبع دیتامارتهای وابسته تکنولوژِی بانک اطلاعات دپارتمانی است. دیتامارتهای مستقل ثابت نیستندو از لحاظ معماری بسیار با هم متفاوتند. این مساله هنگام یکپارچه سازی دیتامارتهای مستقل، مشکل ایجاد میکند. بنابراین با یکپارچه سازی ساده دیتامارتها یک انبار داده ایجاد نخواهد شد.
دیتامارت اساسا برای اهداف تاکتیکی طراحی شده است و هدفش تامین یک نیازتجاری فوری است.
انبار داده ها
یک انبار داده کاملا " متفاوت از دیتامارت است. سازماندهی انبارهای داده بگونه ایست که کلیه موضوعات حول فعالیتهای کاری سازمان را می پوشاند. انبار داده نمایانگر یک تسهیلات مرکزی است[7] .
برخلاف دیتامارت که در آن داده ها به شکل خلاصه تر و متراکم تر وجود دارند ، یک انبار داده ، داده ها را در یک سطح نامتراکم ذخیره می کند. ساختار داده ها در یک انبار داده یک ساختار لزوما" هنجار شده است. بدین معنی که ساختار و محتوای داده ها در انبار داده منعکس کننده ویژگیهای دپارتمانهای عضو نیست. داده ها در انبار داده از نظر حجم و شکل کاملا" متفاوت از داده ها در دیتامارت هستند. دیتامارت ممکن است شامل حجم زیادی از داده های قدیمی و گذشته نگر باشد. داده ها در انبار داده اغلب بصورت نسبتا" سبک نمایه میشوند. ( به بیان دیگر در عمق کمتر).
انبار داده برای اهداف برنامه ریزی بلندمدت و راهبردی طراحی میشوند. در نتیجه انبار داده برخلاف سیستم عملیات که کاربرمدار است متمرکز بر اقلام است. ساختار یک انبارداده مشخصات زیر را نشان میدهد :
وابستگی به زمان :
رکوردها بر اساس یک برچسب زمانی نگهداری میشوند. وابستگی زمانی حاصل در ایجاد صفحات زمانی مفید است که درک ترتیب زمانی وقایع را تسهیل میکند[9] .
غیر فرار بودن :
رکوردهای داده در انبار داده ها هرگز بطور مستقیم روزآمد نمیشوند. برای هر تغییری در ابتدا داده های عملیاتی روزآمد میشوند و سپس بگونه ای مقتضی به انبار داده منتقل میشوند. این مساله ثبات داده ها را برای استفاده های وسیعتر تضمین میکند.
تمرکز موضوعی :
داده ها از بانکهای اطلاعاتی عملیاتی بصورت گزینشی به انبار داده منتقل میشوند. این استراتژی به ایجاد یک انبار داده بر اساس یک مطلب یا موضوع خاص کمک میکند و بنابراین کاوش انبار داده ها برای پرس و جوهای موضوعی با سرعت بیشتری انجام میشود.
یکپارچگی :
داده ها بگونه ای کامل سازماندهی شده اند تا با حذف موارد تکراری و چند عنوانه یکپارچگی رکوردها حفظ شود ؛ به ایجاد ارجاع های متقابل کارآمد بین رکوردها کمک نموده و ارجاع دهی را تسهیل نماید[8] .
واضح است که انبار داده اساسا" برای پرس و جوهای پشتیبان تصمیم گیری ساخته شده است. بر این اساس سازماندهی وعملیات انبار داده چنان طراحی شده اند تا نیازهای اطلاعاتی روزمره یا معمولی را پاسخگو باشند. بدلیل حجم بسیار بالای چنین پایگاه اطلاعاتی یک سیستم کامپیوتری پیشرفته برای عملیات انبارسازی داده ها لازم است. همچنین یک بانک اطلاعات مجزا شامل ابرداده که مشخصه هایی نظیر نوع ، فرمت ، مکان و پدیدآورندگان داده های ذخیره شده در یک انبار داده ها را توصیف میکند نیز برای کمک به کاربران و مدیران داده ها ساخته میشود. مشخص شد که انبار داده بدلیل اندازه و تنوعش ، اگر مبتکرانه پردازش شود میتواند به تولید اطلاعاتی منجر شود که در وهله اول آشکار نیستند. با انتخاب متناسب داده ها ، بکار گرفتن فنون مختلف غربال کردن و تفسیر زمینه ای ، داده ذخیره شده میتوانست منجر به کشف الگوها یا رابطه هایی شود که بینش نویی به تصمیم گیرنده دهد. این مساله نظریه توسعه عملیات داده کاوی را به موازات معدن کاوی بروز داد. ذکر این نکته لازم است که داده کاوی در اصل لزوما" نیاز به سازماندهی یک انبار داده ندارد. حال به داده کاوی می پردازیم.
3- 4 عناصر داده کاوی :
توصیف و کمک به پیش بینی دو کارکرد اصلی داده کاوی هستند. تحلیل داده مربوط به مشخصه های انتخابی متغیرها ؛ از گذاشته و حال، و درک الگو مثالی از تحلیل توصیفی است. برآورد ارزش آینده یک متغیر و طرح ریزی کردن روند مثالی از توانایی پیشگویانه داده کاوی است[7] .
برای عملی شدن هریک از دو کارکرد فوق الذکر داده کاوی ، چند گام ابتدایی اما مهم باید اجرا شوند که از این قرارند :
1. انتخاب داده ها
2. پاک سازی داد ها
3. غنی سازی داده ها
4. کد گذاری داده ها
با دارا بودن هدف کلی در مطالعه ، انتخاب مجموعه داده های اصلی برای تحلیل ، اولین ضرورت است. رکوردهای لازم میتواند از انبار داده ها و یا بانک اطلاعاتی عملیاتی استخراج شود. این رکوردهای داده جمع آوری شده ؛ اغلب از آنچه آلودگی داده ها نامگذاری شده است رنج می برند و بنابراین لازم است پاکسازی شوند تا از یکدستی فرمت ( شکلی ) آنها اطمینان حاصل شود ، موارد تکراری حذف شده و کنترل سازگاری دامنه بعمل آید. ممکن است داده های گردآوری شده از جنبه های خاصی ناقص یا ناکافی باشند. در این صورت داده های مشخصی باید گردآوری شوند تا بانک اطلاعات اصلی را تکمیل کنند. منابع مناسب برای این منظور باید شناسایی شوند. این فرایند مرحله غنی سازی داده ها را تکمیل میکند. یک سیستم کدگذاری مناسب معمولا" جهت انتقال داده ها به فرم ساختار-بندی شده جدید؛ متناسب برای عملیات داده کاوی تعبیه میشود [7] .
3- 5 فنون داده کاوی :
ممکن است متوجه شده باشید که فنون داده کاوی یک گروه نامتجانس را شکل میدهند چرا که هر تکنیکی که بتواند بینش جدیدی از داده ها را استخراج کند میتواند داده کاوی به حساب آید. برخی از ابزارهای رایج بکار گرفته شده تحت عنوان داده کاوی عبارتند از :
ابزارهای پرس و جو : ابزارهای متداول زبان پرس و جوی ساختاربندی شده در ابتدا برای انجام تحلیلهای اولیه بکار گرفته شدند که می تواند مسیرهایی برای تفحص بیشتر نشان دهد.
فنون آماری : مشخصات اصلی داده ها لازمست با کاربرد انواع مختلفی از تحلیلهای آماری شامل جدول بندی ساده و متقاطع داده ها و محاسبه پارامترهای آماری مهم بدست آید.
مصور سازی: با نمایش داده ها در قالب نمودارها و عکسها مانند نمودار پراکندگی ؛ گروه بندی داده ها در خوشه های متناسب تسهیل میشود. استنباط عمیق تر ممکن است با بکارگیری تکنیکهای گرافیکی پیشرفته حاصل شود.
پردازش تحلیلی پیوسته : از آنجا که مجموعه داده ها ممکن است روابط چندین بعدی داشته باشند ، روشهای متعددی برای ترکیب کردن آنها وجود دارد. ابزارهای پردازش تحلیلی پیوسته به ذخیره چنین ترکیباتی کمک میکند و ابزارهای ابتدا-انتهای پیوسته برای انجام پرس و جو ایجاد میکند. اما این ابزارها هیچ دانش جدیدی ایجاد نمی کنند.
یادگیری مبتنی بر مورد : این تکنیک مشخصات گروههای داده ها را تحلیل میکند و به پیش بینی هر نهاد واقع شده در همسایگی شان کمک میکند. الگوریتمهایی که استراتژی یادگیری تعاملی را برای کاوش در یک فضای چندین بعدی بکار میگیرند برای این منظور مفیدند.
درختان تصمیم گیری : این تکنیک بخشهای مختلف فهرست پاسخهای موفق داده شده مربوط به یک پرس و جو را بازیابی می کند و به این ترتیب به ارزیابی صحیح گزینه های مختلف کمک میکند[9] .
قوانین وابستگی : اغلب مشاهده میشود که یک وابستگی نزدیک ( مثبت یا منفی ) بین مجموعه ای از داده های معین وجود دارد. بنابراین قوانین رسمی وابستگی برای تولید الگوهای جدید ساخته و بکار گرفته میشوند.
شبکه های عصبی : این یک الگوریتم یادگیری ماشینی است که عملکرد خودش را بر اساس کاربرد و ارزیابی نتایج بهبود می بخشد.
الگوریتم ژنتیکی : این هم تکنیک مفید دیگری برای پیش بینی هدف است. به این ترتیب که با یک گروه یا خوشه شروع میشود و رشدش در آینده را با حضور در برخی مراحل فرایند محاسبه احتمال جهش تصادفی ؛ همانطور که در تکامل طبیعی فرض میشود طرح ریزی می نماید. این تکنیک به چند روش میتواند عملی شود. و ترکیب غیرقابل انتظار یا نادری را از عواملی که در حال وقوع بوده و مسیر منحنی طراحی داده ها را تغییر میدهند؛ منعکس میکند.
گام نهایی فرایند داده کاوی ، گزارش دادن است. گزارش شامل تحلیل نتایج و کاربردهای پروژه ، درصورت بکارگیری آنها ، است . و متن مناسب، جداول و گرافیکها را در خود جای می دهد. بیشتر اوقات گزارش دهی یک فرایند تعاملی است که تصمیم گیرنده با داده ها در پایانه کامپیوتری بازی میکند و فرم چاپی برخی نتایج واسطه محتمل را برای عملیات فوری بدست می آورد.
داده کاوی در تولید چهار نوع دانش ذیل مفید است:
– دانش سطحی ( کاربردهای ( SQL
– دانش چند وجهی ( کاربردهای ( OALP
– دانش نهان ( تشخیص الگو و کاربردهای الگوریتم یادگیری ماشینی )
– دانش عمیق ( کاربردهای الگوریتم بهینه سازی داخلی )
نرم افزار :
از آنجا که داده کاوی با بانکهای اطلاعاتی بزرگ سروکار دارد، به گونه ای ایده ال با تکنولوژی خدمت گیر-خدمت گر بکار میرود. کاربردهای عمومی داده کاوی بیشتر شامل تقسیم کردن داده ها در خوشه های مقتضی، کدگذاریهای مناسب، کاوش برای الگوها و طراحی کردن با استفاده از فنون آماری و الگوریتمهای ژنتیکی است. تعداد زیادی از بسته های نرم افزاری واجد این جنبه های ابزارهای داده کاوی با درجات متفاوتی از جامعیت در دسترس هستند. برای مثال بسته های نرم افزاری که منحصرا" برای کاربردهای OLAP در دسترس هستند عبارتند از : Oracle OLAP ، DB2 OLAP Server ، CleverPath OLAP . نرم افزارهای آماری عمومی مثل SPSS ، SAS، STATISTICA با امکاناتی برای داده کاوی و بسته های نرم افزاری اختصاصی داده کاوی مثل Weka ، Insightful Miner3 ، Text Mining Software ، Enterprise Data Mining software ، PolyAnalyst 4.6 مفید هستند[8] .
3- 6 کاربردهای داده کاوی در کتابخانه ها و محیط های دانشگاهی :
داده کاوی در ابتدا از حوزه تجارت برخاست اما کاربردهای آن در سایر حوزه هائی که به گردآوری حجم وسیعی از داده هائی می پردازند که دستخوش تغییرات پویا نیز می گردند ؛ مفید شناخته شد. بخشهایی مثل بانکداری ، تجارت الکترونیک ، تجارت سهام ، بیمارستان و هتل از این نمونه اند.
انتظار میرود که استفاده از داده کاوی در بخش آموزش بطور عام امکانهای جدید بسیاری ارائه دهد. برخی کاربردهای داده کاوی در کتابخانه ها و قسمت اداری آموزش در ذیل مورد بحث قرار گرفته اند.
3- 7 مدیریت و خدمات کتابخانه :
عملیات کتابداری بطور کلی شامل مدیریت مدارک، ارائه خدمات و امور اداره و نگهداری است. هر کدام از این کارکردها با انواع مختلفی از داده ها سروکار دارد و بطور جداگانه پردازش میشود. اگرچه، انجام تحلیل ترکیبی براین مجموعه های داده نیز میتواند افق تازه ای را بگشاید که به طرح خدمات جدید و تحول رویه ها و عملیات جاری کمک نماید. جدول یک برخی از کاربردهای ممکن داده کاوی را که میتواند در کتابداری مفید باشد ارائه میکند[9] .

بانک اطلاعاتی
کاربرد متصور
گردآوری منابع
برای تعیین نقاط قوت و ضعف مجموعه
استفاده از مجموعه
برای ایجاد رابطه بین خواننده، منابع کتابخانه و زمان مشخصی از سال
امانت بین کتابخانه ای
برای تحلیل سفارشهای پاسخ داده شده و سفارشهای دریافت شده
داده های بخش امانت
برای پیش بینی روند بازگشت منابع
داده های هزینه
برای نشان دادن منابع مالی بکار گرفته شده

جدول 3- 1 : کاربردهای داده کاوی در کتابخانه ها

داده کاوی میتواند برای پاسخ دادن به یک سوال خاص مربوط به کتابخانه و نیز برای کشف روندهای عمومی که به تصمیم گیری کمک میکنند، استفاده شود . برای مثال سوال میتواند چنین باشد: امکان اینکه امانت گیرندگان منابع را یک هفته بعد از تاریخ عودت برگردانند تا نامه های یادآوری کمتری فرستاده شود چقدر است ؟ یا میزان اشتراک مورد انتظار برای نشریات بین المللی انتخاب شده برای سال آینده چقدر است ؟ درک الگوی استفاده کلی مجلات الکترونیکی یا تحلیل درخواستهای اعضا برای میکروفیلمها طی 5 سال گذشته نیز همگی مثالهایی از کشف روندهای عمومی اند. دامنه تحلیل استنادی هم میتواند با استفاده از داده کاوی گسترش داده شود.
در ارتباط با کتابخانه ها ، وب کاوی حوزه دیگری از علاقمندی است. وب کاوی شامل محتوا کاوی وب، ساختار کاوی وب و استفاده کاوی وب با توجه به یک موضوع خاص است که در طراحی خدمات جدید مبتنی بر وب کمک خواهد کرد[6] .
3- 8 مدیریت موسسات دانشگاهی :
اداره موسسات دانشگاهی کار پیچیده ای است. در این موسسات دائما" نیاز به درآمدزایی و خود- کارآمدی و کاهش وابستگی به بودجه دولتی احساس میشود. این مساله کنترل دائمی جنبه های مختلف هر فعالیت و پروژه را می طلبد. بانکهای اطلاعاتی برای چنین موسساتی مربوط به دانشجویان، دانشکده، اساتید و کارمندان ، تعداد رشته ها و چند مورد دیگر است . ارزیابی تقاضا و وضعیت عرضه نقش مهمی بازی میکند. مرور بانکهای اطلاعاتی نمونه در جدول 2 نمایانگر کاربردهای بالقوه داده کاویست[5] .

بانک اطلاعاتی
کاربرد متصور
ثبت نام دانشگاهی
برای درک رابطه های جمعیت شناختی، اقتصادی و اجتماعی
کارایی دانشگاهی
برای ایجاد رابطه بین عوامل اقتصادی-اجتماعی و نمرات اخذ شده
بانک سوالات
برای تعیین میزان مفید بودن سیستم با استناد به نمرات امتحان
همکاری فکری
برای ارزیابی همکاری دانشکده با توجه به میزان استفاده از کتابخانه
انتشارات
برای پیدا کردن تاثیر انتشارات در تقاضا برای رشته ها
بازدید از وب سایت
برای تحلیل سوالات دریافت شده در وب سایت دانشگاه و کمک به ایجاد رشته های جدید دانشگاهی

جدول 3- 2 : کاربردهای داده کاوی در موسسات دانشگاهی

کاربرد داده کاوی در دانشگاه ملی سنگاپور قابل ملاحظه است. در این دانشگاه از ابزارهای داده کاوی برای شناسایی و دسته بندی دانشجویانی که به کلاسهای پیش نیاز برای واحد درسی ارائه شده نیاز داشتند استفاده شد. علاوه بر آن ، مسائلی مانند اختصاص بهتر منابع و نیروی انسانی ، مدیریت روابط دانشجو و به تصویر کشیدن رفتار گروههای مختلف میتواند بوسیله ابزارهای داده کاوی انجام شود.
محدودیت ها
کاربرد داده کاوی با چند عامل محدود شده است. اولین مورد به سخت افزار و نرم افزار لازم و موقعیت بانک اطلاعاتی مربوط میشود . برای مثال در هند ، داده های غیر مجتمع که برای کاربردهای داده کاوی لازم است ممکن است به فرم دیجیتالی در دسترس نباشد. در دسترس بودن نیروی انسانی ماهر در داده کاوی نیز مساله مهم دیگری است. محرمانه بودن رکوردهای مراجعان ممکن است در نتیجه پردازش داده های مبتنی بر داده کاوی آسیب پذیر شود. کتابداران و موسسات آموزشی باید این مساله را در نظر داشته باشند ؛ چرا که در غیر اینصورت ممکن است گرفتار شکایات قانونی گردند[6] .
محدودیت دیگراز ضعف ذاتی نهفته در ابزارهای نظری ناشی میگردد. ابزارهایی مانند یادگیری ماشینی و الگوریتمهای ژنتیکی بکار گرفته شده در فعالیتهای داده کاوی به مفاهیم وفنون منطق و آمار بستگی دارد. در این حد نتایج به روش مکانیکی تولید شده و بنابراین به یک بررسی دقیق نیاز دارند. اعتبار الگوهای بدست آمده به این طریق ؛ باید آزمایش شود. چرا که که در بسیاری موارد روابط علل و معلول مشتق شده ؛ از برخی استدلالات غلط ذیل رنج میبرند.
● علت دور
مثلا" امکانات ضعیف خوابگاه باعث می شود دانشجویان نمرات پایینی کسب نمایند
● علت مجرد
مثلا" بودجه محدود بر بازدهی پژوهشی دانشکده تاثیر می گذارد
● علائم در نظر گرفته شده برای این عوامل
مثلا" مجموعه کتابخانه ممکن است افزایش نیابد چون تعداد خوانندگان مرتبا" کاهش می یابد.
● سفسطه دسته بندی
مثلا" مدرسان حقوق بسیار بالا دریافت می کنند و کل حقوقشان بالغ بر میلیونها میشود.
● سفسطه ترکیب
مثلا" اگر هر مدرس در دانشکده شایسته و واجد صلاحیت باشد کل دانشکده عملکرد بهتری خواهد داشت.
● سوگیری در انتخاب نمونه :
مثلا"استناد به یافته های یک پیمایش نمونه گیری شده از دانشجویان یک دانشکده که از خانواده های ثروتمند هستند و مخارج روزانه در خوابگاه برای هر دانشجو 100 دلار است.
از آنجایی که مطالعه الگوها و استخراج روابط میان رکوردها مستلزم کاربرد منطق قیاسی و استقرایی است فرد باید مراقب اشتباهاتی که عموما" رخ میدهد باشد. برای مثال بحثهای قیاسی یا استقرایی ، تا زمانیکه وضعیت درست بودن فرضیه آزمایش نشود چیزی درباره درست یا غلط بودن نتایجشان نمی گویند. طبیعتا ، نتایج تولید شده ماشینی ممکن است از چنین نقایصی رنج ببرند.
3- 9 تذکرات نهایی :
بکارگیری تکنولوژی اطلاعات توسط هر سازمان در عمل یک فرایند هموار نیست. کتابخانه یا موسسه دانشگاهی از این قضیه استثنا نیست. اما ، تجربه نشان میدهد که یک برنامه نظام مند میتواند ظهور و نگهداری تکنولوژی اطلاعات در محیط کتابخانه را تسهیل کند. حتی کاربرد تکنولوژی های پیشرفته پردازش اطلاعات مثل سیستمهای خبره و سیستم اطلاعات جغرافیایی ( جی.آی.اس ) در کتابخانه گزارش شده است. با این پیش زمینه ، کاربرد داده کاوی بوسیله کتابخانه ها و موسسات دانشگاهی ، به شرط آماده سازی مناسب، بطور قابل توجهی عملی است[5] .
برای دانشگاهها، کالجها، مدارس و موسسات آموزش از راه دور که بانکهای اطلاعاتی عظیمی دارند، ابزارهای داده کاوی میتواند الگوها و روابطی را که خیلی عیان نیستند آشکار کند. این نتایج ممکن است به طراحی دوباره فرایندها و رویه های مرتبط منجر شود. تحلیلهای پشتیبانی شده توسط داده کاوی در کل موسسات و محیط ها میتواند مسائل متنوع مدیریت آموزشی ؛ از جمله درک بهتر مشخصه های اقتصادی اجتماعی دانشجویان ، مندرجات رشته ها و آموزش و پرورش و ساختار هزینه را مخاطب قرار دهد.
آنچه لازم است اینست که فراتر از عملکرد داده پردازی استاندارد قدم برداریم مخصوصا" کتابخانه ها و موسسات دانشگاهی که با انواع مختلفی از بانکهای اطلاعاتی سروکار دارند و به سطوح معقولی از کامپیوتری کردن و دیجیتالی کردن داده ها دست یافته اند. در یک نظر، ابزارهای داده کاوی نمایانگر پیشرفت در زنجیره تکنولوژی اطلاعات هستند. داده کاوی همچنین میتواند بعنوان بخشی از فرایند بزرگتر کشف دانش در بانکهای اطلاعاتی در محیط های مختلف در نظر گرفته شود. البته نباید چنین پنداشت که ابزارهایی مثل داده کاوی نیاز به مداخله انسانی را کاهش خواهد داد.
همچنانکه در بالا نشان داده شد ، ارزیابی و تعدیل نتایج بدست آمده بوسیله چنین ابزارهای خودکاری؛ به آزمایش نیاز دارد تا در برابر کاربردهای غلط محافظت شود.
انتظار میرود داده کاوی در گسترش سازمان خودیادگیرنده مشارکت کند. کشف انتخابهای نوین با بهره گیری از داده کاوی اطمینان بخش بهترین کاربرد ممکن منابع موجود است. داده کاوی ماهیت چرخه مانند دارد. برای اینکه در پی کشف الگوها، سوالات بیشتری پدید خواهند آمد که دور بعدی فرایند را شکل میدهند. بهره برداری از تکنولوژیهای پیشرفته مثل داده کاوی مطمئنا" برای متخصصان کتابداری و مدیران موسسات آموزشی یک چالش دائمی خواهد بود ؛ چرا که آنها خلاقیت طلبند و برای نوآوری تلاش می کنند[8] .

فصل چهارم

کسب و کار هوشمند و داده کاوی

کسب و کار هوشمند و داده کاوی
4- 1 مقدمه :
به راه انداختن یک کارتجاری موفق تنها به چگونگی راه اندازی آن کار بستگی ندارد، بلکه به نحوه راه اندازی کار در مقایسه با فعالیت های تجاری دیگران نیز وابسته است. شاید راه کار کلیدی ایجاد تفاوت و تمایز در تجارت استفاده از داده های ذخیره شده در سیستم هایی باشد که شما در تجارت روزانه خود از آن استفاده می کنید. همچنین خواهیم دید که نتیجه اصلی تاثیر گذاری این داده ها، توانایی پیش بینی حقایقی در مورد فعالیت تجاری شما خواهد بود. این مورد شما را قادر خواهد ساخت تا به جای اینکه در فعالیت تجاری خود تنها به صورت واکنشی عمل کنید با پیش زمینه قبلی با مسائلتان روبرو شوید. داده هایی که حاوی اطلاعات مربوط به گذشته هستند نمایانگر دانش گرانبهایی در مورد آینده می باشند. بطوریکه می توانند شما را در اجرای فعالیت های تجاری موفق و بهینه، افزایش سهم و سرمایه تجاری ، افزایش مشتری و ایجاد مشتریان ثابت از طریق خدمات متمرکز یاری دهند. اکنون این سوال مطرح می شود که ما چگونه این اطلاعات را از داده هایمان استخراج می کنیم؟ راه حل این مشکل داده کاوی است ، که به یکی از تکنیک های مطرح برای تولید سیستم های تصمیم گیری هوشمند ابزار کاربردی و روشهای مورد استفاده در علم آمار و یادگیری ماشینی تبدیل شده است[7] .
4- 2 تکامل تاثیر گذاری داده ها :
شما احتمالاً حجم زیادی از داده های مربوط به فرآیندهای تجاری روزانه خود را ذخیره می کنید این داده ها یک منبع غنی از اطلاعاتی مربوط به تجارت شما ، فرآیندهای آن و مشتریان شما است. ممکن است یکی از مهمترین علل تلاش برای استخراج این اطلاعات و استفاده از آن، باقی ماندن در عرصه تجارت، افزایش رقابت باشد. اگر شرایط اقتصادی مساعد باشد احتمالاً نیازی به نگرانی در مورد این منبع بالقوه نخواهید داشت. اما اگر منتظر بوجود آمدن رقابت و یا نابسامان شدن شرایط اقتصادی باشید زمان را از دست خواهید داد.
شما بر پایه اطلاعات می توانید تصمیمات استراتژیک بگیرید و خود را جلوتر از سایر رقبا قرار دهید، در عین حال رسیدن به این اطلاعات از داده های خام تجاری و نهایتاً پیش بینی رویدادهای تجاری کار ساده ای نیست.
شکل زیر تحولی را که در چند سال اخیر در زمینه بکارگیری داده ها رخ داده است نشان می دهد؛ این تحول با توانایی ایجاد query ها از داده های عملیاتی آغاز می شود که منجر به تولید گزارش و نمودار شده است. قدم منطقی بعدی تحلیل نتایج با استفاده از عملیات آماری سنتی با ابزار OLAP با هدف یافتن مسیر یا تصدیق یک اصل است. شما همچنین می توانید با مدل کردن ارتباطات موجود در داده هایتان به رفتار فعالیت تجاری خود در شرایط مختلف پی ببرید. با انجام این کار می توانید از این مدل استفاده کنید تا در موقعیت های خاص که نیاز به توجه خاص دارد، شما را آگاه سازد. در آخرین گام می توانیم از کسب و کار هوشمند که در آن از دانستنیهای تجاری شما برای اتخاذ تصمیم درست استفاده می شود صحبت کنیم[8] .

شکل 4- 1 : Evolution from Queries to data mining

گام اولی که نشان داده شده است برپایه پرسش ، یا دانشی است که خود شما آن را وارد کرده و داده های موجود را ارزیابی می کنید.
گام سوم در شکل بالا همان داده کاوی است که در آن مجموعه ابزاری، دانشی را بر پایه داده های اولیه تولید می کنند. این دانش جدید می تواند برای مدل سازی فعالیت تجاری شما بدون وابستگی به هیچ فرضیه ای که از مجموعه داده های شما منشا نمی گیرد مورد استفاده قرار گیرد. شما می توانید فراتر از فلسفه خود کفائی در مدل کردن فعالیت تجاری خود برای کشف آنچه می دانید حرکت کنید.
داده کاوی یک مساله اغراق آمیز نیست ، بلکه گامی منطقی ، در اثر گذاری داده های شما است که ممکن است بزرگترین سرمایه استراتژیک شرکت شما که داده های آن است باشد. برداشتن این گام مستلزم آن نیست که شما گام های قبل را نیز طی کرده باشید اما در نظر گرفتن این گام ها شما را در جریان آماده شدن یاری خواهد کرد. داده کاوی نه تنها سیستم موجود را به صورت مطلق ارائه نمی کند بلکه با غنی سازی داده های مورد استفاده آن را ارتقاء می بخشد[7] .
4- 3 از داده ها تا تصمیم گیریها:
کسب و کار هوشمند تماماً در ارتباط با قدرت سرمایه های شما در رسیدن به سود از داده های موجود است. که یا به صورت پراکنده در سیستم های مختلف وجود دارند و یا بصورت متمرکز در یک انباره مرکزی قرار دارند و همانطور که در شکل زیر نشان داده شده است یک مسیر برای بدست آوردن دانش مورد نیاز برای اتخاد تصمیم مناسب و درست ، در مورد کسب وکار شماست.

شکل 4- 2 : Decisions , information , and data

شما می توانید این شکل را به منزله یک چرخه تفسیر کنید. تصمیم گیری نیاز به اطلاعاتی دارد که برپایه داده ها می باشند.
داده ها به تنهایی هیچ قضاوت یا تفسیر و یا عملی را شامل نمی شوند.این محتوا و نحوه استفاده از داده ها است که آن ها را به اطلاعات تبدیل می کنند. پیوند دادن بخش های مختلف اطلاعات موجود، منجر به تولید دانشی می شود که بعدها در تصمیم گیری ها نقش اساسی خواهد داشت.
در شرایط ایده آل ، خروجی این تصمیم گیری ها به محیط BI برخواهد گشت تا چرخه ای را که در شکل بالا آمده است تکمیل کند. این چرخه باعث ایجاد یک سازمان یادگیری می شود که در آن تصمیم ها برپایه دانش حقیقی استوارند تا احساسات درونی.
در واقع یک محیط بهینه باعث پیشرفت موازی ذخیره داده ها و کاوش در آنهاست.
انباره داده ها دسترسی به داده های مجتمع با ارزشی را ممکن می سازد که می توانند بعدها مورد کاوش قرار بگیرند، داده کاوی نتایجی را تولید می کند که دوباره به انباره داده ها باز می گردد و بخش یکپارچه ای از دانش سازمانی شما را تشکیل می دهد و از این بخش دانش فضای جالبی برای کاوش پدیدار می شود[6] .
در حقیقت ، بیشتر کار توسعه ای که امروزه انجام می گیرد بر روی یکپارچه کردن داده کاوری در محیط BI متمرکز است حتی ممکن است به نهایتاً به موتور جستجویی در پایگاه داده شما ختم شود تا از طریق آن بتوانید query هایی مثل انتخاب 1000 کاندید مناسب برای خرید محصول X از بین مشریان داشته باشید. ابزار واقعی داده کاوی به مکمل اصلی محیط BI تبدیل خواهند شد که می توانند در کاربردهای عملی ادغام شده و بطور مستقیم خطی مشی کسب و کار شما را شکل دهند.

4- 4 مفهوم ذخیره داده ها:
در بخش قبل ما به انبار داده ها اشاره کردیم. شما احتمالاً حدس زده اید که در یک محیط BI به علاوه داده کاوی ، حجم زیادی از کار با داده وجود دارد. در اینجاست که نیاز به یک انباره داده بوجود می آید.
آیا شما برای داده کاوی نیاز به انباره داده دارید ؟ لزوماً خیر؛ در واقع انباره داده به شما کمک زیادی خواهد کرد اما لزوماً احتیاج به آن نیست. بیشتر کارآماده سازی برای داده کاوی که در بخش فرآیند داده کاوی به آن خواهیم پرداخت در زمانیکه یک محیط کامل BI در اختیارباشد انجام شده است.
در حالیکه پتانسیل داده کاوی می تواند عامل جذب مشتری برای یک محیط BI در سازمان شما باشد در واقع ریسک جمع آوری داده ها فقط برای کاوش در آنها این است که این زحمات شما بعد از این عمل واحد از بین می رود.
در واقع دلایل متعددی برای ساختن یک انباره داده ها وجود دارد. درشکل زیر می بینید که چگونه یک انباره داده، داده ها را از چندین منبع ، جمع آوری و به یک شکل واحد از داده ها نمایش می دهد[8] .

شکل 4- 3 : Application focus and subject focus

این شکل نشان می دهد که تمرکز از روی کاربردهای عملیاتی به موضوعاتی که برای کسب و کار شما مهم هستند ، مثل محصولات ومشتریانتان منتقل می شود.
در کنار داده های یکپارچه ممکن است به چندین دلیل شما نیازمند یک سیستم جداگانه برای اهدافی باشید که به روش های استفاده شما از داده هایتان مرتبط می شود :
* ممکن است Query ها روی سیستم های عملیاتی ، برروی یک مدل داده ای که برای این کار طراحی نشده است اجرا شوند. در واقع بر روی سیستمی اجرا شود که دارای هدف دیگری است.
* Query ها با فرآیندهای تراکنشی که بر روی این سیستم عملیاتی اجرا می شوند برای دسترسی به منابع با هم رقابت خواهند کرد که باعث تاخیرهای غیرقابل قبول در پردازش بلادرنگ می شود.
* داده هایی که دائماً تغییر می کنند مقایسه تحلیل های مختلف را مشکل می سازند.
* اطلاعات بایستی برای شفاف سازی همه روابط در راستای سیستم های کاربردی مستقل با یکدیگر درارتباط باشند.
* داده های عملیاتی بیشتر برای تطابق با سرعت تراکنش ایجاد شده اند تا برای درک انسان.
دسترسی غیررسمی انبوهی از کاربران می تواند تدابیر امنیتی را برانگیزد. توزیع اطلاعات تجاری از بین تمامی این داده ها به توانایی بخش IT در سازمان شما برخواهد گشت.
راه حل ، نه البته ساده ، بسیاری از این مشکلات ساختن یک محیط BI با یک انباره مرکزی می باشد که برای تمامی داده های شرکت شما ، شامل یک تاریخچه یکپارچه از تمامی سیستم های عملیاتی به همراه هر منبع دیگری که می تواند برای شما جالب باشد ، در نظر گرفته شده است.

شکل 4- 4 : A Business intelligence environment

4- 5 تعریفی برای داده کاوی :
در یک تعریف رسمی می توان گفت :
"داده کاوی فرآیندی است برای بدست آوردن اطلاعات معتبر ، کارآمد ، ناشناخته و قابل فهم از داده ها و استفاده از آن برای تصمیم گیری های تجاری ".
اجازه بدهید نگاهی دقیق تر به کلمات مشخص شده در تعریف بالا بیاندازیم :
فرآیند: داده کاوی یک ابزار در یک جعبه نیست که شما به آسانی آن را بخرید و در محیط BI خود آن را اجرا کنید و آن هم به صورت خودکار شروع به تولید ایده های تجاری جالب کند.
معتبر: اطلاعاتی که بدست می آیند بایستی صحیح بوده و از نظر آماری با معنی باشد تا منجر به تصمیمات مناسب شود[9] .
اعبتار به معنای ، درستی و در عین حال کامل بودن است شما نه تنها مشتریان مناسب بلکه تمامی آنها را از پایگاه داده خود می خواهید و این مستلزم آن است که هم داده های شما و هم فرآیند داده کاوی معتبر باشند.
کارآمد : فرآیند داده کاوی ممکن است منجر به نتایجی شود که درست و با معنا هستند اما این دانش بایستی از لحاظ تجاری قابل استفاده باشند. برای مثال اگر نتایج به شما بگویند که فعالیت های مربوط به روش خود را به کانالهای نامحدودی گسترش دهید شما نخواهید توانست مطابق این دانش عمل کنید. همچنین این نتایج بایستی شما را قادر بسازند تا قبل از سایر رقبای خود دست به فعالیتی بزنید.
ناشناخته: داده کاوی قصد دارد تا اطلاعات جدیدی را تولید کند. اگر این فرآیند تنها نتایج بی اهمیت را تولید کند ، منافع تجاری داده کاوی از بین خواهد رفت این خصوصیتی است که بین تصدیق و کشف تفاوت قائل می شود[7] .
قابل فهم : نتایج فرآیند داده کاوی بایستی بوسیله اصطلاحات تجاری قابل توصیف باشند اگر چنین نباشد، این نتایج صرفاً یک مدل آماری خواهند بود که مثلاً برای رده بندی مشتریان از آن استفاده می کنید. این مدل به خودی خود بایستی حداقل ، درکی از شیوه رده بندی مشتریان و عوامل دخیل در این رده بندی داشته باشد. توانایی به دست آوردن این شناخت در برخی کشورها نیازمند مجوزهای قانونی است.
تعریف بالا حداقل ملزومات آنچه ما آن را داده کاوی می نامیم را نشان می دهد. شما می توانید از آن استفاده کنید تا دریابید که آیا داده کاوی به ارزشهای محیط کاری شما می افزاید یا خیر؟
4- 6 کاربردها و عملیات داده کاوی :
در این بخش ما برخی از کاربردهای عملی داده کاوی را به شما نشان می دهیم ، که هر کاربرد از یک یا چند عملیات استفاده می کند. در ابتدا یک دیدکلی از انواع عملیاتی که با آن روبرو خواهید شد و نوع اطلاعاتی که هر کدام از آن پشتیبانی می کنند را ارائه خواهیم داد.
شکل زیر چند مثال از کاربردها ، عملیات و تکنیک های داده کاوی با برخی روابط بین آنها را نشان می دهد.
این شکل ظاهراً کامل نیست اما ایده ای از سه سطحی را که با آن مواجه می شوید بدست می دهد. کاربردها در سطح تجاری ، یعنی در جائیکه تصمیمات گرفته می شوند دیده می شوند.
عملیات بوسیله یک متخصص داده کاوی در سطح اطلاعات ( سطح میانی ) اداره می شوند. سپس یک یا چند ابزار داده کاوی برای پشتیبانی از تکنیک ها برای اعمال بر روی داده ها، همانطور که درسطح پائین شکل نشان داده شده است مورد استفاده قرار می گیرند[5] .

شکل 4- 5 : Aplications , operations and techniques

4- 7 لزوم داده کاوی :
الگوریتم های پیچیده ای که در زمینه داده کاوی استفاده می شوند در 2 دهه اخیر بوجود آمده اند . دولت ایالات متحده از نرم افزار تخصصی داده کاوی که در آن از شبکه های عصبی ، منطق فازی و شناخت الگو ها استفاده می شود، برای کشف فرارهای مالیاتی و استراق سمع گروههای خارجی بهره برده است . این ابزار ، تا به حال به دلیل هزینه های زیاد در انحصار موسسات بسیار بزرگ یا تشکیلات دولتی فدرال بوده است .
پیشرفت در جمع آوری اطلاعات علمی ( برای مثال از حسگرهای دور یا ماهواره های فضایی ) ، فرآیند بارکدگزاری و تراکنش های دولتی باعث افزایش حجم داده ها شده است این مطلب توام با فن آوریهای جدید و بهبود یافته ذخیره اطلاعات و استفاده وسیع از سیستم های مدیریت پایگاه داده و فن آوری انبارکردن داده ، باعث افزایش باور نکردنی اهمیت داده ها شده است . پروژه پایگاه داده کدژنتیک انسانی و مطالعا ت فضایی ، در حال تولید حجم ترا بایتی از داده ها هستند .
مشاهده از راه دور تصاویر بوسیله ماهواره و سایر ابزارهای فضایی قابلیت تولید 50 گیگا بایت از داده در هر ساعت را دارا هستند .
چندین عامل در کنارهم باعث شده اند تا داده کاوی را به مهمترین عامل در تصمیم گیری های تجاری تبدیل کنند :
* حجم داده های استفاده نشده در پایگاههای داده بزرگ
* ادغام رکوردهای پایگاه داده برای رسیدن به یک دید واحد از مشتری
* افت شدید در قی مت و کارآیی سیستم های سخت افزاری برای پردازش و ذخیره اطلاعات . بان ک آمریکا در سال 1995 ، 24 دلار برای هر پرس و جو بر روی 800 گیگا بایت از داده ها هزینه می ک رد که این رقم در سال 1985 برابر 430/2 دلار برای هر پرس و جو بر روی 15 گیگا بایت بوده است . ذخیره یک ترا بایت داده 5 سال پیش هزینه ای معادل 10 میلیون دلار داشت که این مبلغ در حال حاضر کمتر از یک میلیون دلار است .
* رقابت شدید در یک بازار در حال اشباع
* قابلیت ساخت ، بازاریابی و تبلیغ و فروش در مقیاس کوچک و بصورت انفرادی،
بازار محصولات داده کاوی در ابتدای سال 1994 در حدود 500 میلیون دلار تخمین زده می شود .
فن آوری داد ه کاوی با محاسبات وسیع بر روی حجم زیادی از داده ها مشخص می شود . مساله اساسی قدرت بالای پردازش است و اصل توازی راه حلی برای داده کاوی قدرتمند است .
به طور واضح یک سیستم متعادل معماری که ورودی / خروجی ، محاسبات و مقیاس بندی را در یک مدل با هزینه مناسب پشت یبانی می کند ، قابل توجه است . دو گزینه ای که در حال حاضر برای معماری های موازی وجود دارد . عبارتند از سیستم های پردازش موازی به صورت حجیم (MPP) و سیستم های چند پردازنده ای متقارن [9] .
4- 8 داده کاوی در مقابل پرس و جو ها در پایگاه های داده سنتی :
تفاوت پرس و جو ها در پایگاه داده سنتی با داده کاوی از آنجا مشخص می شود که این پرس و جوها شامل سوالات ساده ای مثل ( میزان فروش آب پرتقال در سال 1995 در منطقه بوستون چقدر بوده است ؟ ) می شود .
تحلیل چند بعدی ، که غالباً پردازش تحلیلی on line نامیده می شود . به کاربرها امکان پرس و جوهای پیچیده تر ، مثل مقایسه فروش واقعی و فروش برنامه ریزی شده هر منطقه در سال مالی گذشته را می دهد . دوباره در هر دو این موارد تاکید بر این مطلب است که نتیجه ( یا نتایج ) مشتق شده مقدار ( یا مقادیری ) هستند که ا ز استخراج یا محاسبه داده های موجود بدست می آیند . از سوی دیگر داده کاوی با استفاده از الگوریتم های مشخص یا موتورهای جستجو تلاش می کند تا الگوهای قابل درک را استخراج کند و با حرکت در مسیر داده ها قوانین را از این الگوها بدست آوردند .
بوسیله این قوانین یا توابع کاربر می تواند تا تصمیمات ی را در برخی محیط های تجاری و علمی اتخاذ ، مرور و امتحان نمایند .
شرکت ها در یافته اند که از با ارزشترین سرمایه آنها اطلاعاتی است که درباره مشتریان و خریدشان به عنوان نمونه در اختیاردارند . رقابت به طور فزاینده ای به کیفیت تصمیم گیری و بهبود و اصلاح کیفیت تصمیم گیری از تصمیم ها و تراکنش های گذشته ، بستگی دارد . توانایی بهبود دانسته ها در مورد مشتریان و بازارهای فروش ، تجار را قادر می سازد تا خدمات و محصولات بهتری را ارائه بدهد [10] .
برای مثال ، خرده فروشان قادرند تا مش تریان خود را برای فروش بهتر شناسایی کنند و پایگاه داده های با موجودیت های متفاوت را مدیریت کنند . شرکت های مخابراتی می توانند الگوهای درخواست ، روش عمومی و گروههای مختلف مشتریان را پیش بینی کنند ، صورت حسابها را تخصصی کنند و تحلیل های سودمندتری داشته باشند و موسسات مالی می توانند اطلاعات را برای قسمت بندی تولیدات مالی خود ترکیب کنند .
فضاهای تحقیقاتی مرتبط
داده کاوی مورد توجه پژوهشگران زمینه های یادگیری ماشین ، شناخت الگوها ، پایگاه داده ، آمار ، هوش مصنوعی ، تحصیل دانش برای سیستم های خبره و به تصوی رکشیدن داده ها است . بیشتر الگوریتم ها و تکنولوژیها نیز از این رشته ها مشتق شده اند . اساس زیر بنایی این رشته ها ، استخراج دانش یا الگوها یی از اطلاعات درون یک پایگاه داده با حجم زیاد است . محیط شناخت الگو ( عملیات پردازش و ارزیابی الگوها برای متناسب ش دن با مجموعه مشخصی از داده ها ) و یادگیری ماشین ( زیر مجموعه AI مرتبط با مشتقات کامپیوتری ازمدلهای دامنه ای که بر اساس پارادیگمز های بازنمایی معرفت در AI مشخص شده اند ) با استفاده از تئوری و الگوریتمهایی مورد بررسی قرار می گیرند که همانند روشهای داده ، کاوی ، مدلها و الگوهای مختلف را استخراج می کنند . در واقع کاربرد و بهره گیری این تئوری ها و الگوریتمها در داده کاوی ، یافتن الگوهای ویژه ای است که به تصمیم گیرندگان در پایگا ههای وسیع داده ها ، کمک می کند. اکثر روشهای داده کاوی برای مدل سازی و کنترل اطلاعات noisy به کمک روشهای آماری می آیند
کشف ماشینی ، زیر مجموعه ای ازAI است که در حقیقت روشهای شناسایی را توسعه داده و در ضمن سیستمهای مرتبط با آن نیز در حمایت از عملیات پردازش داده کاوی کارآیی دارد [5] .
محدوده تحقیقاتی دیگر ; انبار کردن داده ها است که با جمع آوری و پاکسازی داده ها ی تراکنشی برای عملکرد بازیابی on – line مستقیم ) مورد بررسی قرار می گیرد . آنالیز چند بعدی داده ها با ابزار پردازش تحلیلی ) on-line یکی از روشهای آنالیز انباره های داده است .
فن آوری داده کاوی
اهداف اصلی داده کاوی ، در چهارچوب پیش بینی و توصیف ، تعریف شده است در " پیش بینی " از متغیرهای موجود در پایگاه داده ها به منظور پیش بینی مقادیر آتی یا نا معلوم سود و بهره وری ، استفاده می شود . "توصیف " بر روی مقوله یافتن الگوهایی متمرکز است که به توصیف د اده و ارائه متعاقب آن ها برای تفسیر کاربر می پردازد . میزان اهمیت نسبی دو مقوله مذکور ( توصیف – پیش بینی ) بر اساس سیستم داده کاوی مورد استفاده ، تغییر می کند . این اهداف از طریق الگوریتمهای متعددی ، حاصل می گردد . الگوریتمهای مذکور با روشهای داده کاوی مختلفی مرتبط هستند .
الگوریتمهای داده کاوی
الگوریتمهای داده کاوی متعددی وجود دارد که برای حل مشکلات مشخص و یا کسب اهداف مختلف مورد استفاده قرار می گیرد . این الگوریتمها در قالب قواعد انجمنی ، طبقه بندی ، الگوهای زنجیری ، گروه بندی شده اند. بخش اصلی قواعد انجمنی نامبرده ، ی افتن کلیه گروهها است بطوریکه در آنها وجود یک مجموعه از آیتمها در یک تراکنش دال بر وجود سایر آیتمها باشد . طبقه بندی یا ایجاد مشخصات کلی ، مشخصات و شرح حال گروههای مختلفی را توسعه می دهد . الگوهای زنجیره ای گروهی از این الگوها را که با حداقل محدودیتهای مشخ ص شده کاربر ، مواجه است ، مشخص می کند . گروه بندی ها ، یک پایگاه از داده ها را به زیر مجموعه ها یا دسته ها ، تقسیم می کند [7] .
4- 9 الگوریتم های انجمنی :
این الگوریتم انجمنی ، دارای کاربردهای متعددی از جمله در سوپر مارکت ، طرح ریزی موجودی ها ( سیاهه ها ) و قفسه ها ، ارسال نامه های پیوست ی در روند بازاریابی مسقیم و نیز طراحی روند تبلیغاتی فر وش ، می باشد . برای مثال ، قاعده انجمنی از داده کاوی یک پایگاه داده تراکنشها ، (از طریق اسک ن بار کد ) ، یک سبد خرید و یا لیستی شامل مجموعه ای از اقلامی است که توسط یک مشتری در یک بار خرید از یک مغازه ، تهیه می شود . قانون مذکور می تواند به شرح ذیل باشد .
75 درصد از مشتریانی که نوشابه می خرند چیپس ذرت هم می خرند .
عدد 75 درصد به ضریب اطمینان ، مقیاسی از قدرت ( توان ) پیش بینی قانون ، باز می گردد .
اقلام سمت چپ نوشابه است . این در حالی است که چیپس به عنوان اقلام سمت راست قانون معرفی شده است . الگاریتم تعداد زیادی از این قوانین را ارائه داده و این به خود کاربر بستگی دارد که زیر مجموعه قوانینی را انتخاب کند که در ارزیابی سطوح بالاتری از اطمینان باشد . در ضمن کاربر می تواند درصدی از لیستها سبد خرید را که از این قانون تبعیت می کنند، انتخاب کند . امکان وجود مجموعه های متعددی از جمله موارد ذیل نیز وجود دارد [6] .
65 درصد از مشتریانی که نوشابه ، چیپس می خرند ، سالسا هم می خرند
برای کاربر تعیین این مطلب حائز اهمیت است که آیا فاکتورهای متعددی از ارتباطات تصادفی و اتفاقی ( فروش نوشابه و چیپس ) وجود دارد و آیا ارتباطات ناشناخته اما پر اهمیتی ( فروش سالسا) وجود دارد .
مطلب مهم و جالب توجه این است که یک سوپر مارکت چگونه می تواند میزان فروش سس تند مکزیکی را افزایش دهد ؟ چنانچه تبلیغاتی پیرامون فروش محصول پپسی انجام شود ، چه اتفاقی می افتد ؟ بر عکس ، چه اقلامی باید با یکدیگر در یک قفسه قرار بگیرند . فهرست اقلام مرتبط باید متعاقب یکدیگر تهیه شوند.
طبقه بندی و یا تهیه مشخصات کلی
برای مجموعه ارا ئه شده ای از رکوردها با ویژگی های مرتبط و مطابق با آن ، یک مجموعه از برچسبها ( معرف گروههای مختلف رکوردها ) اختصاص یک بر چسب برای هر رکورد و عملکرد طبقه بندی و نیز مجموعه ای از مدارک بر چسب خورده مورد بررسی قرار گرفته و ویژگی های رکوردها برای هر گروه ارائه می گردد . برای مثال ، در تحلیل اعتبار ، شرکت ، رکوردمشتریان را شامل تعدادی از تو صیفگر می باشد در اختیار دارد . برای یک مشتری با تاریخچه اعتباری کاملاً شناخته شده ، مدارک مشتری با برچسبهای عناوین عالی ، خوب ، متوسط یا ضعیف مشخص شده است [8] .
قانون گروه بندی می تواند به قرار ذیل باشد :
" مشتریانی با سابقه اعتباری عالی نسبت بدهی / سهم مالکیت ( دارایی خالصی ) کمتر از 10 درصد دارند"
این قانون برای طبقه بندی مجموعه های جدید داده ها ، مورد استفاده قرار می گیرد . مثال دیگر بازاریابی هدف خوا هد بود هر شرکتی که بخ واهد نامه های تبلیغاتی خود را ارسال کند ، از لیست ارسال نامه هایش یا نمونه خریداری شده از بازاریابی پایگاه داده ها ، استفاده خواهد کرد . لیست مذکور در بر گیرنده پاسخهای ارسالی به نامه های پیشین بوده و با استفاده از یک تولید کننده پروفایل ( ارائه دهندگان مش خصات کلی ) ، گروه بندی و یا پروفایلی شکل گرفته و توسعه می یابد که خصوصیات مربوط به افرادی که به نامه های ارسالی پیشین پاسخ داده اند را ، مشخص می کند . لیست این نامه ها به نحوی فیلتر می شوند که موا رد تبلیغاتی برای کسانی که با مشخصات پروفایلها منطبق و مطابق هستند ، مورد توجه قرار می گیرند . علاوه بر بازار یابی هدف و تائید اعتبار ، ایجاد پروفایل برای نامه های ضمیمه و تعیین درستی برخورد با مشتری ، مورد استفاده قرار می گیرد .
الگوهای متوالی
این تکنیک متوجه خریدها و یا کلیه اتفاقاتی است که در یک دوره زمانی متوالی به وقوع می پیوندد . برای مثال ، یک خرده فروش احتمالاً به این مطلب پی برده که مشتریانی که تلویزیون خریداری می کنند ، 60 درصد مواقع دوست دارند (تمایل دارند ) دوربین ویدیویی دستی 8mm را نیز خریداری کنند .
60 درصد از خریداران تلویزیون ، تمایل شدیدی به خرید دوربین ویدیویی 8mm دارند
یک قانون مشابه را می توانیم به شرح ذیل بیان کنیم :
90 درصد مواقع ، هر زمان فروش نوشابه افزایش پیدا می کند ، فروش چوب شور نیز افزایش پیدا می کند
این آمار به شکل گسترده ای بر روی طرح فروشگاه تاثیر گذاشته و در ضمن مشخص کننده و شناساننده مشتریانی است که می توانند هدف اقدامات تبلیغاتی فروش دوربینهای ویدئویی دستی باشند . البته این در شرایطی است که مشتریان مذکور در طول 3 ماهه گذشته ، دستگاه تلویزیون خود را خریداری کرده باشند . این نوع از الگ وریتم به خصوص برای شرکتهای تولیدکاتالوگ و شرکتهای بزرگ سرمایه گذاری مالی مناسب است که می توانند توالی حوادث و اتفاقی را که بر روی قیمت های ابزارهای مالی تاثیر گذار است را ، آنالیز نمایند .
دسته بندی یا گروه بندی کردن
این روش پایگاه داده را در قالب گروهها یا زیر مجموع ه هایی مجزا طبقه بندی می کند . این کار از طریق روشهای آماری و یا با استفاده از روشهای تولید عصبی و سمبولیک نظارت نشده استقرایی ، انجام می شود . روشهای اخیر با توجه به نوع صفات خاصه ای که می پذیرند ( عددی ، اسمی و اشیای ساختاری ) ، نمایش دسته بندی و سازمان این دسته بندی ( به صورت سلسله مراتبی یا لیست مسطح ) متمایز می شوند . این روش جدا سازی و گروه بندی در راستای بررسی مصرف کننده ، توسعه یافته است . برای مثال یک پرسشنامه تحقیقاتی شامل 25 سوال چند گزینه ای از طریق "پرسش" ، تحلیل می شود .
برای مثال 35 درصد پاسخ B را برایپرسش 1 و … . چالش ایجاد شده ، آنالیز این پرسشنامه به عنوان مجموعه ای از 25 نمونه سوال است که هر یک توسط یک مصرف کننده مجزا تهیه و ارائه شده است . این فن آوری ، مصرف کنندگان را بر اساس الگوهای پاسخ آنها تقسیم بندی خواهد کرد . بنابراین با ایجاد یک مجموعه از گروههایی که دارای حداکثر شباه تها و تفاوتها میان آنها می باشد، این عملکرد انجام می شود . برخی از موارد استفاده در تحلیل پایگاه داده به میزان توافق در استفاده از کلمات کلیدی ، آنالیز متن برای مفاهیم ، شناسایی و انواع مصرف کنندگان در تحقیقات آنها و یافتن مقالات تحقیقاتی مرتبط ، بر می گردد.
4- 10 تکنیکهای مرتبط با داده کاوی :
تکنیکها و ابزارهای متعدد ی به عنوان ابزارهای داده کاوی مورد استفاده قرار گرفته اند . این تکنیکها و ابزارها ، روش قابل توجهی را در داده کاوی ارائه می دهد . برای مثال ، المان او لیه داده کاوی شامل ذخیره و قابلیت دستیابی عناصر داده ای در تراکنش های online برای استفاده از ابزارهای پیشرفته می باشد . در مرحله بعدی خلاصه ای از محاسبات انجام شده در سطح اولیه تهیه و ارائه می شود . این سطح شامل عملکرد پردازش تحلیلی مستقیم و پا یگاه داده چند بعدی و نیز کاربرگه های آنالیز است . روند پردازش تحلیلی مستقیم شامل سیستمهای آماری چون SASTM و SPSSTM می باشد [7] .
هدف از وجود چنین سیستمها یی شناسایی الگوها و روشها با استفاده از مدلهای آماری چون مدلهای خطی و غیر خطی ، تعریف شد . چنین سیستمهایی د ر آنالیز های هدایت شده ای بر اساس نتایج بدست آمده از داده کاوی ، به نتیجه خواهند رسید . سیستمهای تولید گزارش با استفاده از الم انهای سیستمهای DSS و سیستمهای اجرایی اطلاعات از تصمیمات اتخاذ شده ، حمایت و پشتیابی می کنند . با این حال ، با داده کاوی ، تاک ید و تمرکز اصلی بر روی استفاده موثرتر از این سیستمها خواهد بود . استفاده از کاربرگهای چند بعدی و پایگاه داده ها برای نظریات خلاصه ارائه شده از داده ها در چند بعد ، هر چقدر هم که معروف و مشهور باشند ، نیازمند فرمول بندی و بازنگری توسط ک اربر دارند .
این ابزارهای داده کاوی front – end می توانند گزارشات را بخش بخش و خرد کنند تکنیکی که محور اصلی یا نقطه اتکا نام دارند ، مستلزم جدول بندی ها و جدا سازی از طریق در اختیار گرفتن یک ویژگی یا موضوع است . آنالیز چند بعدی روشی از بررسی مجموع داده ها است که به عنوان مقیاسهایی ( برای مثال فروش و هزینه های تبلیغات ) در مجموعه ای از ابعاد مثل محصول ، مارک ، تاریخ فروش ، منطقه و … نام گذاری شده است . پایگاه چند بعدی داده ها ، معمولاً شامل 3 نمونه فرضی می باشد . ابعادی – مشابه با موضوعات مطرح شده در یک جدول ، مقیاسها – مجموع محاسباتی که مورد بررسی قرار گفته اند – سلسله مراتب – ساختار موجود را در برخی ابعاد تنظیم می کند برای مثال ( ماه یا سال ) در واقع سلسله مراتبی است که بر اساس واحد زمان تعیین شده است . فن آوری ها ی داده کاوی تحلیل اتوماتیکی را جدا خواهد کرد که می تواند میزان جستجوی داده ها را افزایش داده و توسط این ابزارهای چند بعدی نیز حمایت می شود [9] .
4- 11 ابزارهای داده کاوی :
هر الگوریتم داده کاوی از 3 ترکیب کلی تشکیل شده است . بازنمایی مدل ، ارز شیابی مدل و روش جستجو . به طور خلاصه می توانیم این طور بگوییم که مدل باید معرف محدودیتها و فرضیه های انعطاف پذیر باشد به نحوی که الگوها واضح و آشکار شناسایی و کشف شوند . مدل مذکور باید دارای اعتبار قابل پیش بینی باشد که البته می تواند بر اساس اعتباری متقابل پایه ریزی گرد د . عملکرد جستجو باید ملاک ارزیابی را که از روی داده ها ی مشاهده شده و بازنمایی مدل ارائه شده است ، بهینه نماید . ابزارهای کاوش یا موتورهای جستجو معمولاً برنامه ها ، طرحها یا عامل های موثر ماشینی هستند که با برخی اشکال هوش مصنوعی در پایگاه داده های رابطه ای ترکیب می شوند . این عامل ها ، الگوهای از پیش تعریف شده ای را مشخص کرده و کاربر را از تغییرات ایجاد شده آگاه می کنند . برخی از انواع ابزارها که در در داده کاوی مورد استفاده قرار می گیرند عبارتند از: شبکه های عصبی ، درخت های تصمیم گیری ، تجسم داده ها و قوانین استقرایی [8] .
شبکه های عصبی
این شبکه ها ، مجموعه هایی از گره های مرتبط با ورودی ها ، خروجی ها و عملکرد پردازش در هر گره می باشند .
تعدادی از لایه های مخفی پردازش مابین لایه های ورودی و خروجی قابل مشاهده، وجود دارند . مدل عصبی باید شبکه ای را بر روی یک مجموعه داده های در حال آزمایش ، مورد بررسی و امتحان قرار داده و از آن برای انجام پیش بینی های مختلف استفاده کند . شبکه های عصبی نوعاً بر روی بسیاری از پایگاههای داده مورد آزمایش و امتحان قرار نمی گیرند اما در این راستا از روشهای مناسب نمونه برداری مورد استفاده قرار می گیرند . شبکه می تواند میزان صحت و دقت معمولی را در مجموعه کوچک و متوسط داده ها ، ایجاد کند . مشکل موجود در شبکه های مذکور به عدم تشریح نتایج بدست آمده ) عملکرد جعبه سیاه ( باز می گردد . چنین مشکلی ، اطمینان ، پذیرش و کاربرد نتایج را ، با مانع مواجه می کند . با این حال ، برخی تولیدات شبکه های اختصاصی عصبی وجود دارد که مدل عصبی را به مجموعه ای از قوانین قابل فهم تبدیل می کند . این کاربرد غالباً برای شناخت الگو به خصوص در دست خط و تفسیرالکتروکاردیوگرام ها به کار گرفته می شود
4- 12 درخت های تصمیم گیری :
این کاربرد ، داده ها را بر اساس مقادیر متغیر ها ، مجزا می کند . این روش شناسی از گزاره های سلسله مراتبی "اگر – پس آنگاه " برای طبقه بندی داده ها استفاده می کند . حسن این روش سرعت بالاتر و قابل فهم تر بودن آن نسبت به شبکه های عصبی می باشد. با این حال ، مانع اصلی در بهره گیری از این کاربرد این است که نوع داده ها باید کاملاً گروهی و فاصله دار باشد . داده های متداوم نیز باید در این دو نوع داده ها ضبط و بایگانی شده و سپس امکان مخفی نمودن فواصل مشخص در داده ها ف راهم گردد . نظریات ارائه شده می تواند پیچیده باشد به خصوص اگر فهرست شرایط نیز طولانی باشد .
ایجاد و استقرای قوانین
مجموعه ای از مجموعه های غیر سلسله مراتبی تولید خواه ن د شد که بعدها برای پیش بینی مقادیر و ارزش آیتمهای جدید داده ها ، مورد استفاد ه قرار خواهد گرفت . کاربردهای خاص نرم افزار ، به ارزیابی ، تصحیح و پاکسازی مجموعه قوانین منجر می شود . این کار با انتخاب به ترین قوانین برای پیش بینی انجام شده ، ازهم پوشانی قوانین با یکدیگر اجتناب می کند . قوانین مذکور برای پیش بینی مواردی که نسبت به decision trees عمومی تر و قدرتمند تر می باشد ، مورد استفاده قرار می گیرند . این کار با استفاده از جنگلهای قابل پیش بینی ) با وجود بسیاری از درختهای تصمیم جزیی ( محدوده مقادیر را وسعت می بخشد . این مدلهای قابل پیش بین ی کاملاً مشخص و آشکار بوده و توض یح کاملی را برای پیش بینی های آنها ارائه می دهد . برای مثال یک شرکت کارت اعتباری ، احتمالاً دارای رکوردها یی از مشتریان خود است که هر کدام از آنها شامل ویژگی ها و تو صیف کن نده هایی نیز می باشد . با سابقه شناخته شده کارت اعتباری، مدارک و اسناد احتمالا در بخشهای خوب ، متوسط یا ضعیف ، مجزا و بر چسب گذاری می شوند . یک تکنیک استقر ایی می تواند یک مدل سمبلیک گروه بندی را خلق کند که در واقع یک قانون را ارائه می دهد : " اگر صاحب ) دارنده ( کارت معادل و یا کمتر از 25000 دلار بدست آورد و ما بین 45 تا 55 سال هم سن داشته باشد و در یک آدرس مشخصی هم زندگی کند )آدرس پستی نیز داشته باشد ( ، در واقع دارنده کارت ، یک هدف مناسب خواهد بود . "
تجسم داده ها
این فن آوری ، این امکان را به تحلیل گر می دهد تا درک شهودی و عمی ق تری از داده ها به دست آورد . این کار از طریق ارائه تصویری از کاربران برای اتومات نمودن نسبی عملکرد پردازش انجام می شود . برای مثال ، یک تصویر گرافیکی معرف 4 متغیر است که مقادیر زیادی از اطلاعات را به روش مختصری عرضه کرده و گروهی از داده ها را نیز کاملاً مشخص و برجسته می نماید [6] .
انباره داده ها
اولین و مهمترین مرحله در فرآیند داده کاوی ، سازماندهی مقادیر )حجم ( بالایی از داده ها در برخی اشکال گروهها ، به منظور تسهیل عملکرد بازیابی ، ت وصیف و ذخیره توسط کاربر نهایی ، تعریف شده است . جمع آوری داده ها برای داده کاوی در واقع بالنفسه ، پردازش دشواری است . معمولاً داده ها در قالبی آرشیو بندی شده ، که برای استخراج کاملاً نا مناسب هستند ، ذخیره می شوند . ابزارهای مخصوصی که برای ذخیره و انبار داده ها استفاده می شوند شامل 2 نوع است : انتقال داده ها و پاکسازی یا scrubber ها و ابزارهای مخصوصی د ستیابی کاربر نهایی به داده ها . ابزارهای نام برده این اطمینان را ایجاد می کنند که ذخیره داده ها در طول زمان ، دارای ثبات ، صحت ، کارآیی و سودمندی بالا و هزینه های اجرایی پایین می باشند . یکی از مهمترین فاکتورهای مطرح شده در انبار ه داده ها این است که داده ای موجود در سطوح مختلفی از خلاصه سازی ، ذخیره می شوند . به این ترتیب دستیابی ، سریعتر انجام می شود . البته این قبیل داده ها برای داده کاوی نیز مورد بهره برداری قرار می گیرند . یکی از پیش شرط های مطرح شده برای یک زیر ساختار مناسب سیستم برای عملیات سریع loading و parallelism موازی سازی ) وجود تجهیزات ( I/O یا bandwidth بالا است . که وجود جریانات موازی دل یل مقرون به صرفه بودن آن است parallelism قابل اندازه گیری ، در حقیقت فن آوری مهم و حساسی انباره داده ها می باشد . فرآیند استخراج داده ها زیر مجموعه های مفید و سودمندی از داده ها را برای داده کاوی ، در اختیار کاربران قرار می دهد . نمونه برداری و انتخاب موارد متعدد احتمالاً اندازه داده های استخراج شده را محدود می نماید . این در حالی است که مجموعه موجود ، داده های وابسته را فشرده می نماید . پاکسازی اطلاعات ، اعتبار داده ها و به حداقل رساندن مقادیر زائد را تضمین می کند . عملیات نرمال سازی ، احتمالاً برای کاهش مقادیر زائد داده ها ، اجرا می گردد اما گاهی استفاده از overlays مانند دموگرافیکها به خصوص برای تحقیقات بازاریابی، . به نحوی که بتواند سرعت دستیابی به اطلاعات را افزایش دهد ، ضروری به نظر می رسد . بزرگترین مشکل در ذخیره سازی داده ها ، کیفیت داده ها می باشد [5] .
برای اجتناب از )ورود و خروج GIGO ( garbage داده ها باید دارای حداقل مقادیر مجهول باشند . چرا که چنین امری بر روی نتایج حاصل از عملکرد داده کاوی تاثیر گذار خواهد بود . کلید اصلی ، وجود بازنگر ی و کنترل داده ها است . در شرایطی که این بازنگر ی و کنترل به عملکرد ذخیره داده ها الحاق گردیده و بررسی رسمی داده ها را در طول داده کاوی مقدماتی فراهم کند ، صحت اطلاعات تضمین خواهد شد [10] .
4- 13 داده کاوی – یک مدل و نمونه خلاصه :
بخشهای قبلی ، اجزا فرآیند داده کاوی را مشخص می کند . فن آوریهای داده کاوی به روشی کاملاً صحیح ، نوعی از شناسایی را اجرا می کند . نتایج حاصل از اجرای فن آوری مذکور به تمرکز تحلیل گر ، کمک می کند . این امر به نوبه خود میزان شناسایی و استخراج فرصتهای بعدی را ، افزایش می دهد . در شرایط عادی ، دسته بندی و فرموله کردن یک مدل پیشگویی توسط Query های پایگاه داده ها ، تجسم سازی و پسروی خطی ، انجام می شود . نقطه ضعف این مقوله این است که query های دستی پایگاه داده ها ، ناکافی و غیر سودمند بوده و این امکان وجود دارد که زیر مجموعه های داده ها غالباً ، نادیده گرفته شوند . استفاده از فن آوری های دسته بندی داده کاوی می تواند کیفیت زیر مجموعه های شناسایی شده داده ها را خودکار و اصلاح نماید . اگر چه مدلهای خطی پسرو احتمالاً کاملاً درست و بی نقصی می باشند ، اما تفسیر دشوار بوده و پیش بینی ها نیز ممکن است قابلیت توصیفی نداشته باشند . در عوض فن آورهای کنترل شده استقرایی مانند شبکه های عصبی یا decision trees ممکن است مورد استفاده قرار گیرند [9] .
کاربردهای متداول تجارتی
برای ایجاد رقابتی موثر ، صاحبان تجارت باید قادر باشند تا منابع داده های آنها را به خوبی شناسایی کنند .
شناسایی و تشخیص الگوها و تصمیم گیری های به موقع به تاج ران این امکان را می دهد تا مرزهای رقابتی را تعیین و حفظ کنند . هدایت کنندگان / راهبران تجارت های مختلف در بخش 1- 7 مورد بحث قرار گرفته و فن آور ی داده کاوی را به عنوان کلید نهایی برای بهره برداری داده های عملی و نیز کلیه انواع داده های قابل استفاده ، ارائه داده اند .
داده کاوی هم اکنون برای جستجوی پاسخها جهت به حداقل رسان دن هزینه های تولید ، مدیر یت فهرست اقلا م و نیز ارائه نظریات تجاری جدید در صنایع ذیل ، مورد استفاده قرار می گیرد : خرده فروشی ، بازاریابی ، بانک داری ، دارایی و امور مالی ، ساخت ، مراقبتهای بهداشتی ، بیمه و ارتباطات مخابراتی – این بخش موقعیت کنونی کاربردهای تجاری داده کاوی را نشان می دهد . در این بخش همچنین مشخصات محققان اصلی در مقوله داده کاوی ارائه شده است .
در این بخش به فروشندگان اصلی و نتایج حاصل از اعمال محدودیتهای موجود در روشهای داده کاوی کنونی اشاره شده است
کاربردهای معمول در تجارت
بخش فروش ، پیش بینی روند تجارت ، بازرگانی و معامله تضمینی ، کنترل کیفیت ، بانکداری و محدوده های غیر تجاری بخشهای کارگزینی از جمله صنعت نفت ، علوم ، پیشگیری از آتش سوزی ، شناسایی ساختار شیمیایی ، کشف جرائم و تشخیص بیماری ، کارآیی دارد . تاکید اصلی ما در حال حاضر ، بر روی سازماندهی ) سازمان – تشکیلات ( انبارهای داده ها است . این در شرایطی است که مبحث مقدماتی ما پیش از داده کاوی بر روی این مقوله مطرح می شود که داده های درشت آمده باید از هر گونه ناهنجاری و بی قاعدگی پاکسازی شوند . اکثر روند آنالیز داده ها شکل گرفته و به وجود آمده ، در واقع تکمیل عملیات انبارکردن و ذخیره داده ها است . خلاصه بندی داده ها از طریق ذخیره و انبارکردن آنها به انجام تحقیقات بیشتر پیرامون آنها و انجام آنالیز های متعاقب و بعدی می انجامد . انبار نمودن داده ها ، ارائه دهنده نظریه قابل درکی پیرامون آنها بوده و البته بیشترین سود و منفعت حاصل دستیابی به نظریات و عقاید فرصت طلبانه ای است که بر خلاف نظریات بدست آمده از یک گزارشگر کاملاً معمولی و عادی ، ارائه می گردند .
این قبیل نظریات در حقیقت از درون اطلاعات خلاصه شده ، استخراج می شوند . تحقیق ات بیشتر برای توسعه نظریات دیگر ) بیشتر ( انجام می شود . این بخش ، نمونه های متعددی را از داده کاوی در دنیای حقیقی پیرامون ما ، ارائه می دهند [5] .
امور مالی و بانکداری
بانک های آمریکایی در حال حاضر ، نظریات تشریح شده دموگرافیکی را از عملکرد های بان کداری و دارایی های مالی گروههای منتخبی از مشتریانشان ، تهیه و ارائه کرده اند . با انجام تحقیقات متعدد ، داده های G 800 بایتی ، به طور متوسط عرض 30 ثانیه ، ذخیره می شود . این رقم در مقایسه با 3 ماه انتظار برای دستیابی به داده ها از نوارهای مغناطیسی کامپیوترهای بزرگ قدیمی و توزیع به درخواست کنندگان ، اعلام شده است . در اینجا سیستم داده ها را از کل بانک بیرون کشیده و 30 واحد ) بخش ( تجاری آن در پایگاه داده ها می توانند به 1200 کاربر روزانه 250 تحقیق کاملاً پیچیده را سرویس دهی کند . سرویسهای امنیتی ) گیلمان ( از داده کاوی برای تشخیص این مطلب استفاده می کنند که چگونه بازارهای مالی امنیت به بی ثباتی بخشهای تجاری مختلف ، واکنش نشان می دهند . برای مثال ، روابط میان مبادلات میان ین ژاپن و بازار ) اوراق عرضه ( قرار دادهای دولتی چگونه است ؟
بانک تجاری سلطنتی کانادا در تورنتو مستقر می باشد . کانادا از سیستم SAS به عنوان یک انبار ذخیره داده ها استفاده کرده و اطلاعات مدیریتی را برای تصمیم گیری در CIBC ارائه می دهد . آنالیزهای در حال استخراج شامل مدل بندی آماری و انجام مشاوره های متعدد در ا رتباط با الگوهای داد و ستد مشتری در شاخه ها و انشعابات مختلف می باشد هدف از این کار کمک به روند برنامه ریزی time – stamped cash withdrawal در انشعاب و ماشینهای خودکار بانکداری برای تنظیم سطوح حفظ و نگهداری پول رایج ، الگوهای داد و ستد ، محصولات فروخته شده و ترکیب نسبی از محصولات برای طراحی استراتژی های بازاریابی و معیارهای اجرایی و عملی ، تعریف شده است . داده ها در سطحی ثابت نگهداری شده و سپس در سطحی متناسب برای انجام تحقیقات ویژه ، خلاصه بندی می شود [7] .
فروش عمده و جزئی
سرویس تبادلات ارزی نیر وی هوایی و ارتش ، الگوهای فروشی را بر اساس دموگرافیکهای مشتریان آنها ، تعیین می کند . برای مثال AAFES از داده کاوی اتومات برای پیش بینی این مطلب استفاده می کند که هر زن در طول سال چه مقدار پول خرج می کند . با در نظر گرفتن سن هر زن تحت بررسی ، سطحی دستمزد سالیانه و نیز تعداد افراد تکفل او ، می توانیم به پاسخ سوال بالا دست یابیم . این سطح از جزئیات به AAFES کمک می کند تا آگهی های تبلیغاتی و فروش محصولات خود را کاملاً مورد توجه قرار داده و در این میان مینای مناسبی از مشتری ها را نیز در نظر بگ یرد . وال – مارت در اوایل سال 1989 به این واقعیت پی برد که فرآیند موازی پردازش و داده کاوی برای اطلاعات تجاری از درون پایگاه داده های terabye 6 آن ، کاملاً مناسبند . بنابر این ، این مورد ، بخشی از استراژی جدید تجاری شد . روزانه 2300 تحقیق کا مل و پیچیده SQL واکسهای وازی پردازش در اداره عملیاتهای مرتبط با پایگاه داده ها ، انجام می شود
جریانات داده ها برای موازی سازی بخش بندی شده ، تولید شده و احتمال قسمت بندی و مجزا شدن آنها توسط اپراتورها وجود دارد .
عملیاتهای کارتهای اعتباری
روزانه 12 میلیون پردازش بین المللی فرآیندهای ) مستر کارت (پردازش – فرآیندهای مستر کارت در سطح بین المللی ) انجام شده و از داده کاوی برای استخراج انواع متفاوتی از اطلاعات آماری پیرامون دارندگان و صاحبان کارتهای آن ، استفاده می شود . به این ترتیب ، امکان بررسی طبقات مختلف صاحبان کارت فراهم شده و این مطلب که آنها چگونه از کارتهای خود برای توسعه اقدامات ویژه و شناسایی هر گونه کلاهبرداری استفاده می کنند نیز ، مورد تجزیه و تحلیل قرار خواهد گرفت

خدمات درمانی
همانند مستر کارت ، شرکت خدمات درمانی U.S از blue beu ، امکانات آنالیز اطلاعات را در اختیار شرکای تجاری خود و سایر بخشهای مرتبط ، قرار می دهد . در چنین شرایطی از ابزارهای چند بعدی برای ایجاد انبارهای داده هایی استفاده می شود که بیمارستانها و سایر ارائه دهندگان خدمات درمانی می توانند ا ز آنها برای اندازه گیری و ارزیابی عملکردشان بهره ببرند [9] .
بیمه
شرکت بیمه Metrohealth از Roanoke ، VA از فهرست مصور ارائه دهندگان خدمات درمانی بر روی یک CD-ROM برای کمک به نمایندگان آنها استفاده می کند . با برقراری ارتباط با 200000 بخش از داده های انبار داده ها با سیستم جغرافیایی MapInfo ) اطلاعات نقشه برداری ( ، Metrohealth ، CD را ساخته و ارئه داده که البته شامل داده هایی برنامه ریزی شده ) طرح ریزی شده ای ( برای تحقیقات جهت یابی شده از نقطه نظر جغرافیایی نیز می باشد . به نماینده ای که به ی ک شهر می رسد ، نقشه کدبندی شده رنگی ارائه می شود که البته نشاندهنده میزان جمعیت ارائه دهندگان خدمات درمانی نیز می باشد .
محققان کلیدی ) اصلی ( / گروههای تحقیقاتی
محققان اصلی در جریان عظیمی از مبادله اطلاعات به محدوده داده کاوی شرکت کرده اند . اکثر این تحقیقات در محیطهای غیر دانشگاهی و از زمانی انجام شده که محققان به پایگاه عظیمی از داده ها در سایتهای کاری خود دست یافته اند [10] .
* Usama Fayyad به همراه تحقیقات مایکروسافت ، و این در حالی است که در لابراتوار Jet Propulsion ، موسسه فن آوری کالیفرنیا بر روی مبحث آنالیز پایگاه بزرگ داده های علمی و کاربردهای صنعتی یادگیری ماشینی متمرکز شده است Co-chaired کشف اطلاعات در کارگاه پایگاه داده ها در 94 – AAAI ، اولین کنفرانس بین المللی در زمینه کشف اطلاعات علمی پایگاه داده ها و داده کاوی
* Gregory Piatetsky – Shapiro ، لابراتوارهایی GTE ، بر روی به کار گیری front – end های هوشمند در پایگاه داده های نا متجانس و توسعه فن آوری های جدید برای کشف اطلاعات در پایگاههای داده های تجاری ، کارکرده اند . 3 کارگاه مقدماتی / اولیه KDD ، بر روی نامه های الکترونیکی نکته خبری مهم KDD سرمایه گذاری و متعادل کرده اند .
* Padhraic Smyth از JPL ، Caltech ، مستلزم شناسایی الگوی آماری و یادگیری ماشینی ، از جمله تئوری و الگاریتمهایی برای آنالیز اتومات دوسویه پایگاه داده های علمی . محدودیتهای متداول
فن آوری داده کاوی ، موقعیت دستیابی وسیع و گسترده به پایگاه داده ها و نرم افزار آنالیز را نشان می دهد . ابزارهای موجود ، دارای قابلیتها و ظرفیتهای تحقیقاتی بسیا ر قدرتمند و نیز امکانات بهتری از فهرست راهنما و دستیابی به داده ها هستند . مانع اصلی در روند عملکردهای تجاری ، هزینه ، زمان و اقدامات موجود در داده کاوی است .
هزینه ، زمان و اقدامات
تنظیم ساختار داده کاوی می تواند هزینه ای بالغ بر صدها تا هزاران دلار در برداشته باشد . ساعات متمادی و نیروی انسانی قابل توجه و زیادی نیاز است و البته از آن جمله ، مراحل پیچیده ای از طرز عمل ) روش کار ( و گزینه های )انتخابهای متعدد (تولید قابل ذکر است . در این میان نیاز شدیدی به پاکسازی طرحها و داده ها احساس می شود . هیچ گونه سیستم قدرتمند مجزایی وجود ندارد که بتواند این کار را انجام دهد . برخی از عملکردهای داده کاوی شامل منحنی های یادگیری نامعقول و پرهزینه ای برای کاربران محاسبه مستقیماً به عمق اطلاعات و دانش و نیز چگونگی عملکرد حقیقی سیستم داده کاوی مرتبط است . نوشتن تحقیقات SQL می تواند حتی با وجود ابزارend windows-based front نیز ، بسیار پیچیده و دشوار باشد . آموزشی و تمرینی وسیع و گسترده ای هنوز برای بسیاری از کاربران ضروری به نظر دوره های می رسد [8] .
4- 14 نرم افزار Low end :
برختی از نرم افزارهای low – end که برای ابزارهای آنالیز انبار داده ها ، مناسب و دردسترس به نظر می رسد ، هزاران دلار در بردارد اما این نرم افزار ها در واقع مدلهای تکه تکه هستند و به عنوان راه حلهای کاملاً موثر و ضروری برای تجارتها و عملیاتهای داده کاو ی مرح نمی باشد . نرم افزارهای نام برده ، ظرفیتها و قابلیتهای تحقیقاتی و عدم ناتوانی آنها را برای اجرای انالیزهای چند بعدی محدود می سازد – پرسیدن سوالات open – ended برای یافتن مجموعه های ما بین آیتمهای داده ها ، امکانپذیر نمی باشد . در مجموع ، تغییرات و سایر جانشینی ها در این سیستمهای نرم افزار کوچکتر ، می تواند به تکمیل و تحقق مسائل منجر شود . بسیاری از روشهای متداول داده کاوی ، حقیقتاً دو سویه نبوده و پیش از کسب اطلاعات و دانش در زمینه یک مسئله در زمینه یک مسئله به جز به روشهای ساده ، به اثبات نمی رسد .
پایگاه بزرگ داده ها
ابعاد بزرگی از پایگاه داده های تجاری معرف مشکلاتی در زمینه یافتن آلگاریتمهای کارآمد و مناسب برای قوانین است . تعدا زیادی از موضوعات ) یاویژگی ها ) نیز نیاز ما را برای یافتن فضایی کاملاً بزرگ ، افزایش می دهد و در مجموع موجب افزایش احتمال وقوع این شانس می شود که الگاریتم داده کاوی الگوهایی را بیابد که در کل و عموماً معتبر نمی باشند . یکی از ویژگیهای پایگاه داده های تجاری ، ماهیت دینامیکی داده های آن می باشد . احتمالاً متغیرات تغییر کرده ، حذف شده یا در طول گذشت زمان به همراه مقیاسها و اندازه های جدید ، بهتر شده و یا افزایش می یابد [5] .
4- 15 فرآیند داده کاوی :
ابتدا بدون تلاش برای بیان تمامی نگرش ها و دیدهای مختلف به داده کاوی یک تعریف وسیع و قابل قبول برای داده کاوی ارائه می دهیم.
تعریف : فرآیند کشف مدلهای مختلف ، خلاصه ها و مقدارهای مشتق شده از یک مجموعه داده را داده کاوی گویند.
در این تعریف کلمه process( فرآیند) بسیار مهم است. حتی در بعضی از محیط های حرف های این باور وجود دارد که داده کاوی استفاده و بکار بردن یک ابزار مبتنی بر کامپیوتر است که با ارائه مسئله م یتوان به سادگی و به طور اتوماتیک به راه حل دست یافت. چندین دلیل برای رد این ادعا وجود دارد. یک دلیل آنکه داده کاوی از یک سری ابزار مستقل تشکیل شده است. دلیل دوم در مدل کردن و نشان دادن مسئله با استفاده از نمادگذاری است. عملاً داده کاوی دارای یک فرآیند تکراری است.
داده ها مورد مطالعه قرار می گیرند ، با استفاده از روشهای تحلیلی مورد بررسی بیشتر قرار می گیرند، در مورد بررسی آنها به روشهای دیگر تصمیم گیری می شود، فرآیند مورد تغییر، اصلاح و دستکاری واقع شوند و دوباره فرآیند به ابتدای کار باز گردد و از یک ابزار تحلیلی دیگر استفاده شود تا شاید بتوان به نتایج بهتر یا متفاوت دست یافت[6] .
این چرخه ممکن است بارها و بارها اتفاق بیافتد
هر روش برای بررسی داده ها از یک منظر متفاوت ، مورد استفاده قرار می گیرد. این نکته بسیار مهم است که مسئله کشف و تخمین وابستگی ها و نتایج از داده یا کشف داد ههای کاملاًَ جدید فقط یک قسمت کاربردهایی است که دانشمندان ، مهندسان و دیگران که قدمهای استاندارد برای نتیجه گیری از داده بر میدارند از آن استفاده می کنند.
روال عمومی و کاربردی برای داده کاوی که از تجربیات بسیار حاصل شده است اینگونه است:
بیان مسئله و فرمول بندی مفهوم
بیشتر مطالعات مدلهای مبنی برداده در یک دامنه کاربردی ویژه اجرا م یشوند . در نتیجه آگاهی و دانش راجع به دامنه کار لازم است در این مرحله ممکن است چندین فرمول بندی مختلف برای یک مسئله واحد موجود باشد . قدم اول تعامل و هماهنگی بین متخصص آن حرفه خاص و متخصص داده کاوی است.
جمع آوری داده
این قدم به چگونگی تولید و جمع آوری داده مربوط میشود. کلاً دو راه برای این کار وجود دارد اولی وقتی است که فرآیند تولید داده در کنترل یک متخصص است که designed experiment نام دارد و دومی وقتی است که فرآیند تولید داده تحت کنترل نیست که Observational Approach نام دارد
یک تنظیم شهودی یعنی تولید داده بصورت تصادفی که در بیشتر برنامه های داده کاوی کاربرد دارد .
پیش پردازش داده
در تنظیم مشاهده ای ، معمولاً داده از پایگاه های داده انبارهای داده یا data mart هایی که موجود هستند جمع آوری می شود پیش پرداخت داده معمولاً دو مرحله است :
1) کشف و حذف outlier ها
Outlier ها داده های غیرمعمول هستند که هماهنگی و همخوانی با مشاهدات انجام شده ندارند. عموماً outliers از اندازه گیری خطاها، کد کردن و ضبط خطاها نتیجه می شوند. که بعضی مواقع به طور طبیعی مقدارهای آنورمال هستند این مسئله به طور جدی مدلی که تولید می شود را تحت الشعاع قرار می دهد. برای مقابله با outliers بطور کلی دو استراتژی وجود دارد.
الف) تشخیص و حذف outliers ها بعنوان قسمتی از فاز پیش پردازش
ب) تولید یک روش برای مدل کردن مقاوم در برابر شرایط غیرعادی که به outliers ها حساس باشد
2) پیش پردازش داده شامل قدمهای زیادی است مثل مقیا سبندی متغیر و انواع encode برای مثال یک ویژگی با محدوده و دیگری در محدوده ( 1000 ، 100- ) که یک وزن و تاثیر مساوی در تکنیک بکار رفته ندارند که اینها روی نتیجه نهایی داده کاوی هر کدام به طور متفاوت تاثیر می گذارند. در نتیجه قویاًَ توصیه می شود که آنها مقیاس بندی شوند و هر دو در یک محدوده وزن قرار گیرند و بعد تحلیلهای بیشتر انجام شود.
این دو نوع از پیش پردازش فقط مثالهایی بودند از تعداد زیاد فعالیتهای پیش پردازش داده در یک فرآیند داده کاوی.
قدمهای پیش پردازش داده نباید کاملاً منتقل از دیگری فازهای داده کاوی در نظر گرفته شوند. در هر تکرار از فرآیند داده کاوی ، تمام فعالیتها، باید مجموع ههای داده ها پردازش شده و جدید را برای تکرارهای بعد فراهم کنند[8] .
تخمین مدل :
انتخاب و پیاده سازی روشهای مناسب داده کاوی وظیفه اصلی این فاز است. میانی آموختن و کشف از داده در بخش های ارائه خواهد شد.
تفسیر مدل و تصویر نتیجه
در بیشتر حالتها ، مدلهای داده کاوی باید به تصمیم گیری کمک کنند. در نتیجه چنین مدلهایی برای مفید واقع شدن باید قابل تفسیر باشند زیرا انسان نم یتواند بر مبنای یک مدل جعبه سیاه پیچیده تصمیم گیری کند
معمولاً مدلهای ساده بیشتر قابل تفسیراند ، اما دقت کمتری هم برخوردارند. در روشهای جدید داده کاوی می توان با استفاده مدلهای چند بعدی به دقت بیشتری دست یافت. مسئله تفسیر این مدلها نیز خیلی مهم است که به عنوان یک کار جداگانه با روشهای ویژه برای رسیدن به نتیجه مطلوب از داده کاوی استفاده می شود. یک کاربر خواهان صدها صفحه نتایج عددی که آنها را نمی فهمد نیست او توانایی خلاصه کردن ، تفسیر و استفاده از آنها را برای تصمیم گیری درست ندارد.
با آنکه عملیات اصلی داده کاوی در فازهای 3 و 4 این فرآیند انجام می شود.
ولی ما باید متوجه باشیم که این دو فاز فقط 2 فاز مهم و پیچیده این فرآیند هستند یک فهم کامل از کل فرآیند برای توانایی کاربرد خود داده کاوی لازم و ضروری است بدون توجه به اینکه از چه روش داده کاوی با چه قدرتی در فاز 4 استفاده می کنیم. به مدل نتیجه دست نخواهیم یافت اگر جمع آوری داده و پیش پردازش آن به طور صحیح انجام نشده باشد یا فرمول بندی مسئله معنی دار نباشد[6] .

شکل 4- 6 : فازهای تفسیر مدل

آماده سازی داده ها
مدل استاندارد ساختمان داد ه برای داده کاوی، مجموعه ای از حالت ها است ، مقادیر بالقوه که Feature ویژگی نامیده می شوند. مشخص هستند و این ویژگیها به صورت واحد برای حالات مختلف اندازه گیری می شوند . معمولاً نمایش ساختمان داده برای مسائل داده کاو ی به صورت جدولی یا در فرم یک رابطه ساده )به مفهومی که در پایگاه داده مطرح است ( صورت می گیرد که در آن ستون ها ویژگی های اشیائی را نشان می دهند که در جدول ذخیره شده اند و سطرها مقادیر این ویژگیها برای یک موجودیت خاص هستند . یک نمایش گرافیکی ساده شده از یک مجموعه داده و خصوصیات آن در شکل زیر آمده است در ادبیات داده کاوی ، ما معمولاً از اصطلاح Sample نمونه برای سطرها استفاده می کنیم.

شکل 4- 7 : نمایش جدولی مجموعه داده

نمونه های داده ای که در سطرهای شکل بالا نشان داده شده از اجزاء اصلی در فرآیند داده کاوی هستند هر نمونه با چندین ویژگی توصیف می شود و برای هر ویژگی مقادیر مختلفی وجود دارد.
ما از دو نوع معمول استفاده می کنیم : عددی و صریح مقادیر عددی شامل متغیرهایی با مقدار اعشاری یا مقدار عددی دو خصوصیت مهم دارند: مقدار آنها دارای یک ارتباط ترتیبی (2<5 ، 5<7 ) و یک ارتباط فاصله ای است. در مقابل متغیرهای صریح که غالباً نمادین نامیده می شوند هیچکدام از این دورابطه را ندارند دو مقدار از یک متغیر صریح یا می توانند مساوی باشند یا نامساوی )آبی = آبی ، یا قرمز ≠ سیاه ( مثالهایی از این نوع عبارتند از رنگ آسمان، جنسیت یا کشور محل اقامت . یک متغیر صریح با دو مقدار را می توان به یک متغیر عددی دودویی با دو ر قم 0 و 1 تبدیل کرد . یک متغیر صریح با N مقدار را می توان به یک متغیرهای عددی دودویی N رقمی، هر رقم برای یک مقدار، تبدیل کرد . برای مثال اگر متغیر رنگ آسمان 4 مقدار، سیاه ، آبی ، سبز و قهوه ای داشته باشد ، می توان آنها را به 4 عدد باینری کد کرد :

کد
مقدار ویژگی
1000
0100
0010
0001
سیاه
آبی
سبز
قهوه ای
جدول 4- 1
تقسیم بندی دیگر برای متغیرها برا ساس مقادیر آنها ، به صورت پیوسته و گسسته است . متغیرهای پیوسته یا با استفاده از یک مقیاس فاصله ای یا یک مقیاس نسبت اندازه گیری می شوند. تفاوت بین این دو مقیاس در تعریف نقطه صفر است . نقطه صفردر مقیاس فاصله ای به صورت دلخواه تعریف می شود ، لذا مقدار صفر نشان دهنده عدم وجود مقدار اندازه گیری شده نیست )مثل درجه فازنهایت( در مقابل یک مقیاس نسبت ، دارای صفر مطلق است مثل طول ، ارتفاع ، یا میزان حقوق. متغیرهای گسسته با استفاده از دو گونه از مقیاس های غیر مت ریک اسمی و ترتیبی اند ازه گیری می شود. یک مقیاس اسمی، مقیاسی بدون ترتیب است که از نمادها خصوصیات و اعداد مختلف برای نمایش مقادیر مختلف استفاده می کند . مثالی از متغیرهای اسمی ، شناسه یک مشتری با مقادیر ممکن ، عبارت است از مسکونی ، تجاری ، و صنعتی . که این مقادیر را میتوان به صورت حرفی یا عددی کد کرد.
یک مقیاس ترتیبی از رتبه بندی های گسسته و ترتیبی تشکی ل شده است یک متغیر ترتیبی یک متغیر صریح است که برای آن یک ارتباط ترتیبی )ونه ارتباط فاصله ای ( تعریف شده است .مثالی از صفت خاصه ترتیبی مدال های طلا ، نقره و برنز در یک رقابت ورزشی است.
یک کلاس ویژه از متغیرهای گسسته متغیرهای متناوب هستند که بین آنها رابطه فاصله ای تعریف شده اما ارتباط ترتیبی وجود ندارد . برای مثال روزهای هفته ، ماه و یا سال متغیرهای متناوب هستند . دوشنبه و سه شنبه به عنوان مقادیر یک ویژگی از شنبه و پنجشنبه به هم نزدیکتر هستند اما دوشنبه می تواند قبل و بعد از جمعه بیاید[10] .
در نهایت یک بعد دیگر از تق سیم بندی داده ها بر پایه رفتار آنها در مقایسه با زمان است . برخی از آنها با گذشت زمان تغیر نمی کند )متغیرهای ایستا ( و در مقابل مقادیری از صفات خاصه هستند که با گذشت زمان تغییر می کنند )متغیرهای پویا ) اکثر روشهای داده کاوی برای داده های ایستا مناسب هستند و غالبا ا گر تمهیدات خاص و برخی پیش پردازش ها برای کاوش در داد ههای پولا لازم است.
داده های تحریف شده، انتخاب نادرست گام ها در روش شناسی، استفاده نادرست از ابزار داده کاوی فراینده ایده آل کردن یک مدل ، عدم قطعیت و ابهام در یک مدل همگی امکان منحرف شدن یک فرآی ند داده کاوی را فراهم می کنند. لذا داده کاوی تنها بکارگیری مجموعه ای از ابزار برای یک مساله داده شده نیست بلکه فرآیندی از ارزیابی های بحرانی ، تحقیق ، آزمون و ارزشیابی است. داده ها بایستی طبیعت خوش فرم ، صحیح و تغییر ناپذیر داده باشند. کمیت داده ها بایستی ، آن قدر زیاد باشد که تحلیل ، پرس و جو ، گزارش گیری و مقایسه داد ههای مربوط به گذشته را در یک دوره طولانی از زمان ممکن سازد[10] .
اغلب متخصصان معتقدند که یکی از اصلی ترین گام ها در فرآیند داده کاوی آماده سازی و تغییر شکل مجموعه داد ههای اولیه است.
گاهی آماده سازی داده ها در ادبیات داده کاوی مورد اجحاف قرار می گیرد اما در کاربرد داده کاوی در دنیای واقعی این موضوع برعکس است، بیشتر تلاش برای آماده سازی داده ها صورت می گیرد تا بکارگیری روش های داده کاوی ، دو کار اصلی برای آماده سازی داد هها صورت می گیرد :
* سازمان دهی داده ها به یک فرم استاندارد که برای پردازش به وسیله داده کاوی و سایر ابزار کامپیوتری آماده شود ( که یک فرم استاندارد جدول رابطه ای است ).
* آماده سازی مجموعه داده ها که منجر به بهترین صورت از داده کاوی م یشود.
4- 16 نرمال سازی :
برخی از روشهای داده کاوی ، نوعاً آنهایی که بر پایه محاسبه فاصله بین نقاط در یک فضای n بعدی استوارند نیاز به داده های نرمال دارند.
در اینجا به سه تکنیک ساده و کارآمد نرمال سازی م یپردازیم.
1) درجه بندی دهدهی : درجه بندی دهدهی نقاط دسیمال را جابجا می کند اما با این حال غالباً بیشتر مقدار اصل ی ارقام را حفظ می کند. مقیاس کلی ، مقادیر را در برد 1- تا 1+ نگه می دارد. معادله زیر، درجه بندی دهدهی را نشان می دهد که در آن V(i) مقدار ویژگی V برای حالت I و V'(i) مقدار درجه بندی شده است.
V'(i) = V(i)/10^k
ابتدا، بزرگترین v′(i) در مجموعه داده ها پیدا می شود ، سپس نقطه دسیمال آن قدر جابجا می شود تا مقدار جدید ماکزیمم مطلق کمتر از 1 شود . سپس مقسوم علیه بر روی بقیه V(i) ها اعمال می شود . سپس بزرگترین مق دار مطلق این ویژگی 0/834 است و مقسوم علیه برای همه V(i) ها 1000 است
2) نرمال سازی min-max
تصور کنید که داده ها برای یک ویژگی در بازه 150 تا 200 قرار دارند . آنگاه روش قبلی نرمال سازی همه داده های نرمال شده را بین 15/0 و 20/0 قرار می دهد ، اماباعث خواهد شد تا مقادیر در یک بازه بسیار کوچک نسبت به بازده اصلی قرار بگیرند .
برای بدست آوردن توزیع بهتری از مقادیر در یک بازه نرمال برای مثال [ 0، 1 ] می توانیم از فرمول min-mix استفاده کنیم :
V'(I)=(v(I)-min(v(I))/max(v(I)-min(v(I))
که در آن مقادیر min -max برای ویژگی v یا به صورت خودکار در یک مجموعه محاسبه شده اند یا توسط یک متخصص در دامنه داده شده تخمین زده م یشوند.
3) نرمال سازی با انحراف میانگین استاندارد
این نرمال سازی غالباً برای داده های فاصله ای مناسب است اما داده ها را به شکلی متمایز از داده های اصلی تبدیل می کند
برای ویژگی V مقدار میانی (mean(V)) حالت -I ام مقدار ویژگی با استفاده از معادله زیر تغییر شکل پیدا م یکند[7] .
v′(i) = (v(i) – mean(v1) /sd(v)
برای مثال : اگر مقادیر اولیه صفت خاصه 1، 2، 3} { باشد آنگاه مقدار میانی (v) برابر 2 و انحراف میانگین آن 1 خواهد بود و خواهیم داشت v* ={-1، 0، 1} که v* همان مجموعه جدید نرمال شده است.
داده های مجهول
برای بسیاری از کاربردهای داده کاوی در دنیای واقعی ممکن است نمونه های موجود شامل داده های مجهول باشند . برخی از روشهای داده کاوی داده های مجهول را می پذیرند و پردازش را برای رسیدن به نتیجه ادامه می دهند اما در برخی دیگر از این روش ها لازم است تا تمام مقادیر در دسترس باشند
ساده ترین راه حل برای این مشکل ، کاهش مجموعه داده ها و حذف نمونه هایی است که شامل مق ادیر مجهول هستند این زمانی امکان پذیر است که مجموعه بزرگی از داد ه ها موجود باشد و مقادیر مجهول تنها در درصد کمی از نمونه ها اتفاق بیافتد اما اگر ما نمونه های با داده مجهول را حذف نکنیم بایستی برای آنها مقادیری را بیابیم.
راه اول آن است که داده کاو به همراه فرد آشنا به دامنه داده ها به صورت دستی مقادیر مجهول را با مقادیر محتمل وم ورد انتظار جایگزین می کنند اما اگر هیچ مقدار واضح یا منطقی برای این مقادیر در دست نباشد و و ارد کردن دستی مقادیر تنها باعث ایجاد مشکل بیشتر خواهد شد.
اما راه دوم : راه حل ساده تری را برای از بین بردن مقادیر مجهول بر اساس جایگزینی آنها با مقادیر ثابتی مثل آنچه در زیر آمده است بدست می دهد[6] .
1) جایگزینی تمام مقادیر مجهول با یک ثابت عمومی
2) جایگزینی یک مقدار مجهول با مقدار میانگین آن ویژگی
3) جایگزینی یک مقدار مجهول با مقدار میانگین آن ویژگی د ر کلاس داده شده (این راه حل برای مسائل طبقه بندی شده امکان پذیر است)

4- 17 یادگیری داده ها :
بسیاری از پیشرفت های اخیر در توسعه مدل های داده ای از توانائیهای یادگیری سیستمهای بیولوژیکی بخصوص انسان الهام گرفته اند در حقیقت سیستم های بیولوژیک یاد می گیرند تا با طبعیت آماری و ناشناخته اطراف خود به صورت یک مدل داده ای بخورد کنند. کودکان هنگامیکه راه رفتن را یاد م یگیرند از قوانین علم مکانیک بی خبرند.
این امکان وجود دارد که مساله یادگیری از نمونه های داده ای را به مفهوم کلی نتیجه گیری در فلسفه کلاسیک مربوط کنیم. هر فرآیند یادگیری به روش پیش بینانه از دو فاز اصلی تشکیل م یشود.
1) یادگیری یا تخمین وابستگیهای ناشناخته دو سیستم از طریق مجموعه ای از نمونه های داده شده.
2) استفاده از وابستگیهای تخمین زده شده برای پیشگویی خروجیهای جدید برای مقادیر ورودی آینده سیستم.
این دو گام در ارتباط تنگاتنگ با دوروش کلاسیک شناخته شده نتیجه گیری یعنی همان استقرا (رسیدن از جز به کل ) و استنتاج (رسیدن از کل به جز) می باشد.
این دو فاز در شکل زیر آمده است :

شکل 4- 8 : انواع نتیجه گیری : استقرا ، استنتاج ، تراگذری

یادگیری از داده ها از گذشته در بسیاری از زمینه ها مثل علم آمار، مهندسی و علوم کامپیوتر مورد تحقیق قرار گرفته است
شکل دهی به فرآیند یادگیری و یک توصیف دقیق و از نظر ریاضی صحیح از روشهای مختلف یادگیری استقرایی وظیفه اصلی قوانینی مثل تئوری یادگیری آماری و هوش مصنوعی بوده است.
متدهای مختلف یادگیری
دو نوع اصلی از روشهای یادگیری استقرایی وجود دارد :
1) یادگیری از طریق آموزش دهنده
2) یادگیری بدون آموزش دهنده
یادگیری از طریق آموزش دهنده برای تخمین زدن یک وابستگی ناشناخته از نمونه های ورودی ، خروجی شناخته شده است .
طبقه بندی و پس گرایی وظایف اصلی هستند که با نوع یادگیری استقرایی صورت میگیرند.
بخش الف شکل زیر یک بلوک د یا گرام از این مدل از یادگیری است در مفاهیم بنیادن ما به آموزش دهنده به عنوان دارنده دانش از محیط پیرامون نگاه می کنیم که این دانش به وسیله مجموعه ای از مثالهای ورودی – خروجی نشان داده م یشود. این محیط با خصوصیات و مدلی که دارد برای سیستم یادگیرنده ناشناخته است . پارامترهای سیستم یادگیرنده تحت تاثیر نمونه های آموزشی و سیگنال خطا است ، این سیگنال در صورت تفاوت بین عکس العمل مورد انتظار و واکنش واقعی سیستم در حال آم وزش فعال می شود . دانش محیط که در اختیار آموزش دهنده است به سیستم ) آموزش از طریق نمونه های آموزشی ) ، که پارامترهای سیستم در حال آموزش را تنظیم می کند، منتقل می شود. این یک سیستم با چرخه بازگشتی است اما محیط ناشناخته در این حلقه قرار ندارند طرح ساده شده یک س یستم یادگیری بدون آموزش دهنده یا به عبارتی یادگیری خود سازمان داده شده بدون آموزش دهنده خارجی در بخش به شکل زیر آمده است[9] .

شکل 4-9 : دو مدل اصلی یادگیری استقرایی

زمانیکه سیستم با تنظیمات داده های ورودی منطبق می شود و توانایی خود را برای شکل دهی بازنمایی به منظور کد کردن ویژگیهای نمونه های ورودی ، توسعه می دهد. این باز نمایی می تواند عمومی باشد که کاربردی از تمام مجموعه داده ورودی است . این نتایج از روش هایی مثل تحلیل دسته بندی یا برخی از شبکه های عصبی مصنوعی است که در مباحث بعدی توضیح داده خواهد شد ، حاصل می شود از سوی دیگر بازن مایی دانش برای برخی از موارد آموخته شده تنها م ی تواند محلی باشد که کاربردی از زیرمجموعه های خاصی از داده های محیط است.
قواعد انجمن مثالی از روش مناسب در این مورد است.
تحلیل دسته بندی
تحلیل دسته بند ی مجموعه ای از روش شناسی ها برای دسته بندی خودکار نمونه ها به تعدادی از گروه ها با استفاده از ارتباط بین نمونه ها است بطوریکه نمونه های درون یک گروه شبیه به هم هستند و نمونه های داخل گروه های مختلف شبا هتی به هم ندارند. ورودی به این سیستم دسته بندی ، مجموعه ای از نمونه ها به همراه معیاری از شباهت )و یا عدم شباهت ( بین دو نمونه است. خروجی این سیستم گروهها )دسته هایی ( است که تشکیل یک Partition یا ساختاری از Partition های مجموعه داده را می دهند، نتیجه مازاد یک تحلیل دسته بندی ، توصیف ی تعمیم یافته از هر دسته است که برای تحلیل عمیق تر خصوصیات مجموعه داده ها مه م است.
نمونه های دسته بندی به عنوان ابرازهای اندازه گیری یا به عنوان یک نقطه در یک فضای چند بعدی نشان داده م یشوند[10] .
جدول زیر یک مثال ساده از دسته بندی اطلاعات برای 9 مشتری را که به سه دسته تقسیم شده اند نشان می دهد . در ویژگی هر مشتری را توصیف می کند دومی تعداد اجناسی که توسط مشتری خریداری شده وروی قیمت پرداخت شده توسط مشتری برای هر کالا را نشان م یدهد.

جدول 4- 2 :

مشتریانی که داخل دسته 1 قرار می گیرند ، تعداد کمی کالاهای گرانقیمت خریداری کرده اند.
مشتریان دسته دوم ، تعداد بیشتری کالاهای گرانقیمت خریداری کرده اند.
و مشتریان دسته سوم ، تعداد کمی کالاهای ارزان قیمت خریداری کرده اند.
دسته بندی ، یک مشکل اساسی به حساب می آید چرا که داده ها می توانند دسته های مختلفی را در اشکال و حجمهای مختلف در یک فضای داده ای n بعدی تشکیل د هند. تعداد دسته بندی های داده، غالباً به کیفیت نگاه ما به داد هها بر می گردد. در مثال زیر، شکل (a) مجموعه ای از نقاط را در یک فضای دو بعدی که بر روی یک صفحه پخش شده اند را نشان م ی دهد . در ضمن تعداد گروهها (n) از پیش داده شده است. شکل (b) دسته بندی های طبیعی 1G3 ، G2 ، G را که به وسیله منحنیهای بسته نشان داده شده اند نمایش می دهد. از آنجائیکه تعداد دسته ها داده نشده است، اما در شکل (c) یک تقسیم بندی (Partition) دیگر شامل 4 دسته بندی می بینیم. این آزادی برای تعداد دسته بندی ها مشکل اصلی در clustering است از آ نجائیکه شباهت یک تعریف بنیادین برای دسته بندی است ، لذا تعریف همیاری برای شباهت بین دو الگو که از یک فضای مشترک بدست آمده اند برای بسیاری از الگوریتمهای دسته بندی لازم است[10] .

شکل 4- 10 : Cluster analysis of points in a 2D-space

کلمه شباهت در دسته بندی به این معنی است که مقدار S(X، x/) وقتیکه دو نمونه x/ ، x مشابه هستند بزرگ است و هنگامیکه x/، x مشابه نیستند مقدار S (x/، x) کوچک است. علاوه بر این معیار مشابهت (s) تقارنی است :
s(x x ) s (x x) x x/ X
در ضمن برای بسیاری از تکنیک های دسته بندی معیار مشابهت نرمال است :
<1 ≤s(x x/ ) Q
4- 18 درخت های تصمیم گیری و قواعد تصمیم گیری :
درخت های تصمیم گیری و قواعد تصمیم گیری از روش شناسی های داده کاوی هستند که در کاربردهای دنیای واقعی به عنوان یک راه حل قدرتمند برای مسائل طبقه بندی مطرح هستند . بنابراین اجازه بدهید در ابتدا به طور خلاصه به قوانین اصلی طبقه بندی بپردازیم . به طور کلی طبقه بندی یک فرآیند یادگیری یک تابع است که یک عام ل داده ای را به یکی از کلاس های از پیش تعیین شده نگاشت می کند. هر طبقه بندی که بر پایه الگوریتمهای یادگیری استقرایی استو ار است
مجموعه ای از نمونه ها را که شامل مقادیر صفات خاصه و کلاس مربوطه است به عنوان ورودی دریافت می کند. هدف یادگیری ایجاد یک م دل طبقه بندی ، به نام classifier است که با مقادیر ی که به عنوان ورودی دریافت کرده است به پیش گ ویی می پردازد. به بیان دیگر طبقه بندی، فرآیند نسبت دادن یک مقدار گسسته به یک رکورد بدون برچسب می باشد.
یک روش کارا برای تولید Classifier از دا ده هاریال تولید درخت تصمیم گیری است . نمایش درخت تصمیم گیری از پرکاربردترین روش های منطقی است[9] .
درخت های جستجو به وسیله روشهای یادگیری از طریق آموزش دهنده از روی یک مجموعه در نمو نه های ورودی خروجی تولید می شود. یک درخت تصمیم گیری از یک استراتژی جستجو بالا به پائین برای پیدا کردن راه حل در فضای جستجو بهره می گیرد. این روش تضمین می کند که یک درخت ساده ، اما نه لزوماً ساده ترین درخت پیدا خواهد شد . یک درخت تصمیم گیری از گره هایی تشکیل می شود که در آنها صفات خاصه مورد آزمایش قرار می گیرند. شاخه های خارج شده از هر گره تمامی نتایج ممکن از این آزمایش خواهد بود.
در شکل زیر یک درخت تصمیم گیری ساده برای طبقه بندی نمونه هایی با دو صفت خاصه ورودی Y ، X نشان داده شده است . تمام نمونه ها با ویژگی مقدار X>1 و Y=B به کلاس 2 تعلق دارند در حالیکه نمونه هایی با مقدار X<1 بدون در نظر گرفتن مقدار Y متعلق به کلاس 1 هستند.
نمونه ها در یک گره غیر برگ ، در یک ساختار درختی ، در طول شاخه ها تقسیم می شوند و هر گره فرزند زیر مجموعه مربوط به خود را از نمونه ها دریافت می کنند[9] .

شکل 4- 11 : A simple decision tree with the test on attributes X and Y

فصل پنجم

تفاوت داده کاوی و
آنالیز های آماری

تفاوت داده کاوی و آنالیز های آماری
5- 1 مقدمه :
داده کاوی معمولا با نوشتن مقدار زیادی گزارش و تحقیق و استعلام در آنها اشتباه گرفته می شود. اما در واقع داده کاوی هیچ کدام از اینها را شامل نمی شود.
داده کاوی توسط تجهیزات خاصی صورت می پذیرد ، که عملیات کاوش را بر اساس تجزیه و تحلیل مکرر داده ها انجام می دهد.
داده کاوی با آنالیز های متداول آماری نیز متفاوت است ؛ در زیرمی توان برخی از اصلی ترین تفاوت های داده کاوی و آنالیز آماری را مشاهده نمود :
آنالیز آماری :
• آمار شناسان همیشه با یک فرضیه شروع به کار می کنند.
• آنها از داده های عددی استفاده می کنند.
• آمارشناسان باید رابطه هایی را ایجاد کنند که به فرضیه آنها مربوط است.
• آنها می توانند داده های نابجا و نادرست را در طول آنالیز مشخص کنند.
• آنها می توانند نتایج کار خود را تفسیر و برای مدیران بیان کنند.
داده کاوی :
• به فرضیه احتیاجی ندارد.
• ابزارهای داده کاوی از انواع مختلف داده ، نه تنها عددی می توانند استفاده کنند.
• الگوریتمهای داده کاوی به طور اتوماتیک روابط را ایجاد می کنند.
• داده کاوی به داده های صحیح و درست نیاز دارد.
• نتایج داده کاوی نسبتا پیچیده می باشد و نیاز به متخصصانی جهت بیان آنها به مدیران دارد.
جهت درک بهتر تفاوت داده کاوی و آنالیزهای آماری به مثال زیر که در مورد شناخت کلاهبرداری های شرکت بیمه می باشد ، توجه کنید[10] .
5- 2 روش آنالیز آماری :
یک مفسر ممکن است متوجه الگوی رفتاری شود که سبب کلاهبرداری بیمه گردد. بر اساس این فرضیه ، مفسر به طرح یک سری سوال می پردازد تا این موضوع را بررسی کند. اگر نتایج حاصله مناسب نبود ، مفسر فرضیه را اصلاح می کند و یا با انتخاب فرضیه دیگری مجددا شروع می کند. این روش نه تنها وقت گیر است بلکه به قدرت تجزیه و تحلیل مفسر نیز بستگی دارد.
مهمتر از همه اینکه این روش هیچ وقت الگوهای کلاهبرداری دیگری را که مفسر به آنها مظنون نشده و در فرضیه جا نداده ، پیدا نمی کند.
5- 3 روش داده کاوی :
یک مفسر سیستم های داده کاوی را ساخته و پس از طی مراحلی از جمله جمع آوری داده ها ، یکپارچه سازی و اخلاص داده ها به انجام عملیات داده کاوی می پردازد.
داده کاوی تمام الگوهای غیرعادی را که از حالت عادی و نرمال انحراف دارند و ممکن است منجر به کلاهبرداری شوند را پیدا می کند.
نتایج داده کاوی حالت های مختلفی را که مفسر باید در مراحل بعدی تحقیق کند ، نشان می دهند. در نهایت مدل های به دست آمده می توانند مشتریانی را که امکان کلاهبرداری دارند ، پیش بینی نمایند[] .
5- 4 فواید و نقش داده کاوی در فعالیت شرکتها :
امروزه عملیات داده کاوی به صورت گسترده توسط تمامی شرکت هایی که مشتریان در کانون توجه آنها قرار دارند ، استفاده می شود ، از جمله فروشگاه ها ، شرکت های مالی ، ارتباطاتی ، بازاریابی و غیره.
استفاده از داده کاوی به این شرکتها کمک می کند تا ارتباط عوامل داخلی از جمله قیمت ، محل قرارگیری محصولات ، مهارت کارمندان را با عوامل خارجی از جمله وضعیت اقتصادی ، رقابت در بازار و محل جغرافیایی مشتریان کشف نمایند.
از آنجـائیـکه هـوش مصنوعی یکی از اصلی ترین عنــاصـر داده کـــاوی
می باشد و با توجه به اینکه به کمک سیستم های کامپیوتری و پایگاه های داده ، روزانه به میزان داده ها افزوده می شود ، بنابراین استفاده هوشمندانه از دانش بالقوه ای که در این داده نهفته است در دنیای رقابتی امروز برای شرکت ها حیاتی می باشد.
داده کاوی پیش بینی وضع آینده بازار، گرایش مشتریان و شناخت سلیقه های عمومی آنها را برای شرکت ها ممکن می سازد[9] .
5- 5 مراحل اصلی داده کاوی :
داده کاوی را " کشف دانش در داده ها " نیز می نامند. کشف دانش داده ها دارای مراحل مختلفی می باشد که در اینجا به صورت خلاصه آنها را بیان می کنیم :
• استخراج اطلاعات از چندین منبع داده ( پایگاه داده).
• یکپارچه سازی اطلاعات و حذف داده های زاید.
• قرار دادن اطلاعات اصلاح شده در انبار داده ها.
• انجام عملیات داده کاوی توسط نرم افزار های مخصوص.
• نمایش نتایج به صورت قابل فهم مانند گزارش و گراف.

فصل ششم

داده کاوی توزیع شده

داده کاوی توزیع شده
6- 1 مقدمه :
بسیاری از پیش فرضهای یک فرآیند داده کاوی ، در شرایط عادی برقرار نیست.
تکنیکهای موجود ، فرض را بر در اختیار داشتن تمامی اطلاعات موجود در قالب یک فایل واحد و دارای ساختار ثابت به ازای تمام نمونه ها قرار می دهند.
چنین فرضی ، تقریبا در هیچ کاربرد واقعی برقرار نیست.
اجرای مراحلی نظیر تجمیع اطلاعات ، می تواند به دلایل متعددی غیرممکن باشد.
منابع اطلاعاتی در دسترس ، غالبا ناهمگون ، توزیع شده و دارای ضرایب اطمینان متفاوت می باشند.
علیرغم نیاز بسیاری سازمانها به دانش حاصل از داده کاوی ، ریسک افشای اطلاعات محرمانه همچنان از ورود داده کاوی به این سازمانها جلوگیری می نماید[8] .
انواع متعددی از اطلاعات وجود دارد که ضمن دشوار یا غیرممکن بودن تبدیل آنها به اطلاعات در قالب بانکهای اطلاعاتی ، نمی توان از دانش بالقوه موجود در آنها
صرف نظر کرد.
6- 2 دلایل پیدایش داده کاوی توزیع شده :
• بسیاری از پیش فرضهای یک فرآیند داده کاوی ، در شرایط عادی برقرار نیست.
• تکنیکهای موجود ، فرض را بر در اختیار داشتن تمامی اطلاعات موجود در قالب یک فایل واحد و دارای ساختار ثابت به ازای تمام نمونه ها قرار می دهند.
• چنین فرضی ، تقریبا در هیچ کاربرد واقعی برقرار نیست.
• اجرای مراحلی نظیر تجمیع اطلاعات ، می تواند به دلایل متعددی غیرممکن باشد.
• منابع اطلاعاتی در دسترس ، غالبا ناهمگون ، توزیع شده و دارای ضرایب اطمینان متفاوت می باشند.
• علیرغم نیاز بسیاری سازمانها به دانش حاصل از داده کاوی ، ریسک افشای اطلاعات محرمانه همچنان از ورود داده کاوی به این سازمانها جلوگیری می نماید.
• انواع متعددی از اطلاعات وجود دارد که ضمن دشوار یا غیرممکن بودن تبدیل آنها به اطلاعات در قالب بانکهای اطلاعاتی ، نمی توان از دانش بالقوه موجود در آنها صرف نظر کرد.
• ملاحظات رقابتی
• ترس از حملات استنتاجی
• ترس از افشای اطلاعات خام
• محدودیت دستگاههای ذخیره سازی و نیز پهنای باند شبکه ها
• عدم امکان تجمیع اطلاعات مورد نیاز در یک محل مرکزی
• عدم امکان انتقال اطلاعات روی شبکه های کامپیوتری موجود
• تنوع اطلاعات موجود
• نیاز به الگوریتمهای متخصص در هر نوع اطلاعات
• لزوم ادغام نتایج میانی چند الگوریتم ، به جای مبادله اطلاعات خام
• ملاحظات امنیتی
• لزوم حفظ حریم خصوصی افراد : پراکندگی اطلاعات یک نمونه خاص در نقاط مختلف و غیرقانونی بودن جمع آوری این اطلاعات در یک نقطه مرکزی.
• عدم امکان شرکت دادن تمامی متخصصان در فرآیند استخراج دانش
• عدم امکان به اشتراک گذاری اطلاعات ، حتی بین چند سازمان با اهداف مشترک[] .
6- 3 تکنیکها و رویکردها در داده کاوی توزیع شده :
• دو گروه عمده در تکنیکهای داده کاوی توزیع شده :
– تکنیکهای مربوط به اطلاعات همگون
– تکنیکهای مربوط به اطلاعات ناهمگون
• تمام روشها بر مبنای انتقال نوعی از اطلاعات میانی ، با حداکثرسازی امکان کشف دانش و حداقل سازی امکان حدس زدن اطلاعات خام توسط دیگران استوار می باشند.
6- 4 عاملها و داده کاوی توزیع شده :
* عامل : یک نرم افزار دارای قابلیت رفتار واکنشی و رفتار هدفمند
* مسئله داده کاوی توزیع شده ، با مسئله استفاده از چندعامل هوشمند مستقل در حل یک مسئله خاص ، تطابق دارد.
* عاملهای متخصص برای هر نوع اطلاعات.
* توزیع شدگی عاملها و عدم نیاز به انتقال اطلاعات خام.
* امکان همکاری عاملها در جهت حل یک مسئله داده کاوی ، از طریق پروتکلهای ارتباطی نظیر تخته سیاه ، …
* مسئله منفعتگرایی عاملها و شرکت یا عدم شرکت در یک فرآیند
داده کاوی.
* مذاکره خودکار بین عاملها ، جهت تبادل اطلاعات و دانش[10] .
6- 5 داده کاوی و حریم خصوصی :
در موارد متعدد ، داده کاوی می تواند به کشف دانش محرمانه و یا نقض حریم خصوصی افراد منجر شود.
صرف ممنوعیت جمع آوری تمام اطلاعات مربوط به اشخاص در یک نقطه مرکزی ، تضمینی برای عدم نقض حریم خصوصی افراد ایجاد نخواهد کرد.
ریسک حملات استنتاجی ، یا استفاده از دانش و اطلاعات خام از چند منبع جهت کشف اطلاعات و یا دانش محرمانه ، بسیاری از سازمانها را از شرکت در هرگونه فرآیند داده کاوی اشتراکی باز می دارد.
هدف از حفظ حریم خصوصی و اطلاعات محرمانه ، مقابله با حملات استنتاجی و یا هرگونه روش دیگری برای کشف دانش محرمانه می باشد[9] .
موفقیت این دسته از روشها، می تواند به توسعه کاربردهای داده کاوی منتهی شود.
مانند مسئله ویروسها و نفوذگران به شبکه های کامپیوتری ، در اینجا نیز مبارزه ای بی پایان وجود دارد.
6- 6 کاربرد های داده کاوی :
* آنالیز بازار
* آنالیز و مدیریت ریسک
* تشخیص تقلب
* متن کاوی و وب کاوی
* Stream data mining
* DNA and bio-data analysis

6- 7 تکنیک های داده کاوی :
• پیشگویی
– طبقه بندی
– رگرسیون
– آنالیز سری های زمانی
• توصیفی
– قوانین انجمنی
– خوشه بندی
– الگوهای متوالی
6- 8 قوانین انجمنی :
ارتباط میان مجموعه اشیاء ( چیزها ) وابستگیهای جالب توجهی هستند که منجر به آشکارسازی الگوهای مفید و قوانین وابستگی برای پشتیبانی تصمیم ، پیش بینی های مالی ، سیاستهای بازاریابی ، وقایع پزشکی و خیلی کاربردهای دیگر میشود.
تحلیل وابستگیها یک حالت غیر نظارتی داده کاوی است که به جستجو برای یافتن ارتباط در مجموعه داده ها می پردازد[8] .
یکی از پر کاربردترین حالات تحلیل وابستگیها " تجزیه تحلیل سبد بازار" میباشد :
در یک فروشگاه زنجیره ای ، معمولا چه کالاهائی با هم خریده
می شوند ؟
چینش محصولات در فروشگاه
تخفیفها و جایزه های هدف دار
6- 9 تشخیص قوانین انجمنی به کمک الگوریتم apriori :
• این الگوریتم در سال 1996 توسط چی یانگ ابداع شد و یکی از مهمترین یافته ها در تاریخ استخراج قوانین وابستگی است.
• تعیین ارتباط اقلام مختلف با یکدیگر در مجموعه اطلاعات ورودی.
• معیارهای ارزیابی ارتباط :
• 1- حمایت : P(A U B) احتمال وقوع دو قلم A و B به صورت همزمان
• 2- اطمینان : P(A|B)
• هر تک قلمی که از حداقل حمایت برخوردار باشد ، یک کاندید قانون انجمنی است.
• مجموعه اقلام تکراری ، شامل تمام ابرمجموعه های کاندیداهای قوانین انجمنی است.
• ابر مجموعه یک مجموعه غیرتکراری ، نمی تواند تکراری باشد.
• هر مجموعه اقلام تکراری به تمام دو زیرمجموعه های ممکن تقسیم شده و اطمینان قوانین حاصل محاسبه می شود[9] .
6- 10 فرآیند استخراج قوانین وابستگی :
• 1- ابتدا همه item sets های تکراری را که دارای حداقل پشتیبان هستند بیابید.
• 2- برای تمامی item setتکراری
• 1-2 همه زیرمجموعه های آنها را استخراج کنید
• 2-2 همه قوانین ممکن را استخراج کنید
• 3-2 قوانینی را بپذیرید که از حداقل اطمینان برخوردارهستند.
مثال الگوریتم Apriori :
I = { { خیار، جعفری ، پیاز، گوجه فرنگی ، نمک ، نان ، زیتون ، پنیر، کره
D = { 1، 2 ، 3 ، … ، 8 }
جعفری ، پیاز، زیتون ، خیار، گوجه فرنگی } = 1}
جعفری ، خیار، گوجه فرنگی } = 2}
نان ، نمک ، گوجه فرنگی ، پیاز، جعفری ، خیار} = 3}
نان ، پیاز، خیار، گوجه فرنگی } = 4 }
پیاز، نمک ، گوجه فرنگی } = 5}
پنیر، نان } = 6}
خیار، پنیر، گوجه فرنگی } = 7}
8 = { کره ، نان}
{ خیار، گوجه فرنگی} è { پیاز، جعفری}
X U Y = {، پیاز {1، 3 } = { گوجه فرنگی ، خیار، جعفری= 2/8 = 0.25(support)
{ خیار، گوجه فرنگی} = 5/8
(2/8)/(5/8) = 2/5 = 0.40 (confidence)
یعنی هنگامی که افراد"خیار و گوجه فرنگی" خریداری میکنند ، در40 % اوقات ، "جعفری و پیاز"هم میخرند.
Apriori Based DDM Algorithms 11- 6 :
– Count Distribution
– Data Distribution
– Intelligent Data Distribution
– Fast Distributed
– Fast Parallel Mining

Count Distribution 12- 6 :
* هر پردازشگر دارای یک درخت هش کاندید کامل یکسان است.
* پردازشگر، درخت هش خود را با داده های محلی تغییر می دهد.
* هر پردازشگر در کاهش سراسری تعداد کاندیدها در درخت هش سهیم است.
* اگر درخت هش برای حافظه بزرگ باشد نیاز به بانک های اطلاعاتی چندگانه ای است که در هر تکرار جستجو می شوند[8] .
Data Distribution 13- 6 :
* مجموعه کاندیدها بین پردازشگرها تقسیم می شود
* یکبار داده تقسیم شده محلی به سایر پردازشگرها انتشار می یابد.
* هزینه ارتباطی در جابجایی داده ها بالاست
* کارایی در طول پیمایش چندگانه درخت hash پایین است[8] .

فصل هفتم

نرمافزار داده کاوی Weka

نرمافزار داده کاوی Weka
7-1 مقدمه :
تا به امروز نرم افزار های تجاری و آموزشی فراوانی برای داده کاوی در حوزه های مختلف داده ها به دنیای علم و فناوری عرضه شدهاند. هریک از آنها با توجه به نوع اصلی داده هایی که مورد کاوش قرار میدهند ، روی الگوریتمهای خاصی متمرکز شدهاند. مقایسه دقیق و علمی این ابزارها باید از جنبه های متفاوت و متعددی مانند تنوع انواع و فرمت داده های ورودی ، حجم ممکن برای پردازش داده ها ، الگوریتمها پیاده سازی شده ، روشهای ارزیابی نتایج ، روشهای مصور سازی ، روشهای پیش پردازش داده ها ، واسطهای کاربر پسند ، پلت فرم های سازگار برای اجرا ، قیمت و در دسترس بودن نرم افزار صورت گیرد. از آن میان ، نرم افزار Weka با داشتن امکانات بسیار گسترده ، امکان مقایسه خروجی روشهای مختلف با هم ، راهنمای خوب ، واسط گرافیگی کارآ ، سازگاری با سایر برنامههای ویندوزی ، و از همه مهمتر وجود کتابی بسیار جامع و مرتبط با آن ، معرفی میشود[12] .
میزکار Weka ، مجموعهای از الگوریتم‏های روز یادگیری ماشینی و ابزارهای پیش پردازش داده‏ها می‏باشد. این نرمافزار به گونهای طراحی شده است که می‏توان به سرعت ، روش‏های موجود را به صورت انعطافپذیری روی مجموعه‏های جدید داده ، آزمایش نمود. این نرمافزار ، پشتیبانی‏‏های ارزشمندی را برای کل فرآیند داده کاوی ‏های تجربی فراهم می‏کند. این پشتیبانی‏ها ، آماده سازی داده‏های ورودی ، ارزیابی آماری چارچوب‏های یادگیری و نمایش گرافیکی داده‏های ورودی و نتایج یادگیری را در بر میگیرند. همچنین ، هماهنگ با دامنه وسیع الگوریتم‏های یادگیری ، این نرمافزار شامل ابزارهای متنوع پیش پردازش دادههاست. این جعبه ابزار متنوع و جامع ، از طریق یک واسط متداول در دسترس است ، به نحوی که کاربر می‏تواند روش‏های متفاوت را در آن با یکدیگر مقایسه کند و روش‏هایی را که برای مسایل مدنظر مناسبتر هستند ، تشخیص دهد.
نرمافزار Weka در دانشگاه Waikato واقع در نیوزلند توسعه یافته است و اسم آن از عبارت "Waikato Environment for knowledge Analysis" استخراج گشته است. همچنین Weka ، نام پرندهای با طبیعت جستجوگر است که پرواز نمی‏کند و در نیوزلند ، یافت می‏شود. این سیستم به زبان جاوا نوشته شده و بر اساس لیسانس عمومی و فراگیر GNU انتشار یافته است. Weka تقریباً روی هر پلت فرمی اجرا می‏شود و نیز تحت سیستم عامل‏های لینوکس ، ویندوز ، و مکینتاش ، و حتی روی یک منشی دیجیتالی شخصی ، آزمایش شده است.
این نرمافزار ، یک واسط همگون برای بسیاری از الگوریتم‏های یادگیری متفاوت ، فراهم کرده است که از طریق آن روش‏های پیش پردازش ، پس از پردازش و ارزیابی نتایج طرح های یادگیری روی همه مجموعه های داده‏ موجود ، قابل اعمال است[12] .
نرم افزار Weka ، پیاده سازی الگوریتم‏های مختلف یادگیری را فراهم می‏کند و به آسانی می‏توان آنها را به مجموعه های داده خود اعمال کرد.
همچنین ، این نرمافزار شامل مجموعه متنوعی از ابزارهای تبدیل مجموعه‏های داده‏ها ، همانند الگوریتم‏های گسسته سازی می‏باشد. در این محیط می‏توان یک مجموعه داده را پیش پردازش کرد ، آن را به یک طرح یادگیری وارد نمود ، و دستهبندی حاصله و کارآییاش را مورد تحلیل قرار داد)همه این کارها ، بدون نیاز به نوشتن هیچ قطعه برنامهای میسر است.(
این محیط ، شامل روش‏هایی برای همه مسایل استاندارد داده کاوی مانند رگرسیون ، رده‏بندی ، خوشهبندی ، کاوش قواعد انجمنی و انتخاب ویژگی می‏باشد. با در نظر گرفتن اینکه ، داده‏ها بخش مکمل کار هستند ، بسیاری از ابزارهای پیش پردازش داده‏ها و مصورسازی آنها فراهم گشته است. همه الگوریتم‏ها ، ورودی‏های خود را به صورت یک جدول رابطهای به فرمت ARFF دریافت می‏کنند. این فرمت داده‏ها ، می‏تواند از یک فایل خوانده شده یا به وسیله یک درخواست از پایگاه دادهای تولید گردد[11] .
یکی از راه‏های به کارگیری Weka ، اعمال یک روش یادگیری به یک مجموعه داده و تحلیل خروجی آن برای شناخت چیزهای بیشتری راجع به آن اطلاعات می‏باشد. راه دیگر استفاده از مدل یادگیری شده برای تولید پیش‏بینی‏هایی در مورد نمونه‏های جدید است. سومین راه ، اعمال یادگیرنده‏های مختلف و مقایسه کارآیی آنها به منظور انتخاب یکی از آنها برای تخمین می‏باشد. روش‏های یادگیری Classifier نامیده می‏شوند و در واسط تعاملی Weka ، می‏توان هر یک از آنها را از منو انتخاب نمود. بسیاری از classifier ‏ها پارامترهای قابل تنظیم دارند که می‏توان از طریق صفحه ویژگی‏‏ها یا object editor به آنها دسترسی داشت. یک واحد ارزیابی مشترک ، برای اندازه‏گیری کارآیی همه classifier به کار می‏رود.
پیاده سازی‏های چارچوب‏های یادگیری واقعی ، منابع بسیار ارزشمندی هستند که Weka فراهم می‏کند. ابزارهایی که برای پیش پردازش داده‏ها استفاده می‏شوند. Filter نامیده می‏شوند. همانند classifier ‏ها ، می‏توان filter ‏ها را از منوی مربوطه انتخاب کرده و آنها را با نیازمندی‏های خود ، سازگار نمود. در ادامه ، به روش به کارگیری فیلترها اشاره می‏شود[12] .
علاوه بر موارد فوق ، Weka شامل پیاده سازی الگوریتم‏هایی برای یادگیری قواعد انجمنی ، خوشهبندی داده‏ها در جایی که هیچ دستهای تعریف نشده است ، و انتخاب ویژگی‏های مرتبط در داده‏ها می‏شود.
7-2 روش استفاده از : Weka
شکل 1 ، راههای انتخاب واسطهای مختلف Weka را نشان میدهد.
آسانترین راه استفاده از Weka ، از طریق واسطی گرافیکی است که Explorer خوانده می‏شود. این واسط گرافیکی ، به وسیله انتخاب منوها و پر کردن فرم‏های مربوطه ، دسترسی به همه امکانات را فراهم کرده است. برای مثال ، می‏توان به سرعت یک مجموعه داده را از یک فایل ARFF خواند و درخت تصمیم‏گیری آن را تولید نمود. امادرخت‏های تصمیم‏گیری یادگیرنده صرفاً ابتدای کار هستند. الگوریتم‏های بسیار دیگری برای جستجو وجود دارند. واسط Explorer کمک می‏کند تا الگوریتم‏های دیگر نیز آزمایش شوند[11] .

شکل 7-1: . Weka در وضعیت انتخاب واسط

این واسط با در اختیار گذاشتن گزینه‏ها به صورت منو ، با وادار کردن کاربر به اجرای کارها با ترتیب صحیح ، به وسیله خاکستری نمودن گزینه‏ها تا زمان صحیح به کارگیری آنها ، و با در اختیار گذاشتن گزینه‏هایی به صورت فرم‏های پرشدنی ، کاربر را هدایت می‏کند. راهنمای ابزار مفیدی ، حین عبور ماوس از روی گزینه‏ها ، ظاهر شده و اعمال لازم مربوطه را شرح می‏دهد. پیشفرض‏های معقول قرار داده شده ، کاربر را قادر می‏سازند تا با کمترین تلاشی ، به نتیجه برسد. اما کاربر باید برای درک معنی نتایج حاصله ، راجع به کارهایی که انجام می‏دهد ، بیندیشد[12] .
Weka دو واسط گرافیکی دیگر نیز دارد. واسط knowledge flow به کاربر امکان می‏دهد تا چنیش‏هایی برای پردازش داده‏های در جریان ، طراحی کند. یک عیب پایهای Explorer . نگهداری هر چیزی در حافظه اصلی آن است. (زمانی که یک مجموعه داده را باز می‏کنیم ، Explorer ، کل آن را ، در حافظ باز می‏کند) نشان می‏دهد که Explorer ، صرفاً برای مسایل با اندازه‏های کوچک تا متوسط ، قابل اعمال است. با وجود بر این Weka شامل تعدادی الگوریتم‏های افزایشی است که می‏تواند برای پردازش مجموعه های داده بسیار بزرگ مورد استفاده قرار گیرد. واسط knowledge flow امکان می‏دهد تا جعبه ‏های نمایانگر الگوریتم‏های یادگیری و منابع داده‏ها را به درون صفحه بکشیم و با اتصال آنها به یکدیگر ، ترکیب و چینش دلخواه خود را بسازیم. این واسط اجازه می‏دهد تا جریان دادهای از مولفه‏های به هم متصل که بیانگر منابع داده ، ابزارهای پیش پردازش ، روش‏های ارزیابی و واحدهای مصوّر سازی هستند تعریف شود. اگر فیلترها و الگوریتمهای یادگیری ، قابلیت یادگیری افزایشی را داشته باشند ، داده‏ها به صورت افزایشی بار شده و پردازش خواهند شد[12] .
سومین واسط Weka ، که Experimenter خوانده می‏شود ، کمک می‏کند تا به این سوال عملی و پایهای کاربر حین استفاده از تکنیک‏های رده‏بندی و رگرسیون ، پاسخ دهد: "چه روش‏ها و پارامترهایی برای مساله داده شده ، بهتر عمل می‏کنند؟"
عموماً راهی برای پاسخگویی مقدماتی به این سوال وجود ندارد و یکی از دلایل توسعه Weka ، فراهم نمودن محیطی است که کاربران Weka را قادر به مقایسه تکنیک‏های گوناگون یادگیری بنماید. این کار ، می‏تواند به صورت تعاملی در Explorer انجام شود. با این وجود ، Experimenter با ساده کردن اجرای رده‏بندی کننده‏ها و فیلترها با پارامترهای گوناگون روی تعدادی از مجموعه‏های داده ، جمعآوری آمار کارآیی و انجام آزمایش‏های معنا ، پردازش را خودکار می‏کند. کاربرهای پیشرفته ، می‏توانند از Experimenter برای توزیع بار محاسباتی بین چندین ماشین ، استفاده کنند. در این روش ، می‏توان آزمایش‏های آماری بزرگی را راهاندازی نموده و آنها را برای اجرا ، رها نمود.
ورای این واسط‏های تعاملی ، عملکرد پایهای Weka قرار دارد. توابع پایهای Weka ، از طریق خط فرمان ‏های متنی قابل دسترسی هستند. زمانی که Weka ، فعال می‏شود ، امکان انتخاب بین چهار واسط کاربری وجود دارد: Explorer ، knowledge ، Experimenter و واسط خط فرمان.
اکثر کاربران ، حداقل در ابتدای کار Explorer را به عنوان واسط کاربری انتخاب می‏کنند[13] .
3-7 قابلیتهای: Weka
مستندسازی در لحظه ، که به صورت خودکار از کد اصلی تولید می‏شود و دقیقاً ساختار آن را بیان می‏کند ، قابلیت مهمی است که حین استفاده از Weka وجوددارد.
نحوه استفاده از این مستندات و چگونگی تعیین پایه‏های ساختمانی اصلی Weka ، مشخص کردن بخش‏هایی که از روش‏های یادگیری با سرپرست استفاده می‏کند ، ابزاری برای پیش پردازش داده‏ها بکار می‏رود و اینکه چه روش‏هایی برای سایر برنامه‏های یادگیری وجود دارد ، در ادامه تشریح خواهد شد. تنها به لیست کاملی از الگوریتم‏های موجود اکتفا می‏شود زیرا Weka به طور پیوسته تکمیل می‏شود و به طور خودکار از کد اصلی تولید می‏شود. مستندات در لحظه همیشه به هنگام شده می‏باشد. اگر ادامه دادن به مراحل بعدی و دسترسی به کتابخانه از برنامه جاوا شخصی یا نوشتن و آزمایش کردن برنامه‏های یادگیری شخصی مورد نیاز باشد ، این ویژگی بسیار حیاتی خواهد بود.
در اغلب برنامه‏های کاربردی داده کاوی ، جزء یادگیری ماشینی ، بخش کوچکی از سیستم نرمافزاری نسبتاً بزرگی را شامل می‏شود. در صورتی که نوشتن برنامه کاربردی داده کاوی مد نظر باشد ، می‏توان با برنامهنویسی اندکی به برنامه‏های Weka از داخل کد شخصی دسترسی داشت. اگر پیدا کردن مهارت در الگوریتم‏های یادگیری ماشینی مدنظر باشد ، اجرای الگوریتم‏های شخصی بدون درگیر جزییات دست و پا گیر شدن مثل خواندن اطلاعات از یک فایل ، اجرای الگوریتم‏های فیلترینگ یا تهیه کد برای ارزیابی نتایج یکی از خواسته‏ها می‏باشد. Weka دارای همه این مزیت‏ها است. برای استفاده کامل از این ویژگی ، باید با ساختارهای پایهای داده‏ها آشنا شد[13] .
4-7دریافت: Weka
نرم افزار Weka ، در آدرس http://www.cs.waikato.ac.nz/me/weka ، در دسترس است. از این طریق می‏توان نصب کننده متناسب با یک پلت فرم معین ، یا یک فایل Java jar را که در صورت نصب بودن جاوا به راحتی قابل اجرا است ، دانلود نمود.
5-7 مروری بر: Explorer
واسط گرافیکی اصلی برای کاربران ، Explorer است که امکان دسترسی به همه امکانات Weka را از طریق انتخاب منوها و پر کردن فرمها فراهم میآورد. شکل 2 ، نمای Explorer را نشان میدهد. در این واسط ، شش پانل مختلف وجود دارد که از طریق نوار بالای صفحه قابل انتخاب هستند و با وظایف داده کاوی پشتیبانی شده توسط Weka متناظر میباشند[12] .

شکل 7-2 : واسط گرافیکی Explorer

دو گزینه از شش گزینه بالای پنجره Explorer در شکل های 3 و 4 به طور خلاصه تشریح شده است.
به طور خلاصه ، کارکرد تمام گزینه‏ها به شرح ذیل است.
Preprocess : انتخاب مجموعه داده و اصلاح آن از راه‏های گوناگون
Classify : آموزش برنامه‏های یادگیری که رده‏بندی یا رگرسیون انجام می‏دهند و ارزیابی آنها.
Cluster : یادگیری خوشه‏ها برای مجموعه های داده
Associate : یادگیری قواعد انجمنی برای داده‏ها و ارزیابی آنها
Select attributes : انتخاب مرتبطترین جنبه ها در مجموعه های داده
Visualize : مشاهده نمودارهای مختلف دوبعدی داده‏ها و تعامل با آنها

شکل 7-3 : خواندن فایل داده های آب و هوا

Weka Exphorer امکان رده بندی دارد ، چنانچه به کاربران اجازه می‏دهد به صورت تعاملی اقدام به ساخت درخت تصمیم‏گیری کنند. Weka نمودار پراکندگی داده‏ها را نسبت به دو ویژگی انتخاب شده ، فراهم می‏آورد. وقتی زوج ویژگیای که رده‏ها را به خوبی جدا می‏کند ، پیدا شد ، امکان ایجاد دو شاخه با کشیدن چند ضلعی اطراف نقاط داده‏ها بر نمودار پراکندگی وجود دارد[11] .

شکل 7-4 : نوار Classify
هر نوار ، دسترسی به دامنه کاملی از امکانات را فراهم میکند. در پایین هر پانل ، جعبه status و دکمه log قرار دارد. جعبه status پیغام‏هایی است که نشان می‏دهد چه عملیاتی در حال انجام داده شدن است. مثلاً اگر Explores مشغول خواندن یک فایل باشد ، جعبه status آن را گزارش می‏دهد. کلیک راست در هر جا داخل این جعبه یک منو کوچک با دو گزینه می‏آورد ، نمایش میزان حافظه در دسترس Weka و اجرای Java garbage collector ..
لازم است توجه شود که garbage collector به طور ثابت به عنوان یک عمل پیش زمینه در هر حال اجرا می‏شود کلیک دکمه log ، گزارش عملکرد متنی کارهایی که Weka تاکنون در این بخش انجام داده است با برچسب زمانی ارایه می‏کند[12] .
زمانیکه Weka در حال عملیات است ، پرنده کوچکی که در پایین سمت راست پنجره است ، بالا و پایین می‏پرد. عدد پشت × نشان می‏دهد که به طور همزمان چند عملیات در حال انجام است. اگر پرنده بایستد در حالیکه حرکت نمی‏کند ، او مریض است! اشتباه رخ داده است و باید Explorer از نو اجرا شود.
* خواندن و فیلتر کردن فایل‏ها
در بالای پانل Preprocess در شکل 3 ، دکمه‏هایی برای باز کردن فایل ، URL ‏ها و پایگاه های داده‏ وجود دارد. در ابتدا تنها فایل‏های با پسوند arff . در browser فایل نمایش داده می‏شود. برای دیدن سایر فایل‏ها یاید گزینه Format در جعبه انتخاب فایل تغییر داده شود.
* تبدیل فایل‏ها به فرمت ARFF
نرم افزار Weka دارای سه مبدل فرمت فایل می‏باشد ، برای فایل‏های صفحه گسترده با پسوند CSV ، با فرمت فایل C4.5 با پسوند names . و data و برای نمونه‏های سری با پسوند bsi .
اگر Weka قادر به خواندن داده‏ها نباشد ، سعی می‏کند آن را به صورت ARFF تفسیر کند. اگر نتواند جعبه نشان داده شده در شکل 5 (الف) ظاهر می‏شود[11] .

(الف) ویرایشگر

(ب) اطلاعات بیشتر (فشردن دگمه More ) (

ج) انتخاب یک مبدل
شکل7-5 : ویرایشگر عمومی اشیاء
این ، یک ویرایشگر عمومی اشیاء است که در Weka برای انتخاب و تنظیم اشیا بکار می‏رود. به عنوان مثال وقتی پارامتری برای Classifier تنظیم می‏شود ، جعبهای با نوع مشابه بکار برده می‏شود. CSV Loader برای فایل‏های با پسوند CSV . به طور پیش فرض انتخاب می‏شود. دکمه More اطلاعات بیشتری در مورد آن می‏دهد که در شکل 5 (ب) نشان داده شده است.
همیشه مطالعه مستندات ارزشمنداست! در این حالت نشان می‏دهد که ردیف نخست صفحه گسترده ، نام ویژگی را تعیین می‏کند. برای استفاده از این مبدل باید بر Ok کلیک شود. برای مورد مختلف لازم است بر choose کلیک شود تا از لیست شکل 5 (ج) انتخاب انجام شود[12] .
گزینه اول ، Arffloader است و فقط به دلیل ناموفق بودن به این نقطه می‏رسیم. CSVLoader پیش فرض است و در صورت نیاز به فرض دیگر ، choose کلیک می‏شود. سومین گزینه ، مربوط به فرمت C4.5 است که دو فایل برای مجموعه داده وجود دارد یکی اسم‏ها و دیگـری داده‏های واقعـی می‏باشد. چهارمین برای نمونه‏های سریالی ، برای بازخوانی مجموعه دادهای است که به صورت شیئ سریالی شده جاوا ذخیره شده است. هر شیء در جاوا می‏تواند در این شکل ذخیره و بازخوانی شود. به عنوان یک فرمت بومی جاوا ، سریعتر از فایل ARFF خوانده می‏شود چرا که فایل ARFF باید تجزیه و کنترل شود. وقتی یک مجموعه داده بزرگ مکررا بازخوانی می‏شود ، ذخیره آن در این شکل سودمند است[13] .
ویژگی‏های دیگر ویرایشگر عمومی اشیا در شکل 5 (الف) ، save و open است که به ترتیب برای ذخیره اشیای تنظیم شده و بازکردن شیئی که پیش از این ذخیره شده است ، به کار میرود. اینها برای این نوع خاص شیئ مفید نیستند. لکن پانل‏های دیگر ویرایشگر عمومی اشیاء ، خواص قابل ویرایش زیادی دارند. به دلیل مشکلاتی که ممکن است حین تنظیم مجدد آنها رخ دهد ، می‏توان ترکیب اشیاء ایجاد شده را برای استفاده‏های بعدی ، ذخیره کرد.
تنها منبع مجموعه‏های داده برای Weka ، فایل‏های موجود روی کامپیوتر نیستند. می‏توان یک URL را باز کرد تا Weka از پروتکل HTTP برای دانلود کردن یک فایل Arff از شبکه استفاده کند. همچنین می‏توان یک پایگاه داده‏ها را باز نمود هر پایگاه دادهای که درایور اتصال به مجموعه های داده به زبان جاوا JDBC را دارد. و به وسیله دستور select زبان SQL ، نمونه‏‏ها را بازیابی نمود. داده‏ها می‏توانند به کمک دگمه save به همه فرمت‏های ذکر شده ، ذخیره شوند. جدای از بحث بارگذاری و ذخیره مجموعه‏های داده ، پانل preprocess به کاربر اجازه فیلتر کردن داده‏ها را می‏دهد. فیلترها ، اجزای مهم Weka هستند[13] .
* بکارگیری فیلترها
با کلیک دگمه choose )گوشه بالا و سمت چپ( در شکل 3 می‏توان به لیستی از فیلترها دست یافت. می‏توان از فیلترها برای حذف ویژگی‏های مورد نظری از یک مجموعه داده و انتخاب دستی ویژگی‏‏ها استفاده نمود. مشابه این نتیجه را می‏توان به کمک انتخاب ویژگی‏های مورد نظر با تیک زدن آنها و فشار دادن کلیه Remove به دست آورد.
* الگوریتم‏های یادگیری
زمانی که یک الگوریتم یادگیری با استفاده از دگمه choose در پانل classify انتخاب می‏شود ، نسخه خط فرمانی رده بند در سطری نزدیک به دگمه ظاهر می‏گردد. این خط فرمان شامل پارامترهای الگوریتم است که با خط تیره مشخص می‏شوند. برای تغییر آنها می‏توان روی آن خط کلیک نمود تا ویرایشگر مناسب شیء ، باز شود. جدول شکل 6 ، لیست اسامی رده بندهای Weka را نمایش می‏دهد. این الگوریتم‏ها به رده بندهای Bayesian ، trees ، functions rules ، lazy و دسته نهایی شامل روش‏های متفرقه تقسیم شدهاند[12] .
Trees –
Decision stump که برای استفاده توسط روش‏های boosting طراحی شده است ، برای مجموعه‏های داده عددی یا ردهای ، درخت تصمیم‏گیری یک سطحی می‏سازد. این الگوریتم ، با مقادیر از دست رفته ، به صورت مقادیر مجزا برخورد کرده و شاخه سومی از درخت توسعه می‏دهد.
Rules –
Decision Tableیک رده بند بر اساس اکثریت جدول تصمیم‏گیری می‏سازد. این الگوریتم ، با استفاده از جستجوی اولین بهترین ، زیر دسته‏های ویژگی‏‏ها را ارزیابی می‏کند و می‏تواند از اعتبارسنجی تقاطعی برای ارزیابی بهره ببرد
یک امکان این است که به جای استفاده از اکثریت جدول تصمیم‏گیری که بر اساس دسته ویژگی‏های مشابه عمل می‏کند ، از روش نزدیکترین همسایه برای تعیین رده هر یک از نمونه‏ها که توسط مدخل جدول تصمیم‏گیری پوشش داده نشدهاند ، استفاده شود.
Conjunctive Rule قاعدهای را یاد می‏گیرد که مقادیر رده‏های عددی را ردهای را پیش‏بینی می‏کند. نمونه‏های آزمایشی به مقادیر پیش فرض رده نمونه‏های آموزشی ، منسوب می‏شوند. سپس تقویت اطلاعات (برای رده‏های رسمی) ، یا کاهش واریانس (برای ردههای عددی) مربوط به هر والد محاسبه شده و به روش هرس کردن با خطای کاهش یافته ، قواعد هرس می‏شوند.
ZeroR برای رده‏های اسمی ، اکثریت داده‏های مورد آزمایش و برای رده‏های عددی ، میانگین آنها را پیش‏بینی می‏کند. این الگوریتم بسیار ساده است.
M5Rules ، به کمک M5 از روی درخت‏های مدل ، قواعد رگرسیون استخراج می‏کند.

شکل 7- 6 : .الف. الگوریتمهای رده بندی در Weka

شکل 7- 6 : .ب. الگوریتمهای رده بندی در Weka
در این بخش به شرح مختصری برخی از این الگوریتمها و پارامترهایشان که قابلیت کار با ویژگی های عددی را دارند ، پرداخته می‏شود[12] .
Functions –
Simple Linear Regresion مدل رگرسیون خطی یک ویژگی مشخص را یاد می‏گیرد. آنگاه مدل با کمترین خطای مربعات را انتخاب می‏کند. در این الگوریتم ، مقادیر از دست رفته و مقادیر غیرعددی مجاز نیستند.
Linear Regression رگرسیون خطی استاندارد کمترین خطای مربعات را انجام می‏دهد می‏تواند به طور اختیاری به انتخاب ویژگی بپردازد ، این کار می‏تواند به صورت حریصانه با حذف عقب رونده انجام شود ، یا با ساختن یک مدل کامل از همه ویژگی‏‏ها و حذف یکی یکی جمله‏ها با ترتیب نزولی ضرایب استاندارد شده آنها ، تا رسیدن به شرط توقف مطلوب انجام گیرد.
Least Med sq یک روش رگرسیون خطی مقاوم است که میانه(به جای میانگین) مربعات انحراف از خط رگرسیون را کمینه می‏کند. این روش به طور مکرر رگرسیون خطی استاندارد را به زیرمجموعه‏هایی از نمونه‏ها اعمال می‏کند و نتایجی را بیرون می‏دهد که کمترین خطای مربع میانه را دارند.
SMO teg الگوریتم بهینه سازی حداقل ترتیبی را روی مسایل رگرسیون اعمال می‏کندScholkopf,
Pace Regression ، با استفاده از تکنیک رگرسیون pace ، مدل‏های رگرسیون خطی تولید می‏کند Witten رگرسیون pace ، زمانی که تعداد ویژگی‏‏ها خیلی زیاد است ، به طور ویژهای در تعیین ویژگی‏‏هایی که باید صرف‏نظر شوند ، خوب عمل می‏کند. در واقع در صورت وجود نظم و ترتیب خاصی ، ثابت می‏شود که با بینهایت شدن تعداد ویژگی‏‏ها ، الگوریتم بهینه عمل می‏کند.
RBF Network ، یک شبکه با تابع پایهای گوسی شعاعی را پیاده سازی می‏کند. مراکز و عرض‏های واحدهای مخفی به وسیله روش میانگین K تعیین می‏شود. سپس خروجی‏های فراهم شده از لایه‏های مخفی ، با استفاده از رگرسیون منطقی در مورد رده‏های اسمی و رگرسیون خطی در مورد رده‏های عددی ، با یکدیگر ترکیب می‏شوند. فعال سازی‏های توابع پایه پیش از ورود به مدل‏های خطی ، با جمع شدن با عدد یک ، نرمالیزه می‏شوند. در این الگوریتم می‏توان ، K تعداد خوشه‏ها ، بیشترین تعداد تکرارهای رگرسیون‏های منطقی برای مساله‏های رده‏های رسمی ، حداقل انحراف معیار خوشه‏ها ، و مقدار بیشینه رگرسیون را تعیین نمود. اگر رده‏ها رسمی باشد ، میانگین K به طور جداگانه به هر رده اعمال می‏شود تا K خوشه مورد نظر برای هر رده استخراج گردد[12] .
– رده بندهای Lazy
یادیگرنده‏های lazy نمونه‏های آموزشی را ذخیره می‏کنند و تا زمان رده بندی هیچ کار واقعی انجام نمی‏دهند.
IB1 یک یادگیرنده ابتدایی بر پایه نمونه است که نزدیکترین نمونه‏های آموزشی به نمونه‏های آزمایشی داده شده را از نظر فاصله اقلیدسی پیدا کرده و نزدیکترین ردهای مشابه رده همان نمونه‏های آموزشی را تخمین می‏زند.
IBK یک رده بند با K همسایه نزدیک است که معیار فاصله ذکر شده را استفاده می‏کند. تعداد نزدیکترین فاصله‏ها می‏تواند به طور صریح در ویرایشگر شیء تعیف شود. پیش‏بینی‏های متعلق به پیش از یک همسایه می‏تواند بر اساس فاصله آنها تا نمونه‏های آزمایشی ، وزندار گردد.
دو فرمول متفاوت برای تبدیل فاصله به وزن ، پیاده سازی شدهاند. تعداد نمونههای آموزشی که به وسیله رده بند نگهداری می‏شود ، می‏تواند با تنظیم گزینه اندازه پنجره محدود گردد. زمانی که نمونه‏های جدید اضافه می‏شوند ، نمونه‏های قدیمی حذف شده تا تعداد کل نمونه‏های آموزشی در اندازه تعیین شده باقی بماند.
Kstar ، یک روش نزدیکترین همسایه است که از تابع فاصلهای عمومی شده بر اساس تبدیلات استفاده می‏کند.
LWL یک الگوریتم کلی برای یادگیری وزن دار شده به صورت محلی است. این الگوریتم با استفاده از یک روش بر پایه نمونه ، وزن‏ها را نسبت می‏دهد و از روی نمونه‏های وزندار شده ، رده بند را می‏سازد. رده بند در ویرایشگر شیء LWL انتخاب می‏شود. Nave Bayes برای مسایل رده بندی و رگرسیون خطی برای مسایل رگرسیون ، انتخاب‏های خوبی هستند. می‏توان در این الگوریتم ، تعداد همسایه‏های مورد استفاده را که پهنای باند هسته و شکل هسته مورد استفاده برای وزن دار کردن را (خطی ، معکوس ، یا گوسی) مشخص می‏کند ، تعیین نمود. نرمال سازی ویژگی‏‏ها به طور پیش فرض فعال است

فصل هشتم

نتیجه گیری و ارائه پیشنهادات

نتیجه گیری و ارائه پیشنهادات :
امروزه با گسترش بانکهای اطلاعاتی و حجم عظیم داده های ذخیره شده در این سیستمها ، نیاز به ابزاری است که این داده های ذخیره شده را پردازش کند و تبدیل به یک سری اطلاعات مفید و سودمند کند که بتوان با توجه به این اطلاعات ، تصمیمات مهم و حیاتی در سازمانها اتخاذ کرد تا به سود بیشتری دست یابند. بنابراین داده کاوی یک سری ابزار در اختیار دارد که به صورت نیمه خودکار و با حداقل دخالت کاربران اطلاعات سودمند و در اصطلاح الگوهای مفید ( روابط منطقی بین داده ها ) را از میان حجم انبوه داده ها کشف میکند.
از کاربردهای مهم داده کاوی می توان به خرده فروشی ، بیمه ، بانکها ، و … اشاره کرد.
در فرایند داده کاوی از مدلها و الگوریتم هایی همانند: شبکه های عصبی ، درختهای انتخاب ، استنتاج قانون و الگوریتمهای ژنتیک استفاده می شود که با استفاده از تکنیکهایی همچون مدلسازی پیشگویی کننده ، تقطیع پایگاه داده ها ، تحلیل پیوند و تشخیص انحراف می توانیم الگوهای مفید در داده ها را با حداقل دخالت کاربر کشف کنیم.
در نتیجه هدف اصلی در داده کاوی کشف دانش نهفته در داده هاست که در بانکهای عظیم اطلاعاتی وجود دارند که برای دست یافتن به این دانش عظیم بایستی در ابتدا یک محیط یکپارچه از داده ها که پایگاه داده کاوی نامیده می شود فراهم شود سپس داده های مورد نظر جستجو شود آنگاه تبدیلاتی روی آنها صورت گیرد و در مرحله چهارم اکتشاف دانش که داده کاوی نامیده می شود با ابزارهای مورد استفاده در داده کاوی الگوهای موردنظر کشف گردد و در نهایت در مرحله آخر کشف دانش نتیجه به صورت کاملا قابل فهم به کاربر ارائه گردد .
رابطه مشتری با زمان تغییر می کند و چنانچه تجارت و مشتری درباره یکدیگر بیشتر بدانند این رابطه تکامل و رشد می یابد. چرخه زندگی مشتری چارچوب خوبی برای به کارگیری داده کاوی در مدیریت ارتباط با مشتری فراهم می کند. در بخش ورودی داده کاوی ، چرخه زندگی مشتری می گوید چه اطلاعاتی در دسترس است و در بخش خروجی آن ، چرخه زندگی می گوید چه چیزی احتمالاً جالب توجه است و چه تصمیماتی باید گرفته شود. داده کاوی می تواند سودآوری مشتری های بالقوه را که می توانند به مشتریان بالفعل تبدیل شوند ، پیش بینی کند و اینکه تا چه مدت به صورت مشتریان وفادار خواهند ماند و چگونه احتمالاً ما را ترک خواهند کرد.
بعضی از مشتریان مرتباً مراجعاتشان را به شرکتها برای کسب مزیتهایی که طی رقابت میان آنها به وجود می آید ، تغییر می دهند. در این صورت شرکتها می توانند هدفشان را روی مشتریانی متمرکز کنند که سودآوری بیشتری دارند.
بنابراین می توان از طریق داده کاوی ارزش مشتریان را تعیین ، رفتار آینده آنها را پیش بینی و تصمیمات آگاهانه ای را در این رابطه اتخاذ کرد.
پیشرفتها در زمینه بدست آوردن داده های دیجیتال و فن آوری های ذخیره اطلاعات منجر به رشد پایگاه داده های عظیم شده است.این مساله در تمام ابعاد زندگی بشر از امور پیش پا افتاده )مثل داده های حاصل از تراکنش خرید از یک فروشگاه، رکوردهای مربوط به استفاده از کارت اعتباری وریز مکالمات تلفنی ( گرفته تا تصاویر اجرام فضایی و مولکولی ، مطرح است. پس تعجبی ندارد که جمع آوری این داده ها ، نتیجه گیری از آنها و در واقع داده کاوی برای مالک یک پایگاه داده تا چه اندازه می تواند حایز اهمیت باشد.
داده کاوی با بهره گیری از پیشرفتهای به دست آمده در زمینه های جمع آوری ، ذخیره سازی و پردازش داده ها و به کمک تیوری های آماری و ابزار دانش هایی همچون هوش مصنوعی و یادگیری ماشینی به تحلیل مجموعه های غا لباَ عظیم داده های شهودی به منظور استخراج قواعد کاربردی می پردازد که این مقوله در دنیای رقابتی امروز برای پیشبرد هر فعالیت علمی و تجاری امری حیاتی است ، چرا که صرف در اختیار داشتن داده های پردازش نشده راهگشا نخواهد بود.
پیشنهاداتی برای تحقیق
* ساخت الگوریتمهایی برای غلبه بر مسئله ابعاد زیاد نمونه ها (نفرین ابعاد)
* توسعه روشهایی برای داده کاوی بر روی اطلاعات در حجم بسیار زیاد (به خصوص در مورد خوشه بندی)
* بررسی نقش عاملها در داده کاوی توزیع شده، توسعه جهت تحقق داده کاوی توزیع شده
* توسعه روشهای داده کاوی مبتنی بر انواع اطلاعات
* بهبود روشهای حفظ اطلاعات محرمانه و جلوگیری از حملات استنتاجی
* بهبود روشهای تشخیص ناهمگونی، به خصوص مسئله تشخیص بدون نظارت

فهرست منابع :

[1] : J. Han , M. Kamber and Simon Fraser , " Data Mining : Concepts and Techniques" , Morgan Kaufman Publisher. , 2001
[2] : H. Miller , and J. Han , " Geographic Data Mining and Knowledge Discovery". Taylor and Francis , London , U.K. , 2001.
[3] : M. Steinbach , P. Tan , V. Kumar , S. Klooster , and C. Potter , " Data mining for the discovery of ocean climate indices", Proceedings of th 5th Workshop on Scientific Data Mining (SDM 2002), (Arlington, VA, Apr. 13) , Society of Industrial and Applied Mathematics , pp 7-16, 2002.
[4] : S. J. Stolfo, W. Lee , P. K. Chan, W. Fan and E. Eskin , "Data Mining-based Intrusion Detectors : An Overview of the Columbia IDS Project", SIGMOD Record, Vol. 30 , No. 4 , December 2001 , pp 5-14, 2000.
[5] : H. Kargupta , A. Joshi , K. Sivakumar and Y. Yesha , "Data Mining : Next Generation Challenges and Future Directions", Prentice Hall of India , pp. 157-219 , 2005.
[6] : L. A.F. Park, K. Ramamohanarao , and M. Palaniswami, "Fourier Domain Scoring : A Novel Document Ranking Method", IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL. 16, NO. 5 , pp 529-539 , MAY 2004
[7] : S. Schockaert , M. De Cock, C. Cornelis and E. E. Kerre "Efficient Clustering with Fuzzy Ants", Applied Computational Intelligence , World Scientific , p. 195-200 , 2004
[8] : M. Halkidi , Y. Batistakis and M. Vazirgiannis , "On Clustering Validation Techniques", Journal of Intelligent Systems , vol. 17:2/3 , pp 107-145 , 2001
[9] : S. Dˇzeroski and H. Blockeel , MultiRelational Data Mining 2004 : Workshop Report , SIGKDD Explorations. Volume 6 , Issue 2 , pp. 140-141, 2004.
[10] : C.A. Ratanamahatana and E. Keogh , Towards Parameter-Free Data Mining , KDD '04 , Seattle, Washington , USA , pp. 206-215 , 2004
[11] : H. Mannila , "Theoretical Frameworks for Data Mining", SIGKDD Explorations , January 2000. Volume 1, Issue 2 – page 30-32
[12] : R. Grossman , Data Mining Standards , Services , and Platforms 2004 (DMSSP 2004) Workshop Report , , SIGKDD Explorations. Volume 6 , Issue 2 – Page 157-158 , 2004.
[13] : U.M. Fayyad , G.Piatetsky-Shapiro , R. Uthurusamy , Summary from the KDD-03 Panel — Data Mining : The Next 10 Years , SIGKDD Explorations. Volume 5 , Issue 2 – pp. 191-196 , 2003.

14


تعداد صفحات : 92 | فرمت فایل : WORD

بلافاصله بعد از پرداخت لینک دانلود فعال می شود