تارا فایل

پروژه مدیریت اعتبارسنجی مشتریان دریافت تسهیلات بانکی با رویکرد داده کاوی




مدیریت اعتبارسنجی مشتریان دریافت تسهیلات بانکی با رویکرد داده کاوی

فهرست مطالب
چکیده 8
کلید واژه ها8
فصل اول: داده کاوی
مقدمه 11
داده کاوی چیست؟12
تاریخچه داده کاوی12
ویژگی های داده کاوی13
مزایای داده کاوی14
مراحل داده کاوی14
عملیات داده کاوی16
نرم افزارهای داده کاوی18
نمونه های از نرم افزارهای داده کاوی19
کاربردهای داده کاوی22
کاربرد داده کاوی در بانکداری الکترونیکی28
نمونه ای از کاربرد داده کاوی در بانکداری31
مراحل عمل داده کاوی از یک پایگاه داده35

فصل دوم :داده کاوی و بانکداری
تشریح داده کاوی در بانک38
شناسایی و طبقه‏بندی مشتریان کلیدی38
اهمیت دستیابی به رضایت‏مندی مشتری40
فرایند داده کاوی در مدیریت ارتباط با مشتری42
استخراج داده43
تکنیک های استخراج داده44
کاربردهای استخراج داده در بخش بانکداری46
تعیین اعتبار مشتریان بانک49
مجموعه داده50
ریسک اعتباری و اعتبار سنجی51
طبقهبندی و درختان تصمیمگیری52
خوشه بندی52
انتخاب ویژگی ها53
الگوریتم ژنتیک55
مدل تلفیقی پیشنهادی56
آموزش، تست مدل58
مقایسه نتایج درخت تصمیم گیری مدل تلفیقی پیشنهادی با سایر درختان تصمیم گیری60
فصل سوم:استنتاج
نتیجه گیری69
فصل چهارم:پیوست ها
پیوست 71
فصل پنجم: منابع
منابع73

فهرست جدولها
جدول 1: مقایسه روش های دسته بندی برای مجموعه داده های بزرگ 18
جدول 2 : کاربردهای دادهکاوی محیط های دانشگاهی 23
جدول 3 : کاربردهای داده کاوی در کتابخانه ها 24
جدول 4 : تعیین اعتبار مشتریان 26
جدول 5 33
جدول 6 : نتایج حاصل از اجرای الگوریتمهای ساخت درخت تصمیم گیری C4.5 مبتنی برمدل تلفیقی پیشنهادی در خوشه اول 61
جدول 7 : نتایج حاصل از اجرای الگوریتم های ساخت درخت تصمیم گیری C4.5 مبتنی برمدل تلفیقی پیشنهادی در خوشه دوم 62
جدول 8 : نتایج حاصل از اجرای الگوریتم های ساخت درخت تصمیم گیری C4.5 مبتنی برمدل تلفیقی پیشنهادی 63
جدول 9 : نتایج حاصل از اجرای درخت تصمیم گیری C4.5 بدون اعمال الگوریتم های انتخاب ویژگی ها و خوشه بندی 64
جدول 10: نتایج حاصل از اجرای درخت تصمیم C4.5 با بکارگیری انتخاب ویژگی ها و بدون اعمال خوشه بندی 65
جدول 11: نتایج حاصل از اجرای درخت تصمیم گیری C4.5 با انتخاب ویژگی ها مبتنی بر جستجوی اول بهترین و بدون اعمال خوشه بندی 66
جدول 12: نتایج حاصل از اجرای درخت تصمیم گیری C4.5 با انتخاب ویژگی ها مبتنی بر جستجوی الگوریتم ژنتیک با در نظر گرفتن ویژگی نوع خوشه 67
فهرست شکل ها
شکل 1: مراحل داده 15
شکل 2: کاربردهای داده کاوی در بانکداری الکترونیکی 28
شکل3: مدل هرمی 31
شکل 4 32
شکل 5 34
شکل6 34
شکل 7 : فرآیند ساخت و آزمون مدل تلفیقی پیشنهادی در اعتبار سنجی مشتریان بانک 58

چکیده
پیشرفت شگفتانگیز فنآوری رایانهای و مجهز شدن بشر به این ابزار، سبب پیشرفت فوقالعاده در کسب و ذخیرهسازی دادههای عددی و همچنین بوجود آمدن پایگاه داده های بزرگ در زمینه های مختلف شده است . دادههای تبادلات تجاری، کشاورزی، ترافیک، اینترنت، دادههای نجومی، جزئیات مکالمات تلفنی، داده های پزشکی و درمانگاهی مثالهایی از چنین پایگاه دادهها میباشند. در واقع تکنیکهای تولید و جمع آوری پایگاه داده ها بسیار سریعتر از توانایی ما در درک و استفاده از آنها رشد کرده است . از اواخر دهه 80 بشر به فکر دستیابی به اطلاعات نهفته در این داده های حجیم، که با بکار بردن سیستم های سنتی استفاده از پایگاه داده ها میسر نبود، افتاد و تلاشها برای انجام این کار را شروع کرد .
داده کاوی فرآیندی است که در آغاز دهه 90 پا به عرصه ظهور گذاشته و با نگرشی نو، به مسئلهی استخراج اطلاعات از پایگاه دادهها میپردازد.
در سال 1996 ، اولین شماره مجله کشف دانش و معرفت از پایگاه داده ها منتشر شد . در حال حاضر، داده کاوی مهمترین فناوری جهت بهره برداری موثر از داده های حجیم بوده و اهمیت آن رو به فزونی است.
بانک ها به منظور تعیین ریسک اعتباری و ارائه خدمات مالی به مشتریان خود نیازمند شناسایی دقیق آن ها هستند. مدل های اعتبارسنجی می توانند در این زمینه به پشتیبانی از بانکها بپردازند. درختان تصمیمگیری به عنوان یکی از تکنیکهای دادهکاوی کاربرد زیادی در اعتبارسنجی مشتریان بانکها و اعطای تسهیلات اعتباری به آنها دارند. مسئله اصلی شامل دقت طبقهبندی، پیچیدگی، اندازه بیش از حد و عدم انعطافپذیری درختان تصمیمگیری در طبقهبندی و اعتبارسنجی مشتریان است. هدف از این پژوهش ارائه مدل تلفیقی پیشنهادی برای حل مسائل فوق و بهینهسازی درختان تصمیمگیری با بکارگیری تکنیکهای خوشهبندی و الگوریتم ژنتیک است. می توان با انتخاب ویژگیهای مناسب توسط الگوریتم ژنتیک و ساخت درختان تصمیمگیری به کاهش پیچیدگی، افزایش انعطافپذیری و دقت طبقه بندی پرداخت.
در مدل تلفیقی پیشنهادی ابتدا عمل خوشهبندی برروی مجموعه داده اعتباری صورت میگیرد.سپس توسط الگوریتم طبقهبندی متا و الگوریتم انتخاب ویژگی مبتنی بر درخت تصمیمگیری ژنتیکی، درخت تصمیمگیری C4.5 در هر خوشه ساخته میشود. در نهایت با اتخاذ یک استراتژی مناسب، بهترین درختان تصمیمگیری در هر خوشه برای اعتبارسنجی مشتریان انتخاب میشوند. ابزار یادگیری ماشین وکا و نرم افزار GATree برای تحلیل نتایج بکار میرود. نتایج نشان میدهد که مدل تلفیقی پیشنهادی دقت طبقه بندی بالاتری نسبت به اکثر الگوریتمهای طبقهبندی مور مقایسه در این پژوهش دارد و مشتریان اعتباری بانک را با پیچیدگی کمتری طبقهبندی میکند.

کلید واژه ها:
داده کاوی – مشتریان بانکی – اعتبار سنجی – تسهیلات بانکی

فصل اول: داده کاوی

1-1 مقدمه
داده کاوی، کاربرد تکنیکهای یادگیری ماشین بر روی پایگاه داده برای کشف دانشها و الگوهای نهفته در داده های پایگاه داده می باشد. داده کاوی اکتشاف و تحلیل مقادیر زیاد داده برای استخراج الگوها و قوانین با معنی درون پایگاه داده (KDD: Knowledge Discovery from Databases) را انجام می دهد.
بنابراین هدف اصلی از داده کاوی، کشف دانش نهفته در محیط مورد بررسی است که این دانش می تواند شکلهای گوناگونی داشته باشد. دانش استخراج شده می تواند به فرم الگوهای موجود در داده ها باشد که کشف این الگوها منجر به شناخت بهتر سیستم نیز می شود.
امروزه بانکها از منابع داده ای متعدد و گسترده ای برخوردار هستند که حاوی اطلاعات مربوط به مبادلات و جزئیات دیگر مربوط به مشتریانشان است. اطلاعات ارزشمند تجاری از درون همین ذخایر داده ای قابل بازیابی هستند. اما پشتیبانی از این دست تحلیل ها و تصمیم گیری با استفاده از زبان های گزارش گیری سنتی امکان پذیر نخواهد بود. روش های سنتی آماری نیز از ظرفیت کافی در تحلیل این داده ها برخوردار نیستند و لذا متدولوژی های مدرن داده کاوی و ابزارهای مربوط به آن در فرایند های تصمیم گیری نه فقط در بانک ها و نهادهای مالی بلکه در دیگر صنایع نیز بیش از پیش بکار گرفته می شوند. داده کاوی به نوبه خود در راستای حل مسائل موجود در کسب و کار در صنعت بانکداری و مالی آن هم بواسطه یافتن الگوها، روابط علی و معلولی و روابط حاکم بر قیمت های بازار و اطلاعات کسب و کار و مشتریان به کار می رود.
بکارگیری داده کاوی می تواند ارزش افزوده فراوانی را برای بانک ها حاصل نماید. تحقیقات گسترده ای که در این حوزه در کشورهای مختلف صورت گرفته به توسعه سیستم های پشتیبان از تصمیم سودمندی انجامیده است که منافع فراوانی را عاید بانک ها نموده است. علیرغم حجم انبوه تحقیقات و پژوهش هایی که در کشورهای پیشرفته در زمینه توسعه و بکارگیری تکنیک های داده کاوی در صنعت بانکداری به عمل آمده و نتیجه آن بهبود فرایند های بانکی بوده است، زمینه های بالقوه بسیاری در بکارگیری این دانش در بانک ها و موسسات مالی کشورمان وجود دارد.

1-2 داده کاوی چیست؟
> داده کاوی فرایند اکتشاف ، تجزیه وتحلیل خودکار یا نیمه خودکار از مقادیر زیادی از داده ها بمنظور کشف الگوها و قوانین معنادار می باشد.
> داده کاوی فرایند استخراج وتشخیص الگوهای پنهان یا اطلاعات از پایگاه داده می باشد.
> فرآیند به خدمت گرفتن یک متدولوژی کامپیوتری که با استفاده ازتکنیک های مختلف مستقیما از داده ها دانش استخراج می کند.

1-3 تاریخچه داده کاوی
زمینه پیدایش داده کاوی به زمانهای بسیار قدیم باز می گردد. زمانی که یونانیان و چینی های باستان به بررسی اشکال هندسی ساده می پرداختند و با روشهای ساده عددی به بررسی محیط اطراف می پرداختند. بدین صورت کم کم تئوریها و فرمولهایی به وجود آمدند که پدیده های جهان اطراف را توصیف می کردند. اینها ادامه پیدا کردند تا در حدود دویست سال پیش آمار به عنوان روشی برای کشف خصوصیت داده ها ایجاد شد. با استفاده از روشهای آماری می توان مقادیری مانند میانگین، واریانس، توزیع پراکندگی و مقادیری از این قبیل را محاسبه کرد که در فهم خصوصیات داده ها می تواند مفید باشد.اینها ادامه یافتند تا زمانی ابزارهای محاسبه مکانیکی و کم کم الکتریکی و الکترونیکی ابداع شدند و نهایتاً کامپیوترها بوجود آمدند که قدرت پردازشی را ارائه می کردند که قبلاً موجود نبود. روشهای آماری به تنهایی قادر به کشف خصوصیات داده ها نیستند و بدین صورت بود که از تحقیقات در یادگیری ماشین، شاخه ای به نام داده کاوی ایجاد شد که کار آن کشف الگوها و دانشهای نهفته در دل داده های یک پایگاه داده است.[2]
به طور کلی و از لحاظ تاریخی، توسعه داده کاوی را در طول زمان می توان به مراحل زیر تقسیم کرد:
مرحله اول : گردآوری و ایجاد پایگاه اطلاعاتی(تا دهه 1960)
مرحله دوم : نظام های مدیریتی مبنی بر پایگاه اطلاعاتی (دهه 1970 و اوایل دهه 1980)
مرحله سوم : نظام های پایگاه اطلاعاتی پیشرفته (اواسط دهه 1980 تا زمان حاضر)
مرحله چهارم : انبارش اطلاعات و داده کاوی (اواخر دهه 1980 تا به امروز)
مرحله پنجم : نظام پایگاه اطلاعاتی مبنی بر شبکه (دهه 1990 تا کنون)
مرحله ششم : نسل نوین نظام های اطلاعاتی یکپارچه شده (از 2000 به بعد)
بدین ترتیب فعالیتی که از دهه 1960 شروع شده بود، در دهه 1990 گام های بلندی برداشت و انتظار می رود در این قرن به رشد و بالندگی خود ادامه دهد. (باشگاه اقتصاددانان جوان، 1390)
اولین بار که داده در کامپیوتر ذخیره شد، جستجو و بازیابی آن نیز مطرح شد. این پدیده به مرور بهبود پیدا کرده است تا جایی که به وضعیت امروزی خود رسیده است: از دهه د1960 مجموعه داده یا گردآوری آن مطرح بود.از 1980 دسترسی به داده مطرح شد در این دهه برای دسترسی به داده پایگاه داده به وجود آمد که داده را به صورت ساختار یافته ذخیره می کرد. از 1990 هدایت داده مطرح شد یعنی اینکه داده بخش بندی شود و سطوح و گزارش های آنها مختص بخش های مربوط به آن باشد آنلاین بودن و دسترسی به هنگام از مباحث این دوره است. از سال 2000 داده کاوی مطرح شد، یعنی اینکه از داده های گردآوری شده، به استخراج روند پرداختیم. [17]
سابقه بانکداری الکترونیکی در ایران به کمتر از یک دهه می رسد . با توسعه خدمات الکترونیکی در سیستمهای بانکی ، مراکز داده ای بانکها نیز توسعه پیدا کردند .
با توجه به نقش اساسی ومهم تصمیمات بازاریابی درمحیط رقابتی ومشتری مداری، سازمانهای امروزی خصوصا بانکها و موسسات مالی واعتباری نیازمند ساختاری جهت یکپارچه سازی ومدیریت دانش مرتبط با مشتریان وساختاری که بواسطه آن بتوانند دانش نهفته در داده های مربوط به مشتریان را استخراج ، مدیریت وسپس به پشتیبانی از تصمیمات بازاریابی بپردازند می باشند.

1-4 ویژگی های داده کاوی
پنج ویژگی مهم داده کاوی عبارت است از:
* استخراج، دگرگونی و بار نمودن داده های تراکنشی بر روی سیستم انبار داده ها.
* ذخیره و مدیریت داده ها در سیستم بانک اطلاعات چند بعدی.
* فرآهم آوردن امکان دسترسی تحلیل گران نجاری و متخصصان تحلیل اطلاعات به داده ها.
* تحلیل داده ها با استفاده از نرم افزار کاربردب.
* معرفی نمودن، در یک قالب بندی سودمند، همانند گراف یا جدول. [18]
*
1-5 مزایای داده کاوی
داده کاوی دارای محاسن فراوانی است. از مهمترین آن محاسن، کشف کردن دانش نهفته در سیستم است که به شناخت بهتر سیستم کمک می کند. به عنوان مثال در ارتباطات تلفنی، دو مشترک با هم ارتباط پیدا می کنند و با کشف الگوی این ارتباطات می توان سرویس دهی را بهبود بخشید . کمک دیگری که داده کاوی ، به خصوص داده کاوی تجاری می تواند به سیستمهای تجاری و صنعتی نبماید این است که با کاوش کردن در داده های تولیدی و سیستم و کشف کردن دانش نهفته در آن سیستم ، در اخذ تصمیم ، می تواند راه گشا باشد . [2]

1-6 مراحل داده کاوی
داده کاوی در یک چرخه شامل مراحل مختلفی می باشد که عبارتند از :
* تعیین اطلاعات گذشته .
* تمیز کردن داده ها و پردازش اولیه . در این مرحله خطاهای داده ها تصحیح می شوند و داده های اشتباه جایگزین می شوند . در این مرحله ممکن است تا 60 درصد از زمان داده کاوی را در برگیرد.
* یکپارچه سازی داده ها . معمولاً داده ها از منابع متفاوتی جمع آوری می شوند باید به صورتی درآیند که یک مخزن داده های مناسب ایجاد شود تا بتوان عملیات داده کاوی را بهتر انجام داد.
* انتخاب مجموعه داده های هدف .
* یافتن ویژگی های مورد استفاده و تعیین ویژگی های جدید .
* نمایش داده ها به صورتیکه بتوان برای داده کاوی استفاده نمود .
* انتخاب عملیات داده کاوی ( دسته بندی ، خوشه بندی ، پیش بینی و غیره )
* انتخاب روش داده کاوی ( شبکه های عصبی ، درخت تصمیم ، خوشه بندی و نظایر آن )
* داده کاوی و جستجو برای یافتن الگوی مناسب .
* ارزیابی و تحلیل الگوی به دست آمده و حذف الگوهای نامناسب .
* تفسیر نتایج داده ها و استنتاج از اطلاعات با ارزش .
باید توجه داشت که جمع آوری و محافظت از داده ها نکته بسیار مهمی می باشد . اصولاً چون قالب و نوع داده ها در طول زمان تغییر می کند ممکن است بسیاری از داده های موجود در قالب های متفاوت باشند و همچنین بسیاری از داده های قدیمی از بین رفته و دور ریخته شوند . در حالیکه ممکن است اهمیت این داده ها از داده های جدید به هیچ وجه کمتر نباشد . همچنین به علت اینکه داده ها از منابع مختلف داخلی و خارجی مانند کارکنان شرکت ، مدیران ، مشتریان ، کارفرمایان ، پیمانکاران باشند باز هم ممکن است قالب داده ها با هم یکسان نباشند. به همین دلیل انتخاب داده های درست و یکپارچه سازی قالب آن ها به منظور استفاده در داده کاوی از اهمیت بسیار بالایی برخوردار می باشد . می توان مراحل داده کاوی را به اختصار در شکل زیر نشان داد .

1-7 عملیات داده کاوی
مجموعه عملیاتی را که روش داده کاوی قادر به انجام آن است در زیر به صورت کامل تشریح شده است:
دسته بندی و پیشگویی
دسته بندی یکی از عملیات رایج و مورد استفاده در داده کاوی است . دسته بندی عملیاتی است که سازمان ها را قادر می سازد که در حل مسائل خاص در مجموعه های بزرگ و پیچیده به کشف الگوهایی دست یابند .
دسته بندی فرآیندی می باشد که مجموعه داده ها را به قسمت های مشخص تقسیم می کند . برای مثال مشتریان یک شرکت بیمه را بر اساس خصوصیاتشان به دو گروه با ریسک بالا و ریسک پایین تقسیم می شوند . با این کار در واقع مشتریان این شرکت را دسته بندی شده اند .
ساده ترین روشی که برای دسته بندی به نظر می رسد گذاشتن حدی برای دسته ها می باشد ، مثلاً افراد با درآمد بالای مقداری مشخص را به یک دسته و افراد با درآمد پایین تر از آن را به یک دسته ی دیگر تخصیص دهیم . میشل (1997 ) مولر و چرکاسکی ( 1998 ) تعدادی از روش هایی که می توانند جهت داده کاوی مسائل دسته بندی به کار برده شوند ، شامل : درخت تصمیم و شبکه های عصبی و نظیر این ها را ارایه کردند . این روش ها بر دامنه گسترده ای از زمینه های مهندسی به کار برده می شوند .
برای نمونه ، شبکه های عصبی در کنترل بازخورد ها برای کشف الگوها و آشکار سازی خروجی مناسب کنترل شده به کار برده می شوند .
دسته بندی داده ها یک فرآیند دو مرحله ای می باشد . در گام اول ، یک مدل براساس مجموعه داده های آموزشی موجود در پایگاه داده ها ساخته شده است . مجموعه داده های آموزشی از رکوردها ، نمونه ها ، مثال ها و یا اشیائی که شامل مجموعه ای از صفات یا جنبه ها می باشد ، تشکیل شده اند . هر نمونه یک برچسب کلاس معلوم دارد ، که در یکی از صفات به نام برچسب کلاس مشخص شده است . به هریک از نمونه های مجموعه داده های آموزشی ، یک نمونه آموزشی گویند ، که به طور تصادفی از مجموعه داده ها انتخاب می شود . زمانی که برچسب کلاس آموزشی مشخص می باشد ، این مرحله از یادگیری را یادگیری نظارت شده ( یادگیری با ناظر ) می نامند . نوع دیگری از یادگیری بدون نظارت ( یادگیری بدون ناظر ) می باشد ، که در آن برچسب کلاس هر نمونه آموزشی نامعلوم است ( مانند : خوشه بندی ) به طور معمول ، مدل های ساخته شده به فرمهایی از قواعد دسته بندی و درخت تصمیم نشان داده می شوند .
به عنوان مثال یک پایگاه داده ها شامل اطلاعات مشتریان کارتهای اعتباری را در نظر بگیرید ، قواعد دسته بندی می تواند جهت دسته بندی مشتریان به نرخ اعتباری عالی و خوب ساخته شوند . از این قواعد می توان جهت دسته بندی ، نمونه داده های جدید استفاده کرد .
در گام دوم مدل برای دسته بندی مناسب مشتریان جدید استفاده شده می شود . قواعد یادگیری که از تحلیل داده های مشتریان موجود حاصل شده است ، می توانند برای پیشگویی کلاس اعتبار مشتریان جدید یا آینده مورد استفاده قرار گیرند .
از نقطه نظر کلی ، دسته بندی رگرسیون دو نوع اصلی از مسائل پیشگویی هستند ، که دسته بندی جهت پیشگویی مقادیر گسسته و اسمی مورد استفاده قرار می گیرد ، در حالی که رگرسیون جهت پیشگویی مقادیر پیوسته مورد استفاده قرار می گیرد در اینجا ما پیشگویی بر چسب کلاس به عنوان دسته بندی و برای پیشگویی مقادیر پیوسته را به عنوان پیشگویی معرفی می کنیم . دسته بندی و پیشگویی کاربردهای زیادی در بازرگانی ، بانکداری ، پزشکی ، ارتباطات ، کشاورزی و غیره دارد.
دسته بندی را می توان به عنوان یک فرآیند دو مرحله ای در نظر گرفت . اول ، یک مدل دسته بندی با توجه به مجموعه داده های آموزشی ساخته می شود . چنین مدلی می تواند به فراهم کردن یک درک بهتر از داده های گمشده کمک کند . به طور معمول ، این مدل ها به فرم هایی از درخت تصمیم ، قوانین اگر – آنگاه (IF-THEN ) یا فرمول های ریاضی نمایش داده می شود . سپس مدل می تواند ، جهت پیشگویی برچسب های کلاس داده های جدید که دارای برچسب کلاس نامعلوم هستند ، مورد استفاده قرار گیرد .
روش های دسته بندی
روش های دسته بندی در داده کاوی عبارتند از :
1-رگرسیون خطی چند گانه
2-رگرسیون لجستیک
3-تحلیل ممیزی
4-بیز ساده
5-شبکه های عصبی
6-درخت های تصمیم
7-K – نزدیکترین همسایگی
در جدول زیر به مقایسه روش های دسته بندی برای مجموعه داده های بزرگ پرداخته شده است .

جدول 1: مقایسه روش های دسته بندی برای مجموعه داده های بزرگ

1-8 نرم افزارهای داده کاوی
طی سال های گذشته جریان سریعی از تمایل به داده کاوی در بازارهای نرم افزاری به وجود آمده است. بیشتر کاربران نرم افزارهای داده کاو با تفکر استفاده تجاری از این نرم افزارها ، خواهان استفاده از آن شده اند . نرم افزارهای داده کاو معمولاً سه روش مختلف را برای استفاده از داده کاوی به کار می برند . 1- اکتشاف 2- استفاده از مدل های پیشگویی 3- استفاده از آنالیز بحث و جدل .
اکتشاف ، فرآیند جستجو در داده هاست تا الگوی مخفی موجود در داده ها را بدون هیچ ایده ی از پیش تعیین شده ای مشخص نماید . در نرم افزارهای داده کاوی مبتنی بر مدل های پیشگویی ، الگوهایی که از یک بانک داده کشف می شوند ، برای پیش بینی آینده به کار می روند . مدل های پیش بینی به کاربر اجازه می دهند تا داده های نامشخص را به کار ببرد و این مقادیر نامشخص توسط نرم افزارها کشف شود .
در مدل های جدلی نیز الگوهای یافت شده از داده ها برای تعیین مقادیر غیر عادی به کار می رود . برای تعیین مقادیر غیر عادی ، ابتدا می بایست مقادیر عادی شناخته شود تا براین اساس مقادیر غیر عادی و منحرف شناخته شوند .
نرم افزارهای داده کاو در حال حاضر از فعالیت کمتری نسبت به سایر نرم افزارهای هوشمند برخوردار هستند . با این وجود فعالیت تجاری این نرم افزار را می توان در شش بخش کلی ، دسته بندی داده ها ، برآورد مقادیر نامشخص ، پیش بینی مقادیر نامشخص ، گروه بندی تقریبی داده ها ، خوشه بندی داده ها و تشریح روابط بین داده ها تقسیم کرد .

نمونه های از نرم افزارهای داده کاوی
> نرم افزار Predixion
> نرم افزار Orange
> نرم افزار SPSS CLEMENTINE

– معرفی نرم افزار Predixion
نرم افزار Insight Predixion از سرویس های ابری ) )cloud تحلیل پیش بینی کننده است که بصورت مبتنی بر
وب ، در رایانه شخصی، و یا در سازمان شما قابل دسترسی می باشد. این نرم افزار، مخصوص تحلیل های پیش بینی
کننده داده کاوی می باشد . این نرم افزار کاملا با سکوی Microsoft's BI یکپارچه است. اگر شما Excel یا PowerPivot را استفاده می کنید میتوانید آنرا در تحلیل های روزانه کسب و کار خود و پردازش های تصمیم-گیری بکارگیرید. نسخه تحت سرویس گیرنده و نیز نسخه تحت Excel آن واسط کاربری بسیار ساده ای را برای شما فراهم نموده است و به شما اجازه میدهد تا توابع تحلیلی پیشرفته ای را در مورد داده هایتان بکار بردید به گونه ای که بصورتی مستقیم با افزونه Microsoft PowerPivot در Excel ، یکپارچه میشود و امکانات تحلیل مجموعه داده های بزرگ از انواع منابع داده ای عمومی و خصوصی در آن تعبیه شده است.با نرم افزار Predixion ، شما می توانید گزارش های تحلیلی پیش بینی کننده ، گردش کار و مدلهای تحلیلی را برای خودتان ایجاد نموده و با همکاران خود به اشتراک بگذارید. به عبارتی دیگر افراد به سادگی قادرند بدون نیاز به صرف هزینه های بالای آموزشی و یا داشتن مهارت های تحلیلی پیشرفته، مدلهای تحلیلی پیش بینی کننده ای را ایجاد و مدیریت نمایند. نسخه تحت Excel آن، با ویرایش Excel 2447, 2464 کاملا سازگار می باشد.
Predixion Insight(tm) Cloud یک راه حل تحلیلی خود – سرویس Self-Service Predictive Analytics (SSPA) می باشد؛ و به افراد اجازه میدهد تا حجم بالایی از داده را به منظور اتخاذ تصمیمات عملگرا در محیطی آشنا از طریق Microsoft Excel(r) و PowerPivot و یا از طریق سایر واسط ها با استفاده از Predixion Connexion(tm) API را تحلیل نمایید. نسخه ابری آن، در هرمکان از راه دوری بدون نیاز به انجام تنظیمات پیچیده پیاده سازی و برنامه نویسی و هزینه بالای نرم افزار، قابل دسترسی می باشد. نتایج آن به سادگی از طریق مرورگرها قابل انتشار می باشد. کاربران غیر فنی و غیر حرفه ای قادرند گزارش های تحلیلی را فارغ از درگیری با مدل ها اجرا نمایند. در نسخه سازمانی آن Predixion Enterprise Insight(tm) ، توابع داده کاوی آن، توسعه یافته است. از 82 بیتی / مزایای آن می توان به سازگاری بانسخه های 22 Excel و PowerPivot ، هزینه پایین نرم افزار، امکان ایجاد مدل وگزارشگیری برای کاربران غیر حرفه ای، و عدم نیاز به اعمال تنظیمات پیچیده IT اشاره نمود. تحلیل
پیش بینی کننده با فراهم نمودن اطلاعات هدفمند و واقعی، کارایی و سودمندی را در طیف وسیعی از صنایع افزایش داده است.

– معرفی نرم افزار Orange
از نرم افزارهای کد Orange – آزاد داده کاوی است که با استفاده از آن میتوانید داده کاوی و تحلیل داده را از طریق برنامه نویسی بصری و یا اسکریپت های Python انجام دهید. اجزای آن برای یادگیری ماشین طراحی شده است و در متن کاوی بسیار قدرتمند و توسعه پذیر است. علاوه بر سیستم عامل ویندوز بر روی سیستم عامل لینوکس و Mac نیز قابل اجرا است. این نرم افزار از زبان برنامه نویسی Python بهره گرفته که نسخه نهایی آن برای Python 7.7 در دسترس می باشد. نسخه تحت ویندوز آن در دو بسته Full package و Pure Orange قابل دانلود می باشد. از ویژگیهای اصلی آن می توان به برنامه نویسی بصری یا همان Visual Programing اشاره نمود. که پردازش تحلیلی داده را برای شما از طریق برنامه نویسی بصری طراحی مینماید. Orange انتخابهای شما را به خاطر میسپارد و به شما مدل های ترکیبی را پیشنهاد می نماید و بصورتی هوشمندانه کانالهای ارتباطی را انتخاب می نماید. ویژگی دیگر آن بصری سازی مدل ها یا همان Visualization می باشد. بسته بصری آن حاوی انواع نمودارهای میله ای ، پراکنشی، درختی و شبکه ای می باشد. ویژگی دیگر آن مکانیزم و روش تحلیل داده ها در داده کاوی است. برای این منظور از ویدجتها استفاده مینماید به گونه ای که با انتخاب زیرمجموعه ای ازداده ها در یک ویدجت می توانید به طور خودکار تغییرات را در ویدجت دیگر مشاهده نمایید. )از تریگرها استفاده می کند( با ترکیب این ویدجتها شما میتوانید چارچوب تحلیل داده خود تان را طراحی نمایید. این نرم افزار بیش از 644 نوع جعبه ابزار و ویدجت دارد و انواع متداول زمینه های تحلیلی و داده کاوی را پوشش میدهد. به کمک واسط پایتون میتوانید الگوریتم و ماجول های تحلیلی جدیدتان بصورتی داینامیک و تفسیری و شی گرا توسعه داده و مدلهای جدید داده کاوی را طراحی نمایید. از داده کاوی با این نرم افزار لذت ببرید .

– نرم افزار SPSS CLEMENTINE ، ابزاری مناسب برای پیاده سازی
در میان نرم افزارهای مختلف داده کاوی ، می توان از نرم افزار SPSS Clementine به عنوان یکی از معروفترین و پرکاربردترین ¬ها نام برد . این نرم افزار امکان مدلسازی پیشرفته در حوزه های مختلف فرایند کشف دانش از قبیل پیش پردازش داده ها، مدلسازی مسائل کلاسبندی، پیش بینی ، خوشه بندی و کشف قواعد وابستگی را دارا می باشد. یکی از مزیت های این نرم افزار امکان پیاده سازی فرایند کشف دانش بر مبنای استاندارد CRISP-DM می باشد. فرایند CRISP-DM یک توالی از گام ها است که در یک مطالعه از نوع داده کاوی مورد نیاز است.
مدل CRISP-DM شامل شش بخش است که گام های اصلی فرایند کشف دانش را ارائه می دهد. از مسائلی که می توان با بکارگیری این نرم افزار به آنها پاسخ داد می توان به موراد زیر اشاره کرد :
* ایجاد پروفایل های مشتری و تعیین ارزش طول عمر مشتری
* کشف و پیش بینی سوء استفاده )کلاهبرداری(در موسسات مالی
* تعیین و پیش بینی نتایج با ارزش در داده های وب سایت
* پیش بینی روش های آتی در فروش و پیشرفت
* طبقه بندی پاسخ مستقیم به ایمیل و خطر اعتبار
* اجرای پیش بینی ، طبقه بندی و تقسیم بندی ها
* جستجو بین داده های فراوان اتوماسیون و الگوهای مفید کشف
این موارد فقط نمونه ای از استفاده های بی شمار شما از Clementine برای استخراج اطلاعات با ارزش از داده هایتان است.
همچنین از الگوریتم های داده کاوی مختلفی که در این نرم افزار وجود دارد می توان به موارد زیر استفاده کرد :
* الگوریتم های مختلف پیش پردازش داده ها از قبیل انتخاب مشخصه، حذف نویز و پرکردن داده های گم شده
* الگوریتم های مختلف جهت مسائل خوشه بندی از جمله K-Means ؛ Two-Step Clustering و SOM Neural Network
* الگوریتم های مختلف جهت مسائل پیش بینی و کلاسبندی از جمله شبکه های عصبی مصنوعی؛ درخت های تصمیم، ماشین بردار پشتیبان ها و …
* الگوریتم های مختلف جهت کشف قواعد وابستگی در داده ها مانند APriori

1-9 کاربردهای داه کاوی
برخی از کاربرد های داده کاوی در محیط های واقعی عبارتند از :
-خرده فروشی : از کاربرده های کلاسیک داده کاوی است که می توان به موارد زیر اشاره کرد :
* کاربرد داده کاوی زمانی جهت بهبود مدیریت فروش
* تعیین الگوهای خرید مشتریان
* تجزیه و تحلیل سبد خرید بازار
* پیشگویی میزان خرید مشتریان از طریق فروش الکترونیکی
-پزشکی
* تعیین نوع رفتار با بیماران و پیشگویی میزان موفقیت اعمال جراحی
* تعیین میزان موفقیت روش های درمانی در برخورد با بیماری های صعب العلاج
-بیمه
* تجزیه و تحلیل دعاوی
* پیشگویی میزان خرید بیمه نامه های جدید توسط مشتریان
* پیش گویی میزان استقبال از بیمه نامه های جدید
* تشخیص کلاهبرداری ها و مشخص کردن رفتارهای نامتناسب
* تشخیص نیاز مشتریان و خواسته های آنها
-کاربردهای داده کاوی در محیط های دانشگاهی
اداره موسسات دانشگاهی کار پیچیده ای است. در این موسسات دائماً نیاز به درآمدزایی و خودکارآمدی و کاهش وابستگی به بودجه دولتی احساس می شود. این مساله کنترل دائمی جنبه های مختلف هر فعالیت و پروژه را میطلبد. بانکهای اطلاعاتی برای چنین موسساتی مربوط به دانشجویان، دانشکده، اساتید و کارمندان، تعداد رشتهها و چند مورد دیگر است. ارزیابی تقاضا و وضعیت عرضه نقش مهمی بازی می کند. مرور بانکهای اطلاعاتی نمونه در جدول ذیل نمایانگر کاربردهای بالقوه داده کاویست.

جدول 2 : کاربردهای دادهکاوی محیط های دانشگاهی

-کاربردهای داده کاوی در کتابخانه ها
عملیات کتابداری بطور کلی شامل مدیریت مدارک، ارائه خدمات و امور اداره و نگهداری است. هر کدام از این کارکردها با انواع مختلفی از داده ها سروکار دارد و بطور جداگانه پردازش می شود. اگرچه، انجام تحلیل ترکیبی براین مجموعه های داده نیز می تواند افق تازه ای را بگشاید که به طرح خدمات جدید و تحول رویه ها و عملیات جاری کمک نماید. جدول زیر برخی از کاربردهای ممکن داده کاوی را که می تواند در کتابداری مفید باشد ارائه می کند.
جدول 3 : کاربردهای داده کاوی در کتابخانه ها

داده کاوی می تواند برای پاسخ دادن به یک سوال خاص مربوط به کتابخانه و نیز برای کشف روندهای عمومی که به تصمیم گیری کمک میکنند، استفاده شود. برای مثال سوال می تواند چنین باشد: امکان اینکه امانت گیرندگان منابع را یک هفته بعد از تاریخ عودت برگردانند تا نامه های یادآوری کمتری فرستاده شود چقدر است؟ یا میزان اشتراک مورد انتظار برای نشریات بین المللی انتخاب شده برای سال آینده چقدر است؟ درک الگوی استفاده کلی مجلات الکترونیکی یا تحلیل درخواستهای اعضاء برای میکروفیلم ها طی 5 سال گذشته نیز همگی مثال هایی از کشف روندهای عمومی اند. دامنه تحلیل استنادی هم می تواند با استفاده از داده کاوی گسترش داده شود.
در ارتباط با کتابخانه ها، وب کاوی حوزه دیگری از علاقمندی است. وب کاوی شامل محتوا کاوی وب، ساختار کاوی وب و استفاده کاوی وب با توجه به یک موضوع خاص است که در طراحی خدمات جدید مبتنی بر وب کمک خواهد کرد.
-به کارگیری تکنیکهای داده کاوی در انتخاب محرکهای هزینه در هزینه یابی
– داده کاوی در تجارت سیار
نتیجه اینکه بسیاری از سازمان ها بر معادنی از طلا تکیه زده اند که می باید با بهره گیری از تکنولوژی های جدید و ابزارهای خودکاری که به صورت هوشمند آن ها را تجزیه وتحلیل می کنند، گردآوری و پردازش شده و به دانش تبدیل و به کار گرفته شوند.
-بانکداری
* پیش بینی الگوهای کلاهبرداری از طریق کارت های اعتباری
* تشخیص مشتریان ثابت
* تعیین میزان استفاده از کارت های اعتباری بر اساس گروه های اجتماعی
* به کارگیری داده کاوی برای کشف مدل امتیازبندی و تحلیل رفتاری مشتریان بانک
* از جالب توجه ترین کاربردهای داده کاوی می توان به کشف پول شوئی اشاره کرد
* تعیین مشتریان استفاده کننده از یک سرویس خاص
همچنین اطلاعات استخراج شده از داده کاوی را می توانیم برای بکارگیری بازاریابی در بانکداری الکترونیکی نیز استفاده کنیم.از جمله کاربردهای داده کاوی در صنعت بانکداری شامل بازاریابی، مدیریت ریسک، تشخیص تقلب، کسب و حفظ مشتری می باشد همچنین نتایج داده کاوی در بعد تحلیل بازار شامل پشتیبانی مواردی چون بازاریابی هدفمند نیز می باشد.
سابقه بانکداری الکترونیکی در ایران به کمتر از یک دهه می رسد. با توسعه خدمات الکترونیکی در سیستمهای بانکی، مراکز داده ای بانکها نیز توسعه پیدا کردند. داده کاوی در صنعت بانکداری از دو ال قبل با تشکیل کارگاههایی به صورت محدود در مرحله شناخت آغاز شده اند. در سومین و چهارمین کنفرانس بین المللی داده کاوی در کشور نیز مقاله هایی در مورد مشتری مداری و کاربردهای داده کاوی در آن ارائه شد که هیچ گونه مدل واقعی برای تحلیل داده ها در آنها بیان نشده است.
با توجه به نقش اساسی و مهم تصمیمات بازاریابی در محیط رقابتی و مشتری مداری، سازمانهای امروزی خصوصاً بانکها و موسسات مالی و اعتباری نیازمند ساختاری جهت یکپارچه سازی و مدیریت دانش مرتبط با مشتریان و ساختاری که بواسطه آن بتوانند دانش نهفته در داده های مربوط به مشتریان را استخراج، مدیریت و سپس به پشتیبانی از تصمیمات بازاریابی بپردازند می باشند.
مثال
در نظر بگیرید که با داشتن سه وی‍ژگی "درآمد"، "نوع اتومبیل" و "جنسیت مشتری" قصد داریم قوانینی برای تشخیص مشتریان با اعتبار مالی بالا از مشتریان با اعتبار مالی پایین استخراج کنیم.

جدول 4 : تعیین اعتبار مشتریان
اعتبار
جنسیت
ماشین
درآمد

بد
زن
جدید
کم
مشتری 1
بد
زن
قدیمی
متوسط
مشتری 2
خوب
مرد
جدید
متوسط
مشتری 3
بد
مرد
جدید
کم
مشتری 4
خوب
مرد
جدید
بالا
مشتری 5
خوب
زن
جدید
بالا
مشتری 6
خوب
زن
جدید
متوسط
مشتری 7
خوب
زن
قدیمی
بالا
مشتری 8
بد
مرد
قدیمی
متوسط
مشتری 9

با توجه به نقاط آبی در جدول می توان قانون زیر را نتیجه گرفت :
If income=high then credit rate = good
به این معنی که مشتریانی که دارای درآمد بالا هستند، اعتبار بالایی نیز دارند.
حال با در نظر گرفتن خانه های قرمز می توان قانون دیگری به صورت زیر استنباط کرد:
If income=low then credit rate= bad
به این معنی که مشتریان با درآمد پایین دارای اعتبار مالی پایین هستند و وام دادن به آنها ریسک بالایی می خواهد.
حال با در نظر گرفتن خانه های سبز می توان دریافت در صورتی که درآمد افراد متوسط باشد، نمی توان با اتکا به ویژگی درآمد میزان اعتبار مشتری را پیش بینی کرد. اگر علاوه بر درآمد نوع اتومبیل افراد را نیز در نظر بگیریم می توان قانون زیر را استنباط کرد.
If income= middle and car=new then credit rate = good
If income= middle and car=old then credit rate = bad
در نهایت چهار قانون بدست آوردیم که با استفاده از آنها می توانیم مشتریان جدید را تعیین اعتبار کنیم. البته در عمل تعداد مشتریان و تعداد مشخصه آنها بسیار بالا است.
در صنعت بانکداری داده کاوی می تواند در حوزه های مختلفی ازجمله دسته بندی مشتریان، تعیین میزان سود بخشی مشتریان، امتیاز دهی اعتبار، تصویب اعتبار، بازاریابی، تشخیص تراکنش های متقلبانه، مدیریت پول نقد، پیش بینی عملیات و رتبه بندی سرمایه گذاری ها به کار گرفته شود. علاوه بر این بانک ها می توانند از داده کاوی برای شناسایی مشتریان کارت اعتباری که بیشترین سود بخشی را دارند یا برای شناسایی متقاضیان وامی که دارای ریسک بالا هستند استفاده کنند.

– کاربرد داده کاوی در بانکداری الکترونیکی
> بازاریابی
دپارتمان بازاریابی بانک می تواند از داده کاوی برای تحلیل پایگاه داده مشتریان استفاده کند و سرویس ها و محصولات ترجیحی مشتریان را تشخیص دهد. با ارائه سرویس ها و محصولاتی که مشتریان واقعاً متقاضی آنها هستند از هدر رفتن هزینه برای تامین سرویس های بدون متقاضی جلوگیری می شود.
> مدیریت ریسک
مدیران تصمیم گیری بانک برای بسیاری از تصمیم گیری ها نیاز دارند بدانند که آیا مشتریان بانک ها قابل اطمینان هستند یا خیر. اگر آنها اطلاعات کاملی در مورد مشتریان خود نداشته باشند، ارائه ی کارت های اعتباری به مشتریان جدید، گسترش اعتبار مشتریان کنونی و تصویب وام ها، تصمیمات دارای ریسک برای بانک هستند. داده کاوی می تواند با استخراج داده در مورد مشتریان ریسک بانک ها را در این موارد تصمیم گیری کاهش دهد.
> تشخیص تقلب
یکی دیگر از حوزه های مهم در صنعت بانکداری که داده کاوی می تواند در آن موثر باشد تشخیص تقلب است. "Flacon's fraud assessment system"یکی از سیستم هایی است که در تشخیص تقلب موثر بوده، این سیستم توسط بسیاری از بانک های صادر کننده کارت اعتبار ی به کار گرفته شده است.
مثلاً این سیستم در آمریکا و با استفاده از داده کاوی 80% تراکنش های کارت های اعتباری صادر شده را بررسی کرده است.
> مدیریت ارتباط با مشتریان
داده کاوی علاوه بر کمک به بانک ها برای بدست آوردن مشتریان جدید، به حفظ مشتریان جدید نیز کمک می کند. کسب و حفظ مشتری برای هر صنعتی یک عامل اساسی است. امروزه مشتریان برای انتخاب بانکی به منظور انجام فعالیت های اقتصادی خود، گزینه های متعددی دارند در صورتی که مسئولین اجرایی نتوانند توجه کامل مشتریان را جلب کنند، مشتری به راحتی می تواند بانکی را پیدا کند که توقعاتش را برآورده کند.
بانکداری الکترونیک امروزه یک مجموعه کامل از کالاها و خدمات تسهیل کننده نه تنها برای مشتریان خرد بلکه برای مشتریان سازمانی فراهم نموده است.
بنابراین توانایی کشف قوانین بین خدمات الکترونیکی متفاوت بسیار برای بانک حایز اهمییت است.
شناخت چنین قوانینی مزایای زیر را به دنبال دارد:
* توضیح و برقرار ارتباطات بین انواع متفاوت تراکنش های الکترونیکی
* سهولت استفاده از خدمات الکترونیکی برای عموم به دلیل استفاده گروه های مشتریان خاص از روش های پرداخت
* بهبود خدمات بانکی از آنچه که هم اکنون ارایه می شود به سمت آنچه که بیشتر مورد استفاده قرار می گیرد.
داده کاوی آماری موسسات مالی را قادر به موارد زیر می کند:
* تشخیص الگوی تقلب و جعل
* تعیین دلایل ریسک، ایجاد مدل های ریسک خودکار و پیچیده
* تقسیم و پیش بینی رفتار گروههای همگن مشتریان
* آشکار سازی ارتباطات پنهان بین شاخص های متفاوت
* ایجاد مدل های برای تعیین قیمت سلف،سهام و …
* بهینه کردن عملکرد سبد سهام
معرفی مدل های داده کاوی در محیط بانکداری به دلیل ماهیت و حساسیت داده های بانکی، می تواند کمک شایانی به بانک ها برای پیش بینی و پشتیبانی از تصمیم نمایید. در ارتباط با تصمیم گیری بسیار مهم است که یک بانک دانش تشخیص قابلیت سود دهی مشتری و گروه بندی آنان بر اساس این عوامل را داشته باشند و همچنین قوانین وابستگی بین کالا و خدماتی که مشتریان سفارش می دهند، به منظور پشتیبانی از تصمیم به صورت کافی تر، تشخیص و مورد بررسی قرار دهند.
ولی تعیین قوانین وابستگی بین داده های مربوط به بانک چالش برانگیز است چرا که حجم داده های بانک بسیار زیاد است، بنابراین داده ها باید توسط داده کاوی به طور مناسبی آماده شوند.
* هدف : باید از ابتدا و به طور واضح مشخص شود.(در بسیاری از موارد نداشتن یک هدف مشخص نتایج نادرست یا اصلاً عدم حصول نتیجه شده است)
* دانش: درست و مفید داده ها نه تنها برای داده کاوی بلکه برای تحلیل گر نهایی (مدیر) نیز به عنوان پیش نیاز مطرح است. در غیر این صورت نتایج تولید شده توسط داده کاوی اشتباه خواهد بود و نتایج ایجاد شده توسط مدیر نیز غیر قابل اعتماد خواهد شد.
* تمام قوانین موجود حایز اهمییت نبوده و تحلیل گر باید قوانین قوی برای تصمیم گیری را تشخیص دهد.

نمونه ای از کاربرد داده کاوی در بانکداری
به منظور آشنایی بیشتر با الگوریتمهای دادهکاوی در این اینجا مدل ریال RFM و الگوریتم آن را توضیح میدهیم.
– تحلیل RFM یک روش سه بعدی طبقه بندی مشتریان برای تعیین مشتریان عالی (20%) است. این تحلیل براساس قانون پارتو(20/8) است که 20 درصد مشتریان، 80% درآمدزا عاید سازمان می کنند. این مفهوم عامل بسیار مهمی در پشتیبانی از تصمیم است.
– در این مدل به منظور گروهبندی مشتریان و انجام تحلیل، یک مدل تقسم بندی مشتری به نام مدل هرمی استفاده می شود. مدل هرمی مشتریان را براساس درآمدی که ایجاد می کنند طبقه بندی کرده و سپس این گروهها در تحلیلهای متفاوتی مورد استفاده قرار می گیرند.
-.مدل هرمی به طور وسیعی در شرکت ها، سازمان ها و بانک ها مفید بوده است به طور خلاصه برخی موضوعاتی که می تواند با استفاده از این مدل اصلاح شود شامل موارد زیر است.
* پشتیبانی از تصمیم و تصمیم گیری
* پیش بینی درآمد آینده
* قابلیت سود رسانی مشتری
* پیشگویی درباره تغییر موقعیت مشتری در هرم
* درک دلایل تغییرات
* نگهداری مشتریان بسیار مهم
* شبیه سازی مشتریان منفعل

تحلیل RFM اشاره می کند که مشتری با نمره RFM بالا باید تراکنش ها و نتایج و سوددهی بالایی را برای بانک داشته باشد.
– این تحلیل امروزه مبتنی بر روش های داده کاوی مانند خوشه بندی است این روش ها به اثر بخشی تعیین و کشف نتایج تحلیل کمک می کند .
الگوریتم تحلیل RFM
نمونه داده های استفاده شده مربوط به دوره اول ژانویه تا دوازدهم دسامبر می باشد.
واژه کاربر بانکداری الکترونیک فعال کاربری را توضیح می دهد که حداقل به یک تراکنش مالی در طول این دوره کمک کرده باشد. به منظور نشان RFM برای تعیین مشتری سوده ده تمام مقادیر تراکنش های مالی در طول این دوره مورد ملاحظه قرار گرفته است
مقادیر زیر برای این دور زمانی مشخص محاسبه شد

* تا خر(R): تاریخ آخرین تراکنش کاربر، از آنجایی که مقدارR بر نمرهRFM تاثیر گذار است باید به صورت عدد باشد. بنابراین یک R جدید به عنوان تعداد روزهای بین اولین تاریخ(1/1/2002) تا تاریخ آخرین تراکنش کاربر محاسبه می شود. بنابراین کاربری که آخرین تراکنش خود را در روز 29/11/2002 انجام داده است با Rnew=332 مشخص می شود و شخصی که در تاریخ 4/4/2002 آخرین تراکنش را انجام داد خواهد داشت Rnew=93
* تکرار(F): تعداد تراکنش های مالی کاربر در دوره مذکور
* نمره با استفاده از فرمول زیر محاسبه می شود:
RFM=R+F+M
به منظور داشتن متغیرهای نرمال، جمع مقادیر را بر1000 تقسیم می کنیم.
یک نمونه دیتا که روش های داده کاوی در آن استفاده شده است در جدول زیر می باشد همانطور که در هیستوگرم می بینید تجمع RFM در مقدار کمتر از 1 می باشد. این امر طبیعی است چرا که 80 درصد مشتریان نمره کمی درRFM می آورند.
همانطور که در هیستوگرم می بینید تجمع RFM در موارد کمتر از 1 می باشد. این امر طبیعی است چرا که 80 درصد مشتریان نمره کمی در RFM می آورند.

جدول 5

کاربرد الگوریتم K_mean در 4 شاخه نتیجه می شود.بعد از هر شاخه می توان تعدادی زیر شاخه و همچنین ارزش میانگین هر متغییر را مشاهده کرد.
نتیجه خوشه بندی بالا در شکل زیر آورده شده است. مدل های زیر مشابه این توزیع در هرم است.

1-10 مراحل عمل داده کاوی از یک پایگاه داده
عمل داده کاوی از یک پایگاه داده به چند مرحله مشخص تقسیم می شود:
مرحله اول : تشکیل انبار داده
این مرحله برای تشکیل محیطی پیوسته و یکپارچه جهت انجام مراحل بعدی و داده کاوی در آن ، انجام می گیرد . در حالت کلی انبار داده مجموعه پیوسته و طبقه بندی شده است که دائماً در حال تغییر بوده و دینامیک است که برای کاوش آماده می شود .
مرحله دوم : انتخاب داده ها
در این مرحله برای کم کردن هزینه های عملیات داده کاوی ، داده هایی از پایگاه داده انتخاب می شوند که مورد مطالعه هستند و هدف داده کاوی دادن نتایجی در مورد آنهاست .
مرحله سوم : تبدیل داده ها
برای انجام عملیات داده کاوی لزوماً باید تبدیلات خاصی روی داده ها انجام گیرد ممکن است این تبدیلات خیلی راحت و مختصر مثل تبدیل byte به integer باشد یا خیلی پیچیده و زمان بر و با هزینه های بالا مثل تعریف صفات جدید و یا تبدیل و استخراج داده ها از مقادیر رشته ای و … باشد .
مرحله چهارم : کاوش در داده ها
در این مرحله نتایج و الگوهای ارائه شده توسط ابزار داده کاوی مورد بررسی قرار گرفته و نتایج مفید معین می شود .
مرحله پنجم : تفسیر نتیجه
در این مرحله نتایج و الگوهای ارائه شده توسط ابزار داده کاوی مورد بررسی قرار گرفته و نتایج مفید معین می شود .
همچنین در داده کاوی از الگوریتم های ژنتیک و شبکه های عصبی هم استفاده می شود . شبکه های عصبی به علت کارآمدی در حل مسائل پیچیده و بزرگ مورد استفاده اند و کاربرد الگوریتم های ژنتیک در داده کاوی برای جستجو و ساختن یک مدل بهینه در میان مدل های بدست آمده است ، به این گونه که مدل های اولیه روی کرومزوم هایی قرار می گیرند و با رقابت بر سر انتقال صفات به نسل بعد ، بهترین مدل و لایق ترین آنها به کاربر ارائه می شوند .

فصل 2:دادهکاوی و بانکداری

2-1 تشریح داده کاوی در بانک
بدلیل حج گسترده و بسیار زیاد داده های موجود در بانک و همچنین عدم امکان ذخیره سازی آنها و نیاز به پردازش و استخراج پویای اطلاعات و دانش نهفته ها در داده ها بحث داده کاوی جریان داده ها در بانک طی سالهای اخیر بسیار مورد توجه قرار گرفته است . ارتباط با مشتری یکی از مهمترین عوامل سازنده مخصوصاً در سازمانهای خدماتی می باشد از جمله این سازمانها بانک ها و موسسات مالی است که مدیریت ارتباط با مشتری در آنها نقش کلیدی را دارا می باشد . در بانکداری نوین ، بانک ها برای شناسایی مشتریان و نیازهای آنها دست به بازاریابی تک به تک و بازاریابی بر اساس پایگاه داده می زنند . بازاریابی تک به تک ایجاد و مدیریت رابطه فردی با تک تک مشتریان می باشد . امروزه بدلیل بهره گیری از فناوری رایانه ای و استفاده از پایگاه داده ها و داده کاوی این امکان فراهم است که بانک برای تک به تک مشتریان خود برنامه ای داشته باشند و بازاریابی تک به تک در مقیاس وسیعی قابل اجرا و اقتصادی در نظر گرفته شود .
شناسایی تکنیکهای داده کاوی در بانکداری الکترونیکی منجر به تولید سامانه های مشتری محور و امن می گردد و توجه به جزئیات داده ها منجر به خلق مزیت رقابتی پایدار و غیر قابل الگوبرداری می شود . چهار جنبه مهم کاربر داده کاوی در بانکداری الکترونیکی شامل : بازاریابی ، مدیریت ارتباط با مشتریان ، تشخیص کلاهبرداری و مدیریت ریسک دارائیها می باشد .

2-2 شناسایی و طبقه‏بندی مشتریان کلیدی
در یک طبقه‏بندی می‏توان مشتریان بانک را به پنج دسته تقسیم کرد:
* سپرده‏گذاران
* وامگیرندگان
* گشایش‏کنندگان اعتبارات اسنادی
* استفاده‏کنندگان خدمات خاص
* اشخاص ثالث (گذری)
در این قسمت بر روی گروه دوم تمرکز خواهد شد و بحث مشتریان کلیدی را به این گروه اختصاص خواهیم داد.
وام‏گیرندگان بیشتر در قالب صنعت و کارهای تولیدی به بانک مراجعه می‏کنند که غالباً سرمایه‏ای ندارند و یا اندک سرمایه‏ای دارند که برای انجام فعالیت تولیدی خود به کمک بانک نیاز دارند. باید توجه داشت اعطای تسهیلات به این گروه (در صورت دارا بودن شرایط) نوعی سرمایه‏گذاری برای آینده محسوب می‏شود.
در وجه‏ی اول در قالب یک بازاریابی، تمام افراد فوق باید برای کارمندان بانک محترم باشند. ولی بانک‏ها ضمن ارائه‏ی خدمت برای عموم اقشار جامعه و گروه‏های فوق، باید بازار هدف خود را شناسایی کرده و خدمات ویژه‏ای به این مشتریان کلیدی ارائه دهند.
در این زمین قاعده‏ی معروف 20/80 وجود دارد که بیان می‏کند 20 درصد مشتریان ممکن است 80 د رصد سود سازمان را ایجاد کنند. "ویلیام شردن" پیشنهاد کرد قاعده‏ی مذکور را اصلاح کرده و آن را به 80/20/30 تبدیل کنند تا این ایده را منعکس کند که 20 درصد مشتریان، 80 درصد سود سازمان را ایجاد می‏کنند و نیمی از آنچه را که از دست می‏دهیم به خاطر ارائه‏‏ی خدمات به 30 درصد مشتریانی است که سودآوری ندارند. این تعریف به طور ضمنی بر این دلالت دارد که موسسه با این کار می‏تواند با کنار گذاشتن بدترین مشتریان خود، سود خود را افزایش دهد. توجه داشته باشید که تاکید بر جریان درآمد و هزینه در طی عمر سازمان است و نه بر سودهای حاصل از یک معامله‏ی خاص.
ویژگی‏های مشتریان کلیدی
مشتریان کلیدی را به دو صورت می‏توان شناسایی کرد:
> استفاده از بانک اطلاعاتی که در فوق به آن اشاره شد. در صورتی که اطلاعات در رابطه با تمام مشتریان در کامپیوترها موجود باشد، می‏توان با استفاده از معیارهای خاص، مشتریان کلیدی هر شعبه را به طور سیستماتیک شناسایی کرد.
> استفاده از تجربه‏ی مدیران و کارکنان شعب برای شناسایی مشتریان کلیدی هر شعبه براساس معیارهای خاص.
روش اول منطقی‏تر و سیستماتیک‏تر است و در عین حال بسیار مشکل می‏باشد. اصولاً مشتریان کلیدی باید در رابطه با معیارهای خاصی شناسایی گردند. تمام یا گروهی از این معیارها می‏توانند مورد استفاده‏ی بانک‏ها قرار گیرند. در رابطه با وام‏گیرندگان، خوش‏حساب بودن و پرداخت بموقع اقساط می‏تواند ملاک و معیار مشتریان طلایی باشد.
2-3 اهمیت دستیابی به رضایت‏مندی مشتری
چرا بانک نیازمند دستیابی به رضایت مشتری است و اهمیت رضایتمندی مشتری برای بانک چیست؟ برای پاسخ به این سوالات نیاز به دانستن این مطلب است که اگر مشتریان ناراضی باشند چه اتفاقی می‏افتد و مشتریان رضایتمندی چه منافعی برای بانک به همراه خواهند داشت و نهایتاً چگونه بانک می‏تواند به این منافع دست یابد.
تحقیقات نشان می‏دهد که 96 درصد مشتریان هیچ‏گاه در رابطه با رفتار بد و کیفیت بد محصولات و خدمات شکایت نمی‏کنند و 90 درصد این مشتریان ناراضی دیگر به بانک بر نمی‏گردند. هرکدام از این مشتریان ناراضی، ناراحتی خود را به حداقل 9 نفر انتقال داده و 30 درصد از مشتریان ناراضی به بیش از 20 نفر نارضایتی خود را انتقال می‏دهند. همچنین مطالعات نشان می‏دهد که جذب یک مشتری جدید 6 برابر پرهزینه‏تر از نگهداری مشتری فعلی است.
تحقیقات ساسر و ریچ‏فیلد (1990) نشان می‏دهد که بانک‏ها با هر 5 درصد افزایش در نرخ حفظ مشتریان کلیدی و ارزنده‏ی خویش، بیش از 85 درصد به سودآوری خود می‏افزایند.
هایز درج اثبات کرد که معمولاً نگهداری مشتریان فعلی از جذب یک مشتری جدید به مراتب ارزان‏تر است، این درحالی است که هر دوی این فرایندها مشکل و گران‏قیمت هستند. یک مشتری وفادار ممکن است مبالغ زیادی در طول سال‏های ارتباط خود در بانک هزینه کند. به ویژه اگر این مشتری به وسیله‏ی دریافت خدماتی با کیفیت که سازمان قول تحویل آنها را داده تشویق می‏شود. بنابراین تعامل داشتن با مشتریان موجود از جستجو برای یافتن یک مشتری جدید، بسیار کم‏هزینه‏تر است .
مشتریان، شایسته‏ی دریافت چیزهایی که به آنها قول داده شده، هستند و شرکت‏ها زمانی مشتریان را مجذوب خود می‏کنند که به قولی که به مشتریان داده‏اند عمل کنند. همانطور که گفته شد موفقیت شرکت و رضایتمندی مشتری دو مفهوم بسیار نزدیک هستند و اگر رضایتمندی مشتری یکی از عوامل موفقیت‏ است پس می‏توان استنتاج نمود که به منظور کسب موفقیت، شرکت باید مشتریان رضایتمند داشته باشد. انتظارات، نیازها و خواسته‏های در حال تغییر، دلالت بر این موضوع دارد که ارزیابی رضایمندی مشتری به صورت مداوم بسیار ضروری است.
مشتریان وفادار که محصولات و کارمندان سازمان را پاسخگو به نیازهای منحصر به فرد خود می‏یابند، نه تنها وفادار می‏مانند بلکه به عنوان بهترین وسیله‏ی روابط عمومی و بازاریابی عمل کرده و در نتیجه مشتریان جدیدی جذب می‏نمایند.
یکی از روش‏های شناخت مشتری استفاده از اطلاعات کامپیوتری مربوط به مشتری می‏باشد. با وجود حجم زیاد اطلاعات، روش‏های نوینی بوجود آمد تا بتواند پاسخگوی نیازهای مدیران در شناخت هرچه سریعتر مشتریان باشد. یکی از این روش‏ها استفاده از داده کاوی در بانک اطلاعات مشتریان بود. امروزه داده کاوی در کسب وکار مختلف از اهمیت قابل توجهی برخوردار شده است. داده کاوی با تحلیل داده و شناخت الگوها و ارتباطات پنهان موجود در داده‏ها می‏تواند کمک‏های شایانی به کسب و کار از جمله بیمه، بانک، شرکت‏های تولیدی و ارتباطی نماید.
داده کاوی می‏تواند با استفاده از پیدا کردن الگوها و ارتباط بین اطلاعات تجاری و نرخ بازار که برای مدیران آشکار نیستند، به حل مشکلات تجاری بانک‏ها و اقتصاد کمک نمایند. مدیران بانک‏ها همواره سعی می‏نمایند که خصوصیاتی از مشتریانشان را پیدا کنند که به آنه در دسته‏بندی بهتر مشتریان مک نماید. و بتوانند الگوی مناسبی را برای بدست‏آوردن و داشتن مشتریان سودآور داشته باشند. تکنیک‏های داده کاوی می‏توانند به آنها در تشخیص گروه های مختلف مشتریان کمک کند که در نهایت می‏تواند به یک مدیریت سودآور بیانجامد.
به دلیل رقابت شدید در صنعت اقتصاد تصمیمات اتخاذ شده جهت جذب مشتریان بهتر و نگهداری آنها بحث بسیار مهمی استه و جهت موفقیت و بقای تجارت لازم است و کمک داده کاوی و تحلیل‏های پیشگویانه ایجاد این استراتژی‏ها را امکان‏پذیر می‏سازد.
یک ابزار قابل توجه در سیستم‏های مالی تجزیه و تحلیل اطلاعات مشتریان است و این تجزیه و تحلیل به بانک‏ها در تشخیص شاخص‏های کلیدی و فاکتورهایی که در احتیاجات مشتریان در آینده موثر است، کمک خواهد کرد. البته بررسی تقاضای مشتریان در گذشته نیز باید بررسی گردد.
با ظهور داده کاوی و سیستم‏های تجاری هوشمند برای بانک ها امکان‏پذیر شده است که جذب مشتریان سودآور را تقویت کنند و این امکان ایجاد شده است که با استفاده از داده‏های در دسترس بهترین مشتریانشان را برای مدت زیادی حفظ نمایند. همچنین دسته‏بندی ارائه‏های مختلف را برای مشتریان با ارزش امکان‏پذیر می‏سازد. داده کاوی همچنین برای بانک‏ها امکان‏پذیر می‏سازد تا مشتریانی مشکل‏داری که ممکن است در آینده بد حساب باشند را از روی سوابق پرداخت‏های قبلیشان، پروفایل آنها و یا بقیه اطلاعات مورد دسترسشان پیدا نمایند. همچنین داده کاوی می‏تواند ارتباط با این گونه مشتریان را به گونه‏ای تنظیم کند که در آینده خسارت به حداقل ممکن برسد.
بررسی سوابق گذشته معاملات انجام شده می‏تواند بینش مفیدی به بانک بدهد و شعبات مختلف می‏توانند از الگوهای مختلفی جهت بهبود آن استفاده نمایند و فعالیت‏های آینده‏شان را بر مبنای مروری بر گذشته پایه‏ریزی نمایند. از این جهت داده کاوی می‏تواند کمک بزرگی برای بانک‏ها و موسسات مالی باشد .
بانک‏ها معمولاً بانک اطلاعاتی بزرگ و جامعی از معاملات انجام شده‏شان و بقیه جزئیات مشتریانشان دارند. اطلاعات با ارزش تجاری می‏تواند از این ذخایر داده‏ای استخراج شود .
درحوزه بانکداری هر ساله مشتریان متعددی از بانک‏ها ت قاضای تسهیلات نموده که بررسی تقاضای آنان بسیار وقت‏گیر و هزینه‏بر می‏باشد خصوصاً زمانی که تعداد مشتریان زیاد واعتبارات درخواستی آنان کم باشد. لذا داده کاوی کمک شایانی در شناخت سریع مشتری و کاهش هزینه‏های مربوط به بررسی مشتریان می‏کند.

2-4 فرایند داده کاوی در مدیریت ارتباط با مشتری
داده کاوی یکی از عناصر مدیریت ارتباط با مشتری است و می‏تواند به حرکت شرکت‏ها به سمت مشتری محوری کمک کند. در فرایند داده کاوی در مدیریت ارتباط با مشتری داده‏های خام از منابع مختلفی جمع‏آوری می‏شوند و از طریق استخراج، ترجمه و فرایندهای فراخوانی به انبار داده این مدیریت وارد می‏شوند. در بخش مهیاسازی داده، داده‏ها از انبار خارج شده و به صورت یک فرمت مناسب برای داده کاوی در می‏آیند، بخش کشف الگو شامل چهار لایه است:
1- سوال‏های تجاری مانند توصیف مشتری
2- کاربردها مانند امتیازدهی، پیش‏گویی
3- روش‏ها مانند خوشه‏بندی، طبقه‏بندی، درخت تصمیم
4- الگوریتم‏ها
در این بخش روش‏های داده کاوی با کاربرد مخصوص خود برای پاسخ به سوال‏های تجاری که به ذهن می‏رسند، الگوریتم‏هایی را استخراج می‏کنند و از این الگوریتم‏ها برای ساخت الگو استفاده می‏شود.
در بخش تجزیه و تحلیل الگو، الگوها به یک دانش مفید و قابل استفاده تبدیل می‏شوند و پس از بهبود آنها، الگوهایی که کارا محسوب می‏شوند در یک سیستم اجرایی به کار گرفته خواهند شد.
داده کاوی می‏تواند سودآوری مشتری‏های بالقوه را که می‏توانند به مشتریان بالفعل تبدیل شوند، پیش‏بینی کند و اینکه تا چه مدت به صورت مشتریان وفادار خواهند ماند و چگونه احتمالاً ما را ترک خواهند کرد. بعضی از مشتریان مرتباً مراجعاتشان را به شرکت‏ها برای کسب مزیت‏هایی که طی رقابت میان آنها به وجود می‏آید، تغییر می‏دهند. در این صورت شرکت‏ها می‏توانند هدفشان را روی مشتریانی متمرکز کنند که سودآوری بیشتری دارند. بنابراین می‏توان از طریق داده کاوی ارزش مشتریان را تعیین، رفتار آینده آنها را پیش‏بینی و تصمیمات آگاهانه‏ای را دراین رابطه اتخاذ کرد.

2-5 استخراج داده
به فرایند استخراج دانش و اطلاعات مخفی شده از میان حجم وسیعی از داده ها، استخراج داده گفته می شود. دانش و اطلاعات مذکور بایستی جدید،و نامعلوم بوده و شخص توانایی استفاده از آن را داشته باشد. فرایند استخراج داده به صورت زیر تعریف شده است: استخراج اطلاعات ضمنی، قبلاً نامعلوم و بسیار مفید از داده ها. آن در واقع به علم استخراج اطلاعات مفید از پایگاههای داده بزرگ اشاره می کند. استخراج داده ، یکی از وظایف مهم در فرایند کشف دانش از پایگاه داده به شمار می رود.
2-5-1 مراحل کشف دانش عبارتنداز:
1-انتخاب داده. داده های وابسته به آنالیز مشخص و از موقعیت های مختلف داده بازیابی می شوند.
2-پیش پردازش یا پردازش مقدماتی داده ها: در این مرحله، فرایند پاکسازی و تلفیق و یکپارچگی داده انجام می شود.
پاکسازی داده: همچنین معروف به تنظیف داده می باشد. در این مرحله داده های اضافی و بی ربط از داده های جمع آوری شده حذف می گردد.
تلفیق و یکپارچگی داده: در این مرحله، منابع متعدد داده ، که اغلب ناهمگن می باشند، در یک منبع مشترک باهم ترکیب می شوند.
3- تبدیل داده : در این مرحله داده های انتخاب شده به اشکال مناسب برای رویه استخراج تبدیل می شوند.
4- استخراج داده: این مرحله از اهمیت بسزایی برخوردار می باشد. در این مرحله از تکنیک های هوشمند برای استخراج الگوهای مفید استفاده می گردد. تصمیم اصلی راجع به تکنیک استخراج داده بکارگرفته شده اخذ می گردد.
5-تفسیر و ارزیابی: در این مرحله، الگوهای جالب توجه معرف دانش و اطلاعات براساس معیارهای مناسب شناسایی می گردند. دانش کشف شده به صورت بصری در اختیار کاربر قرار داده می شود. این مرحله ضروری از تکنیک های مجازی سازی برای کمک به درک و فهم کاربر استفاده می کند.

2-5-2 تکنیک های استخراج داده:
الف-ارتباط
هدف از ارتباط و همبستگی معمولاً یافتن آیتم های داده بکاررفته در مجموعه های داده بزرگ می باشد. از این تکنیک برای یافتن الگوهایی استفاده می شود که بین رویدادهای مختلف ارتباط وجود دارد. این تیپ یافته ها به تجارتها کمک می کنند تا تصمیمات خاصی در مورد قیمت گذاری، فروش و طراحی استراتژیهای مناسب برای بازاریابی اخذ نمایند، من جمله طراحی کاتالوگ، بازاریابی متقابل و آنالیز رفتار خرید مشتری. اما تعدادی از قوانین ارتباطی برای مجموعه داده مشخص بسیار بزرگ بوده و تعداد زیادی از قوانین معمولاً کم ارزش می باشند.
انواع و اقسام مختلف روابط عبارتند:
* قانون ارتباط چند سطحی
* قانون ارتباط چند بعدی
* قانون ارتباط کمی
* قانون ارتباط مستقیم
* قانون ارتباط غیر مستقیم

ب-دسته بندی
دسته بندی به شناسایی کلاس های مشابه از واحدها اتلاق می گردد. این فرایند تکنیکی برای ترکیب معاملاتی با رفتار مشابه در یک گروه یا مشتریانی با سئوالات یا معاملات مشابه در یک گروه می باشد. از شیوه طبقه بندی همچنین می توان به عنوان ابزاری موثر برای تمایز گروهها استفاده نمود. بنابراین از روش دسته بندی می توان همانند پردازش مقدماتی برای انتخاب و طبقه بندی زیرمجموعه مشخصه استفاده نمود. به طور مثال: مشتری یک موقعیت جغرافیایی و پروفیل شغلی خاص متقاضی مجموعه سرویس های خاصی می باشد، مثلاً در بخش بانکداری، مشتریان کلاس سرویس دهی همیشه خواهان سیاستی هستند که از اطمینان و امنیت بیشتر اطمینان حاصل می کند، چرا که آنها تمایلی به ریسک کردن ندارند، مجموعه افراد طبقه سرویس دهی در مناطق روستایی ، مارک های خاصی را ترجیح می دهند که با مناطق شهری تفاوت دارد. این قبیل اطلاعات به فروش متقابل محصولات سازمان کمک می نماید. به جای عرضه گسترده محصول داغ، نماینده های سرویس دهی به مشتریان بانک را می توان به پروفیل های مشتری سرشار از استخراج داده مجهز نمود که به آنها در امر شناسایی مناسب ترین محصولات و سرویس ها کمک می کند.این تکنیک به مدیریت در امر یافتن راه حل اصل 80/20 بازاریابی کمک می کند که اظهار می دارد: 20 درصد از مشتریان شما ، 80 درصد از سود را حاصل می کنند، مسئله اصلی در این وضعیت شناسایی آن 20 درصد بوده و تکنیک های دسته بندی به نیل به این مهم کمک می کنند.

2-5-3 کاربردهای استخراج داده در بخش بانکداری:
روش استخراج داده با یافتن شرکت، روابط و همبستگی های مخفی شده در اطلاعات تجاری ذخیره شده در پایگاههای داده، به حل مسائل و مشکلات تجاری کمک می کند.
صنعت نیاز به کشف چه داده هایی در مورد مشتری داشته و دلیل این امر چیست؟
1. پروفیل، ذائقه، و اولویت ها، نگرش مشتری و رفتار مشتری در زمان حضور در بانک چیست؟ ( برای فروش متقابل محصولات بکار برده شده است).
2. قبل از انتقال به رقیب، مشتری چه معاملاتی را انجام می دهد؟ (برای پیشگیری از انتقال مشتریان).
3. کدام یک از محصولات اغلب توسط مشتریانی با پروفیل خاص خریداری می شود؟ (برای بازاریابی هدف).
4. کدام یک از الگوهای معاملات اعتباری منجر به کلاهبرداری می شود؟ (به منظور آشکارسازی و جلوگیری از کلاهبرداری).
5. پروفیل وام گیرنده با ریسک بالا چیست؟ (به منظور پیشگیری از کوتاهی، وام های بد، و ارتقاء گزینش).
6. مشتریان فعلی احتمالاً خواهان چه سرویس ها و مزایایی می باشند؟ (به منظور افزایش وفاداری و حفظ مشتری).
7. شناسایی مشتریانی که همه نوع سرویسی را از شرکت دریافت می کنند؟ (شناسایی مشتریان وفادار).
آن دسته از بانک هایی که به اهمیت استخراج داده پی برده اند، به سود و برتری رقابتی بالایی دست می یابند. بر طبق مقررات مطرح شده از سوی بانک ذخایر هند، بانک ها می بایست گزارشات OSMOS خود را به صورت منظم ، و در فرمت الکترونیکی و نیاز قانونی به بایگانی بازده های قانونی نظیر بخش 42 قانون بانک ذخایر هند، 1934 برای تعهدات CRR و SLR در فرمت الکترونیکی ارائه کنند.بر طبق اظهارات کمیته تشکیل شده توسط بانک ذخایر هند به ریاست دکتر وازودوان برای رسیدگی به جزئیات این مسئله، که گزارشش در تاریخ 17 جولای 1999 منتشر گردید، کمیته مقرر نمود که با استفاده از تکنیک های استخراج داده، به داده های موجود در سیستم های کامپیوتری مختلف می توان دسترسی یافت و با ترکیبی از تکنیک ها من جمله قوانین طبقه بندی، دسته بندی، تقطیع،ارتباط، مرتب سازی ، درخت تصمیم ، گزارشات مختلف ALM نظیر صورت نقدینگی ساختاری، صورت حساسیت نرخ بهره یا گزارشات حسابداری نظیر ترازنامه و حساب سود و زیان را می توان برای داده های دوره مورد نظر تهیه و تنظیم نمود. با استفاده از داده های تاریخی می توان روندها را مورد آنالیز قرار داد و پیش بینی نمود و انبار داده اطمینان حاصل می کند که هر کسی از داده ها در سطح استخراج مشابه استفاده می کند که این وضعیت نتایج و استدلالات چالش برانگیز در مورد منبع و کیفیت داده های بکاررفته برای آنالیز را تقلیل می دهد. در مجموع انبار داده امکان پردازش اطلاعات به شیوه ای معتبر و کارآمد را فراهم می کند. کمیته نیازبه انبارهای داده و استخراج داده در سطح بانک و صنعت را تشخیص می دهد.
کلیه معاملات اجرا شده در سطح شعب در مرکز به صورت یکپارچه درآورده می شود. این مرکز ، انبار داده بانک مربوطه نامیده می شود. برای اینکه این اتفاق رخ دهد، یکی از شرایط، برقراری ارتباط بین شعب از یک سو و واحد انبار داده از سوی دیگر می باشد.
• برای بانک هایی که شعب زیادی دارند، یکپارچگی و جمع کردن جزئیات معامله در یک مکان به تنهایی مطلوب نمی باشد. و در این وضعیت ممکن است به صورت غیر متمرکز درآید.
با استفاده از تکنیک های استخراج داده، به داده های موجود در سیستم های کامپیوتری مختلف می توان دسترسی یافت و با ترکیبی از تکنیک های استخراج داده، تصمیمات مختلفی می توان اخذ نمود.
طبقات وسیعی از کاربرد تکنیک های استخراج داده و هوش تجاری در صنعت مالی و بانکداری عبارتنداز:
الف-مدیریت رابطه مشتری
در عصر رقابت نزدیک، مشتری، به عنوان پادشاه تلقی شده و تنها این مشتری است که کل نمایش را اداره می کند. مفهوم فروش محصول به مشتری قدیمی شده و از مد افتاده است، حال هدف اصلی نیل به قلب مشتری و توسعه احساس تعلق و وابستگی به سازمان می باشد. پایگاه های داده عظیم سازمان های مختلف، بیلیون ها آیتم داده در مورد مشتریان انبار می کنند. تکنیک استخراج داده در هر سه فاز سیکل رابطه مشتری مفید واقع می شود: جمع آوری مشتری، ارزش زیاد مشتری و حفظ مشتری. از تکنیک استخراج داده می توان برای تهیه پروفیل مشتری جهت گروه بندی مشتریان هم فکر در یک گروه و رسیدگی به آنها استفاده نمود. از اطلاعات جمع آوری شده می توان برای مصارف مختلف همچون ارائه ابتکارات جدید بازاریابی، تقسیم بندی بازار، آنالیز ریسک و اصلاح سیاست های مشتری شرکت بر طبق نیاز مشتریان استفاده نمود. تهیه پروفیل معمولاً بر اساس ویژگیهای دموگرافیکی، همچون شیوه زندگی و رفتار و وضعیت معاملاتی قبل مشتری انجام می شود. هدف از این کار توصیف ویژگیهای گروه مشتریان خاص می باشد.
ب-بازاریابی
همان گونه که از قبل میدانیم، رقابت در بازار تقریباً در همه بخشها دیده شده و بخش بانکداری مستثنی نمی باشد. مراقبت و محافظت از مشتری و بازاریابی دست به دست منتقل می شود. این روزها مشتری خود را بشناسید (KYC) بین افراد رواج دارد. از نظر موسسات مالی، تعیین موقعیت خریداران غیر متقاضی قبلاً جدیدسخت و دشوار بوده و در نتیجه آنها از برنامه بازاریابی برای جذب مشتریان جدید از رقبای خود استفاده می کنند. به علاوه، رفتار نامعلوم مشتری ، این کار را خسته کننده تر می کند. یکی از ابزارهای جالب توجه موجود در بازاریابی و موسسات مالی، آنالیز داده های ارباب رجوع می باشد. بدین طریق امکان آنالیز و محاسبه شاخص های کلیدی فراهم می آورد که به بانک در امر شناسایی فاکتورهای اثرگذار بر تقاضای مشتری در گذشته و نیاز مشتری در آینده کمک می کند. تکنیک های استخراج داده به ارائه استراتژی های مشتری مدار برای مشتریان در طبقات مختلف کمک می کند. از تکنیک های استخراج داده می توان برای تعیین این مسئله استفاده نمود که مشتریان به چه شکل به تعدیل نرخ بهره واکنش نشان می دهند، که مشتریان احتمالاً پیشنهادات محصول جدید ، پروفیل ریسک بخش مشتری برای کوتاهی در مورد وام ها ، و … را می پذیرند. واکنش مشتری به محصولات موجود و جدید را می توان ثبت و برطبق آن استراتژیهای آتی را طراحی نمود. آنها همچنین می توانند از تکنیک های استخراج داده برای فروش متقابل استفاده کنند. تکنیک استخراج داده قادر به ارتقاء نرخ پاسخگویی در مبارزات پستی مستقیم می باشد، چرا که زمان مورد نیاز برای طبقه بندی مشتریان کاهش خواهد یافت و در این وضعیت است که درآمد افزایش و راندمان نیروی فروش از گروه هدف ارتقاء می یابد.
ج-مدیریت ریسک
مشتری و بانک ها در حین تعامل بایکدیگر همیشه سعی می کنند فاکتور ریسک را مد نظر قرار دهند. شناسایی، تعیین کمیت و کنترل فاکتور ریسک همیشه یکی از نگرانیهای مهم برای هر سازمان تجاری محسوب می شده است. در وام دهی تجاری، سنجش و ارزیابی ریسک معمولاً تلاشی در جهت تعیین ریسک ضرر و زیان برای وام دهنده و درعین حال تصمیم گیری مناسب در مورد وام می باشد. تکنیک استخراج داده به تمایز بین وام گیرندگانی که سروقت وام های خود را بازپرداخت می نمایند و کسانی که این کار را انجام نمی دهند، کمک می کند. آن همچنین به پیش بینی زمان کوتاهی وام گیرنده، و اینکه آیا اعطای وام به یک مشتری خاص موجب حاصل شدن وام های بد می شود یا خیر نیز کمک می کند. این قبیل تکنیک ها در طبقه ریسک اعتباری قرار می گیرند که رفتار مشتریان آتی مورد بررسی قرار می گیرد. مدیران بانک با استفاده از تکنیک استخراج داده، رفتار و پایایی مشتریان و همچنین فروش کارت های اعتباری را مورد آنالیز قرار می دهند.

2-6 تعیین اعتبار مشتریان بانک
در این بخش به ارائه یک مثال کاربردی از فرآیند دادهکاوی پرداخته شده است . در این مثال مدیریتی، با توجه به داده های موجود به امتیازدهی اعتبار مشتریان بانک خواهیم پرداخت، تا بانک مورد مطالعه بتواند روابط خود و مشتریان را بر اساس سطح ریسک آنان تنظیم نماید . از آنجایی که دادن وام و کارتهای اعتباری از رفتارهای توام با ریسک می باشد ، نه یک رفتار همراه با اطمینان ، بدین دلیل ، در نظر گرفتن و وارد نمودن درجه ریسک در تصمیمات بانک ها برای وامدهی بسیار ضروری است. زیرا، اگر مناسبات بانک با مشتری بر اساس درجهریسک موجود در نظر گرفته شود، ممکن است از یک مشتری خوش حساب و معتبر مقدار زیادی تضمین گرفته شود و از طرفی به یک مشتری کم اعتبار وام و اعتباری بیش از مقدار طبیعی ظرفیت آن داده شود. در علم اقتصاد و دانش مدیریت مالی به سنجش اعتبار افراد و در نظر گرفتن آن در تصمیمات مربوط، مدیریت ریسک میگوییم.[7,11]
با اندازه گیری و درجه بندی اعتبار اشخاص حقیقی و حقوقی ریسک وام دهی به آنان را مشخص کرده و روابط بانک و مشتریان را بر اساس سطح ریسک آنان در نظر میگیریم. مثلاً، هرچه اعتبار مشتریان ازلحاظ پشتوانه های مالی و شخصیتی بیشتر با شد، و امدهی و معامله با آنان با ریسک و خطر کمتری همراه است . بنابراین ، در هنگام معامله ، این موضوع سبب افزایش حجم مبادلات بانک و مشتریان می گردد و از این طریق با بالا رفتن مقدار وام دهی بانک ها، تسهیلات بانکی و میزان درآمدها ی بانکی نیز افزایش می یابد. ولی عدم توجه به مدیریت ریسک و اعتبار اشخاص، سبب می گردد از تمام افراد برای وام های مساوی وثیقههای ثابت و برابری گرفته شود . از طرفی ، به افرادی که هیچ گونه صلاحیت و اعتبار برگشت وام های زیاد را ندارند ، نیز با همان وثیقه معمول وام داده شود ، که متاسفانه توجه به آمار نشان میدهد ، مشتریانی که قدرت پرداخت و بازگردانی وام ها را ندار ند از ابتدا ریسک عدم پرداخت وجود داشته و قدرت بازپرداخت این وامها را نداشت هاند. در واقع عدم بازپرداخت این وامها برای آنان در بیشتر مواقع فقط موجب افزایش بدهی آنها گردیده است . البته اگر چه این روش از لحاظ اداری ساده تر است ولی کارایی و بازدهی بانک در این حالت بسیار پایین تر از زمانی است که وام دهی بر اساس درجه بندی اعتبار و مدیریت ریسک انجام می گیرد . زیر ا، در آن حالت، اولاً هزینه فرصت وام گیری برای افراد معتبر کم شده و سبب افزایش استقبال از وام گرفتن آنها میگردد. از طرفی، مشتریان تشویق به خوش حسابی جهت قرار گرفتن در یک رتبه بالاتر در میزان اعتباری میشوند، تا از این طریق هزینه های خود را کاهش داده و درآمدهایشان را افزایش دهند.

2-6-1 مجموعه داده
داده هایی که در اینجا برای آموزش ، تست و ساخت درختان تصمیم گیری استفاده می شوند ، مجموعه داده های اعتباری آلمان است ] [16. این مجموعه داده که در سال 1992 تهیه شد و دارای مقادیر مفقود و اختلال نیست . بر روی این مجموعه عملیات آماده سازی و تمیز کردن و پیش پردازش داده ها صورت گرفت . به منظور انجام پیش پردازش داده ها از تکنیک های خوشه بندی و انتخاب ویژگی ها استفاده شد . این مجموعه داده دارای 1000 تراکنش و 21 ویژگی است . از این تعداد ویژگی 7 ویژگی عددی و 13 تای آن اسمی هستند . یک ویژگی هدف در این ویژگی ها به بررسی خوب یا بد بودن مشتری می پردازد . ویژگی های مجموعه داده های اعتباری آلمان به همراه نوع آنها در زیر آمده است . همچنین مقادیر این ویژگی ها در پیوست 1 موجود است .
وضعیت چک ( اسمی ) ، مدت زمان ( عددی ) ، سابقه اعتبار ( اسمی ) ، هدف ( اسمی ) ، مقدار اعتبار ( عددی ) ، وضعیت پس انداز ( اسمی ) ، سابقه کار ( اسمی ) ، تعداد اقساط ( عددی ) ، وضعیت شخصی و جنسیت ( اسمی ) ، طرف های دیگر ( اسمی ) ، محل اقامت فعلی ( عددی ) ، اموال و دارایی ها ( اسمی ) ، سن ( عددی ) ، برنامه های پرداختی دیگر ( اسمی ) ، مسکن ( اسمی ) ، وضعیت اعتباری موجود ( عددی ) ، شغل ( اسمی ) ، تعداد عائله مندی ( عددی ) ، مالکیت تلفن ( اسمی ) ، کارگر خارجی ( اسمی ) ، طبقه ( کلاس ( اسمی ))
روش هایی که به منظور آماده سازی و تمیز کردن داده ها بر روی مجموعه داده های اعتباری آلمان اعمال شد ، بدین صورت است : 1.حذف مقادیر پراکنده 2.نرمال سازی که فقط بر روی ویژگی " سن " اعمال شد و مقادیر ویژگی هدف در محاسبات این روش لحاظ شد . 3.گسسته سازی مقادیر ویژگی های عددی که در این روش مقادیر ویژگی هدف در محاسبات لحاظ شد . 4.ادغام مقادیر داده در ویژگی های اسمی . 5.تبدیل ویژگی های عددی به اسمی .
2-6-2 ریسک اعتباری و اعتبار سنجی
بانک ها همچون سایر بنگاه های فعال در عرصه کسب و کار نیازمند مطالعه و شناخت ریسک های خود می باشند . ریسک از نظر لغوی ، به مفهوم عدم قطعیت و احتمال انحراف ارزش یک متغییر نسبت به ارزش مورد انتظار آن است . ریسک زیان بالقوه ای است که یا به طور مستقیم از زیان های درآمد و سرمایه حاصل می شود و یا به طور غیر مستقیم از محدودیت هایی بوجود می آید که توانایی بانک را برای دستیابی به اهداف تجاری و مالی خود کاهش می دهند .[1]
بر طبق کمیته بال مهم ترین ریسک هایی که بانک ها با آن مواجه هستند بدین صورت است : ریسک اعتباری ، ریسک کشوری و ریسک انتقال وجوه ، ریسک بازار ، ریسک نرخ بهره ، ریسک نقدینگی ، ریسک عملیاتی ، ریسک حقوقی و ریسک شهرت [1]. ریسک اعتباری به معنی احتمال عدم بازپرداخت اصل و سود تسهیلات اعطایی توسط گیرنده اعتبار به علت عدم تمایل و یا ناتوانی مالی است . به زبان ساده تعریف ریسک اعتباری ، در احتمال قصور وام گیرنده یا طرف مقابل بانک نسبت به انجام تعهداتش ، طبق شرایط توافق شده ، تبیین می شود . [1]
از تکنیک های مهم در ارزیابی ریسک اعتباری می توان به ریسک اعتباری اشاره کرد . Thomas در سال 2002 اعتبار سنجی را تکنیکی تعریف کد که به بانک ها و شرکت های اعتباری در زمینه اعطای اعتبار به مشتریان بر مبنای معیارهای از قبل تعیین شده ، کمک می کند[47] . برخی مزایای اعتبار سنجی به صورت زیر است :
1.کاهش هزینه تحلیل اعتبار . 2.تصمیم گیری سریع در اعتبارسنجی مشتریان. 3.تضمین اعتبارات و حذف ریسک های احتمالی[34] [32] . Brill در سال 1998 علاوه بر دو مورد بالا به موارد زیر نیز اشاره کرد[19,3]: 1.نظارت نزدیک به حساب های موجود.2.تعیین اولویت در مجموعه اعتبارات.
در ابتدا روش های اعتبارسنجی به صورت قضاوتی بودندکه کارشناس اعتبارسنجی به بررسی فرم تقاضانامه پرداخته و بر مبنای تحلیل C5 به تصمیم گیری در مورد اعطای وام یا رد تقاضانامه میپرداخت. C5 برگرفته از حروف اول 5 کلمه است. این 5 کلمه عبارتند از: ویژگی شخص گیرنده وام، سرمایه وی، ضمانت، توانایی بازپرداخت و شرایط[42].
امروزه اکثر تحقیقات و کاربرد ها در اعتبار سنجی مبتنی بر دو روش هستند:1. روش های سنتی مثل رگرسیون لجستیک و مدل های لوجیت و پروبیت. 2.روش های دادهکاوی[37]. همچنین می توان مدل های اعتبارسنجی را به مدل های پارامتریک و ناپارامتریک تقسیم کرد[37]. مدل های پارامتریک مثل تحلیل تمایزی، رگرسیون خطی، پروبیت و لوجیت و مدل های ناپارامتریک مثل درختان طبقهبندی، شبکه های عصبی، سیستمهای خبره.
2-6-3 طبقهبندی و درختان تصمیمگیری
طبقهبندی یکی از وظایف داده کاوی است و دارای تکنیکهای متنوعی می باشد که میتوان از آن ها برای طبقهبندی استفاده کرد.برخی از آنها عبارتند از: K نزدیک ترین همسایه،درختان تصمیمگیری،شبکههای عصبی، ماشین بردار پشتیبان، طبقه بندی بیزین، رگرسیون، تئوری های مجموعه دانه درشت، منطق یابی مبتنی بر حالت، سیستم های خبره، منطق فازی، الگوریتم های ژنتیک. درختان تصمیم گیری ساده بوده و دارای قابلیت فهم بالا هستند. درختان تصمیم گیری تنها مقادیر ویژگی های گسسته را توسط متغییر هدف (ویژگی کلاس یا ویژگی وابسته) پیشگویی می کنند. این پیشگویی توسط متغیر کلاس که ویژگی هدف یا ویژگی وابسته نیز نامیده می شود، صورت می گیرد.مقادیر ویژگی هدف، وابسته به مقادیر متغیر های (ویژگی های) مستقل (توصیف کننده) و وجود آن ها در ساختار درخت تصمیم گیری است[10]. درختان تصمیم گیری دارای الگوریتم های مختلفی هستند از جمله : 3ID، 4C، 4.5C، 5C، CART، CHAID، QUEST . در این مقاله از الگوریتم 4.5C برای ساخت درختان تصمیم گیری به منظور اعتبار سنجی مشتریان بانک استفاده می شود. الگوریتم 4.5C در سال 1993 توسط کوئینلن تهیه شد. این الگوریتم متغیرهای پیوسته و گسسته را در محاسبات خود لحاظ کرده و مقادیر مفقود را در الگوریتم خود در نظر می گیرد[5]. این الگوریتم لزوماً دودویی نیست. برای انتخاب یک جداکننده بهینه در طول مسیر درخت تصمیم گیری از شاخص کسب اطلاعات یا کاهش آنتروپی استفاده می کند[25]. برای فهم شاخص کسب اطلاعات، آنتروپی و شاخص کسب می توان به[44] رجوع کرد و الگوریتم استنتاج C4.5 در [47] آمده است. این الگوریتم نسخه جدید الگوریتم 3ID است.
2-6-4 خوشه بندی
خوشه بندی به عنوان یکی از فعالیت های داده کاوی می باشد و به گروه بندی کردن تراکنش ها ، مشاهدات یا حالت ها در کلاس های مشابه می پردازد . همچنین یک خوشه مجموعه ای از رکورد ها است که به هم شبیه می باشند و از رکوردهای بیرون خوشه تفاوت دارند . در خوشه بندی متغییر هدف وجود ندارد و به طبقه بندی، تخمین و پیشگویی مقدار متغییر هدف نمی پردازد[25] . در این مقاله از الگوریتم خوشه بندی Simple K Means استفاده می شود . مراحل الگوریتم Simple K Means در [31] آمده است . 1.انتخاب تعداد مورد تمایل خوشه ها به اندازه K . 2.انتخاب تعداد K مشاهده اولیه به عنوان seed . 3.محاسبه متوسط مقادیر خوشه برای هر ویژگی یا متغییر . 4.تخصیص مشاهدات آموزشی دیگر به نزدیک ترین خوشه توسط محاسبه مقیاس فاصله مورد نظر. 5.محاسبه مجدد متوسط های خوشه بر اساس تخصیص ها در مرحله قبل . 6.تکرار بین مراحل 4 و 5 می توان از تکنیک خوشه بندی به عنوان پیش پردازش داده ها استفاده کرد [31] ، که در این پژوهش بر روی مجموعه داده های اعتبار سنجی بکار می رود .
2-6-5 انتخاب ویژگی ها
به دلیل اینکه مدل های ناپارامتریک در طبقه بندی مبتنی بر داده هستند ، نیاز به صرف زمان و هزینه زیاد برای کسب داده های مدل است . پس بهتر است ویژگی ها و داده هایی جمع آوری شود که از اهمیت بیشتری در ساخت مدل طبقه بندی برخوردار هستند . حذف اطلاعات غیر مرتبط و استخراج متغییرهای کلیدی در شناخت الگو ، پیش پردازش نامیده می شود [21] . در ساخت مدل مناسب طبقه بندی نیاز به داده های آموزشی با کیفیت مناسب است . انتخاب ویژگی ها به عنوان یکی از روش های پیش پردازش داده ها می تواند منجر به افزایش کیفیت مجموعه داده آموزشی در آزمون و ساخت مدل درختان تصمیم گیری شود [38].
تعاریف مختلفی از انتخاب ویژگی ها مطرح شده است . انتخاب ویژگی به شناسایی و انتخاب ویژگی های متمایز برای ساخت مدل ها و تفسیر بهتر داده ها می پردازد . انتخاب ویژگی ها مطرح شده است . انتخاب ویژگی به شناسایی و انتخاب ویژگی های متمایز برای ساخت مدل ها و تفسیر بهتر داده ها می پردازد . انتخاب ویژگی ها دارای مزایایی است : 1.فهم آسان داده ها . 2.کاهش زمان یادگیری مدل . 3.نیاز کمتر به اندازه گیری و ذخیره سازی مقادیر ویژگی ها . پس بکارگیری انتخاب ویژگی ها در ساخت مدل درخت تصمیم گیری در طبقه بندی باعث می شود تا اعتبار سنجی مشتریان اعتباری بانک به شیوه بهتری صورت گیرد .
الگوریتم انتخاب ویژگی ها شامل سه قسمت است[45] : 1.معیار ارزیابی ویژگی . 2.روش جستجو . 3.قانون توقف . به طور معمول معیارهای ارزیابی بدین صورت است : 1.اطلاعات 2.وابستگی 3.فاصله 4.سازگاری 5.دقت طبقه بندی . الگوریتم های انتخاب ویژگی مبتنی بر 4 رویکرد اول در بالا از روش فیلتر استفاده می کنند . در اینجا ، الگوریتم انتخاب ویژگی مستقل از الگوریتم طبقه بندی است . الگوریتم انتخاب ویژگی که از معیار دقت طبقه بندی استفاده می کند ، از رویکرد Wrapper بهره می برد . در این رویکرد از الگوریتم یادگیری مثل الگوریتم طبقه بندی برای انتخاب ویژگی ها استفاده می شود . سه روشهای جستجو در انتخاب ویژگی ها وجود دارد که عبارتند از : 1.کامل 2.هیوریستیک 3.تصادفی . دو روش کامل و هیوریستیک در فضاهای کوچک کاربرد دارد که نیاز به کارایی بالا در فرآیند جستجو است . روش تصادفی مثل الگوریتم ژنتیک برای فضاهای بزرگ و پیچیده کاربرد دارد . قوانین مختلفی برای توقف الگوریتم انتخاب ویژگی ها موجود است : ماکزیمم تعداد تکرار الگوریتم ، کسب نتیجه بهتر توسط اضافه یا کم کردن یک ویژگی از مجموعه ویژگی ها ، رسیدن به یک زیر مجموعه بهینه از ویژگی ها و … [45] . یکی دیگر از روش های انتخاب ویژگی ، طرح های جاسازی شده است . در این روش الگوریتم انتخاب ویژگی به عنوان بخشی از الگوریتم طبقه بندی لحاظ می شود[38] .
در این پژوهش از رویکرد فیلتر ، Wrapper و طرح جاسازی شده برای انتخاب ویژگی ها استفاده می شود . روش جستجو در انتخاب ویژگی ها به صورت تصادفی و مبتنی بر الگوریتم ژنتیک است و قانون توقف برای الگوریتم انتخاب ویژگی ها ، ماکزیمم تعداد تکرار در الگوریتم انتخاب ویژگی می باشد . در ادامه به توضیحی مختصر راجع به این سه روش انتخاب ویژگی در این پژوهش پرداخته می شود .
1-الگوریتم انتخاب ویژگی مبتنی بر الگوریتم ژنتیک توسط تابع ارزیاب همبستگی بین ویژگی ها با هم و با ویژگی هدف : تابع ارزیاب در این الگوریتم ، مبتنی بر جستجوی هیوریستیک ، همبستگی بین ویژگی ها با هم و با ویژگی هدف را بررسی می کند . فرض می کند که بهترین ویژگی ها آن هایی هستند که نسبت به هم و ویژگی هدف به ترتیب کمترین و بیشترین همبستگی را دارند . در اینجا منظور ، همبستگی خطی کلاسیک نیست ؛ بلکه به وابستگی ویژگی ها دلالت دارد[15] .
2-الگوریتم انتخاب ویژگی مبتنی بر الگوریتم ژنتیک توسط تابع ارزیابی سازگاری زیر مجموعه ویژگی ها با مقادیر ویژگی هدف : مبتنی بر جستجوی کامل در فضای زیر مجموعه ویژگی ها کمینه ترین ترکیب آنها را پیدا می کند . سپس این مجموعه ویژگی ها به تقسیم مجموعه آموزشی در کلاس ها می پردازند . این الگوریتم توسط Liu و Setiono ابداع شد . این الگوریتم ابتدا به طور تصادفی یک زیر مجموعه با نام S از کل ویژگی ها انتخاب می کند . سپس در مرحله بعد یک زیر مجموعه دیگر از ویژگی ها تولید می شود . سطح سازگاری مقادیر ویژگی هدف توسط قرار دادن نمونه های مجموعه داده در این مجموعه ویژگی سنجیده می شود . اگر این سطح سازگاری کمتر باشد ، این مجموعه جایگزین مجمو عه قبلی می شود . نرخ سازگاری در مجموعه ویژگی ها در هر مرحله محاسبه می شود . این روند مرتباً ادامه می یابد تا مناسب ترین مجموعه ویژگی ها انتخاب شوند[15] . برای فهم بیشتر می توان به [28] مراجعه کرد.
3-الگوریتم انتخاب ویژگی مبتنی بر الگوریتم ژنتیک توسط تابع ارزیاب طبقه کننده 4.5 C : مجموعه ویژگی ها را توسط تابع طبقه کننده 4.5 C در مجموعه داده آموزشی ارزیابی می کند . میزان شایستگی زیر مجموعه ویژگی منتخب توسط شاخص دقت طبقه بندی الگوریتم 4.5 C تعیین می شود .
4-الگوریتم انتخاب ویژگی مبتنی بر الگوریتم ژنتیک توسط تابع ارزیاب Wrapper با طبقه کننده 4.5 C : توسط الگوریتم های یادگیری مثل الگوریتم 4.5 C ، ویژگی ها را ارزیابی می کند . به عبارت دیگر الگوریتم انتخاب ویژگی ، برای انتخاب ویژگی های مناسب از یک الگوریتم یادگیری بهره می برد . برای بکارگیری الگوریتم یادگیری در انتخاب ویژگی از داده های تست و آموزش در تکنیک اعتبار سنجی متقاطع استفاده می شود .
5-الگوریتم انتخاب ویژگی مبتنهی بر درخت تصمیم گیری ژنتیکی : این الگوریتم مبتنی بر طرح جاسازی شده در انتخاب ویژگی ها است . زیرا با اجرای این الگوریتم درخت تصمیم گیری ایجاد می شود که از مجموعه ویژگی های این درخت تصمیم گیری به عنوان ویژگی های منتخب در ساخت درخت تصمیم گیری 4.5 C استفاده می شود . الگوریتم درخت تصمیم گیری ژنتیکی مورد استفاده در انتخاب ویژگی ها برگرفته از [36] است . در این الگوریتم برای نمایش راه حل ها از روش درختی استفاده می شود . هر ویژگی دارای یک مقدار تصادفی می باشد . اگر ویژگی اسمی باشد ، یکی از مقادیر آن در هر تکرار به طور تصادفی انتخاب می شود و اگر ویژگی مورد نظر عددی باشد ، در بازه تعریف شده آن مقدار آن تغییر می کند . عملگر تقاطع با انتخاب ویژگی ها به صورت تصادفی زیر درخت های آن ها را جابجا می کند . عملگر جهش ویژگی را به طور تصادفی انتخاب و مقدار آن را به طور تصادفی تغییر می دهد و تابع برازندگی در اینجا به بهینه کردن اندازه درخت و دقت طبقه بندی می پردازد .
2-6-6 الگوریتم ژنتیک
عبارت الگوریتم ژنتیک از اصول ژنتیک طبیعی و بقای بهترین ها نشات گرفته شده که به توصیف مجموعه ای از رویه های جستجوی طبیعی می پردازد[48,3] . مراحل اجرای الگوریتم ژنتیک شامل موارد زیر است[13,3] : 1.شناسایی ژن ها : در الگوریتم ژنتیک برای نمایش یک ژن از یک بیت استفاده می شود . یک ژن نشان دهنده رفتار یک بخشی از راه حل مسئله است . 2.سازمان دهی ژن ها در کروموزوم یا یک راه حل مسئله تبیین می کنند . 3.ایجاد یک جمعیتی از راه حل های ممکن : به مجموعه ای از راه حل ها یا کروموزوم ها یک جمعیت می گویند . 4.ارزیابی کروموزوم ها : در این مرحله الگوریتم ژنتیک به ارزیابی اثر بخشی جمعیت اولیه برای مقایسه با جمعیت های دیگر می پردازد . 5.ایجاد جمعیت جدید توسط عملیات تقاطع و جهش : برخی راه حل ها ممکن است در یک جمعیت از راه حل های دیگر برتر باشند . به همین دلیل با انتخاب این مجموعه راه حل ها و توسط عملیات تقاطع و جهش جمعیت دیگری شکل می گیرد . مجدداً مراحل 4 و5 انجام می شود . تا شرط توقف الگوریتم محقق شود .
2-6-7 مدل تلفیقی پیشنهادی
مدل تلفیقی پیشنهادی از الگوریتم انتخاب ویژگیها مبتنی بر الگوریتم ژنتیک و درخت تصمیم گیری ژنتیکی ، درختان تصمیم گیری 4.5 C و همچنین الگوریتم Simple K Means برای خوشه بندی داده ها استفاده می کند . برای هر خوشه ، الگوریتم های طبقه بندی متا و الگوریتم انتخاب ویژگی مبتنی بر درخت تصمیم گیری ژنتیکی برای ایجاد درختان تصمیم گیری 4.5 C بکار می رود . از یک استراتژی مناسب مبتنی بر معیارهای بهینگی مطرح در این پژوهش برای انتخاب بهترین درختان تصمیم گیری در هر خوشه استفاده می شود . این موضوع در شکل 7 قابل مشاهده است . الگوریتم متا به ترکیب الگوریتم انتخاب ویژگی و الگوریتم درخت تصمیم گیری 4.5 C می پردازد . روش های متا روش هایی جدید می باشند که برای ترکیب چند طبقه کننده بکار می روند[43] . در این مقاله در روش متا الگوریتم انتخاب ویژگی مبتنی بر الگوریتم ژنتیک با الگوریتم درخت طبقه بندی 4.5 C ترکیب می شود . همان طور که در شکل 7 مشاهده می شود ، ابتدا داده های اعتبار سنجی مشتریان پس از آماده سازی و تمیز شدن ، به دو مجموعه داده آموزش و تست تقسیم می شوند . سپس توسط تکنیک خوشه بندی ، این مجموعه داده به دو خوشه تقسیم می شوند . در هر خوشه با استفاده از پنج روش انتخاب ویژگی به انتخاب ویژگی های مهم پرداخته می شود . البته 4 الگوریتم انتخاب ویژگی مبتنی بر رویکرد فیلتر و Wrapper به کمک الگوریتم متا با الگوریتم درخت تصمیم گیری 4.5 C ترکیب شده اند . این موضوع در شکل 7 با خط چین قابل رویت است . پس از انتخاب ویژگی ها نوبت به ساخت درختان تصمیم گیری 4.5 C می رسد . تا این مرحله در هر خوشه 5 درخت تصمیم گیری وجود دارد . مبتنی بر معیارهای بهینگی ، بهترین درختان تصمیم گیری در هر خوشه انتخاب شده و با هم ترکیب می شوند تا درخت تصمیم گیری نهایی برای اعتبار سنجی مشتریان بانک ساخته شود .
در مدل تلفیقی پیشنهادی از خوشه بندی به عنوان یکی از روش های پیش پردازش داده ها استفاده می شود. تعداد خوشه ها در این مدل عدد 2 در نظر گرفته شد.انتخاب بهینه تعداد خوشه ها از مسائل پیچیده می باشد. می توان در ابتدا تعداد خوشه ها را 2 گرفت و مرتباً این مقدار را اضافه کرد تا جایی که دیگر هیچ بهبودی در مدل طبقه بندی حاصل نشود. البته در این مقاله از این روش استفاده نمی شود. به نظر می رسد بین درصد مشاهدات درست طبقه بندی شده و سایر معیارهای بهینگی درختان تصمیم گیری در برخی مواقع تضاد بوجود آید . به عبارت دیگر افزایش درصد مشاهدات درست طبقه بندی شده ممکن است باعث افزایش تعداد ویژگی های پیشگو منتخب ، تعداد برگ ها و اندازه درخت تصمیم گیری شود . این موضوع در خود الگوریتم درخت تصمیم گیری 4.5 C و همچنین با هرس درخت تصمیم گیری و اعمال محدودیت هایی مثل مینیمم تعداد تراکنش در هر برگ در نظر گرفته می شود . ولی برای مقایسه بین درختان تصمیم گیری 4.5 C نیز باید یک تعاملی بین 4 معار بهینگی درخت تصمیم گیری بوجود آید . ممکن است درخت تصمیم با دقت کمتر ، دارای اندازه و تعداد برگ های کمتری در درخت تصمیم گیری نیز باشد . در صورتی که کاهش دقت نامحسوس باشد ، با توجه به نظر کاربر درخت تصمیم گیری با دقت کمتر برای طبقه بندی مشتریان بانک ها انتخاب می شود . زیرا این درخت تصمیم گیری 4.5 C بهتر در هر خوشه به نظر کاربر یا کارشناس اعتبار سنجی بستگی دارد .
در الگوریتم طبقه بندی متا به ترکیب الگوریتم انتخاب ویژگی مبتنی بر الگوریتم ژنتیک و الگوریتم درخت تصمیم گیری 4.5 C پرداخته می شود . بدین ترتیب که ویژگی های مناسب توسط الگوریتم ژنتیک انتخاب می شوند و سپس این ویژگی ها به عنوان ورودی برای ایجاد درخت تصمیم گیری 4.5 C بکار می روند . از روش گلدبرگ برای نمایش ژنتیکی کروموزوم ها استفاده شد . هر کروموزوم نشان دهنده زیر مجموعه ویژگی ها است . هر ژن نماد یک ویژگی است . مقدار آن ژن برابر یک و صفر است که به ترتیب نشان دهنده وجود و عدم وجود ویژگی مورد نظر در زیر مجموعه ویژگی ها است . از عملگر تقاطع تک نقطه ای برای تقاطع استفاده شد . عملگر جهش بدین صورت است که اگر مقدار یک ژن صفر باشد ، آن را تبدیل به یک می کند و اگر مقدار آن ژن یک باشد ، آن را به صفر تبدیل می نماید . شرط توقف الگوریتم ژنتیک در اینجا تعداد نسل ها در نظر گرفته شد . عملگر جایگزینی کروموزوم با کروموزوم های دیگر مبتنی بر پایه شایستگی است .

شکل 7 : فرآیند ساخت و آزمون مدل تلفیقی پیشنهادی در اعتبار سنجی مشتریان بانک

2-7 آموزش ، تست مدل
بعد آماده سازی و تمیز کردن داده ها و به منظور آموزش و تست مدل از تعداد 690 تراکنش استفاده شد. تعداد خوشه ها در الگوریتم خوشه بندی 2 و عدد Seed برابر یک در نظر گرفته شد. ویژگی هدف در محاسبات الگوریتم خوشه بندی لحاظ نشد. از تکنیک اعتبارسنجی متقاطع در آموزش و تست مدل تلفیقی پیشنهادی این پژوهش استفاده شد. پارامترهای الگوریتم ژنتیک در انتخاب ویژگی ها مبتنی بر رویکرد های فیلتر و Wrapperبه قرار زیر است : نرخ تقاطع 0.9 ، نرخ جهش 0.01 ، تعداد نسل و جمعیت اولیه 20 و عدد تصادفی Seed برابر 1 در نظر گرفته شد. از عدد اعتبارسنجی متقاطع 10 برای آموزش و تست مدل استفاده شد. بدین ترتیب که ابتدا یک دهم اول داده ها برای تست استفاده می شود و بقیه برای آموزش الگوریتم انتخاب ویژگی یا درخت تصمیم گیری C4.5 بکار می رود. سپس یک دهم بعدی و به همین ترتیب 10 بار این عمل صورت می گیرد و از نتایج این مراحل میانگین گرفته میشود. تعداد دسته ها و عددSeed و حد آستانه در الگوریتم انتخاب ویژگی با تابع ارزیاب Wrapper با طبقه کنندهC4.5 به ترتیب برابر 10 و 1و 0.01است . همچنین برای ایجاد درختان تصمیم گیری مبتنی برالگوریتم ژنتیک نیز از عدد اعتبارسنجی متقاطع 10 استفاده شد.
مشخصات درخت تصمیم گیری C4.5 در مدل تلفیقی پیشنهادی و درختان تصمیم گیری مقایسه شده در پژوهش مذکور به قرار زیر است : در متغیرهای اسمی از جداکننده دودویی استفاده نمی شود. هرس C4.5 و شاخص اطمینان 0.25 برای هرس درخت بکار رفت. هر چه شاخص اطمینان کمتر باشد، هرس درخت بیشتر صورت می گیرد. از دسته با عدد 3 برای هرس درخت استفاده شد: بدین معنی که تعداد 2 دسته برای رشد درخت و تعداد 1 دسته برای هرس درخت بکار رفت. مینیموم تعداد تراکنش در هر برگ عدد 2 در نظر گرفته شد. با افزایش این شاخص پیچیدگی درخت یعنی اندازه آن، تعداد برگ ها و ویژگی های پیشگو منتخب کاهش می یابد . طبقه کننده متا در این الگوریتم درخت تصمیم گیری C4.5 است. برای خوشه بندی داده ها از نرم افزار یادگیری ماشین وکا نسخه 3.5.8 استفاده شد. برای اجرای الگوریتم های طبقه بندی متا در این پژوهش از نرم افزار یادگیری ماشین وکا نسخه 3.5.8 استفاده شد. همچنین به منظور ساخت درختان تصمیم گیری مبتنی بر الگوریتم ژنتیک از نرم افزار GATree رایگان نسخه 2 استفاده شد. برخی پارامترهای این الگوریتم به قرار زیر است: تعداد نسل ها ، جمعیت اولیه، نرخ تقاطع، نرخ جهش و عدد تصادفی Seed برابر 0.01،099،100،100 و 123456789 می باشد. از تقاطع و جهش تصادفی استاندارد استفاده شد. در این الگوریتم درختان کوچک تر به افزایش دقت آن ها ترجیح داده شد . همچنین درصد تعداد درختان بد که در نسل ها جایگزین می شوند برابر 0.25 در نظر گرفته شد. نرخ خطای قابل قبول 0.95 بود. زمانی که خطای طبقه بندی یک درخت از حد معین تعریف شده توسط این پارامتر بیشتر شود، از طبقه بندی تراکنش ها در مجموعه تست جلوگیری می شود تا منابع حفظ شود. با افزایش مقدار این پارامتر، سرعت تکامل در الگوریتم درخت تصمیم ژنتیکی افزایش می یابد.
2-8 مقایسه نتایج درخت تصمیم گیری مدل تلفیقی پیشنهادی با سایر درختان تصمیم گیری
تا این بخش به ارائه مدل تلفیقی پیشنهادی برای ساخت درخت تصمیم گیری نهایی به منظور اعتبار سنجی مشتریان بانک پرداخته شد. این مدل به طور مختصر با توجه به شکل 7 مراحل زیر را برای ساخت درخت تصمیم گیری نهایی در اعتبار سنجی مشتریان بانک انجام می دهد : 1. خوشه بندی داده ها 2. انتخاب ویژگی ها توسط الگوریتم های متا و درخت تصمیم گیری ژنتیکی در هر خوشه 3.ساخت درختان تصمیم گیری C4.5 از مجموعه ویژگی های منتخب از هر الگوریتم انتخاب ویژگی در هر خوشه 4.بکارگیری استراتژی مناسبی به منظور انتخاب درخت تصمیم گیری C4.5 بهتر مبتنی بر معیارهای بهینگی در هر خوشه 5.ترکیب دو درخت تصمیم گیری منتخب در دو خوشه و ساخت درخت تصمیم گیری نهایی در اعتبار سنجی مشتریان بانک .
در این بخش به تحلیل نتایج و ارائه یافته های حاصل از اجرای مدل تلفیقی پیشنهادی و مقایسه آن با سایر روش های درختان تصمیم گیری مطرح در این پژوهش پرداخته می شود . بدین منظور از مجموعه داده های اعتباری آلمان بعد از اعمال آماده سازی و تمیز کردن داده ها برای ساخت در خت تصمیم گیری مدل تلفیقی پیشنهادی و سایر درختان تصمیم گیری مقایسه شده مطرح در این پژوهش استفاده شد . جداول 6 الی 12 به تبیین نتایج حاصل از اجرای الگوریتم طبقه بندی این درختان تصمیم گیری می پردازد . جدول 6 نتایج حاصل از اجرای الگوریتم های ساخت درخت تصمیم گیری C4.5 مبتنی بر مدل تلفیقی پیشنهادی در خوشه اول را نشان می دهد .

جدول 6 : نتایج حاصل از اجرای الگوریتمهای ساخت درخت تصمیم گیری C4.5 مبتنی برمدل تلفیقی پیشنهادی در خوشه اول

همان طور که در جدول 6 مشاهده می شود ، بیشترین درصد مشاهدات درست طبقه بندی شده مربوط به درخت تصمیم گیری است که در انتخاب ویژگی ها از تابع ارزیاب Wrapper با طبقه کننده C4.5 استفاده می کند . کمترین پیچیدگی مربوط به درخت تصمیم گیری است که در انتخاب ویژگی ها از درخت تصمیم گیری ژنتیکی استفاده کرده است . زیرا درخت تصمیم گیری آن دارای کمترین تعداد برگ ها و اندازه درخت است . ولی دقت طبقه بندی این درخت تصمیم گیری نسبت به بسیاری از درختان تصمیم گیری جدول 6 کمترین مقدار است . به نظر می رسد بهترین درخت در این خوشه درخت تصمیم گیری باشد که در انتخاب ویژگی ها از تابع ارزیاب Wrapper با طبقه کننده C4.5 استفاده می کند . زیرا بالاترین دقت را در طبقه بندی داشته و زیاد بودن پیچیدگی آن در مقابل دقت بالای آن قابل چشم پوشی است . در نظر گرفتن تعادل بین معیارهای بهینگی در انتخاب بهترین درختان تصمیم گیری می تواند به عهده کارشناس اعتبار سنجی باشد که بر طبق نظر و تصمیم خود بهترین درخت را انتخاب کند . برای مجموعه داده های اعتباری در خوشه دوم نیز همانند خوشه اول به ساخت درخت تصمیم گیری C4.5 مبتنی بر مدل تلفیقی پیشنهادی این مقاله در خوشه دوم در جدول 7 آورده شده است .

جدول 7 : تایج حاصل از اجرای الگوریتم های ساخت درخت تصمیم گیری C4.5 مبتنی برمدل تلفیقی پیشنهادی در خوشه دوم

جدول 7 نتایج حاصل از اجرای الگوریتم های تصمیم گیری C4.5 را در خوشه دوم مدل تلفیقی پیشنهادی نشان می دهد . درختان تصمیم گیری با توابع ارزیاب Wrapper با طبقه کننده C4.5 و همبستگی بین ویژگی ها باهم و با ویژگی هدف دارای بالاترین دقت طبقه بندی و کمترین پیچیدگی هستند . بعد از انتخاب بهترین درختان تصمیم گیری در هر خوشه نوبت به ادغام این دو درخت و در نهایت ساخت درخت تصمیم گیری نهایی برای اعتبار سنجی مشتریان بانک مبتنی بر مدل تلفیقی پیشنهادی می رسد . جدول 8 نتایج حاصل از اجرای الگوریتم مدل تلفیقی پیشنهادی در ساخت درخت تصمیم گیری نهایی برای اعتبار سنجی مشتریان بانک نشان می دهد . کل مشاهدات در این جدول برابر با مجموع کل مشاهدات در خوشه های اول و دوم است .
تعداد ویژگی هالی پیشگو منتخب در الگوریتم طبقه بندی مدل پیشنهادی برابر اجتماع ویژگی های پیشگو منتخب در الگوریتم درختان تصمیم گیری انتخاب شده در هر خوشه به علاوه عدد یک است . ویژگی های پیشگو منتخب در دو درخت تصمیم گیری بهتر در خوشه دوم ( ردیف 1 و 2 جدول 7 ) با هم یکی است . از طرفی این 3 ویژگی پیشگو درون ویژگی های پیشگو منتخب درخت تصمیم گیری بهینه خوشه اول قرار دارند . پس تعداد ویژگی های پیشگو منتخب در درخت تصمیم گیری مدل تلفیقی پیشنهادی برابر 11 به علاوه 1 یعنی 12 است . عدد یک در اینجا به ویژگی " نوع خوشه " اشاره دارد . زیرا در مدل تلفیقی پیشنهادی به منظور طبقه بندی مشتریان اعتبار سنجی نوع خوشه آن ها در ابتدا تعیین می شود .
جدول 8 : نتایج حاصل از اجرای الگوریتم های ساخت درخت تصمیم گیری C4.5 مبتنی برمدل تلفیقی پیشنهادی

تعداد مشاهدات درست طبقه بندی شده در مدل تلفیقی پیشنهادی برابر مجموع تعداد مشاهدات درست طبقه بندی شده درختان تصمیم گیری منتخب در خوشه های اول و دوم است . برای تعیین دقت کلاس مشتریان خوب درخت تصمیم گیری مدل تلفیقی پیشنهادی به صورت زیر عمل شد : تعداد مشتریان درست طبقه بندی شده در کلاس مشتریان خوب هر دو خوشه با هم جمع شد ؛ مقدار این عدد بر مجموع مشتریان طبقه بندی شده در کلاس مشتریان خوب هر دو خوشه تقسیم شد . به همین ترتیب دقت کلاس مشتریان بد درخت تصمیم گیری مدل تلفیقی پیشنهادی به صورت زیر بدست آمد : مجموع تعداد مشتریان درست طبقه بندی شده در کلاس مشتریان بد هر دو خوشه ، تقسیم بر مجموع تعداد مشتریان طبقه بندی شده در کلاس مشتریان بد هر دو خوشه. تعداد برگ ها در درخت تصمیم گیری نهایی مدل تلفیقی پیشنهادی توسط مجموع تعداد برگ های درختان تصمیم گیری منتخب در هر خوشه بدست می آید . اندازه درخت تصمیم گیری مدل تلفیقی پیشنهادی به صورت زیر تعیین می شود : مجموع اندازه درختان تصمیم گیری منتخب در هر دو خوشه به علاوه 1 . عدد یک در اینجا بر گره تصمیم گیرنده " نوع خوشه " دلالت دارد . این ویژگی در ابتدای درخت تصمیم گیری مدل تلفیقی پیشنهادی به تعیین نوع خوشه به منظور طبقه بندی توسط درخت تصمیم گیری منتخب در هر خوشه می پردازد . ویژگی " نوع خوشه " یک ویژگی اسمی می باشد و در مدل تلفیقی پیشنهادی دارای مقادیر " خوشه اول " و " خوشه دوم " است .
درخت تصمیم گیری نهایی مدل تلفیقی پیشنهادی تحقیق پیش رو در ابتدا دارای گرهی می باشد که این گره مربوط به ویژگی " نوع خوشه " است . به عبارت دیگر با استفاده از این درخت در ابتدا نوع خوشه مشتری اعتبار سنجی جدید تعیین می شود . سپس با در نظر گرفتن نوع خوشه ، بهترین درخت تصمیم گیری در هر خوشه برای طبقه بندی و اعتبار سنجی مشتریان بانک ها مورد استفاده قرار می گیرد .
در ادامه به مقایسه مدل تلفیقی پیشنهادی با سایر روش های ساخت درخت تصمیم گیری C4.5 پرداخته می شود. مقادیر پارامترهای این روش ها همانند مقادیر پارامترهای مدل تلفیقی پیشنهادی است . جدول 9 نتایج درخت تصمیم گیری C4.5 را نشان می دهد که در آن از الگوریتم های انتخاب ویژگی ها و خوشه بندی به عنوان روش های پیش پردازش داده ها استفاده نمی شود.

جدول 9 : نتایج حاصل از اجرای درخت تصمیم گیری C4.5 بدون اعمال الگوریتم های انتخاب ویژگی ها و خوشه بندی

همانطور که در جدول 9 مشاهده می شود ، دقت طبقه بندی این درخت به میزان کمی از درخت تصمیم گیری مدل تلفیقی پیشنهادی بیشتر است ؛ ولی از طرف دیگر پیچیدگی درخت تصمیم گیری مدل تلفیقی پیشنهادی از درخت تصمیم گیری جدول 9 کمتر است . در صورتی که در ساخت درختان تصمیم گیری تنها از الگوریتم های انتخاب ویژگی مبتنی بر الگوریتم ژنتیک استفاده شود و الگوریتم خوشه بندی به کار نرود ، نتایج به صورت جدول 10 قابل مشاهده است .

جدول 10: نتایج حاصل از اجرای درخت تصمیم C4.5 با بکارگیری انتخاب ویژگی ها و بدون اعمال خوشه بندی

با مشاهده جدول 10 می توان نتیجه گرفت دقت طبقه بندی و پیچیدگی درخت تصمیم گیری C4.5 ردیف 1 که از تابع ارزیاب Wrapper با طبقه کننده C4.5 در انتخاب ویژگی ها استفاده می کند ، از درخت تصمیم گیری مدل تلفیقی پیشنهادی بهتر است . همچنین دقت طبقه بندی درخت تصمیم گیری با تابع ارزیاب طبقه کننده C4.5 از دقت طبقه بندی درخت تصمیم گیری مدل مدل تلفیقی پیشنهادی بیشتر است ؛ ولی درخت تصمیم گیری مدل تلفیقی پیشنهادی دارای پیچیدگی کمتری نسبت به این درخت تصمیم گیری است . پیچیدگی درخت تصمیم گیری با تابع ارزیاب ردیف 2 از جدول 10 از پیچیدگی درخت تصمیم گیری مدل تلفیقی پیشنهادی کمتر است ؛ ولی دقت طبقه بندی درخت تصمیم گیری مدل تلفیقی پیشنهادی از این درخت بیشتر می باشد .
اگر در انتخاب ویژگی ها از الگوریتم جستجوی اول بهترین به جای الگوریتم ژنتیک استفاده شود ، نتایج به صورت جدول 11 است. روش جستجوی اول بهترین ، برای انتخاب ویژگی ها با مجموعه تهی از ویژگی ها شروع می کند و به کشف همه زیر مجموعه های ممکن می پردازد و این کار توسط اضافه کردن تک تک ویژگی ها انجام می دهد . زیر مجموعه با بالاترین دقت انتخاب می شود و این روند تا جایی ادامه می یابد که دیگر بهبودی حاصل نشود [44]. روش جستجوی اول بهترین از الگوریتم انتخاب رو به جلو برای انتخاب ویژگی ها استفاده کرده و ضریب تعداد ویژگی ها در مجموعه داده برابر یک و مقدار بازگشت به عقب برابر عدد 5 است.

جدول 11: نتایج حاصل از اجرای درخت تصمیم گیری C4.5 با انتخاب ویژگی ها مبتنی بر جستجوی اول بهترین و بدون اعمال خوشه بندی

همان طور که در جدول 11مشاهده می شود ، دقت طبقه بندی درختان تصمیم گیری با توابع ارزیاب ردیف های 1 و 4 از دقت طبقه بندی درخت تصمیم گیری مدل تلفیقی پیشنهادی بیشتر است . ولی پیچیدگی درخت تصمیم گیری مدل تلفیقی پیشنهادی از پیچیدگی درخت تصمیم گیری با تابع ارزیاب ردیف 4 کمتر است .
می توان ویژگی " نوع خوشه " را در ساخت درخت تصمیم گیری در نظر گرفت . برای این کار به مجموعه داده اعتباری آلمان یک ویژگی پیشگو با نام ویژگی " نوع خوشه " اضافه می شود . جدول 12 نتایج حاصل از اجرای این الگوریتم را نشان می دهد . در اینجا ابتدا توسط الگوریتم های انتخاب ویژگی با توابع ارزیاب مطرح در جدول 12 ، ویژگی های مناسب انتخاب شده و سپس درختان تصمیم گیری C4.5 ساخته می شود.

جدول 12: نتایج حاصل از اجرای درخت تصمیم گیری C4.5 با انتخاب ویژگی ها مبتنی بر جستجوی الگوریتم ژنتیک با در نظر گرفتن ویژگی نوع خوشه

دقت طبقه بندی درخت تصمیم گیری با تابع ارزیاب Wrapper با طبقه کننده C4.5 از دقت درخت تصمیم گیری مدل تلفیقی پیشنهادی بیشتر و پیچیدگی آن کمتر است . در این بخش از پژوهش به ارائه نتایج حاصل از اجرای مدل تلفیقی پیشنهادی در آزمون و ساخت درخت تصمیم گیری برای اعتبار سنجی مشتریان بانک پرداخته شد . این نتایج به نتایج حاصل از اجرای سایر روش های ساخت درختان تصمیم گیری مقایسه شد . می توان در انتخاب درختان تصمیم گیری بهتر مبتنی بر معیارهای بهینگی در هر خوشه از نظرات کارشناسان اعتبار سنجی استفاده کرده و تعادل بین دقت طبقه بندی و پیچیدگی درختان تصمیم گیری را در انتخاب بهترین درخت تصمیم گیری لحاظ کرد . در اینجا درخت تصمیم گیری مدل تلفیقی پیشنهادی با تعداد 13 درخت تصمیم گیری دیگر در مجموعه داده اعتباری آلمان مقایسه شد. دقت طبقه بندی درخت تصمیم گیری این مدل از دقت طبقه بندی 8 درخت تصمیم گیری دیگر در مجموعه داده اعتباری آلمان مقایسه شد . دقت طبقه بندی درخت تصمیم گیری این مدل از دقت طبقه بندی 8 درخت تصمیم گیری مقایسه شده بیشتر بوده . همچنین پیچیدگی درخت تصمیم گیری مدل تلفیقی پیشنهادی از پیچیدگی 7 درخت تصمیم گیری مقایسه شده کمتر بود . تنها 3 درخت تصمیم گیری که در انتخاب ویژگی ها از تابع ارزیاب Wrapper با طبقه کننده C4.5 استفاده کردند ، دارای دقت طبقه بندی و پیچیدگی بهتری نسبت به درخت تصمیم گیری مدل تلفیقی پیشنهادی بودند .

فصل 3: استنتاج

نتیجه گیری
با توجه به پژوهش انجام شده نتایج زیر حاصل شد.
داده کاوی دارای محاسن فراوانی است. داده کاوی به عنوان مهمترین کاربرد Data Warehouse یا انباره های داده شناخته می شود. به وسیله داده کاوی داده های موجود مورد تحلیل قرار می گیرند تا روندهای احتمالی، ارتباط های غیر محسوس و الگو های مخفی داده ها از بین انبوه داده ها، شناسایی شوند. باید توجه داشت که جمع آوری و محافظت از داده ها نکته بسیار مهمی می باشد. بدلیل حجم گسترده و بسیار زیاد داده های موجود در بانک و همچنین عدم امکان ذخیره سازی آنها ونیاز به پردازش واستخراج پویای اطلاعات ودانش نهفته در داده ها بحث داده کاوی جریان داده ها دربانک طی سالهای اخیر بسیار مورد توجه قرار گرفته است. دربانکداری نوین، بانک ها برای شناسایی مشتریان و نیازهای آنها دست به بازاریابی تک به تک و بازاریابی براساس پایگاه داده می زنند.
بانک ها در اعطای تسهیلات اعتباری به مشتریان خود نیاز به شناخت مناسب از آنها دارند . تکنیک هایی همچون درختان تصمیم گیری C4.5 می توانند با شناسایی مشتریان خوب و بد به اعتبارسنجی آن ها بپردازند. انتخاب درخت تصمیم گیری بهتر با دقت بالای طبقه بندی و پیچیدگی کمتر می تواند منجر به کاهش هزینه اعتبار سنجی غلط مشتریان بانک ها شده و از طرف دیگر زمان و هزینه اعتبار سنجی را کاهش و رضایت مندی مشتریان را افزایش دهد.در این پژوهش مدل تلفیقی پیشنهادی ارائه شد که با استفاده از تکنیک های الگوریتم ژنتیک ، انتخاب ویژگی ها و خوشه بندی به ساخت درختان تصمیم گیری C4.5 در مجموعه داده های اعتباری آلمان پرداخت. نتایج حاصل از اجرای الگوریتم مدل تلفیقی پیشنهادی نشان داد که دقت طبقه بندی درخت تصمیم گیری منتج شده از این مدل نسبت به دقت طبقه بندی اکثر درختان تصمیم گیری مقایسه شده در این پژوهش بیشتر است. همچنین پیچیدگی درخت تصمیم گیری این مدل نسبت به اغلب درختان تصمیم گیری مناسب تر می باشد. می توان از مدل تلفیقی پیشنهادی برای ساخت و انتخاب درختان تصمیم گیریC4.5 بهتر با دقت طبقه بندی بالا و پیچیدگی کمتر در اعتبارسنجی مشتریان بانک در کنار روش های قضاوتی استفاده کرد.

فصل 4: پیوست ها

پیوست (1) مقادیر ویژگی های داده های اعتبارسنجی آلمان

فصل 5: منابع

منابع
[1] تجارت ، ب ,مدیریت ریسک در بانکداری, تهران : موسسه انتشارات و چاپ دانشگاه تهران, 1386.
[2] سعیدی، ایرج، داده کاوی و کاربرد آن در تجارت امروز و مقایسه روشهای مطرح با استفاده از سیستم سفارشات کتب و مجلات کتابخانه های دانشگاهی، پایان نامه کارشناسی ارشد مهندسی کامپیوتر (نرم افزار) دانشگاه علم و صنعت،1379.
[3] نادعلی، ا.، خان بابایی،م. "بکارگیری تکنیک های درخت تصمیم و الگوریتم ژنتیک جهت اعتبار سنجی مشتریان بانک ها در یک سیستم پشتیبانی تصمیم گیری", دومین کنفرانس ملی داده کاوی, تهران: دانشگاه صنعتی امیر کبیر, صفحه 6، 8. 1387.
[4] Abdou, H., & Pointon, J,"Neural nets versus conventional techniques in credit scoringin Egyptian banking",Expert Systems with Applications,Vol.xxx,pp.1,2008.

[5] Aitkenhead, M. J,"A co-evolving decision tree classification method",Expert Systems with Applications,Vol.34,pp.2-3,2008.

[6] Bala, J., Huang, J., Vafaie, H., DeJong, K., & Wechsler, H,"Hybrid Learning Using Genetic Algorithms and Decision Trees for Pattern Classification",IJCAI,Montreal: IJCAI conference,pp.1,2,4,1995.

[7] Berry, Michael J.A.& Linoff,Gordon. Data Mining techniques: for marketing, sales and
customer support, John Wiley & Sons, 1997.

[8] Carvalho, D. R., & Freitas, A. A,"A hybrid decision tree/genetic algorithm method for data mining",Information Sciences,Vol.163,pp.1-18,2004.

[9]Dehuri, S., Patnaik, S., Ghosh, A., & Mall, R. "Application of elitist multi-objective genetic algorithm for classification rule generation". Applied Soft Computing ,Vol.M,pp.1,2,3,5,2008.

[10] D'heygere, T., Goethals, P. L., & Pauw, N. D,"Use of genetic algorithms to select input variables in decision tree models for the prediction of benthic macroinvertebrates",Ecological Modelling,Vol.160,pp.1-8,2003.

[11] Giudici P,Applied Data Mining, Statistical Methods for Business and Industry, john Wiley
&Sons, 2003

[12]Gray, J. B., & Fan, G. ,"Classification tree analysis usingTARGET". Computational Statistics & Data Analysis,Vol.52,pp.1-3,2008.

[13] Grupe, F. H., & Jooste, S, "Genetic Algorithms A Business Perspective",Information Management & Computer Security,Vol.12,No.3,pp.1-4,2004.

[14] Guyon, I., & Elisseeff, A,"An Introduction to Variable and Feature Selection",Journal of Machine Learning Research,Vol.3,pp.2,4,9,2003.

[15] Hall, M. A,Corrolation Based Feature Selection for Machine Learning. Ph.D.,University of Waikato,1999.

[16] http://archive.ics.uci.edu/ml/datasets.html.

[17] http://www.tmuai.blogfa.com/post-51.aspx

[18] http://www.economic-club.ir/showthread.php?tid=45

[19] Huang, C. L., Chen, M. C., & Wang, C. J,"Credit Scoring with a data mining Approach Based on Support Vector Machines", Expert Systems with Apllications,Vol.33,pp.1-3,2007.

[20]Huang, M., Gong, J., Shi, Z., Liu, C., & Zhang, L. ,"Genetic algorithm-based decision tree classifier for remote sensing mapping with SPOT-9 data in the HongShiMao watershed of the loess plateau,China". Neural Comput & Applic, Available at: www.springer.com,pp.1-3,2007.

[21] Kennedy, R. L., Lee, Y., Roy, B. V., Reed, C. D., & Lippmann, R. P,Solving Data Mining Problems through Pattern Recognition, S.l.,Prentice Hall,1998.

[21] Kim, E., Kim, W., & Lee, Y,"Combination of multiple classifiers for the customer's purchase behavior prediction",Decision Support Systems,Vol.34,pp.2-8,2002.

[23]Kim, M. J., & Han, I., "The discovery of experts' decision rules from qualitative bankruptcy data using genetic algorithms". Expert Systems with Applications ,Vol.25,pp.1-5,8,2003.

[24] Kim, Y. S., & Sohn, S. Y, "Managing loan customers using misclassification patterns of credit scoring model", Expert Systems with Applications,Vol.26,pp.1-3,2004.

[25] Larose, D. T,Discovering Knowledge in Data, an Introduction to Data Mining, New Jersey: WILEY,2005.

[26] Lavrac, N., Gamberger, D., & Turney, P,"Cost-Sensitive Classification: Empirical Evaluation of a Hybrid Genetic Decision Tree Induction Algorithm",Journal of Artificial Intelligence Research,Vol.2,pp.1,2,4,5,1995.

[27] Lee, T. S., & Chen, I. F,"A two-stage hybrid credit scoring model using artificial neural networks and multivariate adaptive regression splines",Expert Systems with Applications,Vol.28,pp.1,2,5,6,7,8,2005.

[28] Lee, T. S., Chiu, C. C., Lu, C. J., & Chen, I. F,"Credit scoring using the hybrid neural discriminant technique",Expert Systems with Applications,Vol.23,pp.1,5,6,8,2002.

[29] Liu, H. H., & Ong, C. S,"Variable selection in clustering for marketing segmentation using genetic algorithms",Expert Systems with Applications,Vol.34,pp.1,3,4,5,6,2008.

[30] Liu, H., & Setiono, R. "A Probabilistic Approach to Feature Selection – A Filter Solution". from website www.siteceer.com, pp. 1, (n.d.).

[31]Martinez-Otzeta, J. M., Sierra, B., Lazkano, E., & Astigarraga, A., "Classifier hierarchy learning by means of genetic algorithms". Pattern Recognition Letters , Vol.27,pp.1,2,3,5,6,2006.

[32] Nanni, L., & Lumini, A, "An experimental comparison of ensemble of classifiers for bankruptcy prediction and credit scoring", Expert Systems with Applications,Vol.36,pp.1-4,2009.

[33]Olson, D., & Shi, Y., Introduction to Business Data Mining. Singapore: McGraw Hill Education,2007.

[34] Ong, C. S., Huang, J. J., & Tzeng, G. H,"Building credit scoring models using genetic programming",Expert Systems with Applications,Vol.29,pp.1-3,2005.

[35] PAL, N. R., NAND, S., & Kundu, M. K,"Self-crossover-a new genetic operator and its application to feature selection",International Journal of Systems Science,Vol.29,No.2,pp.2,4,5,6,1998.

[36] Papagelis, A., & Kalles, D,"Breeding Decision Trees Using Evolutionary Techniques",from website www.siteceer.com,pp.1-7,(n.d.).

[37] Sabzevari, H., Soleymani, M., & Noorbakhsh, E,"A comparison between statistical and Data Mining methods for credit scoring in case of limited available data",s.n., pp.1-7, (n.d.).

[38] SALAPPA, A., DOUMPOS, M., & ZOPOUNIDIS, C,"Feature selection algorithms in classification problems:an experimental evaluation",Optimization Methods and Software,Vol.22,No.1,pp.2-5,2007.

[39] Sorensen, K., & Janssens, G. K,"Data mining with genetic algorithms on binary trees",European Journal of Operational ResearchVol.151,pp.2,10,2003.

[40] Susac, M. Z., Sarlija, N., & Bensic, M,"Small Business Credit Scoring: A Comparison of Logistic Regression, Neural Network, and Decision Tree Models",s.n,pp.1-4,(n.d.).

[41] Tan, F., Fu, X., Zhang, Y., & Bourgeois, A. G,"A genetic algorithm-based method for feature sub set selection",Soft Comput,form www.springer.com,pp.1,3,4,5,6,2008.

[42] Thomas, L. C,"A survey of credit and behavioural scoring: forecasting financial risk of lending to consumers",International Journal of Forecasting,Vol.16,pp.2-4,2000.

[43] Todorovski, L., & Dzeroski, S, "Combining Classifiers with Meta Decision Trees",from website www.siteceer.com,pp.1-3,(n.d.).

[44]Tsang, C. H., Kwong, S., & Wang, H,"Genetic-fuzzy rule mining approach and evaluation of feature selection techniques for anomaly intrusion detection",Pattern Recognition,Vol.40,pp.7,10,13,2007.

[45] WANG, Y. Y., & LI, J,"Feature-selection ability of the decision-tree algorithm and the impact of feature- selection/extraction on decision-tree results based on hyperspectral data",International Journal of Remote Sensing,Vol.22,No.10,pp.4,6,7,2008.

[46] Xu, X., Zhou, C., & Wang, Z,"Credit scoring algorithm based on link analysis ranking with support vector machine",Expert Systems with Applications,Vol.xxx,pp.6,2008.

[47] Yu, L., Wang, S., & Lai, K. K,"An intelligent-agent-based fuzzy group decision making model for financial multicriteria decision support:The case of credit scoring",European Journal of Operational Research,Vol.xxx,pp.1,2,7,2007.

[48]Zhang, Y., & Bhattacharyya, S. ,"Genetic programming in classifying large-scale data:an ensemble method". Information Sciences , Vol.163,pp.2,6.

57


تعداد صفحات : 75 | فرمت فایل : WORD

بلافاصله بعد از پرداخت لینک دانلود فعال می شود