تارا فایل

تحقیق داده کاوی در بانکداری الکترونیکی




داده کاوی در بانکداری الکترونیکی

استاد راهنما:

تقدیر و تشکر:
سپاس خدای را که سخنوران، در ستودن او بمانند و شمارندگان، شمردن نعمت های او ندانند و کوشندگان، حق او را گزاردن نتوانند. و سلام و دورد بر محمّد(ص) و خاندان پاک او، طاهران معصوم، هم آنان که وجودمان وامدار وجودشان است؛ و نفرین پیوسته بر دشمنان ایشان تا روز رستاخیز…
بدون شک جایگاه و منزلت معلم، اجّل از آن است که در مقام قدردانی از زحمات بی شائبه ی او، با زبان قاصر و دست ناتوان، چیزی بنگاریم.اما از آنجایی که تجلیل از معلم، سپاس از انسانی است که هدف و غایت آفرینش را تامین می کند و سلامت امانت هایی را که به دستش سپرده اند، تضمین؛ بر حسب وظیفه و از باب " من لم یشکر المنعم من المخلوقین لم یشکر اللَّه عزّ و جلّ" :ازپدر و مادر عزیزم این دو معلم بزرگوارم که همواره بر کوتاهی و درشتی من، قلم عفو کشیده و کریمانه از کنار غفلت هایم گذشته اند و در تمام عرصه های زندگی یار و یاوری بی چشم داشت برای من بوده اند تشکر و قدردانی دارم.
و شمع را طریقتی است که تا پایان راه یاریگرش خواهد بود.و پروانه را معرفتی است که تا پایان راه کسب خواهد کرد و شمع سان خواهد سوخت و حکایت شمع حکایت دستان "استاد"بود که بی صدا می سوخت .
و با تقدیر و تشکر شایسته از استاد فرهیخته و فرزانه جناب آقای دکتر که در کمال سعه صدر، با حسن خلق و فروتنی، از هیچ کمکی در این عرصه بر من دریغ ننمودند و زحمت راهنمایی این تحقیق را بر عهده گرفتند.کمال تشکر و قدردانی را دارم.

چکیده
امروزه دادها قلب تپنده فرایند تجاری بیشتر شرکت ها تلقی می شوند،آن ها فارغ از خرد و کلان بودن نوع صنعت در تمامی صنایع نظیر ارتباطات ، تولید ،بیمه ،کارت اعتباری و بانکداری از طریق تعاملات در سیستم های عملیاتی شکل می گیرند.لذا نیازی به ابزاری است که بتوان داده های ذخیره شده را پردازش کرده و اطلاعات حاصل از آن را در اختیار کاربران قرار دهد.در این راستا سازمان های بسیاری در حال استفاده از داده کاوی برای کمک به مدیریت تمام فازهای ارتباط با مشتری هستند.این سازمان ها می تواند با برسی ویژگی ها و علت استفاده برخی از مشتریان از کالا ها و یا خدمات خود یا برسی علل عدم استقبال برخی از مشتریان از برخی کالاها نقاط قوت و ضعف خود را بیابند و در راستای بهبود کیفیت گام بردارند.امروزه به دلیل وجود بانکداری الکترنیکی ثبت اطلاعات تراکنشی راحت تر صورت می گیرد و همین امر موجب شده است روش های کمی جایگزین روش های کیفی شود.در این تحقیق به منظور شناسایی مشتریان بانک و تدوین استراتژی مناسب برای برخورد با آنها از داده کاوی و ابزار استفاده می شود. وهمچنین تقلبهای صورتهای مالی به شکل چشمگیری توجه عموم جامعه ،رسانه ها،سرماگذاران را به خود جلب کرده است و موسسات مالی و پولی به شدت به دنبال تسریع و سرعت عمل در شناخت فعالیت کلاهبرداران و متقلبان می باشند.لذا بکارگیری تکنیکهای شناسایی تقلب به منظور جلوگیری از اقدامات متقلبانه درسیستم های بانکداری الکتزونیک لازم است،عموما روش های شناسایی تقلب به دو دسته اصلی تشخیص ناهنجاری و تشخیص سوء استفاده تقسیم می شوند.در روش تشخیص ناهنجاری ،تاریخچه رفتار مشتری به عنوان یک ناهنجاری یا تقلب ثبت شود.روش سوء استفاده بر رفتارهای خاص مشتری تمرکز دارد و دقیقا رفتارهای شناخته شده را تقلب فرض می کند.در این تحقیق علاوه بر مقایسه روش های فوق و تشریح چگونگی عملکرد سازوکارهای مبتنی بر آن ،انواع تکنیکهای تشخیص تقلب در بانکداری الکترونیک ارائه و روشهای داده کاوی مورد استفاده در کشف تقلب مزایا و معایب هریک به تفصیل شرح داده خواهد شد.
کلمات کلیدی:داده کاوی – بانکداری الکترونیک-مدیریت ارتباط با مشتری – تقلب-تشخیص ناهنجاری – تشخیص سوء استفاده

فهرست مطالب
عنوان صفحه
فصل اول : مقدمه
1.1. مقدمه 2
1.2. تعریف مسائله و بیان سوال های اصلی تحقیق 2
1.3. سابقه و ضرورت انجام تحقیق 3
1.4. هدف 3
1.5. کاربرد 4
فصل دوم : مفاهیم واصطلاحات
2.1. مقدمه 6
2.2. تاریخچهی داده کاوی 6
2.3. تعریف داده کاوی 8
2.4. روش های داده کاوی 9
2.4.1. خوشه بندی 9
2.4.1.1. روش تقسیم بندی 9
2.4.1.2. روش سلسه مراتبی 9
2.4.1.3. روش مبتنی بر چگالی 10
2.4.2. کشف قواعد وابستگی 10
2.4.3. طبقه بندی 10
2.5. مراحل داده کاوی 11
2.6. اندازه گیری نتایج 13
2.7. آمار و داده کاوی 14
2.8. بانکداری الکترونیک 16
2.9. تاریخچه بانکداری الکترونیک در ایران 16
2.10. سیستم های بانکداری الکترونیکی 17
2.11. شاخه های بانکداری الکترونیک برحسب نیازهای بازار بانکداری الکترونیک 17
2.12. مزایای بانکداری الکترونیک 18
2.13. پول الکترونیکی 18
2.14. انواع پول الکترونیکی 19
2.14.1. پول الکترونیکی شناسایی شده 19
2.14.2. پول الکترونیکی غیرقابل شناسایی (بی نام و نشان) 19
2.15. نتیجه گیری 19
فصل سوم : مدیریت ارتباط با مشتری در صنعت بانکداری الکترونیکی
3.1. مقدمه 22
3.2. مدیریت ارتباط با مشتری CRM 22
3.3. ارتباط 23
3.4. هرم ارزش مسشتری 23
3.5. خوشه بندی مشتریان بانک ملت با استفاده از داده کاوی 26
3.6. استخراج داده های مربوط به شاخص ها 27
3.7. بررسی وضعیت داده و آماده سازی آن 27
3.8. برسی عدم همبستگی فیلدها با استفاده از آنالیز واریانس 28
3.9. تقسیم بندی مشتریان در گروه به صورت غیر فازی 28
3.9.1. تقسیم بندی مشتریان به 5 گروه به صورت فازی 29
3.9.2. تحلیل خوشه ها 31
3.10. استخراج قواعد 33
3.11. ایجاد نرم افزار های داده کاوی برای مدیریت روابط مشتری 34
3.11.1. تقسیم بندی مشتری 34
3.11.2. پیش بینی رویگردانی 36
3.12. پیشنهادات 39
3.13. نتیجه گیری 40
فصل چهارم : روش ها و راهکارهای شناسایی تقلب در بانکداری الکترونیک
4.1. مقدمه 43
4.2. تقلب 44
4.3. شناسایی تقلب 48
4.4. انواع تقلب در بستر بانکداری الکترونیک 48
4.4.1. تشخیص سو استفاده 48
4.4.2. تشخیص ناهنجاری 50
4.5. تکنیک تشخیص تقلب 53
4.5.1. سیستم خبره 53
4.5.2. برون هشته ای 53
4.5.3. شبکه عصبی 54
4.5.4. استدلال بر پایه مدل 57
4.5.5. رویکرد میتنی بر قواعد 57
4.5.6. تجزیه و تحلیل حالت گذار 58
4.5.7. تکنیک ها 58
4.5.8. داده کاوی 59
4.6. وظایف داده کاوی 59
4.6.1. طبقه بندی 60
4.6.2. خوشه بندی 60
4.6.3. پیش بینی 61
4.6.4. کشف نقاط پرت 61
4.6.5. رگرسیون 61
4.6.6. تصویرسازی 62
4.7. روشهای داده کاوی در مورد استفاده در تحقیقات کشف تقلبهای مالی 62
4.7.1. مدل رگرسیون 64
4.7.2. شبکه های عصبی مصنوعی 65
4.7.3. شبکه استنباط بیزین 65
4.7.4. درختان تصمیم 66
4.8. یک چارچوب کلی برای الگورتیم های داده کاوی 67
4.9. راه آینده چالشهای پیش رو 68
4.10. نتیجه گیری 69
منابع و مراجع 72
واژه نامه فارسی به انگلیسی 76
واژه نامه انگلیسی به فارسی 81

فهرست اشکال ونمودارها
عنوان صفحه
شکل 1-2. مراحل داده کاوی 13
شکل1-3 . مدیریت فرایند کسب و کار 26
شکل 2-3.هرم ارزش مشتری براساس 5 خوشه بدست آمده 33
شکل 3-3. تلفیق رفتار داده های دموگرافیک 36
شکل 4-3. دلایل برای رویگردانی داوطلبانه 37
شکل 1-4.چرخه حیات مالی 47
نمودار 1-4.چگونگی دسته بندی داده ها براساس رفتارعادی 51
نمودار 2-4.ناهنجاری متنی 52
نمودار 3-4.ناهنجاری انبوه 52
شکل 2-4.روشهای داده کاوی استفاده شده برای کشف انواع تقلبهای مالی (Ngai et,al.2010) 63
شکل 5-4. چارچوب کلی کشف تقلبهای مالی با استفاده از کارایی (Yue et,al .2007 ) 67

فهرست جداول
عنوان صفحه
جدول1-3 . مراکز 5 خوشه به روش غیر فازی 28
جدول2-3 . نمونه ای از خروجی نرم افزار Spss 29
جدول 3-3.نمونه ای از خروجی نرم افزار DataEngin 29
جدول 4-3. تراکم خوشه ها با استفاده از روش غیر فازی و فازی 29
جدول 5-3.مقادیر بدست آمده برای µ با تعداد خوشه های مختلف 30
جدول 6-3 . مقادیر محاسبه شده برای ارزیابی خوشه ها با استفاده از معادلات ذکر شده 32
جدول1-4 . طبقه بندی تقلبهای مالی (Ngai et,al.2010) 45
جدول 2- 4. جدول زیان های حاصل از تقلب های مالی از طریق کارت های اعتباری بانکی در انگلستان (2004 تا 2007)-منبع APAGS سال 2006 (آمار به میلیون پوند) 46
جدول 3-4 .جمع زیان های حاصل از تقلب های مالی از طریق سیستم های بانکداری الکترونیکی در انگلستان (2004 تا 2007)- منبع APAGS سال 2006 (آمار به میلیون پوند) 47
جدول 4-4.اهداف اصلی تحقیقتهای انجام شده در مورد کشف تقلبهای شزکتی از سال 1997 تا 2008 (Ngai et.al ,2010) 64

فصل 1
مقدمه

1.1. مقدمه
بسیاری از شرکت ها و موسسات دارای حجم انبوهی از اطلاعات هستند. با گسترش سیستمهای پایگاهی و حجم بالای داده ها ی ذخیره شده در این سیستم ها ، به ابزاری نیازاست تا بتوان این داده ها راپردازش کرد و اطلاعات حاصل از آن را در اختیار کاربران قرار داد.معمولا کاربران پس از طرح فرضیه ای بر اساس گزارشات مشاهده شده به اثبات یا رد آن می پردازند ، در حالی که امروزه به روشهایی نیازداریم که به اصطلاح به کشف دانش1 بپردازند یعنی روشهائی که با کمترین دخالت کاربر و به صورت خودکار الگوها و رابطه های منطقی را بیان نمایند.یکی از روشهای بسیار مهمی که با آن می توان الگوهای مفیدی را در میان داده ها تشخیص داد،داده کاوی است ،این روش که با حداقل دخالت کاربران همراه است اطلاعاتی را در اختیار آنها وتحلیل گران قرار میدهد تا براساس آنها تصمیمات مهم و حیاتی در سازمانشان اتخاذ نمایند .باید توجه داشت که اصطلاح داده کاوی زمانی به کار برده می شود که با حجم بزرگی از داده ها ، در حد مگا یا ترابایت ، مواجه باشیم . در تمامی منابع داده کاوی بر این مطلب تاکید شده است . هر چه حجم داده ها بیشتر و روابط میان آنها پیچیده تر باشد دسترسی به اطلاعات نهفته در میان داده ها مشکل تر می شود و نقش داده کاوی به عنوان یکی از روشهای کشف دانش ،آشکارتر می گردد.
1.2. تعریف مسائله و بیان سوال های اصلی تحقیق
یکی از مباحث مهم در بانکداری الکترونیکی بحث مدیریت ارتباط با مشتری می باشد. به عبارتی کامل تر مدیریت ارتباط با مشتری یک روش ، یک نظام و از همه مهم تر یک راهبرد در کسب و کار است که هدف آن طبقه بندی مشتریان و مدیریت آن ها به منظور بهینه سازی ارزش مشتری در دراز مدت ، و بهرگیری سازمان از آن است .مدیریت ارتباط با مشتری ، در واقع در فرایند های پیدا کردن مشتری ، نزدیک شدن به آن ، مدیریت و ایجاد رضایت در مشتریان و نگهداری آن ها است]1[.ادلیستن این فرایند را تحت عنوان چرخه حیات مشتری این گونه بیان می کند:بدست آوردن مشتری ، افزایش ارزش مشتریان و نگهداری مشتریان خوب.
برای هر مشتری ،سازمان باید قادر باشد به سوالاتی نظیر زیر پاشخگو باشد؟
1- آیا مشتری سود ده است؟
2- چرا مشتری این کسب و کار را با سازمان انجام می دهد؟
3- مشتری چه چیزی را دوباره سازمان دوست دارد؟
4- آیا مشتری این کسب و کار را با رقبای سازمان هم انجام می دهد؟
1.3. سابقه و ضرورت انجام تحقیق
بنا به تحقیق مجله برسی بازرگانی هاروار برخی شرکت ها تنها با پنچ درصد تلاش بیشتر در حفظ مشتری های موجود سود خود را تا صد در صد افزایش می دهند .در ضمن جذب مشتری جدید بسیار گران تر از حفظ مشتری موجود است .از طرفی نگهداری و جلب رضایت تمام مشتریان هزینه و سرمایه گذاری نیاز دارد و گاهی مقرون به صرفه نیست .پس مسئله مهم برای بانکها این است کدام یک از مشتریان از توان مناسب برای نگهداری برخوردار است]1[.
اکتشاف دانش از پایگاه داده و داد کاوی یکی از مهم ترین ابزار های مدیریت ازتباط با مشتری است که می تواند به سازمان با تاکید بر یافتن اطلاعات مفید یا دانش مورد علاقه آن کمک کنید،]3،2[.
برای غلبه بر چالش های پیش روی بانک های ایرانی می توان از داده کاوی استفاده کرد.داده کاوی در مبحث مدیریت ارتباط با مشتری بانک را قادر می کند تا داده را درباره مشتریان شان از هر نقطه تماس با آن جمع کرده و برای ارزیابی جامع از هر مشتری آنها را ترکیب کند و از آن اطلاعات برای ایجاد پرونده برای هر مشتری و بخش بندی مشتریان و نگهداری این موارد استفاده شود.
1.4. هدف
توانمندسازی بانک ها در بالاترین سطح خصوصی سازی در تبلیغ برای محصولات و ایجاد محصولات و ایجاد محصولات متنوع طبق خصوصیات مشتریان شان وقوی تر کردن تعاملات با مشتری برای بهتر نیازهای مشتری و ارتقای سطح رضایت مشتریان و درنتیجه وفادار کردن و نگهداری طولانی تر آنهاست و همچنین به دنبال شناخت فعالیت های کلاهبرداران و متقلبان می باشند و کاهش هزینه های عملیاتی و باقی ماندن به عنوان یک ارائه دهنده خدمات معتبر و قابل اطمینان است.
1.5. کاربرد
بعضی از کاربردهای اصلی داده کاوی در بانکداری عبارتند از :
* تحلیل رفتار مشتریان و بازاریابی
* اعتبار سنجی مشتریان اعتباری
* مدیریت انواع ریسکهای بانکی
* کاهش هزینه های انتقال ، تسهیل در بودجه بندی ، برنامه ریزی و تحلیل سودهی
* و جالب توجه ترین کاربرد داده کاوی در کشف پول شویی است.
لذا بانک می تواند از طریق تقویت پایگاه داده ها ، لینک ها ارتباطی بانک های اطلاعاتی و افزایش دقت در ورود و ثبت اطلاعات اولیه و با اتکا به روش های داده کاوی ، در هریک از زمینه های فوق الذکر به نتایج قابل چشم گیری دست یابد.

فصل2
مفاهیم و اصطلاحات

2.1. مقدمه
دادهکاوی به معنای یافتن نیمه خودکار الگوهای پنهان موجود در مجموعه دادههای2 موجود می باشد[4]. دادهکاوی از مدلهای تحلیلی ، کلاس بندی و تخمین و برآورد اطلاعات و ارائه نتایج با استفاده از ابزارهای مربوطه بهره می گیرد. میتوان گفت که داده کاوی در جهت کشف اطلاعات پنهان و روابط موجود در بین دادههای فعلی و پیشبینی موارد نامعلوم و یا مشاهده نشده عمل میکند. برای انجام عملیات دادهکاوی لازم است قبلا روی دادههای موجود پیشپردازشهایی انجام گیرد. عمل پیش پردازش اطلاعات خود از دو بخش کاهش اطلاعات و خلاصهسازی و کلیسازی دادهها تشکیل شده است. کاهش اطلاعات عبارت است از تولید یک مجموعه کوچکتر، از دادههای اولیه، که تحت عملیات دادهکاوی نتایج تقریبا یکسانی با نتایج دادهکاوی روی اطلاعات اولیه به دست دهد[4]. پس از انجام عمل کاهش اطلاعات و حذف خصایص غیر مرتبط نوبت به خلاصهسازی و کلیسازی دادهها می رسد. دادههای موجود در بانکهای اطلاعاتی معمولا حاوی اطلاعات در سطوح پایینی هستند، بنابراین خلاصهسازی مجموعه بزرگی از دادهها و ارائه آن به صورت یک مفهوم کلی اهمیت بسیار زیادی دارد. کلیسازی اطلاعات، فرآیندی است که تعداد زیادی از رکوردهای یک بانک اطلاعاتی را به صورت مفهومی در سطح بالاتر ارائه می نماید.

2.2. تاریخچهی داده کاوی
با رشد فناوری اطلاعات و روشهای تولید و جمع آوری داده ها، پایگاه داده های مربوط به داده های تبادلات تجار ی، کشاورزی، اینترنت، جزئیات مکالمات تلفنی، داده های پزشکی و غیره سریعتر از هر روز جمع آوری و انبارش می شوند. لذا از اواخر دهه 80 میلادی بشر به فکر دست یابی به اطلاعات نهفته دراین پایگاه داده های حجیم افتاد زیرا سیستمهای سنتی قادر به این کار نبودند. به دلیل رقابت در عرصه های سیاسی، نظامی، اقتصادی و علمی و اهمیت دست یابی به اطلاعات در کمترین زمان بدون دخالت انسان علم و تجزیه و تحلیل داده ها یا داده کاوی پا به عرصه گذاشت .
داده کاوی فرآیند ی است که در آغاز دهه 90 مطرح شد و با نگرشی نو، به مسئله استخراج اطلاعات از پایگاه داده ها می پردازد. از سال 1995 داده کاوی به صورت جدی وارد مباحث آمار شد و در سال 1996 ، اولین شماره مجله کشف دانش و معرفت از پایگاه داده ها 3 منتشر شد . محققانی نظیر براچمن و آناند ( 1996 ) کلیه مراحل واقع گرا یانه و رو به جلو کشف دانش از پایگاه داده ها را تشخیص دادند.
در حال حاضر، داده کاوی مهمترین فناوری جهت بهره برداری موثر از داده های حجیم است و اهمیت آن رو به فزونی است . به طوریکه تخمین زده شده است که مقدار داده ها در جهان هر 20ماه به حدود دو برابر می رسد. در یک تحقیق که بر روی گرو ه های تجاری بسیار بزرگ در جمع آوری داده ها صورت گرفت مشخص گردید که 19 درصد از این گرو ه ها دارای پایگاه داده هایی با سطح بیشتر از 50 گیگا بایت می باشند و 59 درصد از آ نها انتطار دارند که در آینده ای نزدیک در چنین سطحی قرار گیرند [5].
درصنایعی مانند کارت های اعتباری و ارتباطات و فرشگاه های زنجیره ای و خریدهای الکترونیکی و اسکنرهای بارکد خوان هر روزه داده های زیادی تولید و ذخیره می شوند . افزایش سرعت کامپیوترها باعث به وجود آمدن الگوریتم هایی شده است که قدرت تجزیه و تحلیل بسیار بالایی دارند بدون اینکه محدودیتی در زمینه ظرفیت و سرعت کامپیوترها داشته باشند [6].
در سال 1989 و 1991 کارگا ههای کشف دانش و معرفت از پایگاه داده ها توسط پیاتتسکی4 و همکارانش برگزار شد. در فواصل سا لهای 1991 تا 1994کارگا ههای کشف دانش و معرفت از پایگاه داده ها توسط فییاد5 و پیاتتسکی و دیگران برگزار شد. به طور رسمی اصطلاح داده کاوی برای اولین بار توسط فییاد در اولین کنفرانس بین المللی"کشف معرفت و داده کاوی6" در سال 1995 مطرح شد.امروزه کنفرانسهای مختلفی در این زمینه در سراسر دنیا برگزار میشود.
افزایش داده های بسیار باعث پیدایش فرصتهای تازه برای کار در علوم مهندسی و کسب و کار شده است. زمینه داده کاوی و کشف دانش از پایگاه داده ها به عنوان یک رشته علمی جدید در مهندسی و علوم کامپیوتر ظهور کرده است. مهندسی صنایع با حوزه های گوناگون و در بر داشتن فرصتهای بی نظیر اکنون برای کاربرد داده کاوی و کشف دانش از پایگاه داده ها و برای توسعه مفاهیم و روشهای تازه در این زمینه آماده است. فرآیندهای صنعتی زیادی اکنون برای مطمئن شدن از کیفیت سفارشات محصول و کاهش هزینه های محصول به طور خودکار و کامپیوتری شده اند [7].
2.3. تعریف داده کاوی
در متون آکادمیک تعاریف گوناگونی برای داده کاوی ارائه شده اند . در برخی از این تعاریف داده کاوی در حد ابزاری که کاربران را قادر به ارتباط مستقیم با حجم عظیم داده ها می سازد معرفی گردیده است و در برخی دیگر ، تعاریف دقیقتر که درآنها به کاوش در داده ها توجه می شود موجود است . برخی از این تعاریف عبارتند از :
* داده کاوی 7 عبارت است از فرایند استخراج اطلاعات معتبر ، از پیش ناشناخته ، قابل فهم و قابل اعتماد از پایگاه داده های بزرگ و استفاده از آن در تصمیم گیری در فعالیت های تجاری مهم[8].
* اصطلاح داده کاوی به فرایند نیم خودکار تجزیه و تحلیل پایگاه داده های بزرگ به منظور یافتن الگوهای مفید اطلاق می شود [9].
* داده کاوی یعنی جستجو در یک پایگاه داده ها برای یافتن الگوهایی میان داده ها [10].
* داده کاوی یعنی استخراج دانش کلان ، قابل استناد و جدید از پایگاه داده ها ی بزرگ .
* داده کاوی یعنی تجزیه و تحلیل مجموعه داده های قابل مشاهده برای یافتن روابط مطمئن بین داده ها .
همان گونه که در تعاریف گوناگون داده کاوی مشاهده می شود ، تقریبا در تمامی تعاریف به مفاهیمی چون استخراج دانش ، تحلیل و یافتن الگوی بین داده ها اشاره شده است .
2.4. روش های داده کاوی
دادهکاوی به سه دسته کلی تقسیم میشوند که عبارتند از خوشهبندی، طبقهبندی و کشف قواعد وابستگی.
2.4.1. خوشه بندی
فرآیند خوشهبندی سعی دارد که یک مجموعه داده را به چندین خوشه تقسیم نماید بطوریکه دادههای قرار گرفته در یک خوشه با یکدیگر شبیه بوده و با دادههای خوشههای دیگر متفاوت باشند. در حال حاضر روشهای متعددی برای خوشهبندی دادهها وجود دارد که بر اساس نوع دادهها، شکل خوشهها، فاصله دادهها و غیره عمل خوشهبندی را انجام میدهند. مهمترین روشهای خوشهبندی در زیر معرفی شدهاند:
2.4.1.1. روش تقسیم بندی
روشهای خوشهبندی که به روش تقسیم بندی عمل میکنند، دادههای موجود در یک مجموعه داده را به k خوشه تقسیم میکنند، بطوریکه هر خوشه دو خصوصیت زیر را داراست :
* هر خوشه یا گروه حداقل شامل یک داده میباشد.
* هر داده موجود در مجموعه داده دقیقا به یک گروه یا خوشه تعلق دارد.
معیار اصلی در چنین مجموعه دادههایی میزان شباهت دادههای قرار گرفته در هر خوشه میباشد. در حالیکه دادههای قرار گرفته در دو خوشه مختلف از نظر شباهت با یکدیگر فاصله زیادی دارند. مقدار k که بعنوان پارامتر استفاده میگردد، هم می تواند بصورت پویا تعیین گردد و هم اینکه قبل از شروع الگوریتم خوشهبندی مقدار آن مشخص گردد.
2.4.1.2. روش سلسله مراتبی
روشهای سلسله مراتبی به دو دسته کلی روشهای bottom-up و روشهای top-down تقسیم میگردند. روشهای سلسله مراتبی bottom-up به این صورت عمل میکنند که در شروع هر کدام از دادهها را در یک خوشه جداگانه قرار می دهد و در طول اجرا سعی میکند تا خوشههایی نزدیک به یکدیگر را با هم ادغام نماید. این عمل ادغام تا زمانی که یا تنها یک خوشه داشته باشیم و یا اینکه شرط خاتمه برقرار گردد، ادامه مییابد. روشهای top-down دقیقا بطریقه عکس عمل میکنند، به این طریق که ابتدا تمام دادهها را در یک خوشه قرار میدهد و در هر تکرار از الگوریتم، هر خوشه به خوشههای کوچکتر شکسته می شود و اینکار تا زمانی ادامه مییابد که یا هر کدام از خوشهها تنها شامل یک داده باشند و یا شرط خاتمه الگوریتم برقرار گردد. شرط خاتمه معمولا تعداد کلاستر یا خوشه میباشد.
2.4.1.3. روش مبتنی بر چگالی
اکثر روشهای خوشهبندی که به روش تقسیمبندی عمل میکنند معمولا از تابع فاصله بعنوان تابع معیار خود بهره میبرند. استفاده از چنین معیاری باعث میگردد که الگوریتم خوشهبندی تنها قادر به ایجاد خوشههایی با اشکال منظم باشد. در صورتیکه اگر خوشههای واقعی در دادهها دارای اشکال غیرمنظمی باشند، این الگوریتمها در خوشهبندی آنها با مشکل مواجه میگردند. برای حل اینگونه مشکلات یکسری از روشها برای خوشهبندی پیشنهاد گردیدهاند که عمل خوشه بندی را بر مبنای چگالی دادهها انجام میدهند. ایده اصلی در این روشها بر این اساس است که خوشهها تا زمانی که دادههای قرار گرفته همسایگی خوشهها از حد معینی بیشتر باشد، رشد میکنند و بزرگ میشوند. چنین روشهایی قادرند خوشه هایی با شکلهای نامنظم نیز ایجاد نمایند.
البته دسته دیگری از روشهای خوشهبندی مانند روشهای مبتنی بر گرید، روشهای مبتنی بر مدل و … وجود دارند که میتوانید آنها را در ]4[ مطالعه نمایید.
2.4.2. کشف قواعد وابستگی
بحث قواعد وابستگی به مقوله کشف عناصری یا المانهایی در یک مجموعه داده می پردازد که معمولا با یکدیگر اتفاق میافتند و بعبارتی رخداد آنها بنوعی با یکدیگر ارتباط دارد. بطور کلی هر قاعده یا rule که از این مجموعه داده بدست میآید، دارای شکل کلی بصورت میباشد که نشان میدهد چنانچه الگوی X اتفاق بیفتد، با احتمال بالایی الگوی Y نیز اتفاق خواهد افتاد. برای مطالعه بیشتر در مورد مقوله کشف قواعد وابستگی میتوانید به ]4[ مراجعه نمایید.
2.4.3. طبقه بندی
فرایند طبقهبندی در واقع نوعی یادگیری با ناظر میباشد که در طی دو مرحله انجام میگردد. در مرحله اول مجموعهای از دادهها که در آن هر داده شامل تعدادی خصوصیت دارای مقدار و یک خصوصیت بنام خصوصیت کلاس میباشد، برای ایجاد یک مدل داده بکار میروند که این مدل داده در واقع توصیف کننده مفهوم و خصوصیات مجموعه دادههایی است که این مدل از روی آنها ایجاد شده است. مرحله دوم فرآیند طبقهبندی اعمال یا بکارگیری مدل داده ایجاد شده بر روی دادههایی است که شامل تمام خصوصیات دادههایی که برای ایجاد مدل داده بکار گرفته شدهاند، میباشد، بجز خصوصیت کلاس این مقادیر که هدف از عمل طبقهبندی نیز تخمین مقدار این خصوصیت میباشد.
الگوریتمها و روشهای مختلفی برای طبقهبندی تاکنون پیشنهاد شدهاند که برای مثال میتوان از روشهای طبقهبندی با استفاده از درخت تصمیم، طبقهبندی بیزین، SVM ، طبقهبندی با استفاده از شبکههای عصبی، طبقهبندی مبتنی بر قواعد و … نام برد]11[. در اینجا ما قصد نداریم وارد مباحث مربوط به الگوریتمها و روشهای طبقهبندی شویم و تنها روش طبقهبندی مبتنی بر قواعد را بدلیل استفاده از آن در فاز دوم پروژه در اینجا معرفی خواهیم نمود. در صورت نیاز به مطالعه بیشتر میتوانید به فصل ششم مرجع ]4[ مراجعه نمایید.
2.5. مراحل داده کاوی
قدم داده کاوی در این چرخه خود نیز شامل مراحل مختلفی می باشدکه عبارتنداز:
1. تعیین اطلاعات گذشته.
2. تمیز کردن داده ها و پردازش اولیه . دراین مرحله خطاهای داده ها تصحیح می شوند و داده های اشتباه جایگزین می شوند. این مرحله ممکن است تا 60 درصد از زمان داده کاوی را در برگیرد [5].
3. یکپارچه سازی داده ها. معمولا داده ها از منابع متفاوتی جمع آوری می شوند باید به صورتی درآیند که یک مخزن داده های8 مناسب ایجاد شود تا بتوان عملیات داده کاوی را بهتر انجام داد.
4. انتخاب مجموعه داده های هدف.
5. یافتن ویژگیهای مورداستفاده و تعیین ویژگی های جدید.
6. نمایش داده ها به صورتیکه بتوان برای داده کاوی استفاده نمود.
7. انتخاب عملیات داده کاوی (دسته بندی، خوشه بندی، پیش بینی وغیره).
8. انتخاب روش داده کاوی (شبکه های عصبی، درخت تصمیم و نظایر آن).
9. داده کاوی و جستجو برای یافتن الگوی مناسب.
10 . ارزیابی و تحلیل الگوی به دست آمده و حذف الگو های نامناسب.
11 . تفسیر نتایج داده ها و استنتاج از اطلاعات با ارزش.

باید توجه داشت که جمع آوری و محافظت از داده ها نکته بسیار مهمی می باشد . اصولا چون قالب و نوع داده ها در طول زمان تغییر می کند ممکن است بسیاری از داده های موجود در قالبهای متفاوت باشند و همچنین بسیاری از داده های قدیمی از بین رفته و دور ریخته شوند . در حالیکه ممکن است اهمیت این داده ها از داده های جدید به هیچ وجه کمتر نباشد. همچنین به علت اینکه داده ها از منابع مختلف داخلی و خارجی مانند کارکنان شرکت، مدیران، مشتریان، کارفرمایان، پیمانکاران باشند باز هم ممکن است قالب داده ها با هم یکسان نباشد . به همین دلیل انتخاب داده های درست و یکپارچه سازی قالب آ ن ها به منظور استفاده در داده کاوی از اهمیت بسیار بالایی برخوردار میباشد. در شکل 1-2 میتوان مراحل داده کاوی را به اختصار نشان داد [12].

شکل 1-2 مراحل دادهکاوی
2.6. اندازه گیری نتایج
اندازه گیری در واقع باعث فراهم آمدن بازخورد هایی جهت بهبود مستمر می شود . اندازه گیری توجیهی بر علت انجام داده کاوی و سندی بر موفقیت یا عدم موفقیت آن می باشد. با وجود این مرحله از داده کاوی معمولا در سازما نها نادیده و کم اهمیت گرفته می شوند.
در سازما ن ها معمولا اندازه گیری به صورت گسسته صورت می گیرد و عموماً کوتاهترین زمانی که اندازه گیری ها و گزارش ها تهیه می شوند ماهانه می باشد در صورتیکه در بسیاری از مواقع است این زمان باعث می شود که فرصت انجام اقدام لازم از دست برود . رویکردی که برای اندازه گیری مداوم صورت می گیرد عبارت است فرآیند تحلیل همزمان9 که خود از مباحث داده کاوی می باشد.
اندازه گیری مناسب به عواملی بستگی دارند که عبارتنداز : داده های گذشته انداز ه گیری (مخصوصاً برای تحلیل فرایندها )، در دسترس بودن و موجود بودن داده ها، ماهیت فرصت داده کاوی شده و وضعیت فعلی سازمان . حال اگر بخواهیم به یک مثال در مورد اندازه گیری نتایج اشاره کنیم میتوانیم سوا لهای زیر را در نظر بگیریم:

* آیا این روش بازاریابی منجر به جذب مشتریان سودآور شده است؟
* آیا وفاداری مشتریان جدید بیشتر از متوسط است؟
* چند درصد مشتریان وفادار از این طریق بازاریابی به دست آمده اند؟
* مشتریان وفادار بانک چه کسانی هستند؟

هر کدام از این انداز ه گیری ها به نحوی در مورد چگونگی استفاده از نتایج داده کاوی در آینده سوال می کند. این انداز ه گیری ها و بررسی نتا یج داده کاوی و مقایسه آن با گذشته باعث ایجاد فرصت های تجاری جدید و شروع مجدد چرخه داده کاوی می شود. این بدان معنی است که پس از مرحله اندازه گیری چرخه داده کاوی دوباره و از نو شروع به کار کرده و هیچ وقت به اتمام نرسیده و همواره در این دور باقی می ماند.
2.7. آمار و داده کاوی
دادهکاوی اساسا یک رشته کاربردی است و یک داده کاو باید از رو شهای آماری درک خوبی داشته باشد. در داده کاوی تلاش می شود بین آمار و علوم رایانه ای رابطهای برقرار گردد. برقراری این ارتباط به دلیل وجود یک سلسله از فرضیات ضمنی و غیرواضح و دشوار بودن تبدیل مفاهیم نظری به الگوریتم های رایانه ای در ادبیات آماری و به دلیل وجود الگوریتمهای فراوان در ادبیات رایانه ای دشوار است. لذا داشتن درکی درست از مدلسازی و الگوریتمهای محاسباتی برای کا رهای داده کاوی ضروری است.
روابط در داده کاوی غالباً به صورت الگوها و مدلهایی از قبیل معادلات رگرسیونی، سریهای زمانی، خوشه ها، رده بندیها، گرافها و غیره ارائه میشوند. در داده کاوی نیز همانند آمار غالباً داده هایی که تحلیل می شوند، نمونه ای از جامعه هستند که به تبع بزرگ بودن جامعه با نمونه ای حجیم مواجه هستیم. در هنگام کار با مجموعه داده های حجیم مشکلات تازه ای بروز می کند.
برخی از این مشکلات به نحوه ذخیره سازی یا فراخوانی داده ها مربوط می شود و برخی دیگر مربوط به مسائلی مانند نحوه تحلیل داده ها در زمانی مناسب و استخراج الگو ها و مدلهای حاکم بر داده ها است [7].
به طور کلی فرآیند کاوش الگوها، مدلها و روابط مطلوب در یک مجموعه داده شامل مراحل زیر است:
1. معین ساختن طبیعت و ساختار مورد نظر
2. تصمیم گیری در مورد میزان برازش نمایشهای متفاوت به داده ها، یعنی انتخاب یک تابع امتیاز
3. اتخاذ یک فرآیند الگوریتمی برای بهینه سازی تابع امتیاز
4. تصمیم گیری در مورد اصول مدیریت داده ها برای اجرای موثر الگوریتم
با توجه به اینکه مد لها و الگوها، توابع امتیاز، روشهای بهینه سازی و راهکارهای مدیریت داده ها چهار مولفه اصلی الگوریتمهای داده کاوی را تشکیل می دهند، با توجه به اینکه ماهیت داده ها در آمار با داده کاوی متفاوت است، داده کاوی به برخی از رو ش های آماری که دارای ویژگی های خاصی میباشند توجه بیشتری نشان میدهد. پارزن برای آن دسته از رو شهای آماری که مورد توجه داده کاوها قرار دارند، نام روش های کاوش آماری را پیشنهاد نموده است. یکی از ویژگی های مورد توجه رو شهای آماری در داده کاوی، سادگی تعبیر آ نها است. از این رو به استفاده از مد لهای نسبتاً ساده و قابل تعبیر مانند گراف ها گرایش زیادی وجود دارد. در داده کاوی مواردی که در آ نها با تعداد بسیار زیادی متغیر، مدل و یا فرضیه مواجه هستیم، فراوان است. از طرفی داده کاوی یک فرآیند اکتشافی و تکراری است به این معنی که در خلال تحلیل داده ها اطلاعات جدید کشف میشوند و فرضیه های قبلی اصلاح و فرضیه های جدید ارائه میشوند و این کار ممکن است با داده های زیاد، بارها تکرار شود. لذا از دیدگاه آمار روش هایی با کارایی محاسباتی بالا، تحلیل های محاسباتی و تحلیل های تقریبی، مورد توجه خاص داده کاوی هستند. تاکید بیشتر داده کاوی بر بعضی رو شهای آماری، به معنی عدم استفاده از سایر روش های آماری نیست و در عمل از طیف گستر دهای از روش های آماری برای تحلیل داده ها استفاده می شود [13].
آمار و داده کاوی هر دو با روش های تحلیل و مدلبندی داده ها مرتبط می باشند. بنابراین اشتراک زیادی بین این دو رشته وجود دارد. به عنوان یک شوخی، یکی از نویسندگان در پاسخ سوال اینکه "داده کاوی چیست؟" بیان میکند که "همان آمار است، اما با یک نام خیلی بهتر".
همانطور که گفتیم یکی از رشته های مورد استفاده در داده کاوی آمار می باشد. بر هم کنش این دو رشته سبب به وجود آمدن موضوعات فراوان تحقیقاتی شده است و مورد علاقه بسیاری از آماردانها قرار گرفته است.
برای یک مدت طولانی آماردا نها به داده کاوی به عنوان یک مترادفی از صید داده ها10، لایروبی داده ها11 و دستکاری داده ها مطرح بوده است. در تمامی این موارد داده کاوی دارای یک معنای ضمنی منفی است.
یک تفاوت در نوع داده ها است. آماردا نها با "داده های دست اول" که برای تحقیق درستی فر ضهای خاصی جمع آوری و تولید شده اند، کار میکنند. اما داده کاوها با "تحلیل داده های دست دوم" که اغلب از منابع مختلفی گردآوری شده اند، کار میکنند. منظور پیدا کردن وقایع مورد علاقه و اطلاعات مفیدی است، که در داده ها مخفی شده اند و اغلب با اهداف ابتدایی که داده ها بخاطر آن جمع آوری شده اند، رابطه ای ندارند.
2.8. بانکداری الکترونیک
بانکداری الکترونیک به کلیه خدمات بانکی و پولی گفته می شود که در بستر الکترونیک و به صورت کاملا متمرکز و حضوری یا غیر حضوری به مشتریان ارائه می شوند .
به عبارت دیگر بانکداری الکترنیکی سامانه ای یکپارچه است که کلیه محصولات و خدمات بانکی و عملیات راهبری و مدیریت آنها را از طریق تجهیزات الکترنیکی به پایگاه داده متمرکز در قالب یک سیستم ارائه می کند .
2.9. تاریخچه بانکداری الکترونیک در ایران
در اواخر دهه ۱۳۶.بانکهای کشور به سیستم اتوماسیون عملیات بانکی و رایانه ای کردن ارتباطات خود توجه نشان دادند. حرکت به سمت بانکداری الکترونیکی از اوایل دهه ۷. اغاز شد و پس از آن کارت های اعتباری،خودپردازها،سیستم های گویاو… وارد خدمات نوین بانکی شد . سیستم شتاب یا شبکه تبادل اطلاعات بین بانکی درسال ۱۳۸۱ایجاد شد . شتاب با ایجاد ارتباط بین دستگاه های خودپرداز سه بانک صادرات،کشاورزی و توسعه صادرات اغاز به کار کرد و امروزه تمامی بانکها اعم از دولتی و خصوصی عضو این شبکه هستند. پس از شتاب، سحاب، ساتنا و طرح خدمت نیز از جمله خدمات بانکداری الکترونیکی بودند که در کشور راه اندازی شدند. امروز علاوه بر سامانه های یاد شده موجد در سیستم بانکی، سیستم همراه بانک و اینترنت بانک موجود در هر بانک به مشتریان تمامی امکانات بانکداری الکترونیک را میدهد. همچنین با گسترش طرح خدمت که بانک ملی سردمدار آن بود، مرز میان بانکهای ملی، صادرات، توسعه صادرات، صنعت و معدن و بانک تات برداشته شده و بانک های یادشده میتوانند وجوه به صورت آنی به حساب های یکدیگر واریز و یا چک های یکدیگر را پاس نمایند.
2.10. سیستم های بانکداری الکترونیکی
این سیستم ها در سه سطح به مشتریان سرویس دهی می کنند
1) اطلاع رسانی:
این سطح ابتدایی ترین سطح بانکداری الکترونیکی اینترنتی است.بانک اطلاعات مربوط به به خدمات وعملیات خود را از طریق شبکه های ارتباطی دولتی وخصوصی فراهم می کند.
2) ارتباطات:
این سطح امکان انجام مبادلات بین سیستم بانکی ومشتری را فراهم می آورد ریسک این سطح در بانکداری الکترونیک بیشتر از سطح سنتی است.
3) تراکنش:
این سیستم متناسب با نوع اطلاعات وارتباطات خود از بالاترین میزان ریسک برخوردار است .در این سطح مشتری در یک ارتباط متقابل قادر است تا عملیاتی چون صورتحساب،صدور چک، انتقال وجه وارایه ی صورت حساب را انجام دهد.
2.11. شاخه های بانکداری الکترونیک برحسب نیازهای بازار بانکداری الکترونیک
1. بانکداری اینترنتی
2. بانکداری مبتنی برتلفن همراه وفناوری های مرتبط با آن
3. بانکداری تلفنی
4. بانکداری مبتنی بر نمابر
5. بانکداری مبتنی بر دستگاههای خودپرداز
6. بانکداری مبتنی بر پایانه های فروش
7. بانکداری مبتنی برشعبه های الکترونیکی
2.12. مزایای بانکداری الکترونیک
می توان آن را از دو جنبه ی مشتریان وموسسات مورد بررسی قرار داد. ازجنبه مشتریان می توان به صرفه جویی در هزینه ها اشاره کرد و ازجنبه موسسات می توان به حفظ مشتریان علیرغم تغییرات مکانی بانکها اشاره کردهمچنین جلوگیری از اختلاس یکی دیگر ازمزایای مهم ان است.
در بانکهای پیشرو در خدمات بانکداری الکترونیک،کانال های مختلف بانکداری با هم تلفیق وسیستم های جزیره ای یکپارچه میشود پس مدیریت اطلاعات ومدیریت ارتباط با مشتریان بهبود می یابد و رضایت مشتریان، صرفه جویی در هزینه های تولید ودرآمد بیشتر برای بانکها را به همراه خواهد داشت اما قبل از اقدام به ایجاد وپیاده سازی سیستم بانکداری الکترونیک باید امکان پذیر بودن آن را در رابطه با محیط فنی ،اقتصادی،مالی ونیروی انسانی مورد توجه قرار داد.
2.13. پول الکترونیکی
امروزه این مسئله پذیرفته شده است که بانکداری الکترونیکی می تواند به دو جریان مجزا تقسیم شود : یکی عبارت است از محصولات پول الکترونیکی، به ویژه در شکل محصولاتی که ارزش را ذخیره می کنند و دیگری عبارت است از تحویل یا دسترسی الکترونیکی به محصولات. این ها محصولاتی هستند که به مصرف کننده این امکان را می دهند تا از وسایل ارتباطی الکترونیکی استفاده کرده و به این ترتیب به خدمات پرداخت قراردادی دسترسی داشته باشند. به عنوان مثال: استفاده از یک کامپیوتر شخصی و یا شبکه های کامپیوتری (نظیر اینترنت) برای پرداخت کارت الکترونیکی یا ارسال دستوری برای انتقال وجوه بین حساب های بانکی.
2.14. انواع پول الکترونیکی
پول الکترونیکی را به شیوه های مختلف تقسیم بندی می نمایند، در یکی از تقسیم بندی ها پول الکترونیکی را به دو دسته تقسیم می نمایند:
2.14.1. پول الکترونیکی شناسایی شده
این نوع پول الکترونیکی حاوی اطلاعاتی درباره هویت مالک آن می باشد که تا حدودی مانند کارتهای اعتباری است. این پولها دارای قابلیت ردگیری می باشند و هویت دارنده آن قابل شناسایی است. قابلیت استفاده این پول در دو روش پیوسته و ناپیوسته امکان پذیر است.
2.14.2. پول الکترونیکی غیرقابل شناسایی (بی نام و نشان)
این نوع پول دیجیتالی خصوصیت مخفی بودن هویت فرد دارنده اش، را در بردارد، و از این لحاظ درست مانند پول کاغذی سنتی عمل می کند. هنگامی که پول دیجیتالی از حسابی برداشت شد بدون باقی گذاشتن هیچ اثری می توان آن را خرج نمود و با توجه به این نکته که هنگام ایجاد کردن پول دیجیتالی از امضاهای نامشخص استفاده می شود امکان پی گیری آن برای هیچ بانکی وجود ندارد. هر کدام از پولهای الکترونیکی فوق الذکر به دو دسته پول الکترونیکی پیوسته و پول الکترونیکی ناپیوسته تقسیم می شود.
2.15. نتیجه گیری
ابزارهای داده کاوی نمایانگر پیشرفت در زنجیره تکنولوژی اطلاعات هستند. داده کاوی همچنین می تواند بعنوان بخشی از فرایند بزرگتر کشف دانش در بانکهای اطلاعاتی در محیط های مختلف در نظر گرفته شود. البته نباید چنین پنداشت که ابزارهایی مثل داده کاوی نیاز به مداخله انسانی را کاهش خواهد داد.
انتظار می رود داده کاوی در گسترش سازمان خود یادگیرنده مشارکت کند. کشف انتخابهای نوین با بهره گیری از داده کاوی اطمینان بخش بهترین کاربرد ممکن منابع موجود است. داده کاوی ماهیت چرخه مانند دارد. برای اینکه در پی کشف الگوها، سوالات بیشتری پدید خواهند آمد که دور بعدی فرایند را شکل میدهند. بهره برداری از تکنولوژیهای پیشرفته مثل داده کاوی مطمئنا" برای متخصصان یک چالش دائمی خواهد بود ؛ چرا که آنها خلاقیت طلبند و برای نوآوری تلاش می کنند.

فصل 3
مدیریت ارتباط با مشتری
در
صنعت بانکداری الکترونیکی

3.1. مقدمه
امروزه مدیریت ارتباط با مشتری فقط یک مزیت رقابتی نیست بلکه شناسایی و جذب مشتریان وفادار و نگهداشتن آنها برای ادامه حیات در بازار رقابت امری ضروری است بانک و موسسات اعتباری در گذشته به علت محدودیت تنوع خدمات و عدم دسترسی به اطلاعات مشتریان از روش های ساده کیفی جهت سنجش اعتبار مشتریان خود استفاده می کردند ولی امروزه به دلیل وجود بانکداری الکترونیکی ثبت اطاعات تراکنشی مشتریان راحت تر صورت می گیرد و همین امر موجب شده است روش های کمی جایگزینی روش های کیفی شود .
از اواسط قرن بیستم ، تکنیک های تولید و بازاریابی انبوه ، رقابت را از طریق افزایش دسترسی مشتریان به محصولات تغییر داده است . فرایند جمع آوری و پردازش داده با سرعت زیادی رشد کرده و شرکت مختلف به منظور بقاء در بازار های رقابتی کنونی به میزان توجهی به تجربه و تحلیل مقادیر عظیمی از داده ها متکی می باشند]14[.
3.2. مدیریت ارتباط با مشتری CRM
CRM برگرفته از عبارت Customer Relationship Management بوده و در ایران با نام مدیریت ارتباط با مشتری شناخته می شود .با بهره گیری از CRM ، ارتباط مشتریان با سازمان و و نیازمندی های آنان مورد بررسی و تجزیه و تحلیل اصولی قرار می گیرد .در واقع CRM فرایندی جهت گردآوری و یکپارچه سازی اطلاعات به منظور بهره برداری موثر و هدف دار از آنها می باشد. این اطلاعات می تواند در برقراری ارتباط با مشتریان ، فروش ، بازاریابی موثر ، حساسیت و یا نیازهای بازار باشد .
مدیریت ارتباط با مشتری یک فرایند تجاری است که تمام جوانب مشخصه های مشتری را آدرس دهی می کند، دانش مشتری را بــه وجود می آورد، روابط را با مشتری شکل می دهد و برداشت آنها را از محصولات یا خدمات سازمان ایجاد می کند. مدیریت ارتباط با مشتری توسط چهار عنصر از یک چارچوب ساده تعریف شده است: دانش، هدف، فروش و خدمت ]15[.
به عبارتی کامل تر مدیریت ارتباط با مشتری یک روش ، یک نظام و از همه مهم تر یک راهبرد در کسب و کار است که هدف آن طبقه بندی مشتریان و مدیریت آن ها به منظور بهینه سازی ارزش مشتری در درازمدت ، و بهرگیری سازمان از آن است .مدیریت ارتباط با مشتری ، در واقع در فرایند های پیدا کردن مشتری ، نزدیک شدن به آن ، مدیریت و ایجاد رضایت در مشتریان و نگهداری آن ها است]14[.ادلیستن این فرایند را تحت عنوان چرخه حیات مشتری این گونه بیان می کند:بدست آوردن مشتری ، افزایش ارزش مشتریان و نگهداری مشتریان خوب.
3.3. ارتباط 12
واژه چرخه زندگی مشتری به سطوح مختلف از ارتباط بین مشتری و کسب و کار اشاره دارد. چرخه زندگی مشتری به این جهت که ارتباط مستقیمی با در آمد و مطلوبیت مد نظر مشتری دارد ، مهم است]16[.
فروشندگان معتقدند که سه روش برای افزایش ارزش مشتری وجود دارد:
1. افزایش خرید مشتری از محصولی که قبلا خریداری کرده است
2. فروش محصولات با حاشیه سود بالاتر به مشتریان
3. حفظ مشتری برای یک دوره زمانی طولانی تر

3.4. هرم ارزش مسشتری
مفهوم بازاریابی مشتری و هرم مشتری به عنوان ابزاری برای شناخت و تجزیه و تحلیل رفتار مشتری در سال 2001 معرفی شد]17[.
هرم زیر را به صورت زیر تفسیر می کنیم:
* مشتریان فعال : سازمان یا شرکت هایی که در یک محدوده زمانی مشخص ، کالا یا خدمات خریداری کرده اند.مشتریان فعال به 4 بخش بالا ، بزرک ، متوسط و کوچک تقسیم بندی می شوند .
* مشتزیان غیر فعال : شرکت هایی که قبلا یا خدمات خریداری می کردند ولی این کار را در محدوده زمانی مشخصی انجام نداده اند .مشتریان غیر فعال منبع مهمی برای در آمد بالقوه هستند .آنها هم چنین اطلاعات ارزشمندی هستند و از طریق این اطلاعات می توان از تبدیل مشتریان فعال به غیر فعال جلوگیری کرد .
* مشتریان احتمالی یا بالقوه : شرکت هایی که به نوعی با سازمان ارتباط دارند ، ولی هنوز کالا یا خدماتی خریداری نکرده اند .مشتریان احتمالی شرکت هایی هستند که انتظار داریم در آینده نزدیک به مشتریان فعال ارتقاء یابند.
* مشتریان حدسی : شرکت هایی هستند که می توان محصولات و یا خدماتی را به مشتریان فعال در دراز مدا نزدیک شد .
* سایرین : شرکت هایی مه خیلی ساده ،نیاز با علاقه ای به خرید با استفاده از کالا ها و خدمات ها ندارند .در حالی که از این گروه بازاریابی که برای برقراری ارتباط با این گروه افراد و شرکت ها که هرگز با سازمان معامله نخواهند کرد ، مشخص شود .
مفهوم مدیریت ارتباط با مشتری را می توان از طریق هرم مشتری به سه بخش زیر مطرح نمود:
1) جذب مشتریان جدید به هرم مشتری
2) ارتقای مشتریان به سمت بالای هرم
3) حفظ مشتریان در برابر ترک هرم
گروه Meta مدیریت روابط مشتری را به سه بخش دسته بندی میکند:
* مدیریت روابط مشتری عملیاتی که با خودکار سازی فرآیندهای کسب و کار در ارتباط است، شامل نقاط تماس با مشتری می شود. در رابطه با Beck و Summer، این نرم افزارها، خودکارسازی فروش، خدمات مشتری و بازاریابی را شامل می شود.
* مدیریت روابط مشتری تحلیلی شامل استفاده ی داده های مشتری برای آنالیز، مدلسازی و ارزیابی می باشد. همچنین روش هایی مانند داده کاوی و OLAP و نرم افزارهای مدیریت روابط مشتری را اجرا می کند.
* مدیریت روابط مشتری مشارکتی شامل استفاده ی خدمات مشارکتی و زیرساختها، به منظور برقراری تعاملات بین سازمان و کانال مربوطه اش میشود.
در چندین سال گذشته، شاهد انفجاری در برنامه های کاربردی نرم افزار مدیریت روابط مشتری بوده ایم. هر موردی در نرم افزار مدیریت به محوریت نرم افزار بعنوان یکی از ابزار مدیریت روابط مشتری مطرح است. برای کشف الگویی در داده ها و جهت پیشگویی درباره ی آینده، تکنیک های داده کاوی مورد استفاده قرار گرفته اند. این تکنیک ها از سازمان مشتری محور پشتیبانی می کنند و به سازمانهای ارتباطاتی جهت بهره برداری از مقادیر زیادی از داده های تولید شده توسط مشتریان خود، کمک می کنند.
داده کاوی می تواند مدلی را ارائه کند که قادر به بهره برداری از رفتار مشتریان بوده و این رفتار را پیش بینی می کند. اما این مهم تنها گامی برای فرآیندی بزرگتر می باشد. موفقیت در داده کاوی توسط فرآیند کسب کار بخصوص بازاریابی از فعالیتها مطرح می شود. چرا که بازاریابان، نخستین کابران مدیریت روابط مشتری هستند. بازاریابان بایسنی نتایج داده کاوی را قبل از بکارگیری در فعالیت، بدانند. از وقتیکه داده کاوی، شروع به استخراج الگوهای پنهان در رفتار مشتری کرد، فهم این نتایج میتواند پیچیده باشد. اما ارتقای این مدیریت از اهمیت خاصی برخوردار است. نرم افزار داده کاوی بایستی با نرم افزار مدیریت تبلیغات با رویکرد کاری مشتری محور مورد استفاده قرار گیرد. داده کاوی می تواند برای بازاریابی و در پاسخ به مدلسازی و بهینه سازی بازاریابی مورد استفاده قرار بگیرد.
فناوری داده کاوی از استراتژی رابطه با مشتری پشتیبانی می کند.اما فناوری به خودی خود برابر با استراتژی نیست. اشتباه گرفتن تکنولوژی از استراتژی، دلیل اصلی این است که چرا بسیاری از سرمایه گذاری های مدیریت روابط مشتری، پتانسیل مناسبی را ارائه نمی دهد. همانطور که در شکل1-3 نشان داده شده، سازمان بایستی با استراتژی مدیریت روابط مشتری شروع کرده و این استراتژی بایستی فرآیند کسب و کار را مدیریت کند. داده کاوی می تواند به فعالیتهای کسب و کار کمک کرده تا استراتژی را اجرا کنند. اما نمی تواند اطمینان دهد که سازمان به سمت مشتری محور بودن پیش می رود. کلید موفقیت در مدیریت روابط مشتری، توسعه و پیاده سازی استراتژی می باشد.

شکل 1-3.مدیریت فرایند کسب و کار
چندین نرم افزار داده کاوی وجود دارد که از مدیریت روابط مشتری پشتیبانی میکند که در بخش بعدی تشریح خواهد شد.
3.5. خوشه بندی مشتریان بانک ملت با استفاده از داده کاوی
الف )یافتن شاخص های موثر در تعیین مشتریان کلیدی
جهت یافتن مشتریان کلیدی در ابتدا لازم بود شاخص های موثر در تعیین این گونه مشتریان در خصوص حساب های جاری قرض الحسنه شناسایی شوند .جهت تعیین این شاخص ها از دو روش استفاده گردید که عبارتند از :
1) استفاده از مطالعات قبلی انجام گرفته در خصوص مشتریان کلیدی
در این روش با برسی و مطالعه برخی از تحقیقات انجام گرفته در این زمینه چه در مرکز تحقیقات و برنامه ریزی بانک ملت و چه در مراکز دانشگاهی ، تعدادی از شاخص ها شناسایی و مشخص گردید.
2) استفاده از نظر کارشناسان خبره
جهت یافتن نطر کارشناسان خبره در مورد یافتن شاخص های موثر در تعیین مشتریان کلیدی طی جلساتی نظرات آنان جمع آوری گردید و مهم ترین شاخص ها از نظر آنان تعیین گردید .پس از انجام دو مرحله فوق مهم ترین شاخص هایی که در خصوص حساب های مشتریان کلیدی در حساب جاری قرض الحسنه شناسایی شدند به شرح زیر می باشند :
1- مانده حساب روزانه 2- مبلغ چک برگشتی روزانه 3- گردش بدهکار روزانه 4-گردش بستکار روزانه 5- مانده پایان دوره روزانه 6- مانده بستانکار روزانه
3.6. استخراج داده های مربوط به شاخص ها
پس از تعیین شاخص ها ، لازم بود تا اطلاعات مربوط به مشتریان در رابطه هر یک از شاخص ها جمع گردد . در این مرحله با استفاده از داده های موجود در بانک اطلاعاتی ابتدا کلیه بانک های ملت در سطح تهران به تفکیک شعبه متمایز گردید و اطلاعات حدود 5500 مشتری به صورت تصادفی انتخاب شدند.ولی برای مشاهده در یک سال نیاز به بدست آوردن فیلد هایی مانند معدل مانده حساب روزانه در 1 سال ، جمع گردش بدهکار در 1 سال ، جمع گردش بستانکار در 1 سال ،جمع مانده بستانکار مانده پایان دوره در 1 سال و مبلغ چک های برگشتی در 1 سال بود و این فیلدهای تجمعی وجود نداشت ، بنابراین با استفاده از نرم افزار (SQL) برنامه هایی برای بدست آوردن داده های مربوط به این اشخاص ها نوشته شد.

3.7. بررسی وضعیت داده و آماده سازی آن
پس از انتخاب فیلدها وجمع آوری داده ها نوبت به پاکسازی این داده ها از داده های پرت می باشد .برای حذف نقاط پرت در داده های موجود ابتدا با استفاده از نرم افرار (Excel) نمودار مقادیر هر یک از شاخص ها رسم شده و انحراف معیار این داده ها از میانگین بدست آورده شد سپس داده هایی که بیشترین انحراف معیار را داشته حذف شده اند و تعداد داده های موجود به 29000 داده رسید.
برای بازسازی رکورد های که برخی از فیلدهای آن خالی بود نیز با استفاده از روش مولد های هم نهشتی خطی که یکی از روش هاس تولید اعداد تصادفی است مقادیری برای داده های گمشده تولید شد.سپس با توجه به اینکه در داده های باقیمانده اختلاف بین بیشترین و کمترین مقدار داده زیاد بود و این مسئله دقت خروجی را کاهش می داد ،داده های موجود با استفاده از روش های آماری نرمال سازی شد.
3.8. برسی عدم همبستگی فیلدها با استفاده از آنالیز واریانس
برای اطمینان از عدم وابستگی بین شاخص های انتخابی و مستقل بودن آنها با استفاده از نرم افزار (Minitab) تست آنالیز واریانس انجام شد.در یک فاصله اطمینان 95% فرض برابری میانگین رد شد ، بنابراین فیلدهای انتخابی کاملا از یکدیگر مستقل می باشند.
3.9. تقسیم بندی مشتریان در گروه به صورت غیر فازی
در این مرحله برای تقسیم بندی مشتریان از نرم افزار (Spss) استفاده می شود.
جداول1-3 مراکز خوشه ها را ارائه می کند .

جدول1-3. مراکز 5 خوشه به روش غیر فازی
خروجی دیگر نرم افزار شامل گروه های اختصاص داده شده به هر یک از نمونه ها و فاصله هر نقطه تا مرکز خوشه می باشد .جدول 2-3 نمونه ای از این خروجی را ارائه می کند.

جدول2-3.نمونه ای از خروجی نرم افزار Spss
3.9.1. تقسیم بندی مشتریان به 5 گروه به صورت فازی
برای خوشه بندی مشتریان در حالت فازی از نرم افزار (dataengin) استفاده می شود .جدول3-3 نمونه از خروجی نرم افزار (dataengin) و تخصیص مشتریان مختلف به صورت فازی به گروهای مختلف است.

جدول 3-3.نمونه ای از خروجی نرم افزار DataEngin
برای محاسبه تراکم خوشه ها ،با استفاده از فرمول زیر برنامه ای توسط نرم افزار ویژوال بیسیک نوشته شد و تراکم خوشه های حاصل شده به دو روش فازی و غیر فازی محاسبه گردید . همان طور که در جدول4-3 مشاهده می شود تراکم خوشه هایی که با روش فازی ایجاد شده است کمتر است و این روش برای خوشه بندی مناسب تر است.
0.5
روش غیر فازی
0.1
روش فازی
جدول 4-3. تراکم خوشه ها با استفاده از روش غیر فازی و فازی
برای تعیین تعداد بهینه خوشه ها از الگوریتم ژنتیک استفاه شد. بدین منظور با استفاده از نرم افزار متلب کد الگوریتم ژنتیک برای خوشه بندی مشتریان نوشته شد.در زیر بخشی از کد نوشته شده می باشد.
Npop=5500
End
Npop=5500;
Nvar=200;
Pc=0.8;
Nc=2*round(pc*npop/2);
Mu=0.2;
Nmu=round(mu*npop);
Pop=randint(npop,nvar)
Maxit=400;
Bestpop=zeros(maxit,nvar);
Bestcosts=zeros(maxit,1)
For it =1:maxit
%calculation of costs
Costs=cost(pop)
%sorting the population according to the costs values
[costs ind]=sort(costs)
Pop=pop(ind(1:npop):);
Costs =costs(1:npop)
%update bestpop and bestcosts
Bestpop(it,)=pop(1)
Bestcosts(it)=costs(1)
%display results
Disp (['lteration'num2str(it)':
Bestcost ='num2str(bestcosts(it)
If it ==maxit
Break;
End
بخشی از کد الگوریتم ژنتیک توسط متلب
براساس فرمول نتایج برای پارامتر µ بر طبق جدول زیر می باشد:
با توجه به جدول5-3 مشاهده می شود که مقادیر µ برای k=5 بیشتر است .بنابراین براساس فرمول شماره مقدار f کمتر و بهترین تعداد خوشه 5 است .

جدول 5-3.مقادیر بدست آمده برای µ با تعداد خوشه های مختلف
3.9.2. تحلیل خوشه ها
حال ارزش مشتریان را براساس معیارهای تازگی (R) تکرار (F) ارزش پولی (M) اندازه گیری می کنم.
معیار تازگی مراجعه مشتری نشان دهنده آخرین باری است که مشتری به بانک مراجعه کرده است .مقدار این متغیر بین 0 و 365 است که ارزش امتیاز 365 از همه بیشتر است و بدین معناست که به تازگی مشتری به بانک مراجعه کرده است.با توجه به فرمول

مقدار R برای هر مشتری محاسبه شده است .تعداد تکرار مراجعات مشتریان در طی 1 سال گذشته نشان می دهد که این متغیر بین 0 تا 30 است و با استفاده از معادله

مقدار F برای هر مشتری مانده پایان دوره در نظر گرفته شود.با توجه به معادله

مقدار M برای هر مشتر ی محاسبه می شود . سپس ارزش خوشه ها محاسبه می شود.
با توجه به اهمیت تکراز مراجعات برای آن وزن 0.5 در نظر گرفته شده است .با توجه به معادلات

تازگی مراجعه مشتری ،تکرار ارزش پولی برای هر خوشه تعیین شده است . سپس با استفاده از معادله
V(Qn)=WR*R(On)+WF*F(On)+wM*M(On)
ارزش هر خوشه تعیین و نتایج در جدول 6-3 است:

جدول 6-3 . مقادیر محاسبه شده برای ارزیابی خوشه ها با استفاده از معادلات ذکر شده
با توجه به هرم ارزش مشتری می توان خوشه ها را به صورت زیر تحلیل کرد و استراتژی مدیریت ارتباط با مشتری برای هر خوشه را تعیین نمود سابقه رابطه با مشتریان خوشه 1 تا هم اکنون نسیتا بلند مدت و ادامه دار بوده ولی مانده پایان دوره آنها بسیار پایین است .باید سعی شود مانده حساب این مشتریان که اخیرا به بانک مراجعه کرده اند افزایش یابد ، تا سطح ارزش پولی این مشتریان وفادار ارتقاء یابد.این مشتریان که به ایجاد ارتیاط با ما تمایل نشان داده اند ، باید جذب شوند.در غیر اینصورت باید سعی شود هزینه های مربوط به آنها کاهش یابد.
خوشه 2 مشتریانی هستند که به تازگی به بانک مراجعه کرده اند و سابقه ارتیاط طولانی مدت با آنها وجود ندارد . در واقع آنها مشتریان جدیدی هستند که باید روی آنها مطالعات شناخت صورت گیرد و سعی به جذب آنها گردد .
خوشه 3 مشتریانی هستند که دارای سابقه ارتباطات قبلی هستند ولی به تازگی ارتباط با آنها کمرنگ تر شده است .این مشتریان در آستانه رویگردانی و ریزش هستند باید علت رویگردانی آنها مشخص شده و استراتژی لازم جهت جلوگیری از ریزش آنها اتخاذ گردد . این مشتریان در واقع مشتریان غیر فعال می باشند .
خوشه 4 با ارزش ترین خوشه در بین مشتریان است.مانده پایان دوره این مشتریان بیشتر است . سابقه ارتیاط با این مشتریان طولانی مدت است و این تداوم ارتباط با این مشتریان طولانی مدت است و این تداوم ارتباط تاکنون نیز ادامه داشته است .این مشتریان کلیدی هستند و باید در حفظ و نگهداری آنها تلاش شود تا ریزش ننمایند. این مشتریان جزء مشتریان وفادار و فعال در بالاترین سطح سودآوری هستند .
خوشه 5 مشتریانی هستند که نسبتا به تازگی و به صورت مداوم حجم قابل قبول اما نه خیلی زیاد مراجعات دارند .این مشتریان ، مشتریان معمولی هستند و نسبتا وفادارند اما از ارزش پایین تری نسبت به خوشه 4 برخودار هستند . باید سعی شود مانده حساب این مشتریان افزایش یابد .در شکل2-3 باتوجه به نتایج بدست آمده مشتریان در قالب هرم ارزش مشتری پیاده سازی شدند .

شکل 2-3.هرم ارزش مشتری براساس 5 خوشه بدست آمده
3.10. استخراج قواعد
تا این مرحله چون هیچ دانشی نسبت به سیستم نداشتم برای تقسیم بندی مشتریان از روش های مختلف خوشه بندی استفاده در این مرحله با بدست آوردن گروهای مختلف ، در حقیقت دانش اولیه را نسبت به سیستم بدست آورده ایم و خروجی گروه بندی را برای کلاس بندی بقیه مشتریان و استخراج قواعد کلی سیستم استفاده می کنیم .بدین صورت چنان مشتری جدیدی وارد شود با دریافت اطلاعات اولیه شاخ ها و استفاده از قوانین زیر می توان تشخیص داد این مشتری جزء کدام گروه از مشتریان می باشد و تصمیمات لازم را در مورد او اتخاذ نماییم .برای استخراج قوانین با استفاده از درخت تصمیم گیری ابتدا خروجی خوشه بندی را که همان فیلدهای انتخابی به اضافه گروهای تخصیص یافته به هر کدام می باشد را به 2 قسمت داده آموزش و داده تست تقسیم می شود که حدود 75% از رکورد ها به عنوان داده آموزش و 25% باقیمانده به عنوان داده تست معرفی می شوند.
البته در منابع مختلف این نسبت متفاوت می باشد ، ولی در این نسیت باید نهایت دقت در انتخاب مجموعه های آموزش و تست داشته باشیم تا بیشترین تنوع داده ها برای ورودی و خروجی در هر دو مجموعه حفظ شود و بهترین نتیجه حاصل شود.
سپس این خروجی ها را در دو فایل جداگانه Excel ذخیره می کنیم . تفسیر این قوانین به این صورت است که به عنوان مثال اگر مانده پایان دوره مشتری کوچکتر از 457.231 باشد و معدل حساب روزانه مشتری 297.001 باشد مشتری جزء کلاس B می باشد و به همین صورت بقیه قوانین تفسیر می شود.
3.11. ایجاد نرم افزار های داده کاوی برای مدیریت روابط مشتری
دو نرم افزار با ارزش داده کاوی برای مدیریت روابط مشتری در ارتباطات، بر تقسیم بندی مشتریان و پیش بینی روگردانی تمرکز می کند. این مدل های داده کاوی از داده ی مهمی استفاده می کند که در پایگاه داده نیز وجود دارد تا الگوهایی را بسازد که مربوط به تقسیم بندی مشتریان می باشند.
3.11.1. تقسیم بندی مشتری
تقسیم بندی مشتریان یکی از مهم ترین روش های داده کاوی استفاده شده در بازاریابی و تقسیم بندی مشتریان می باشد. همچنین به سازمانهای ارتباطاتی کمک می کند تا ویژگی های مشتری را کشف کنند و فعالیتهای بازاریابی مناسبی در رابطه با اطلاعات بدست آمده، استخراج کنند.
تقسیم بندی مشتریان به مشتریان مشابه، بر مبنای معیارهای متفاوتی گروه بندی می شود. در این روش، دستیابی به هدف و هر گروه امکان پذیر بوده و وابسته به ویژگی های آنها می باشد. تقسیم بندی مشتریان، بازاریابی و استراتژی های قیمتی را ارتقا می دهد. برای مثال، پیشنهاد قیمتی مناسبی یا دقایقی آزاد به گروه امکان پذیر است.
در مجموعه اصطلاحات مربوط به داده کاوی، عبارت " تقسیم کردن" به ندرت استفاده شده است. عبارت مناسب تر دسته بندی می باشد. الگوریتم دسته بندی (خوشه بندی) برای دسته های داده ای استفاده می شوند. دسته بندی روش مناسبی برای آنالیز مجموعه ی بزرگ و پیچیده ای از داده ها می باشد. با اجرای تکنیک دسته بندی، آنالیزگر می تواند مشکلی بزرگ را به گروه هایی با مشخصه های ویژه تقسیم کنند. از وقتیکه هر دسته توصیفی ارائه میشود، آنالیزگر قادر به درک ماهیت مشکل میباشد. اما آنالیزور بایستی در رابطه با متغیرهای مدل، تجربه داشته باشد.
دسته بندی همان تکنیک داده کاوی غیرمستقیم است. بدین معناست که هیچ متغیر وابسته ای وجود ندارد تا نتیجه ی خاصی را پیدا کند. زمان تهیه ی مدل داده کاوی، آنالیزگر نتایج آنرا نمی شناسد. اما این مدل یکی از نقاط قوت خوشه می باشد. چرا که به آنالیز مجموعه ی کاملی از داده ها می پردازد و در جستجوی الگوهایی است که توسط تکینیک مستقیم از دست رفته است. همچنین مجموعه داده های بزرگ و هر گونه ای از داده را مدیریت می کند. اما گاهی اوقات این نتایج برای فهم و تفسیر مشکل می باشد.
تعیین گروه های مشتریان با ویژگی های مشابه به موسسات ارتباطاتی جهت درک رفتار مشتریان کمک می کند. همچنین می تواند ابزار قدرتمندی برای تشخیص تقاضای مشتری می باشد.
چالش اصلی اجرای تکنیک های داده کاوی برای هدف تقسیم، برای فرآیند و روند تقسیم شدن متمرکز شده است. داده ای که بایست داده کاوی شود، موارد زیر را دربرمی گیرد:
* داده های رفتاری
* اطلاعات دموگرافیک (جمعیت شناسی(
داده های رفتاری به تشخیص گروه های مشتری کمک می کند. کسانی که رفتار های داده ای مشابهی دارند. در این روش، تمرکز بر رفتار مشتریان به جای خود آنها، امکان پذیر است. تشخیص نیازهای مشتریان از داده های دموگرافیک، هیچ ارزشی را در بازار ایجاد نمی کند. به همین دلیل پیشنهاد شده است تا رفتار داده های دموگرافیک را تلفیق کنند. همانطور که در شکل 3-3 نیز نشان داده شده است.

شکل3-3. تلفیق رفتار داده های دموگرافیک
3.11.2. پیش بینی رویگردانی
وفادارای مشتریان به شکلی است که سازمانهای ارتباطاتی بایستی به این مهم رسیدگی کنند. این موضوع می تواند ده برابر جذب یک مشتری به جای حفظ مشتری موجود، هزینه در برداشته باشد. از سوی دیگر، هزینه ی حفظ مشتری کمتر از هزینه ی برگرداندن آن پس از ترک سازمان است. به همین دلیل است که داده کاوی با هدف پیش بینی روگردانی مورد استفاده قرار گرفته است. رویگردانی می تواند بعنوان نرخ ناخالص از دست دادن مشتری در طول مدت زمان ارائه شده، مطرح گردد:
رویگردانی ماهانه = (Cstart + Cnew – Cend)/ Cstart
که در آن:
Cstart = تعداد مشتریان در شروع ماه
Cend = تعداد مشتریان در پایان ماه
Cnew = ناخالص مشتریان در طول ماه.
بنابراین سوال کلیدی این است که: چگونه پیش بینی مشتریانی که قصد ترک سازمان را دارند، داشته باشیم؟
تکنیکهای داده کاوی می تواند برای پاسخ به این سوال استفاده شود.
با استفاده از داده کاوی، تولید لیستی از مشتریان با احتمال بالای ترک سازمان امکان پذیر است. تکنیک های داده کاوی به سازمانهای ارتباطاتی جهت شناسایی الگوهای رفتاری مشتریان در رویگردانی از سازمان کمک میکند که توسط رقبا فریب خورده و اقدام به ترک سازمان می کنند. در این روش، آنها اقدام به برنامه ریزی عملیاتی خاص، جهت پیش بینی رویگردانی در سازمانها میکنند.
رویگردانی می تواند، به رویگردانی داوطلبانه و غیرارادی تقسیم شود. اگر مشتری شروع به فعالیت کند، قادر به ترک داوطلبانه ی سازمان خواهد بود. رویگردانی غیرارادی مدلی است که سازمان، سرویس خود را بعلت حسابهای غیرپولی تکراری متوقف می کند. تعیین انوع مختلف رویگردانی بر مبنای دلایل حاصله از رویگردانی بسیار مهم است. برخی دلایل برای رویگردانی داوطلبانه در شکل 4-3 نشان داده شده اند.

شکل 4-3. دلایل برای رویگردانی داوطلبانه
Geppert لیستی از عوامل رویگردانی را ارائه می دهد:
* قیمت
* کیفیت خدمات
* کلاهبرداری
* عدم پاسخگویی حامل
* خیانت های تجاری
* نگرانی های حریم خصوصی
* فقدان ویژگی
* فن آوری های جدید معرفی شده توسط رقیب
* رقیب جدید ورود به بازار
* صدور صورتحساب یا اختلافات خدمات
گزارش وفاداری Walker نشان داد که وقتی که قیمت برای مشتریان اهمیت داشته باشد، معیار اصلی وفادارای آنها نمی باشد. برنده شدن مشتریان در قیمت، به جای خدمات منجر به رویگردانی بالایی می شود.
این سازمان مجبور به تصمیم گیری در مورد نوع رویگردانی پیش بینی شده، و تکنیکهای داده کاوی برای انجام استفاده می کند. سازمانهای ارتباطاتی معمولا بر مشتریانی تمرکز می کنند که پیشنهاد بهتری ارائه می کنند. اما بسیار مهم است که مدل داده کاوی برای رویگردانی داوطلبانه، هیچ شانس مشابهی، برای رویگردانی غیر ارادی پیش بینی نمی نماید.
رویگردانی مشتری بوسیله ی داده کاوی از داده ی تاریخی پیش بینی شده است. تکنیکهای داده کاوی برای این هدف مورد استفاده قرار گرفتند تا از حساب داده ای، اطلاعات مالی و اطلاعات مربوط به مشتری بهره ببرند. داشتن متغیری هدفمند از اهمیت بسزایی برخوردار است تا مدل پیش بینی، ارائه شود و در این مورد، این مهم یک شاخص از رویگردانی است.
داده ی های زمانی مانند استفاده ی ماهانه می توانند مورد بررسی قرار بگیرند. اما پیشنهاد می شود که تغییر استفاده ی سه ماهه ی میانگین آنها، محاسبه شود و از آن بعنوان یک پیش بینی استفاده شود. برخی از عوامل دیگر، مانند تعداد تماس ها و تغییر در میانگین تماسها، شاخص های خوبی هستند. چندین تکنیک متفاوت برای هدف پیش بینی رویگردانی مورد استفاده قرار گرفته است. اما معروف ترین آنها موارد زیر هستند:
* درخت تصمیم گیری
* شبکه های عصبی
* رگرسیون
مدل پیش بینی رویگردانی میتواند کل پایگاه مشتری و یا به طور خاص بخشی از آنرا ارتقا دهد. پیشنهاد شده است تا چندین مدل را ایجاد کرده و آنرا با با نتایج داده کاوی بهتری ترکیب کند.
مدل داده کاوی بایستی در فرآیند حفظ و نگهداری اجرا شود. بدون هیچ سرمایه گذاری جدید در سیستم های پشتیبانی، این رویکرد، پیشرفت های بنیادی در حفظ مشتری را میسر می سازد. اما، با وجود اینکه ابزارهای فناوری برای تشخیص رویگردانی ها مهم هستند، اما هنوز این ابزارها کافی نیستند. ارتقای استراتژی حفظ و نگهداری مناسب، از اهمیت بسزایی برخوردار است که بر مشتریانی تمرکز می کند که تمایل به ترک سازمان دارند.
3.12. پیشنهادات
1. افزایش اطلاعات مدیران از تکنولوژی داده کاوی و مزایایی آن
2. وجود زیر ساخت اطلاعاتی یکپارچه و پایگاه اطلاعاتی نرمال
3. آگاهی برنامه نویسان بانک های اطلاعاتی از نیازمندی بانک به برخی اطلاعات ضروری جهت اجرا تکنولوژی جدید
4. ثبت کامل تمامی اطلاعات در فیلد بانک اطلاعاتی
5. افزایش آگاهی مدیران نسبت به سود آوری حاصل از ارزیابی
6. توجه به مسائل کیفیت عملکرد و نحوه گزینش مدیریت برای پست سازمانی
7. افزایش دوره های نظرسنجی از مشتریان و احترام به درخواست و نیاز مشتری
3.13. نتیجه گیری
با افزایش اهمیت رضایت مشتری در محیط تجاری امروز ،بسیاری از سازمان ها روی مباحث مرتیط با شناخت مشتری ، وفاداری و سودآوری مشتری برای افزایش سهم بازار خود و کسب رضایت بیشتر مشتری تمرکز نموده اند . مدیریت ارتباط با مشتری به عنوان یک مزیت رقابتی برای سازمان ها محسوب می گردد .یکی از روش هاس شناخت مشتری ، بخش بندی مشتریان به گروه های همگن و اتخاذ سیاست های بازاریابی متناسب با هر بخش است . در این مقاله پس از خوشه بندی مشتریان به دو روش فازی و غیر فازی با توجه به اینکه معیار تراکم خوشه ها در روش فازی کمتر است نتیجه گرفتیم همواره روش فازی برای خوشه بندی مشتریان از دقت بیشتری برخوردار است .برای اینکه تعداد بهینه خوشه ها را بدست آوریم بهترین روش ، از الگوریتم ژنتیک استفاده کردیم .در این مقاله سپس ارزش خوشه ها تعیین شد و در انتها برای تحلیل خوشه ها و تبیین استراتژی مناسب برای هر خوشه از هرم ارزش مشتری بهره گرفته شد و با توجه به نتایج بدست آمده دیگر نیازی به شناخت تک تک مشتریان نمی باشد ، بلکه هر خوشه معرف ویژگی های مشتریان موجود در آن گروه است . در انتها نیز با استفاده از درخت تصمیم گیری قوانین شناسایی مشتریان استخراج شد.
در این تحقیق با یکپارچه سازی چند ماژول از جمله بانک اطلاعاتی ،پیش پردازش های اولیه و درخت تصمیم گیری پایگاه دانشی ایجاد شد که می تواند برای شناسایی و اعتبارسنجی مشتریان کارا باشد .گرچه بکارگیری الگوریتم ژنتیک در الگوریتم های درخت تصمیم و شبکه های عصبی ممکن است بتوان دانش بهتری کسب کرد.از سوی دیگر ، با بکارگیری مجموعه داده با استفاده از سیستم های استنجاج فازی و روش های کلاسیک نظیر رگرسیون می توان نتایجی را کسب کرد و نتایج حاصله را مورد مقایسه قرار داد و با کاربرد تکنیک های آماری اعتبار مدل را برسی نمود.
تحقیقاتی در آینده می تواند مورد توجه قرار گیرد عبارتند از :
1- خوشه بندی دادها براساس سایر روش های خوشه بندی مانند شبکه عصبی ،الگوریتم مورچگان و … و مقایسه الگوریتم ها
2- پیش بینی رفتار مشتریان و برنامه ریزی تقاضا
3- ارائه متد جدید برای خوشه بندی و بهبود الگوریتم موجود

فصل 4

روش ها و راهکارهای شناسایی تقلب در
بانکداری الکترونیک

4.1. مقدمه
امروزه تقلب که قدیمی به اندازه زندگی بشریت دارد ، یک کسب و کار چندین میلیون دلاری در سطح دنیا محسوب شده و حجم مالی آن روز به روز در حال افزایش است .در سال های اخیر ، توسعه فناوری های جدید راه های زیادی را برای متقلبان و مجرمان باز کرده است که مرتکب تقلب شوند . ایجاد ، ممکن است فرصت های بیشتری را برای ارتکاب تقلب در اختیار مجرمان قرار دهد.
تکنیک های شناسایی تقلب ، علاوه بر آنکه تقلب ها و کلاهبرداری های صورت گرفته در یک سازمان را شناسایی کرده و مورد تجزیه و تحلیل قرار می دهد ، به نوعی با شناخت رفتار کاربران یا مشتریان سعی در پیش بینی رفتار آتی آنها داشته و ریسک انجام تقلب ها را کاهش می دهد .
به دلیل هزینه های بسیار زیاد مستقیم یا غیر مستقیم تقلب،بانک ها و موسسات مالی و پولی به شدت به دنبال تسریع و سرعت عمل در شناخت فعالیت های کلاهبرداران و متقلبان می باشند.این امر به دلیل اثر مستقیم آن روی خدمت رسانی به مشتریان این موسسات ، کاهش هزینه عملیاتی وباقی ماندن به عنوان یک ارائه دهنده خدمات مالی معتبر و قابل اطمینان است.
خسارت های غیر مستقیمی که متقلبان به صنعت بانکداری و بیمه وارد می سازند ، بسیار بالاتر از رقمی است که این سازمان به طور مستقیم متضرر می شوند . درسال های اخیر ، بازارهای مالی متحده با افشای متعدد اعمال متقلبانه برخی شرکت ها به طور جدی متضرر شده اند .ورلد کام13 ، انرون14 ، آدلفیا15،گلوبال کروسینک16 و تیکو17 فقط تعداد اندکی از رسوایی های صورت های مالی هستند که بازار سهام را دچار نوسان کرده و باعث سلب اعتماد عمومی شده اند .از سوی دیگر ، این رسوایی ها زیان هایی جیران ناپذیر بر سرمایه گذاران وارد آورده و توان رقابت آنها را از میان برده است .بسیاری از این رسوایی ها به پس انداز افراد ، مزایایی بازنشستگی ، آموزش دانشگاهی و امنیت آینده آنها نیز زیان زده است]18[.
نتایج تحقیقات موسسه KPMG در سال 2003 حکایت از افزایش روز افرون نرخ تقلب دارد .این تحقیقات مشخص می کند که 75 درصد سازمان های تحت مطالعه ، نمونه هایی از تقلب را تجربه کرده اند .این آمار نسبت به آمار سال 1998 رشدی 13 درصدی را نشان می دهد]19[.
تقلب در بانکداری الکترونیک در بستر خدمات الکترونیک و به صورت بر خط18 اتفاق می افتد و حاصل آن ، انتقال پول الکترونیکی از یک حساب به حساب دیگر ، به صورت نامشروع و غیر قانونی می باشد .امروزه حجم زیادی از معاملات و نقل و انتقالات پولی و مالی در سطح اینترنت و در بستر الکترونیکی انجام می شود و رشد روز افزون این خدمات و تراکنش ها از یک طرف و همچنین ناشناس ماندن مجرمان در بستر اینترنت از طرف دیگر ، باعث تشویق و تحریک متقلبان و شیادان به ورود به این حوزه می گردد.
به دلیل اینکه عدم حضور فیزیکی مشتریان در بستر خدمات الکترونیک ، لزوم تشخیص هویت در ارائه این خدمات از دیدگاه موسسات مالی و پولی بسیار حیاتی و با اهمیت است و شاید بتوان ادعا کرد که محدودیت اصلی در ارائه خدمات گسترده تر و وسیع تر بانکی ، لزوم تشخیص هویت افراد می باشد .این مساله مهم ترین عامل جذابیت تقلب در بستر خدمات الکترونیک است که با توجه به گسترش خدمات بانکداری الکترونیک در حال افزایش می باشد.
با توجه به این مطالب ، مساله اصلی این پژوهش بررسی روش های متعدد شناسایی و تشخیص تقلب های مالی در سیستم های بانکداری الکترونیک خواهدبود ،به این منظور ،کلیه روش های شناسایی تقلب و خصوصا متدلوژی عمده و اصلی مورد بررسی و تجزیه و تحلیل قرار خواهد گرفت.
4.2. تقلب
هیچ تعریف پذیرفته شده جهانی از تقلب مالی وجود ندارد]20[.ونگ و همکاران تقلب را این گونه تعریف کرده اند:اقدامی هدفمند برای کسب منفعت مالی غیر مجاز که برخلاف قوانین ، قواعد ،یا سیاست هاست. ]21[
برای واژه تقلب در مقالات و منابع علمی ، معانی مختلفی بیان شده است ،لیکن آنچه در تمامی این تعاریف ، مشترک و یکسان می باشد ، این است که تقلب ،نوعی سوء استفاده از منابع در جهت منافع شخصی ،به عمد و کاملا غیر قانونی است تقلب در مفهوم عام ،عبارت است از تحریف حقایق با اهمیت توسط کسی که می داند مطلبش حقیقت ندارد و یا ارائه حقایق ،باکمال بی توجه به صحت آنها و به قسط فریب دیگران .
در تعریف دیگر ، واژه تقلب عبارت است از سوء استفاده از سود یک سازمان بدون اینکه لزوما به عواقب قانونی آن منجر شود .در تعریفی دیگر ،تقلب به فرایندی اشاره دارد که طی آن یک یا چند نفر ، عمدا و مخفیانه دیگران را از هر چیز با ارزشی ،به خاطر منافع شخصی خود محروم کنند]22[.
امروزه با گسترش فناوری مدرن و ارتباطات جهانی ، تقلب به طرز چشمگیری در حال افزایش است و هزینه زیادی را به کسب و کارها تحمیل می کند .در نتیجه شناسایی تقلب به مساله بسیار مهمی تبدیل شده است .
انواع تقلب های گوناگون تقلبهای مالی ، مانند تقلب کارت اعتباری ، تقلب شرکتی و پولشویی ،نگرانی های بسیاری را سبب شده و نظرها را به سوی خود جلب کرده است.نگای و همکاران در یک طبقه بندی کلی ، انواع تقلب مالی را در چهار دسته تقسیم کرده اند؛تقلبهای بانکی ،تقلبهای بیمه ای ،تقلب اوراق بهادار و کالاها ،سایر تقلبهای مالی که در جدول 1-4مشاهده می کنید]20[.

جدول1-4 . طبقه بندی تقلبهای مالی (Ngai et,al.2010)
سیستم های مالی مبتنی بر فناوری اطلاعات – به دلیل پتانسیل بالایی که در جهت امکان سرقت پولی در حجم بالا دارند – اغلب ، اهداف راحتی برای حمله کنندگان هستندکه از نقص احراز هویت های متعدد و یا نقاط ضعف موجود در مدل های امنیتی اجرا شده در سرویس ها استفاده کرده و اهداف خود را پیاده نماید . احراز هویت ضعیفی که توسط سازوکارهای امضا ، پین کد19، رمز عبور و کد امنیتی کارت 20 اتفاق می افتد ،باعث آسان شدن تراکنش های غیرقانونی مالی حمله کنندگان و از طریق اجرای حملات سیستمی خلاقانه می شود .
در جدول 2-4 ، مجموع زیان های مالی موسسات و بانک های انگلستان از طریق کارت های بانکی ، از سال 2004 تا 2007 و طی 4 سال نشان داده شده است .
در سال 2004،موسسات مالی و بانک ها به منظور کاهش آمار تقلب و کلاهبرداری از طریق کارت یک گام فعال برداشتند ؛ بدین صورت که از روش های موجود ، که براساس امضای مشتری به سمت روش احراز هویت 21 به کمک پین کد در تمامی دستگاههای POS سوئیچ کردند .

جدول 2- 4. جدول زیان های حاصل از تقلب های مالی از طریق کارت های اعتباری بانکی در انگلستان (2004 تا 2007)-منبع APAGS سال 2006 (آمار به میلیون پوند)
بطور مشابه ، در جدول 3-4 نیز ، تغییر همزمان و رشد تقلب در حوزه خدمات و برخط و بانکداری الکتزونیکی طی 4 سال نشان داده شده است .طی این دوره ، تعداد حملات فیشینگ22 انجام شده توسط کلاهبرداران از 1713 مورد در سال 2005 به 14156 مورد در سال 2007 رسیده است .این مساله باعث ایجاد سرمایه ای برای این حوزه به نام تبدیل مشتریان با دانش ضعیف در زمینه پروتکل های امنیتی بر خط به مشتریانی با دانش ضعیف در زمینه پروتکل های امنیتی بر خط به مشتریانی با اطلاعات امنیتی بر خط بالا شده است .
در حالی که افزایش سطح آگاهی مشتریان از چنین روش هایی در سال 2007 منجر به کاهش موفقیت شیادان در عملیات فیشینگ و در حوزه برخط شده ، چابکی رفتار کلاهبرداران از سال 2004 به بعد نیز ، باعث افزایش نرخ رشد تقلب در زمینه چک گردیده است.
این آمار و ارقام نشان می دهند که توانایی متقلبان نه تنها به صورت خلاقانه و به سمت حمله به سیستم پیچیده تر ارتقاء یافته بلکه به صورت کاملا فعال به کمک مهندسی مجدد 23 و تطبیق روش هایشان با استقرار امنیت ، توسعه نیز یافته است .

جدول 3-4 .جمع زیان های حاصل از تقلب های مالی از طریق سیستم های بانکداری الکترونیکی در انگلستان (2004 تا 2007)- منبع APAGS سال 2006 (آمار به میلیون پوند)
مطابق شکل 1-4 ،عموما تقلب در چرخه حیات تقلب 24 ، می تواند به عنوان یک مدل به کار رود ، به گونه ای که با تحلیل و آنالیز آن ، پاسخ مناسبی به کار رود ، به گونه ای که با تحلیل و آنالیز آن ، پاسخ مناسبی به این تقلب داده می شود و مجددا با توسعه دانش و ارائه راه حل های و پروتکل های جدید راه بر متقلبان باز شده و روش های تقلب جدید شکل می گیرند و همچنان چرخه حیات تقلب ادامه می یابد .

شکل 1-4.چرخه حیات مالی
روند رو به ظهور تقلب های مالی عموما از طریق تحلیل و آنالیز و استخراج اطلاعات (داده کاوی) از بانک اطلاعاتی تراکنش های موسسات مالی ،که نشانه گذاری می گردند ، تشخیص داده می شود و این امر به تدوین سیاست ها 25 و پروتکل های 26 امنیتی و احراز هویت جدید کمک می کند .
در مقابل ،متقلبان نیز براساس یاده سازی سیاست های جدید امنیتی و همچنین شناسایی فرصت های تقلب جایگزین بر روی پلتفرم های جاری ، روش های خود را تغییر می دهند و سپس روش ها و الگوهای 27 جدید تقلب ،که در نتیجه پیاده سازی سیاست های جدید امنیتی حاصل شده است مجددا شناسایی گردیده و استراتژی هایی برای پیشگیری از وقوع آنها پیش بینی و اعمال می شود.
4.3. شناسایی تقلب
مدت هاست که روش های سنتی تجزیه و تحلیل داده ها به عنوان یک روش برای تشخیص تقلب استفاده می شود . این کار نیاز به تحقیقات پیچیده و وقت گیری دارد و نیازمند به کارگیری حوزه های مختلف دانش مانند مالی ، اقتصادی ،روش های کسب و کار و مباحث قانونی است.
به مجموعه عملیات یا اقداماتی که براساس روش ها یا متد هایی ، سعی در کشف و شناسایی تقلب های صورت گرفته و یا در حال وقوع دارند ، شناسایی تقلب گفته می شود.
موسسات مالی و پولی به شدت به دنبال سرعت عمل در شناخت فعالیت کلاهبرداران و متقلبان می باشند.این امر به دلیل اثر مستقیم آن روی خدمات رسانی به مشتریان این موسسات ، کاهش هزینه عملیاتی و باقی ماندن به عنوان یک ارائه دهنده خدمات مالی معتبر و قابل اطمینان است .
4.4. انواع تقلب در بستر بانکداری الکترونیک
رویکردهای تشخیص حمله برا ساس مدل حملات به طور گسترده به دودسته تقسیم می شوند :
4.4.1. تشخیص سو استفاده 28
تشخیص سوء استفاده تلاش می کند که حملات مشاهده شده قبلی را در قالب یک الگو یا امضا تشخصیص دهد .به عنوان مثال ،می توان به تغییر مداوم یک پوشه و یا تلاش متعدد به منظور خواندن یک فایل حاوی رمزهای عبور اشاره کرد ]23[.
در روش تشخیص سوء استفاده ،زمانی که تراکنشی انجام می شود ، این تراکنش با نمونه امضاهای قبلی و حملات شناخته شده قبلی مقایسه می شود و در صورت تشخیص شباهت ،این تراکنش به عنوان یک حمله شناسایی می گردد .روال کار رویکردهای تشخیص سوء استفاده مشاهده مشابه سازوکاری است که نرم افزارهای آنتی ویروس رایانه ها با آن عمل می کنند .در کلیه نرم افزارهای آنتی ویروس ، بانک اطلاعاتی از کلیه امضاهای ویروس ها وجود دارد زمانی که فایل مورد تجزیه و تحلیل قرار می گیرد ، فایل با امضای ویروس های شناخته شده مقایسه می شود و در صورت وجود شباهت ، به عنوان یک تهدید شناسایی می گردد.
تشخیص سوء استفاده به کارگیری حملات شناخته شده قبلی و عملات گذاری الگوی قابل تطبیق به منظور شناسایی تقلب های آتی می باشد .در این روش رفتار حمله کاملا شناخته شده است و مطابق روال شناخته شده عمل می شود .
دقت بالا از مزایای این روش می باشد ، اما بدیهی است که حملات جدیدی که قبلا توسط سیستم شناسایی نشده اند را شامل نمی شود . لذا سازوکار بسیار امنی تلقی نمی گردد.
رویکردهای تشخیص سوء استفاده شامل سیستم خبره 29،استدلال بر پایه مدل 30،تجزیه و تحلیل عبور حالت 31 ومونیتورینگ پویایی ضربه کلید 32 می باشد]24[.
تشخیص سوء استفاده از روش تشخیص ناهنجاری بسیار ساده تر است هر چند یک اشکال اساسی که به این روش وارد است،این است که در این روش همه حملات قابل پیش بینی نیستند و این امر هم به دلیل الزام شناخت الگوهای سوء استفاده از قبل می باشد. لذا این به عنوان یک ضعف روش تشخیص سوء استفاده مطرح بوده که باید مدنظر قرار گیرد.
با توجه به اینکه در تشخیص سوء استفاده از قواعد و ویژگی های رفتاری شناخته شده استفاده می شود،به راحتی می توان رفتارهای شناخته شده مشکوک مشتریان را تشخیص داد.یک تحلیل تجربی که روی مجموعه ای از تراکنش های واقعی صورت گرفته ، آشکار نموده است که بیشتر تقلب ها دارای ویژگی های رفتاری می باشند.به عنوان مثال ،برخی از رفتارهایی که نشانه ای از تقلب محسوب می شوند ،عبارتند از:
* حجم زیادی از حساب های متعدد که توسط یک مشتری یکسان دسترسی پیدا کرده اند؛
* تراکنش های که حاوی مبالغ کوچک و از حساب های متعدد و زیاد می باشد؛
* تراکنش های پرداخت بیش از حد معمول در یک حساب خاص؛
* افزایش دفعات ثبت رمز ورود با شکست ، قبل از وقوع تقلب .
این گونه رفتارهای مشتری می توانند به عنوان رفتارهای مشکوک در نظر گرفته شوند و به محض مشاهده مجدد،تقلب منظور گردند]25[.
4.4.2. تشخیص ناهنجاری33
در روش تشخیص ناهنجاری تلاش می شود تا یک مشخصه34 از تاریخچه عملکرد برای هر کاربر ایجاد گردیده و سپس از استخراج هرگونه انحراف35 به قدر کافی بزرگ در مشخصه کاربر ،بروز یک حمله پی برده شود]26[.
اگر بخواهیم تشخیص ناهنجاری را تعریف کنیم ، شاید بهترین تعریف ، تشخیص انحراف از آنچه انتظار داریم و یا انحراف از رفتار نرمال باشد .به دلیل محدود نبودن این روش ، توانایی تشخیص حملات جدید از مزایای آن می باشد .این روش در حقیقت تشخیص تلاش های بدون مجوز به منظور دسترسی به سیستم است .در این روش رفتار معمولی تعریف شده و هر رفتاری دیگری،غیر نرمال توصیف شود .
در نمودار 1-4 ،چگونگی دسته بندی اطلاعات بر مبنای رفتار غیر نرمال مشخص شده است .همان طور که مشاهده می شود ، داده های نرمال ، که به علت ماهیت رفتاز مشتری ، چگالی بیشتری خواهند داشت ،کاملا در یک دسته مشخص شده اند و داده های غیرنرمال پراکندگی بیشتری از داده های عادی خواهند داشت .
مطابق نمودار 1-4 ، ناحیه N1 و N2 رفتار نرمال را نشان می دهند و نقاط O1 و O2 نیز رفتارهای غیر عادی و ناهنجاری را نمایان می سازند.

نمودار 1-4.چگونگی دسته بندی داده ها براساس رفتارعادی
روش تشخیص ناهنجاری بر خلاف روش تشخیص سوء استفاده ، مبتنی بر راهکارها و امضاهای از پیش شناخته شده ای نیست بلکه سازوکار آن مبتنی بر تجربه و تحلیل رفتار مشتریان می باشد .به این گونه که رفتار و تاریخچه عملکرد مشتری و تراکنش های وی مورد تجزیه و تحلیل قرار می گیرد و در صورتی که تراکنش جدیدی از سمت مشتری صادر شود، به نحوی که با تاریخچه عملکرد وی متفاوت باشد ، این تراکنش می تواند به عنوان یک تقلب شناسایی گردد.گرچه این سازوکار ،بخش بزرگ تری از تقلب ها را پوشش می دهد و از بابتی می تواند یک مزیت نسبت به روش تشخیص سوء استفاده تلقی شود ، لیکن به دلیل آنکه هر انحرافی را می تواند به عنوان یک حمله شناسایی کند ، دقت پایینی دارد و چه بسا بسیاری از رفتارهای عادی مشتریان را نیز می تواند به عنوان یک تقلب تلقی نماید .
سه روش کلی ناهنجاری وجود دارد :
1) ناهنجاری نقطه ای 36
به کلیه انفرادی اشاره می کند .مطابق نمودار 1-4 نقاطی که خارج از قاعده وجود دارند از این نوع محسوب می شوند مانند نقاط O1 و O2 .
2) ناهنجاری متنی 37
این نوع ناهنجاری شرطی38 نیز نامیده می شود .تمامی داده های انفرادی که دارای تاریخچه باشند از این نوع ناهنجاری محسوب می شوند .نقاط مشخص شده در نمودار 2-4 از این نوع ناهنجاری می باشند.

نمودار 2-4.ناهنجاری متنی
3) ناهنجاری انبوه 39
هرگاه مجموعه از دادها با هم خارج از قاعده باشند ، به طوری که یک داده به تنهایی ناهنجاری محسوب نشود ،در این صورت ناهنجاری انبوه داریم .نمودار 3-4 نمونه ای از این نوع ناهنجاری را نشان می دهد.

نمودار 3-4.ناهنجاری انبوه
مزیت روش تشخیص ناهنجاری این است که امکان تشخیص حملات جدید بر علیه سیستم نیز وجود دارد و این امر به دلیل مقایسه رفتار فعلی کاربر با مدل آماری تاریخچه عملکرد گذشته کاربر است .به طوری که این مدل ها با هیچ الگوی از پیش تعیین شده و تعریف شده ای هم گره نخورده است . با این وجود نقاط ضعفی هم برای این رویکرد وجود دارد و آن ، احتمال بروز نرخ بالایی از هشدارهای نادرست و اشتباه می باشد بدین معنی که گاهی ممکن است عملکردهای مشروع و قانونی ولو غیر عادی ، به عنوان یک مغایرت تشخیص داده شوند.
نقطه ضعفی بعدی این رویکرد این است که در این روش ،سنجش آماری مشخصه یک کاربر به تدریج می تواند آموخته شود ؛لذا متقلبان می توانند در یک دوره زمانی خاص روی این سیستم ها آموزش یابند تا بتواند حملات نامشروع خود را به صورت نرمال و عادی جلوه دهند.همچنین در این روش امکان تشخیص نوع خاصی از حملات در حال اتفاق هم وجود ندارد.در عین حال ، روش تشخیص ناهنجاری به دلیل نیاز به نگهداری تاریخچه و اثر تاریخی مشخصه هر کاربر ، از دیدگاه محاسباتی روش بسیار گران قیمتی محسوب می شود.
4.5. تکنیک تشخیص تقلب
با توجه به رویکرد تشخیص ناهنجاری و تشخیص سوء استفاده ، تکنیک های متعددی به منظور شناسایی تقلب طراحی و اجرا شده است که در ادامه به برخی ار آنها اشاره می شود:
4.5.1. سیستم خبره
سیستم های خبره به گونه ای از سیستم های محاسباتی اطلاق می شود که توانایی ارائه و استدلال در برخی از حوزه های غنی دانش با نگاه حل مشکلات و دادن راهکار داشته باشد]27[.
آشکارسازهای سیستم های خبره ،دانش را در قالب قانون اگر سپس رمزگذاری40 می کنند.به این معنی که به کمک قانون اگر سپس مشخص می کنند در چه حالتی ؛چه اتفاقی باید بیفتد .
به عنوان یک مثال سیستم NIDES که توسط شرکت SRI پیاده سازی شده است از رویکرد سیستم های خبره به منظور شناسایی جملات به کمک مونیتورینگ برخط فعالیت های کاربران استفاده می کند ]28[.
سیستم NIDES شامل اجزای41 تجزیه و تحلیل آماری به منظور تشخیص ناهنجاری و همچنین ابزار تجزیه و تحلیل قواعد42 به منظور تشخیص سوء استفاده می باشد.
4.5.2. برون هشته ای43
سازوکار برون هشته ای به معنی مشاهده و استخراج انحراف های است که تفاوت هایی را با دیگر مشاهدات ، تعیین می کند .
این سازوکار به دو نوع بدون نظارت 44 و با نظارت45 تقسیم می شود .رویکرد های بدون نظارت نیازی به دانش قبلی و تاریخچه اتفاقات و تراکنش های قبلی در پایگاه های داده ندارند ، اما با همین اوصاف ، امکان تشخیص تغییرات را در رفتار تراکنش های غیر عادی دارند و می توانند هرگونه تغییزی که منجر به تقلب می شود را شناسایی نمایند.
در تکنیک های با نظارت ، مدل هایی طراحی می شوند که می توانند بین رفتارهای تقلب گونه و رفتار های عادی و واقعی تفاوت قائل شوند . این روش ها به شناسایی دقیقی از تراکنش های تقلب گونه در تاریخچه بانک اطلاعاتی بانک اطلاعاتی نیاز دارند .به عبارتی دیگرد ، جهت استفاده از این روش ها حتما باید تاریخچه ای از اطلاعات در بانک اطلاعاتی داشت تا بتوان ، با مقاسیه این داده ها ،رفتارهای غیر عادی را شناسایی کرد .لذا سازوکارهای مبتنی بر این روش فقط و فقط می توانند تقلب هایی را تشخیص دهند که حداقل یک بار در گذشته رخ داده اند و تاریخچه آنها نیز در بانک اطلاعاتی موجود است .
مزیت استفاده از روش های بدون نظارت نسبت به روش های با نظارت این است که در این روش ، امکان شناسایی تقلب های کشف نشده نیز وجود دارد و این امر به دلیل این است که در روش بدون نظارت ،نیازی یه تاریخچه اطلاعات در بانک اطلاعاتی نمی باشد .به همین دلیل ، عموما از روش های نظارت شده جهت شتاسایی و تشخیص تقلب ها و تراکنش های نامشروعی که قبلا شناسایی شده و در بانک اطلاعاتی موجود است ، استفاده می شود.
4.5.3. شبکه عصبی 46
یک شبکه عصبی ،مجموعه ای از گره47 های به هم متصل شده است که با تقلید از کارکرد مغز انسان طراحی شده اند .هرگره ارتباطات وزن داری48 به چندین گره دیگر در لایه های مجاور دارد]29[.
در شبکه های عصبی ، به صورت نرم افزاری ، ساختار داده ای طراحی می شود که می تواند همانند نورون عمل نماید ؛ به این ساختار داده ها،گره گفته می شود .سپس با ایجاد شبکه ای بین این گره ها و اعمال یک الگوریتم آموزشی به آن ، شبکه را آموزس می دهند .در این حافظه یا شبکه عصبی گره ها دارای دو حالت فعال (روشن یا 1) و غیر فعال (خاموش یا 0)می باشند و هر یال (سیناپس49 یا ارتباط بین گره ها) دارای یک وزن است .یال های با وزن مثبت ، موجب تحریک یا فعال کردن گره غیر فعال بعدی می شوند و یال های با وزن منفی ، گره متصل بعدی را غیر فعال یا مهار (در صورتی که فعال بوده باشد می کنند.
یک نرون مصنوعی50 سامانه ای است با تعداد زیادی ورودی و تنها یک خروجی ، نرون ها دارای دو حالت می باشند ، حالت آموزش و حالت عملکرد .در حالت آموزش ،نرون یاد می گیرد که در مقابل الگوهای ورودی خاص بر انگیخته شود و یا در اصطلاح آتش کند.
در حالت عملکرد وقتی یک الگوی ورودی شناسایی شده وارد شود خروجی متناظر با آن ارائه می گردد .اگر ورودی جزء ورودی های از پیش شناسایی شده نباشد ،قوانین آتش برای برانگیختگی یا عدم آن تصمیمم گیری می کند.
نخستین باز براوس و لانگسدورف51 پیشنهاد ترکیب سیستم های پیوسته نقش محور52 با رویکرد های منطق بر شبکه عصبی را دادند]30[.
سیستم مدیریت تقلب فالکون53 که ابزار بسیار قدرتمندی جهت جلوگیری از فعالیت متقلبان در سوء استفاده از کارت های بدهی و اعتباری می باشد ، از الگوریتم های شبکه عصبی استفاده می کند.این سیستم ، احتمال تقلب روی یک حساب را با مقایسه تراکنش جاری و فعالیت های گذشته دارنده کارت پیش بینی می کند ]31[.
اگر این سیستم یک تراکنش تقلب گونه را روی کارت تشخیص دهد ، بلافاصله با دارنده کارت یک تماس تلفنی گرفته خواهد شد و اگر دارنده کارت ، تقلب روی کارت را تایید کند ، به منظور جلوگیری از وقوع تقلب ، کارت ،بلافاصله بلوکه خواهد شد.
اگر سیستم فالکون هرگونه تقلب را شناسایی کند ولی امکان تماس تلفنی با دارنده کارت میسر نباشد ، به منظور اطمینان از عدم وقوع تقلب ،کارت به صورت موقت بلوکه شده و دارنده کارت باید با تماس تلفنی با مراکز تماس بانک ، وضیت را پیگیری نماید و تا زمان ثبت نشد تماس دارنده کارت با مراکز تماس ، کارت ،بلوکه خواهد ماند.
این سیستم قادر است با استفاده از شبکه های عصبی الگوی خرج کردن صاحب کارت را آموزش دیده و هرگونه مغایرتی در روش و چگونگی پرداخت پرداخت وجه را تشخیص داده و به عنوان تقلب تلقی نماید .در طراحی و توسعه سیستم پیش بینی فالکون ، تکنیک ها و فناوری های یادگیری ماشینی54 ، تشخیص الگوی تطبیقی55،شبکه های عصبی و مدل های آماری56 نقش داشته اند
مثال دیگری از کاربرد شبکه های عصبی ، الگوریتم عصبی MLP57 می باشد .این الگوریتم فقط و فقط روی اطلاعات یک تراکنش و تاریخچه قبلی لحظه ای همان تراکنش عمل می کند و هیچ نیازی به استفاده از تاریخچه اطلاعات ذخیره شده قبلی دارنده کارت روی بانک اطلاعاتی ندارد ]32[.
نمونه دیگری از کاربرد شبکه های عصبی ،روش های شبکه های عصبی دانه موازی58 می باشد که به طور همزمان از شبکه های عصبی فازی59 و رویکردهای نقش محور استفاده می کند ]23[.
یکی از سیستم های تشخیص حملاتی که براساس شبکه های عصبی کار می کند ، سیستم60 NNID می باشد که یک سیستم تشخیص ناهنجاری است که توسط یک شبکه عصبی پس پراکنی61 و تحت سیستم عامل یونیکس62 پیاده سازی شده است]33[.
اما عملکرد این سیستم به گونه ای است که رفتار کاربران را طی یک روز ارزیابی کرده و براساس آن تصمیم می گیرد .به دلیل اینکه این سیستم از داده های لاگ روزانه و به صورت آفلاین63 استفاده می کند ، به کارگیری آن بسیار راحت و کم هزینه می باشد.
شبکه های عصبی مصنوعی امکان تشخیص رفتارهای آتی مشاهده نشده کاربران را در هر دو رویکرد تشخیص ناهنجاری و تشخیص سوء استفاده فراهم می کنند.این روش ها براساس شبکه های عصبی پس پراکنی پیاده سازی می شوند.
4.5.4. استدلال بر پایه مدل
استدلال بر پایه مدل یک تکنیک تشخیص سوء استفاده که حملات را از طریق فعالبت های قابل مشاهده ای که از طریق یک امضای حمله64 استنتاج می شود ، تشخیص می دهند .برای این منظور،به یک بانک اطلاعاتی از سناریویی حملات و شامل امضا یا دنباله ای از رفتار حملات نیاز است .دقیقا مشابه روال کار نرم افزارهای ویروس یاب که از روی امضای هر ویروس روی فایل ها ، پی به وجود ویروس می برند ، این تکنیک نیز از طریق امضا و بانک اطلاعاتی که در اختیار دارد ، حمله را شناسایی می کند.
سیستمی که بر این مبنا کار می کند ، شواهدی را دال بر حمله جمع آوری کرده و این کار را به طور پیوسته و مکرر تا حدی انجام می دهد که به حد آستانه65 برسد.در این نقطه یک حمله ،شناسایی شده و بلافاصله اعلام می گردد.
الگوی تطبیق رویکرد 66 که توسط کومار و اسپافورد67 پیشنهاد شد ، حملات سوء استفاده را براساس شبکه های پتری رنگی68 تشخیص می دهد .این الگو تحت محیط لینوکس69 پیاده سازی شده است و از یک دنباله ممیزی جهت ورودی استفاده می کند]23[.
4.5.5. رویکرد مبتنی بر قواعد70
این روش ترکیبی است از کاربرد های تجزیه و تحلیل مطلق71 و تفاضلی 72 در تجزیه و تحلیل تفاضلی ، یک سری معیارهای قابل انعطافی می توانند پیاده سازی شوند تا هر گونه تغییری در جزئیات تاریخچه رفتار یک کاربر را شناسایی نمایند.رویکرد های مبتنی بر قواعد عموما با شناسه کاربرانی که شامل اطلاعات شفاهی هستند و در آنها معیارهای تقلب به قواعد اشاره می کند ،بهترین عملکرد را دارند .
مدیریت کردن این روش کاری بسیار دشوار است و این مساله به دلیل این است که پیکربندی مناست فواعد ،نیازمند برنامه نویسی زمان بر،دقیق و پر زحمتی برای هر امکان تقلب قابل تصور می باشد.
یکی از ابزارهای تولید شده با این رویکرد ،PDAT است که توسط شرکت زیمنس ZFE تهیه شده و ابزاری کاملا انعطاف پذیر با کاربردی وسیع به منظور تشخیص تقلب در تلفن های همراه می باشد]34[.
4.5.6. تجزیه و تحلیل حالت گذار73
این روش یک تکنیک تشخیص سوء استفاده است که در آن ، حملات به عنوان دنباله ای از حالت گذار سیستم موتیتور شده ،نمایش داده می شود.فعالیت هایی در یک حمله اتفاق می افتد ، به عنوان یک گذار بین حالت ها تعریف می شوند.
سناریو های حمله نیز در قالب نمودارهای گذار حالت تعریف می شوند.در این نمودار ها ،گره ها به منزله اقدامات مرتبط می باشند.در هر صورتی اگر به یک حالت نهایی74 برسیم ،بدین معنی خواهد بود که حمله خواهیم داشت .سیستم75STAT یک سیستم خبره قاعده مدار بسیاز معروف است که به منظور جستجوی نفوذهای شناخته شده در یک دنباله ممیزی از سیستم های رایانه چند کاربره طراحی شده است ]35[.
همچنین USTAT نیز یک نمونه اولیه از STAT است تحت سیستم عامل یونیکس طراحی گردیده است]18[.
4.5.7. تکنیک ها
یکی دیگر از این روش ها ، الگوریتم ژنتیک 76 است که منظور تشخیص حملات مخرب و جداسازی آنها از استفاده های عادی و نرمال به کار می رود]36 [.
الگوریتم ژنتیک روشی از هوش مصنوعی است با تکیه بر حل مساله که بر اساس فرضیه تکامل داروین77 عمل کرده و در ریاضیات کاربرد وسیعی دارد .این الگوریتم به گونه ای است که در آن ، هر فردی به عنوان یک مدار رفتاری ممکن عمل می کند لذا این رویکرد یک نرخ تشخیص بالا و همچنین یک نرخ هشدار اشتباه پایین را فراهم می کند.
4.5.8. داده کاوی
از روش های داده کاوی نیز می توان برای تشخیص حملات استفاده کرد .یکی از مزایای فوق العاده روش های داده کاوی در تشخیص حملات امکان پیاده سازی کلاسی از مدل هاست که می تواند حملات جدید را ،قبل از آنکه هوش انسانی آنها را تشخیص دهد و یا توسط متخصصین مشاهده شود ،شناسایی و ارائه نماید .
همچنین مدل های طبقه بندی شده با الگوریتم قواعد پیوستگی78 و رخدادهای مکرر79 نیز جهت تشخیص ناهنجاری استفاده می شوند.این رویکرد می تواند به طور اتوماتیک مدل های تشخیص مختصر و دقیقی را برای حجم زیادی از اطلاعات ایجاد نماید]37[.
گر چه این روش به حجم بسیار زیادی از اطلاعات ممیزی به منظور ایجاد مجموعه قواعد مشخصه هر کاربر نیازمند است .علاوه بر آن ، این فرایند آموزش به دلیل مجموعه قواعد استفاده شده توسط ماژول های تشخیص که اصولا در یک دوره زمانی ثابت نیستند ، یک بخش پیوسته و صحیحی از یک سیستم تشخیص حمله می باشد.
4.6. وظایف داده کاوی80
نگای و همکاران کاربرد روشهای داده کاوی برای کشف تقلبهای مالی را مورد برسی قرار دادند.آنان 49 مقاله چاپ شده در مجلات معتبر را برسی ، از شش طبقه از وظایف /کاربرد های داده کاوی برای کشف داده های پرت و تصویر سازی .هریک از این شش طبقه ،با مجموعه ای از رویکرد های الکوریتمی حمایت می شود که به دنبال استخراج ارتباطهایی مربوط ار داده ها هستند]38[.
4.6.1. طبقه بندی81
طبقه بندی مدلی را می سازند و از آن برای پیش بینی عنوان طبقات اشیایی ناشناخته استفاده می کند تا بین اشیایی متعلق به طبقات مختلف ، تمایز ایجاد کند . این عنوانهای طبقاتی از قبل تعریف شده اند .ولی متمایز و مرتب نشده اند]39[.
ژانگ و ژو اظهار می دارند که طبقه بندی و پیش بینی عبارت است ار فرایند شناسایی مجموعه ای از ویژگیها و مدلهای مشترک که طبقات یا مفهوم داده ها را توصیف و متمایز می کند .روشهای معمول طبقه بندی عبارتند از شبکه های عصبی، شبکه بیز ساده82 ، درختان تصمیم83 ، و ماشینهای بردار پشتیبان84]40[.
اینگونه وظایف طبقه بندی در کشف تقلبهای کارت اعتباری ، بیمه سلامت و بیمه خودرو و تقلبهای شرکتی و دیگر انواع تقلب ، استفاده می شوند.طبقه بندی یکی از رایج ترین مدلهای یادگیری در کاربرد داده کاوی برای کشف تقلبهای مالی است ]20[.
طبقه بندی یک فرایند دو مرحله ای است . در گام اول ،با استفاده از یک نمونه آموزشی ،یک مدل آموزش داده می شود.این نمونه در تعدادی ردیف(گروهک ها85) و ستون (صفات ) سازمان دهی می شود .یکی از صفات ،یعنی صفت عنوان طبقه ، حاوی مقادیری است که نشان دهنده طبقه از پیش تعریف شده ای است که هر ردیف به آن تعلق دارد.این گام به عنوان یادگیری نظارت شده نیز معروف است .در گام دوم ، در مدل تلاش می شود اشیایی که به نمونه آموزشی تعلق ندارد ، طبقه بندی شوند و یک نمونه آزمون (تایید ) تشکیل دهند ]41[.
4.6.2. خوشه بندی86
از خوشه بندی برای تقسیم اشیا به گروهها / خوشه هایی که از نظر مفهومی معنی دار هستند ،استفاده می شود؛ به طوری که اشیایی یک گروه با یکدیگر مشابه ، و در عین حال ، بسیار متفاوت از اشیایی دیگر گروه ها باشند.خوشه بندی با عنوان بخش بندی و تقطیع داده ها نیز شناخته می شود و به عنوان یک گونه از طبقه بندی نظارت نشده به حساب می آید.بنابراین یوئه و همکاران تحلیل خوشه بندی مرتبط است با مسئله تجزیه یا تقطیع یک مجموعه داده (معمولا چند متغیره )به چندین گروه به طوری که نقاط در داخل یک گروه مشابه با یکدیگر و تا حد ممکن متفاوت از نقاط در دیگر گروهها هستند]42[.
همچنین ،ژانگ و ژو اظهار می دارند که هر خوشه مجموعه ای از اشیایی داده است که در همان خوشه مشابه یکدیگرند ، اما متفاوت از اشیا در دیگر خوشه ها هستند]40[.رایجترین روشهای خوشه بندی عبارتند از نزدیک ترین همسایه ها87 ، روش بیز ساده ، و روشهای نقشه خود انتظام88]20[.
4.6.3. پیش بینی89
پیش بینی ، مقدار های عددی و پیوسته آینده را بر مبنای الگوهایی از یک مجموعه داده بر آورد می کند.هان و کمبر تاکید کردند که برای پیش بینی ، صفتی که پیش بینی آن انجام می شود باید پیوسته اباشد و نه کیفی (طبقه ای).این صفت را می توان صفت مورد پیش بینی نامند.شبکه های عصبی و مدل لجستیک90 رایجترین و روشهای مورد استفاده برای پیش بینی هستند]20[.
4.6.4. کشف نقاط پرت91
از کشف نقاط پرت برای اندازگیری فاصله بین اشیایی داده به منظور کشف اشیایی که به شکلی متفاوت از ناهمگون با بقیه مجموعه داده ها هستند ، استفاده می شود. داده های که به نظر می رسد ویژگیهایی متفاوت از بقیه جمعیت دارند،داده های پرت92 نامیده می شوند .مسئله کشف داده پرت / متناقص ، یکی از بنیادی ترین مباحث در داده کاوی است .یک روش رایج مورد استفاده در کشف داده پرت،الگوریتم یادگیری تنزیل شونده93 است]43[.
4.6.5. رگرسیون
رگرسیون یک روش آماری است که برای کشف رابطه بین یک یا چند متغیر مستقل و یک متغیر وابسته (که یک مقدار پیوسته است ) استفاده می شود]20[.در بسیاری از مطالعات تجربی ،از زگرسیون لجستیک به عنوان یک معیار سنجش ، استفاده می شود .رگرسیون بطور معمول عبارت از است از استفاده از روشهای ریاضی مانند رگرسیون لجستیک و رگرسیون خطی و از آن برای کشف تقلبهای کارت اعتباری ،تقلبهای بیمه ای و تقلبهای گزارشگری شرکتها استفاده می شود]20[.
4.6.6.تصویرسازی 94
تصویر سازی اشاره دارد به ارائه داده ها به شکلی که به سادگی درک پذیر باشد و اشاره دارد به روشی که ویژگی های داده های پیچیده را به الگوهای واضحی تبدیل می کند و به کاربران اجازه می دهد که الگو ها یا روابط پیچیده کشف شده در فرایند داده کاوی را ببینند]43[.
محققان ، از تواناییهای کشف الگو در سیستم بینایی انسان استفاده کرده و مجموعه ای از ابزار و برنامه ها را ساخته اند که به شکل انعطاف پذیری ، داده ها را با استفاده از رنگ ،موقعیت ، اندازه و دیگر ویژگیهای بصری ، کدبندی می کنند.بهترین کاربرد تصویرسازی برای آشکار کردن الگوهای پیچیده از طریق ارائه واضح داده ها یا توابع است]20[.
4.7. روشهای داده کاوی در مورد استفاده در تحقیقات کشف تقلبهای مالی
برای طبقات / وظایف مختلف داده کاوی یادشده در بالا ، روشهای بسیاری ایجاد شده اند که از علوم محتلفی مانند هوش مصنوعی ، الگوشناسی95 ، یادگیری ماشینی، آمار برگرفته شده اند.در تحقیقات مختلف ،26 روش داده کاوی در کشف تقلبهای مالی به کار رفته اند]20[.
شکل2-4 ، در یک تقسیم بندی کلی ، طبقات تقلب مالی و 6 گروه کاربرد داده کاوی مورد استفاده برای کشف این تقلبها را نشان می دهد.
در جدول 4-4 ، می توان انواع مختلف روشهای داده کاوی مورد استفاده برای کشف تقلبهای شزکتی ( شامل تقلب در صورت های مالی ) را مشاهده کرد.پرکاربردترین روشهای مورد استفاده برای کشف تقلبهای مالی عبارتند از مدلهای رگرسیون لجستیک (رایج ترین) ،شبکه های عصبی ، شبکه استنباط بیزین96 و درختان تصمیم که همه آنها راه حل های با اهمیی برای مشکلاتی ذاتی در کشف و طبقه بندی داده های متقلبانه ارائه می کند]20[.

شکل 2-4.روشهای داده کاوی استفاده شده برای کشف انواع تقلبهای مالی (Ngai et,al.2010)

جدول 4-4.اهداف اصلی تحقیقتهای انجام شده در مورد کشف تقلبهای شزکتی از سال 1997 تا 2008 (Ngai et.al ,2010)
این 4 روش ، همگی در گروه (طبقه بندی )قرار می گیرند که در ادامه به شکل مشروحتری مورد بحث قرار گرفته اند.
4.7.1. مدل رگرسیون
در ادبیات پژوهشهای داده کاوی برای کشف تقلب ،رگرسیون رایج ترین روش مورد استفاده است .مدلهای رگرسیون استفاده شده عبارتند از لوجیت (LOGIT ) ،لجستیک گام به گام ، روش کمک تصمیم چند متغیره و بتا 2 تعمیم یافته نمایی (EGB2) ]42[.
مدل لجستیک ، رایج ترین مدل مورد استفاده است.مدل لجستیک ، یک مدل خطی تعمیم یافته97 است که برای رگرسیون دوگانه ای استفاده می شود که در آن متغیرهای پیش بینی کننده می توانند کمی یا کیفی باشند.این مدل اساسا برای حل مسائل مطرح در تقلب بیمه خودرو و تقلبهای شرکتی استفاده می شود]20[.
ایده پشتیوانه رگرسیون این است که با استفاده از نسبتهای مالی شرکتها ، مدلی به دست آید تا مسخص شود کدام نسبتها با صورتهای متقلبانه و صورتهای مالی غیر متقلبانه ، می توان فهمید که کدان عوامل به شکل معنیداری بر شرکتهای دارای صورتهای مالی متقلبانه اثر می گذارد و سپس می توان بر این اساس معادله را صورت بندی کرد .مدل ، بر مبنای نسبتهای صورتهای مالی که در مرحله آموزش به عنوان نشانگرهای تقلب مستند شده اند،شرکتها را به گروه های متقلبانه و غیر متقلبانه طبقه بندی خواهد کرد ]42[.
4.7.2. شبکه های عصبی مصنوعی
شبکه عصبی روشی است که با استفاده از مجموعه ای از گره های به هم مرتبط ، از کارکرد مغز انسان تقلید می کند.این روش مبتنی است بر مدلهای رایانه ای از نورونهای زیستی .یک شبکه عصبی چند لایه در برگیرنده تعداد زیادی واحد ( نورون ) به هم مرتبط در الگویی از ارتباطات است ]43[.
این روش به شکل گسترده ای در طیقه بندی و خوشه بندی استفاده شده است و پس از رگرسیون ، پرکاربردترین روش داده کاوی مورد استفاده در کشف تقلبهای مالی است]42[.
نخست با استفاده از مجموعه ای از داده های زوجی برای ترسیم ورودیها و خروجیها آموزش داده می شود .سپس وزن ارتباطات بین نورون ها تثبیت می شود و شبکه برای تعیین طبقه بندی های مجموعه ای جدید از داده ها مورد استفاده قرار می گیرد]43[.مزایای این روش از قرارند ،نخست اینکه این روش انطباق پذیر است .دوم اینکه این روش ،مدلهای دارای پایانی98 ایجاد می کند و سوم اینکه اگر وزنهای آموزشی تغییر کنند ، فرایند طبقه بندی را نیز می توان اصلاح کرد .شبکه های عصبی بیشتر برای تقلبهای کارت اعتباری ،بیمه خودرو تقلب های شرکتی به کار می روند]20[.
چن و دو با استفاده از شبکه های عصبی مصنوعی 68 شرکت فعال در بورس تایوان را مطالعه قرار دادند . آنان با استفاده از داده های مالی و غیر مالی ، یک مدل بحران مالی تدوین کردند .نتایج مطالعه آنان نشان می دهد که شبکه های عصبی مصنوعی بهتر از روشهای سنتی آماری ،بحران مالی را پیش بینی می کنند.
4.7.3. شبکه استنباط بیزین
شبکه استنباط بیزین نشاندهنده مجموعه ای از متغیرهای تصادفی و استقلال مشروط آنها با استفاده از یک نمودار غیر چرخه ای هدایت شده99 است که در آن گره ها نشاندهنده متغیرهای تصادفی اند و استقلال مشروط بین متغیرها را تعیین می کند ]41[.
شبکه استنباط بیزین ، اغلب در کشف تقلب کارت اعتباری ،بیمه خودرو ،و تقلبهای شرکتی مورد استفاده قرار می گیرد]20[.
4.7.4. درختان تصمیم
درختان تصمیم ، ابزار پشتیبان تصمیم پیش بینی کننده ای هستند که تصویری از مشاهدات برای پیامدهای ممکن را ایجاد می کنند]39[.درختان تصمیم ، درختانی هستند که موضوعها را براساس مقادیر صفتها طبقه بندی می کنند.برگ نماد پیش بینی ها هستند ، هر گره در یک درخت تصمیم نماینده یک صفت در یک موضوع مورد طبقه بندی است و هر شاخه نماینده مقداری است که یک گره می تواند اختیاز کند و در واقع اشتراک ویژگیها را نشان می دهد ]44[.
می توان از طریق الگوریتم های مبتنی بر یادگیری ماشینی از قبیل کارت100(CART )، آی دی تری101 و الگوریتم سی 5/4102 (C 4.5) ،این درختان را کاشت.درختان تصمیم به طور معمول در تقلب کارت اعتباری ،بیمه خودرو و تقلبهای شرکتی استفاده می شوند]20[.
کرکاس و همکاران در مطالعه خود همزمان سه روش را به کار بردند که عبارت بودند از شبکه عصبی ، درخت تصمیم و بیزین .مطالعه آنان سودمندی این مدلها را شناسایی صورتهای مالی متقلبانه بررسی و مقایسه می کند .بردارهای ورودی 103 ، از نسبتهای مالی استخراج شده از صورتهای مالی تشکیل شده است.این سه مدل از جهت عملکردشان مقایسه شده اند .نمونه آنان از 76 شرکت تولیدی یونانی تشکیل شده بود که 38 شرکت به عنوان متقلب و 38 شرکت به عنوان غیر متقلب طبقه بندی شدند.معیار طبقه بندی به عنوان متقلب ، به طور عمده گزارشهای حسابرسان و مقامات مالیاتی نسبت به تلاش شرکت برای فرار مالیاتی با انجام دستکاری های با اهمیت در صورتهای مالی ،قرار گرفتن در فهرست شرکتهای تحت نظارت در بورس آتن ، تعلیق معاملات سهام شرکت به دلایل مرتبط با دستکاری داده های مالی شرکت و وجود پروندهایی در دادگاه مرتبط با موضوع صورتهای مالی متقلبانه ، از مواردی هستند که به عنوان نشانه های تقلب یک شرکت در نظر گرفته شده اند.کرکاس و همکاران (2007)گزارش کرده اند که پس از آموزش مدلها ، در مرحله آزمون تقسیم نمونه ،مدل در خت تصمیم با 2/96 در صد دقت ، مدل شبکه استنباط بیزین با 7/94 درصد دقت توانسته اند شرکتهای متقلب را از شرکتهای غیر متقلب بازشناسی کنند]41[.
4.8. یک چارچوب کلی برای الگورتیم های داده کاوی
هرچند الگوریتم های داده کاوی بسیاری برای کشف تقلب مورد استفاده قرار گرفته اند ،اما کاربرد آنها ،همچنان از الگوی سنتی داده کاوی انتخاب ویژگی نمایندگی104 گرد آوری و مدیریت داده ها ، پیش پردازش ،داده کاوی ،پس پردازش و ارزیابی عملکرد پیروی می کند . یوئه و همکاران (2007)،ویژگیهای فنون داده کاوی مورد استفاده برای هدف خاص کشف تقلبهای مالی را در یک چارچوب کلی خلاصه کرده اند (شکل 5-4).

شکل 5-4. چارچوب کلی کشف تقلبهای مالی با استفاده از کارایی (Yue et,al .2007 )
بر مبنای توزیع داده ها ، الگوریتم های کشف تقلبهای مالی را نخست می توان به دوگروه عمده تقسیم کرد؛ داده های گردآوری شده از شرکتهای متقلب و غیر متقلب و همچنین ،داده های حسابرسی .در پژوهشهای گذشته ،تمرکز بیشتر بر تلاش برای کشف تقلب در مجموعه ای از داده های متقلبانه و غیر متقلبانه بوده است]41[.
4.9. راه آینده چالشهای پیش رو
نگای و همکاران اظهار می دارند که یک دلیل برای محدود بودن تعداد مقاله های مرتبط با موضوع کشف تقلبهای مالی (49 تا بین سالهای 1997 تا 2008)،سختی به دست آوردن داده های تحقیق مناسب است .مشکل آن است که پیش از هر کاری ، و برای شروع آموزش مدل ،باید مجموعه ای از صورتهای مالی را به دو گروه متقلب و غیرمتقلب تقسیم کرد.چالش شناسایی صورتهای مالی متقلبانه ،موانع بسیاری در سر راه تحقیقات کشف تقلب مالی قرار می دهد . هرچند روشهای داده کاوی ذکر شده در بالا عموما نشان داده اند که در کشف تقلب صورتهای مالی اثر بخشسی بوده اند ، اما کاربرد آنها برای کشف تقلب در صورتهای مالی ،معایب و محدودیت های کاربردی بسیاری داشته است .در پس عمده روشهای داده کاوی موجود برای کشف تقلب در صورتهای مالی ، دامنه کاربرد خاص و محدودیت های ویژه ای وجود دارند]45[. برای مثال ، هرچند که این روش ها به خوبی برای مدل سازی پیش بینی کننده توسعه یافته اند،اما آنها برای ارزیابی اثر به خوبی توسعه پیدا نکرده اند . به طور مشخص ، هنوز برای برخی از روشهای داده کاوی آمارهای آزمونی ساخته نشده است که با آن بتوان به ارزیابی اثرهای متغییرهای مستقل بر متغیرهای وابسته پرداخت]45[.
یک نکته دیگر که باید به آن توجه شود، این است که اغلب روشهای داده کاوی نقاط پرت را به عنوان استثنا یا اختلال105 کنار می گذارند؛در حالی که در کشف تقلب ، رویدادهای نادر می توانند جالب تر از رویدادهای معمول و مکرر باشند.بنابراین ،تحلیل نقاط پرت برای کشف الگوهای متقلبانه باید بیش از پیش مورد توجه قرار گیرد.البته نبود تحیقیقاتی در مورد کاربرد روشهای کشف داده های پرت برای کشف تقلبهای مالی ممکن است به خاطر سختی کشف داده های پرت باشد.در واقع کشف داده های پرت وظیفه پیچیده ای است که بی شباهت به جستن سوزن در انبار کاه نیست .برخلاف دیگر روشهای داده کاوی ، روشهای کشف داده پرت متمرکز بر یافتن الگوهای نادر مرتبط با اشیایی داده ، بسیار اندکند]40[.
همچنین روشهای تصویرسازی نیز توانایی درخور توجه در شناسایی و ارائه بی قاعدگی ها در دادها دارند.این ویژگی می تواند شناسایی و کمی سازی طرحهای تقلب را بسیار آسانتر کند]20[.
سخن آخر اینکه در زمان کنونی ،تقلبهای مالی همواره در حال تغییر شکل و تکامل هستند؛ پس سازوکارهای ماشینی کشف تقلب نیز باید با استفاده از آگاهی های تخصصی در دسترس ،اثر بخشی و کارایی خود را به بطور مستمر افزایش دهند .همان گونه که ژو و کاپور به خوبی تذکر می دهند ، کشف تقلب مالی با استفاده از روشهای کشف فعلی ، به طور روز افزون مشکل می شود .یک مدیر عامل آگاه به همه مسائل که اراده کرده است جرمی مرتکب شود،متابع کافی برای دور زدن سیستم را به راحتی در اختیاز دارد و قادر است که هر نوع سازوکار کشفی را خنثی کند.ژو و کاپور روشهای کشف تقلب مالی مبتنی بر داده کاوی (مانند رگرسیون ، درخت تصمیم ،شبکه های عصبی ،و شبکه های بنزین )را مورد بررسی قرار داده اند .آنان به ویژه ، اثر بخشی و محدودیت های این روشهای داده کاوی را در هنگام پدید آمدن شگردهای جدید تقلب صورتهای مالی که خود را با این روشهای کشف انطباق داده اند ، به نقد کشیده اند .نویسندگان سپس یک روش نوین را پیشنهاد می کنند ؛یک برنامه کشف فعال که پیش از متقلبان بالقوه تکامل می یابد .توانمند کردن یک سیستم کشف هوشمند برای پیش بینی ،پیش از اینکه هر گونه تقلب ناشناخته ای در آینده اتفاق افتد.این توان را به وجود می آورد که انواع جدید تقلبهای صورتهای مالی به طور اثر بخش کشف گردند .البته چنانکه این دو نویسنده خود ادغان می دارند ، تحقیقهای بیشتری در آینده نیاز است تا برنامه کشف فعالی طراحی شود که هم اثر بخش و هم کارا باشد.
4.10. نتیجه گیری
از آنچه که در بررسی های به عمل آمده در خصوص شناسایی تقلب در روش های تشخیص سوء استفاده و تشخیص ناهنجاری بیان شد،این نکته استنتاج می گردد که تکنیک های مبتنی بر رویکرد تشخیص سوء استفاده زمانی به کار گرفته می شوند که تشخیص تقلب به صورت از پیش شناخته شده بوده و براساس امضای می توان رفتار جاری مشتریان را برسی نمود طبیعا به دلیل شناخت کامل رفتار قبلی مشتریان ،دقت شناسایی تقلب در این روش بسیار بالاست .اما نقطه ضعف این روش ها ، عدم پوشش دهی کامل محدوده تقلب می باشد،بدین معنی که فقط و فقط تقلب هایی شناسایی و کنترل می شوند که حداقل یک بار رخ داده و یا امضای آن به سیستم تشخیص تقلب ارائه شده باشد.
اما در مقابل ، رویکردهای مبتنی بر تشخیص ناهنجاری ، سعی در پیش بینی رفتار آتی مشتری داشته و با منظور ، تاریحچه رفتار وی را مورد بررسی قرار می دهند .در این گونه روش ها ،هیچ قاعده ثابتی جهت تعریف نمی شود ،بلکه رفتار عادی و نرمال مشتری به سیستم تشخیص تقلب آموخته شده و هر گونه انحراف از آن ، به معنی تقلب فرض می گردد.
به منظور شناسایی رفتار عادی مشتریان نیز از تاریخچه تراکنش های مشتری استفاده شده و رفتار عادی وی تلقی می گردد.این روش نسبت به رویکرد سوء استفاده ، دقت بالایی ندارد و ممکن است تراکنش های عادی به صورت تقلب فرض شوند . لذا دقت این روش نسبت به رویکرد سوء استفاده بسیار کمتر می باشد اما مزیت این روش این است که گستره بیشتری از حملات و تراکنش های غیرقانونی را پوشش می دهد و امکان پیش بینی تقلب های مشاهده نشده از مزیت های این روش است .
عموما در سیستم های تجاری ،سیستم های ترکیبی که شامل هر دو روش تشخیص سوء استفاده و ناهنچاری باشد،بهترین نتیجه را از نظر عملکردی در پی دارد .لذا سیستم های پیاده سازی شده به گونه ای طراحی شده است که با ترکیب این دو رویکرد علاوه بر دقت بالا،امکان پیش بینی رفتار مشتریان را نیز داشته باشند و تفلب های ناشی از رفتار غیر نرمال را نیز شناسایی نمایند.
فارغ از بحث فنی ،ذکر این نکته نیز در اینجا بسیار ضروری به نظر می رسد که با توجه به رشد روز افزون حدمات مالی بانک ها و موسسات مالی و اعتباری به صورت الکترونیکی در سطح کشور و افزایش ضریب نفوذ استفاده کاربران از خدمات بانکداری الکترونیک ؛ رویکرد کلاهبرداران و متقلبان به سمت بانکداری الکترونیک نیز رو به افزایش است . بدین ترتیب نگرانی های بسیاری را سبب شده و توجه زیادی را به سوی خود جلب کرده است . البته حوزه کشف تقلب مالی نیز تحول هایی چشمگیری را شاهد بوده است . به طور مشخص ،داده کاوی نظرها را به شکل گسترده ای به خود جلب کرده است و محبوبیت فزاینده ای در جهان مالی به دست آورده است .کاربرد های موفقیت آمیزی از داده کاوی گزارش شده است و تحقیقات نشان داده اند که داده کاوی در میزان کاربرد و اثر بخشی گسترش یافته است .سازمان های حرفه ای حسابداری نیز داده کاوی را به عنوان یک فناوری مهم برای سده جدید شناخته اند ]45[.روش های اصلی مورد استفاده برای کشف تقلبهای مالی عبارتند از مدلهای رگرسیون لجستیک ، شبکه های عصبی ، شبکه استنباط بیزین و درختان تصمیم که همه آنها راه حل های با اهمیتی را برای مشکلات ذاتی در کشف و طبقه بندی داده های متقلبانه ارائه می کنند.
کاربرد روشهای داده کاوی بر روی نسبتهای مالی استخراج شده از صورتهای مالی شرکتهای و نیز دیگر اطلاعات در دسترس ، می تواند به حسابرسان در کشف تقلب کمک کند ؛به طوری که آنان می تواند از نتابج این تحلیل ها به عنوان یک علامت اولیه هشداردهنده نسبت به وقوع احتمالی تقلب صورتهای مالی استفاده کند.نشانگرهای تقلب در صورتهای مالی ،اثری با اهمیت بر تعیین تقلب صورتهای مالی دارد.
همچنین ،انواع تقلب و الکوهای تقلب در صنایع مختلف در طول زمان تغییر کرده است .درک اینکه طرحهای تقلب چگونه متحول شده اند مهم است .همچنین ،پیش بینی جهت تغییر این تقلبها با هر وسیله ممکن و به روز نگاه داشتن روشهای ماشینی کشف تقلب اهمیت دارد.پژوهش در این راستا ممکن است نتایج با اهمیتی داشته باشد که برای تدوین فرایندهای تجاری قویتر و نیز سازوکار های کشف تقلب انطباق پذیر برای مدیریت/پیشگیری /کشف خطر تقلب ،سودمند باشد.

منابع و مراجع

1. Filippidou, D., Keane, J.A., Svinterikou, S. and Murray, J., Data Mining for Business Improvement: Applying the HyperBank Approach,PADD'98 – 2nd Int.Conf., on the Practical Application of Knowledge Discoveryand Data Mining, Practical Application Company, 1998, pp.1-10.

2. Fayyad, U., Shapiro, G.S. and Smyth, P., From Data Mining to Knowledge Discovery in Databases, AI Magazine, 1996, pp.37-54.

3. Wiz, K., The Hidden World of Data Mining, Think Analytics Corporation, 2002, pp.1-21.

4. Han, J. and Kamber, M., "Data Mining: Concepts and Techniques", Morgan Kaufmann Publishers, 2001

5. An Introduction to Data Mining: http://www.thearling.com/, retrieved on Mar 2, 2007.

6. Data Mining: Efficient Data Exploration and Modeling: http://research.microsoft.com/dmx/DataMining/, retrieved on Mar 2, 2007.

7. Christine Gertisio and Alan Dussauchoy, "Knowledge Discovery from Industrial Data base", Journal of Intelligent Manufacturing, 15, 29-37, 2004.

8. Introduction to Data Mining and Knowledge Discovery By Two Crows Corporation

9. Jeffery W. Seifert Analyst in information science and Technology Policy, ' Data Mining : An Overview ' December 2004.

10. David J. HAND Data Mining: Statistics and More? , December 2002.

11. Mitchell, Tom M., "Machine Learning", McGraw-Hill Science, 1997.

12. Fayyad U., Piatesky – Shapiro G., and Smyth P., "From Data Mining to Knowledge Discovery in Databases," American Association for Artificial Intelligence, 1996.

13. Berson A., Smith S., and Thearling K., "Building Data Mining Applications for CRM," Tata McGraw-Hill, New York, 2004.

14. Edelstein, Herb. Building Profitable Customer Relationships With Data Mining, Two Crows Corporation, CRM today, White Paper, 2002, pp.1-12.

15. Chris Rglelski, "Data Mining Techniques for Customer Relationship Management", Technology in Society, 2002.

16. Chris Rygielski. jyun Wang, David yung(2002),Data mining techniques for customer relationship management .

17. Valarie A. Zeithaml, Roland T. Rust, and Katherine N. Lemon,( 2001), " The Customer Pyramid: Creating and Serving Profitable Customers", California Management Review.

18. Albrecht, W.S., Albrecht,C.C. & Albrecht, G.O. (2008). Current Trends in Fraud and Its Detection. Information Security Journal, 17.

19. Institute, KPMG.(2003). Fraud Survey of 2003, From http://www.kpmg.com.

20. Ngai E.W.T., Yong Hu, Y.H. Wong, Yijun Chen, Xin Sun, The Application of Data Mining Techniques in Financial Fraud Detection: A Classification Framework and an Academic Review of literature; Decision Support Systems, vol. 50(3), 2010, pp. 559-569.

21. Wang J., Y. Liao, T. Tsai, G. Hung, Technology-based Financial Frauds in Taiwan: Issue and Approaches, IEEE Conference on: Systems, Man and Cyberspace, 2006, pp. 1120-1124.

22. Clifton Phua and et al. (2005).A Comprehensive Survey of Data Mining -based Fraud Detection Research, from http://www.arxiv.org/pdf/1009.6119.

23. Spafford, S. Kumar & Eugene. H. (1994).A Pattern Matching Model for Misuse Intrusion Detection. 17th Notional Computer Security Conference, From www. docs. lib.purdue,edu.

24. Winslow, E. & Smaha, J.(1994). Misuse Detection Tools. Computer Security Journal, 3, 39 – 49

25. Stephan, Kovach & Wilson, Vicente Ruggiero.(2011).Online Banking Fraud Detection Based on Local and Global Behavior. ICDS, from www.thinkmind.org/ download php ? Article = icds-2011-6-40.

26. Ghosh, A.K., Schwartzbard, A & Sehatz, M. (1999). A Study in Using Neural Networks for Anomaly and Misuse Detection. 8 th USENIX Security Symposium, from . www. acm.org/citation.cfm?d=1251433.

27. Lunt, T.F and et al. (1990). A Real-Time intrusion Detection Expert System (IDES) – Final Technical Report. Technical Report. SRl Computer Science Laboratory, SRl International, from http://www.wenke.gtisc.gatech.edu.

28. Anderson, D., Frivold,T., Tamaru, A & Valdes,A.(1994). Next generation intrusion detection expert system (NDES). software user's manual,beta-update release. Technical Report SRIXSL-9547. Computer Science Laboratory, SRI International, from www.thc.org/root/ docs/intrusion-detection/…NIDES-summary.pdf.

29. Ghosh, S and et al.(1994).Credit card fraud detection with a neural-network. 27th Annual Hawaii International Conference on System Science. Los Alami, CA: IEEE Computer Society.

30. Brause, R., Langsdorf, T., Hepp, M.(1999). Credit Card Fraud Detection by Adaptive Neural Data Mining. 11 th IEEE International Conference on Tools with Artificial Intelligence. (pp.103-106). Los Alami, CA: IEEE International Conference on tools with Artificial Intelligence.

31. Hassibi, K. (Ed.).(2000). Detecting Payment Card Fraud With Neural Networks. Singopore: World Scientific.

32. Dorronsoro., J, Ginel, E & Sanchez, C.(1997). Neural Fraud Detection in Credit Card Operations, From http:// www. ieeexplore.ieee.org

33. Ryan,J., Lin, M.J & Miikkulainen,R.(1998).Intrusion detection with neural networks. in M. J. Keams, and S. A. Solla M. I. Jordan. (Eds.) Advances in Neural Information Pmcessing Systems. Cambridge: The MIT Press.

34. Burge,P and et al.(1999). Fraud Detection and Management in MobileTelecommunicationsNetworks. London:Royal Holloway University.

35. Ilgun, K.(1993). USTAT A Real-time intrusion detection system for UNIX. IEEE Symposium on Research in Security and Privacy. (pp.16-28). Oakland, CA: IEEE Symposium on Research in Securiry and Privacy.

36. Chittur, A.(2001).Model Generation for an Intrusion Detection System Using Genetic Algorithms. Ossining High school Honors Thesis.

37. Stolfo, W.L & San, S.(1998). Data Mining Approaches for Intrusion Detection. TX 7th USENIX Security Symposium. Antonio, TX: USENIX Security Symposium.

38. Turban E., J.E. Aronson, T.P. Liang, R. Sharda, Decision Support and Business Intelligence Systems, Eighth ed,Pearson Education, 2007.

39. Han J., M. Kamber, Data Mining: Concepts and Techniques (Second ed), Morgan Kaufmann Publishers, 2006, pp. 285-464.

40. Zhang D. and L. Zhou, Discovering Golden Nuggets: Data Mining in Financial Application, IEEE Transactions on Systems, Man and Cybernetics, Vol. 34(4), 2004 pp.513-522.

41. Kerkaus E., C. Spathis, Y. Manolopoulos, Data Mining Techniques for the Detection of Fraudulent Financial Statements, Expert Systems with Applications, Vol.32,

42. Yue D., X. Wu, Y. Wang, Y. Li and C. Chu, A Review of Data Mining-based Financial Fraud Detection Research, International Conference on Wireless Communications, Networking and Mobile Computing, 2007, pp.5519-5522.

43. Yamanishi K., J. Takeuchi, G. Williams and P. Milne , On-Line Unsupervised Outlier Detection Using Finite Mixtures with Discounting Learning Algorithms, Data Mining and Knowledge Discovery, Vol. 8, 2004, pp.

44. Phua C., V. Lee, K. Smith, R. Gayler, A Comprehensive Survey of Data Mining-based Fraud Detection research, Clayton School of Information Technology, Monash University, 2005

45. Zhou W., G. Kapoor, Detecting Evolutionary FinancialStatement Fraud, Decision Support Systems, Vol. 50(3), 2011, pp. 570-576

واژه نامه انگلیسی به فارسی
A
Adelphia آدلفیا
Anomaly Detection تشخیص ناهنجاری
Absolute Analysis تحلیل مطلق
Adaptive Pattern Recognition تشخیص الگوی تطبیقی
Artificial Neurons نرون مصنوعی
Association rules algorithm الگوریتم قواعد پیوستگی
Attack Signature امضای حمله
Authentication احراز هویت

B
Back Propagation پس پراکنی
Brause and Langsdorf لانگسدورف
C
Card Security Code کد امنیتی کارت
Classification طبقه بندی
Clustering خوشه بندی
Collective Anomalies ناهنجاری انبوه
Colored Petri Nets پتری رنگی
Component اجزا
Compromised (Final) State حالت نهایی
Conditional Anomalies ناهنجاری شرطی
Contextual Anomalies ناهنجاری متنی

D
Darwinian Evolution تکامل داروین
Data dredging لایروبی داده
Data fishing صید داده
Data Mining داده کاوی
Data Mining Tasks وظایف داده کاوی
Data Warehouse مخزن داده
Dataset مجموعه داده
Decision Trees درختان تصمیم
Deviation انحراف
Differential Analysis تفاضلی
Directed Acyclic Graph نمودار غیر چرخه ای هدایت شده
Discounting Learning Algorithm الگوریتم یادگیری تنزیل شونده
E
Enron انرون
Expert Systems سیستم خبره
F
Falcon Fraud Management System سیستم مدیریت تقلب فالکون
Fayyad فییاد
Fraud Lifecycle حیات تقلب
frequent episodes رخدادهای مکرر
Fuzzy فازی
G
Generalized Linear Model مدل خطی تعمیم یافته
Genetic Algorithm الگوریتم ژنتیک
Global Crossing گلوبال کروسینک
Granular Neural Network شبکه های عصبی دانه موازی
I
If-Then Rules رمزگذاری
Input Vector بردارهای ورودی
K
Keystroke Dynamics Monitoring مونیتورینگ پویایی ضربه کلید
Knowledge Discovery and Data Mining کشف معرفت و داده کاوی
Knowledge Discovery in Database کشف دانش و معرفت از پایگاه داده ها
Kumar and Spafford کومار و اسپافورد
L
Linux لینوکس
Logistic Models مدل لجستیک
M
Machine Learning یادگیری ماشینی
Machine Learning Statistical Models تشخیص مدل های آماری
Misuse Detection تشخیص سو استفاده
Model-Based Reasoning استدلال بر پایه مدل
N
Neural Network شبکه عصبی
Node گره
Noise اختلال
O
Offline آفلاین
Online بر خط
On-line Anaiytical Processing فرآیند تحلیل همزمان
Outlier Detection برون هشته ای
Outliers پرت
P
Pattern Matching Approach الگوی تطبیق رویکرد
Pattern Recognition الگوشناسی
Patterns الگو
Phishing فیشینگ
Piatetsky پیاتتسکی
Pin code پین کد
Points Anomalies ناهنجاری نقطه ای
Prediction پیش بینی
Profile مشخصه
R
Reengineering مجدد
Relation ارتباط
Representation نمایندگی
Robust Models مدلهای دارای پایانی
Rule-Based نقش محور
Rule-Based Analysis تجزیه و تحلیل قواعد
Rule-Based Approach رویکرد مبتنی بر قواعد
S
Security Policies سیاست های امنیتی
Security Protocols پروتکل های امنیتی
Self-organizing Map Techniques روشهای نقشه خود انتظام
State Transition Analysis تجزیه و تحلیل حالت گذار
Supervised Learning Approach سازوکار با نظارت
Support Vector Machine ماشینهای بردار پشتیبان
Synapse سیناپس
T
The Bayesian Belief Network شبکه استنباط بیزین
The K-nearest Neighbor نزدیک ترین همسایه ها
The Naïve Bayes Networks شبکه بیز ساده
Threshold حد آستانه
Tuples ردیف
Tyco تیکو
U
UNIX یونیکس
Unsupervised Learning Approach سازوکار بدون نظارت
V
Visualization تصویرسازی
W
Weighted Connection ارتباطات وزن داری
WorldCom ورلد کام

واژه نامه فارسی به انگلیسی
ا-آ
احراز هویت Authentication
اختلال Noise
ارتباط Relation
ارتباطات وزن داری Weighted Connection
استدلال بر پایه مدل Model-Based Reasoning
الگو Patterns
الگوریتم ژنتیک Genetic Algorithm
الگوریتم قواعد پیوستگی association rules algorithm
الگوریتم یادگیری تنزیل شونده Discounting Learning Algorithm
الگوشناسی Pattern Recognition
الگوی تطبیق رویکرد Pattern Matching Approach
امضای حمله Attack Signature
انحراف Deviation
انرون Enron
آدلفیا Adelphia
آفلاین Offline
ب
بر خط Online
بردارهای ورودی Input Vector
برون هشته ای Outlier Detection
پ
پتری رنگی Colored Petri Nets
پرت Outliers
پروتکل های امنیتی Security Protocols
پس پراکنی Back Propagation
پیاتتسکی Piatetsky
پیش بینی Prediction
پین کد Pin code
ت
تجزیه و تحلیل حالت گذار State Transition Analysis
تجزیه و تحلیل قواعد Rule-Based Analysis
تحلیل مطلق Absolute Analysis
تشخیص الگوی تطبیقی Adaptive Pattern Recognition
تشخیص سو استفاده Misuse Detection
تشخیص مدل های آماری Statistical Models
تصویرسازی Visualization
تفاضلی Differential Analysis
تکامل داروین Darwinian Evolution
تیکو Tyco
ح
حالت نهایی Compromised (Final) State
حد آستانه Threshold
حیات تقلب Fraud Lifecycle
خ
خوشه بندی Clustering
د
داده کاوی Data Mining
درختان تصمیم Decision Trees
ر
رخدادهای مکرر frequent episodes
ردیف Tuples
رمزگذاری If-Then Rules
روشهای نقشه خود انتظام Self-organizing Map Techniques
رویکرد مبتنی بر قواعد Rule-Based Approach
س
سازوکار با نظارت Supervised Learning Approach
سازوکار بدون نظارت Unsupervised Learning Approach
سیاست های امنیتی Security Policies
سیستم خبره Expert Systems
سیستم مدیریت تقلب فالکون Falcon Fraud Management System
سیناپس Synapse
ش
شبکه استنباط بیزین The Bayesian Belief Network
شبکه بیز ساده The Naïve Bayes Networks
شبکه عصبی Neural Network
شبکه های عصبی دانه موازی Granular Neural Network
ص
صید داده Data fishing
ط
طبقه بندی Classification

ف
فازی Fuzzy
فرآیند تحلیل همزمان On-line Anaiytical Processing
فیشینگ Phishing
فییاد Fayyad
ک
کد امنیتی کارت Card Security Code
کشف دانش و معرفت از پایگاه داده ها Knowledge Discovery in Database
کشف معرفت و داده کاوی Knowledge Discovery and Data Mining
کشف نقاط پرت Outlier Detection
کومار و اسپافورد Kumar and Spafford
گ
گره Node
گلوبال کروسینک Global Crossing
ل
لانگسدورف Brause and Langsdorf
لایروبی داده Data dredging
لینوکس Linux
م
ماشینهای بردار پشتیبان Support Vector Machine
مجدد Reengineering
مجموعه داده Dataset
مخزن داده Data Warehouse
مدل خطی تعمیم یافته Generalized Linear Model
مدل لجستیک Logistic Models
مدلهای دارای پایانی Robust Models
مشخصه Profile
مونیتورینگ پویایی ضربه کلید Keystroke Dynamics Monitoring
ن
ناهنجاری انبوه Collective Anomalies
ناهنجاری شرطی Conditional Anomalies
ناهنجاری متنی Contextual Anomalies
ناهنجاری نقطه ای Points Anomalies
نرون مصنوعی Artificial Neurons
نزدیک ترین همسایه ها The K-nearest Neighbor
نقش محور Rule-Based
نمایندگی Representation
نمودار غیر چرخه ای هدایت شده Directed Acyclic Graph
و
ورلد کام WorldCom
وظایف داده کاوی Data Mining Tasks
ی
یادگیری ماشینی Machine Learning
یونیکس UNIX

Data Mining in e-banking

Supervisor:

1 Knowledge Discovery
2 Dataset
3 Knowledge Discovery in Database(KDD)
4 Piatetsky
5 Fayyad
6 Knowledge Discovery and Data Mining
7 Data Mining
8 Data Warehouse
9 On-line Anaiytical Processing(OLAP)
10 Data fishing
11 Data dredging
12 Relation

13 WorldCom
14 Enron
15 Adelphia
16 Global Crossing
17 Tyco
18 Online
19 Pin code
20 Card Security Code
21 Authentication
22 Phishing
23 Reengineering
24 Fraud Lifecycle
25 Security Policies
26 Security Protocols
27 Patterns
28 Misuse Detection
29 Expert Systems
30 Model-Based Reasoning
31 State Transition Analysis
32 Keystroke Dynamics Monitoring
33 Anomaly Detection
34 Profile
35 Deviation
36 Points Anomalies
37 Contextual Anomalies
38 Conditional Anomalies
39 Collective Anomalies
40 If-Then Rules
41 Component
42 Rule-Based Analysis
43 Outlier Detection
44 Unsupervised Learning Approach
45 Supervised Learning Approach
46 Neural Network
47 Node
48 Weighted Connection
49 Synapse
50 Artificial Neurons
51 Brause and Langsdorf
52 Rule-Based
53 Falcon Fraud Management System
54 Machine Learning
55 Adaptive Pattern Recognition
Machine Learning 56 Statistical Models
57 Multi Layer Perceptron
58 GNN- Granular Neural Network
59 Fuzzy
60 Neural Network Intrusion Detection (NNID)
61 Back Propagation
62 UNIX
63 Offline
64 Attack Signature
65 Threshold
66 Pattern Matching Approach
67 Kumar and Spafford
68 Colored Petri Nets
69 Linux
70 Rule-Based Approach
71 Absolute Analysis
72 Differential Analysis
73 State Transition Analysis
74Compromised (Final) State
75 State Transition Analysis Tool (STAT)
76 Genetic Algorithm
77 Darwinian Evolution
78 association rules algorithm
79 frequent episodes
80 Data Mining Tasks
81 Classification
82 The Naïve Bayes Networks
83 Decision Trees
84 Support Vector Machine
85 Tuples
86 Clustering
87 The K-nearest Neighbor
88 Self-organizing Map Techniques
89 Prediction
90 Logistic Models
91 Outlier Detection
92 Outliers
93 Discounting Learning Algorithm
94 Visualization
95 Pattern Recognition
96 The Bayesian Belief Network
97 Generalized Linear Model
98 Robust Models
99 Directed Acyclic Graph (DAG)
100 Classification and Regression Trees (CART)
101 Iterative Dichotomizer3 (ID3)
102 الگوریتم سی 5/4 برای تهیه درخت تصمیم به کار می رود.
103 Input Vector
104 Representation
105 Noise
—————

————————————————————

—————

————————————————————

85


تعداد صفحات : 96 | فرمت فایل : WORD

بلافاصله بعد از پرداخت لینک دانلود فعال می شود