داده کاوی چیست و چرا آنرا به کار می بریم؟
بسیاری از فروشگاهها پس از گذشت یک ربع قرن از آغاز فعالیت، هنوز مشتری وفادار خود را دارند. این وفاداری تصادفی نیست. اداره کنندگان این فروشگاهها به سلایق و نیازهای مشتریان خویش واقف شده اند و توان مالی خرید آنها را می شناسند. وقتی کسی از آنها راهنمایی بخواهد پاسخ آنها براساس دانش اندوخته شان در مورد ذائقه و بودجه آن مشتری و همچنین دانش شان در باره محصولات خودشان خواهد بود.
افرادی که به این فروشگاه رفت و آمد دارند در مورد کالاهای آن فروشگاه چیزهای زیادی می دانند. هر چند این دانش یکی از دلایل آنها برای ایجاد خرید از آنجاست و به همین دلیل به فروشگاه های دیگر نمی روند ولی داشتن اطلاعات خودمانی و صمیمانه در باره هر شخص آنها را مشتری دائمی آنجا می کند و به یک مغازه مشابه دیگر در آنطرف خیابان و روبروی همین فروشگاه نمی روند و برخوردار بودن این فروشگاه از اطلاعات خودمانی و صمیمانه در باره هر شخص آنها را مشتری دائمی آنجام می کند . یک مغازه مشابه دیگر می تواند در آنطرف خیابان و روبروی همین مغازه باز شود ولی ماهها و حتی سالها طول می کشد تا آنها به این سطح از دانش در باره مشتریانشان دست یابند.
طبیعتاً تجارتهای کوچکی که مدیریت خوبی دارند می توانند به نحوه ایجاد رابطه با مشتریانشان پی ببرند. آنها با گذشت زمان در باره مشتریانشان به چیزهای بیشتر و بیشتری پی خواهند برد و از آن دانش برای خدمت بهتر به مشتریان استفاده خواهند نمود و نتیجه کار، مشتریان وفادار و خرسند و تجارتهای سودآور خواهد بود.
شرکتهای بزرگ با صدها هزار یا میلیونها نفر مشتری از مزیت برقراری روابط شخصی حقیقی با تک تک مشتریانشان بی بهره اند. این موسسات عظیم باید به وسایل دیگری برای برقراری رابطه با مشتریانشان تکیه نمایند. آنها باید یاد بگیرند که از آنچه که به وفور دارند یعنی داده هایی که از طریق تعامل با تک تک مشتریان به دست آمده است نهایت بهره را ببرند. این کتاب در مورد تکنیکهای تحلیلی بحث میکند که برای تبدیل داده های مشتریان به دانش در باره مشتریان استفاده میشود.
مدیریت روابط تحلیلی با مشتریان
شکی نیست که لازم است موسسات بزرگ نیز مانند تجارتهای خدمات مدار و کوچک از منافع برقراری روابط یک به یک با مشتریانشان بهره مند گردند. مدیریت روابط با مشتری موضوع گسترده ای است که در کتابها و کنفرانسهای زیادی در مورد آن بحث شده است. تمرکز این کتاب بر نقشی است که داده کاوی می تواند در بهبود مدیریت روابط با مشتری از طریق افزایش توان موسسات برای برقراری روابط با مشتریانشان ایفا کند.
در تمامی صنایع، شرکتهای آینده نگر به سمت این هدف حرکت می کنند که تمام مشتریان را به صورت فردی درک نمایند و از این شناخت برای تسهیل تجارتی استفاده نمایند که مشتری می خواهد با آنها انجام دهد به جای اینکه با رقبایشان همین تجارت را برقرار نماید. این موسسات یاد می گیرند که ارزش هر مشتری را در نظر بگیرند تا تشخیص دهند که کدام یک از مشتریان ارزش سرمایه گذاری و صرف تلاش مداوم را دارند و دور کدام یک را باید خط کشید. این تغییر نگرش و تمرکز بر مشتریان فردی بجای تمرکز بر بخشهای وسیع بازار نیازمند تغییر در کل شرکت است و مطمئناً به بخشهای بازاریابی، فروش و پشتیبانی مشتریان هم سرایت می نماید.
برای بیشتر شرکتها استقرار یک تجارت حول روابط با مشتریان تغییری بنیادین است. بانکها همواره به حفظ تعادل بین هزینه ای که به سرمایه گذاران در بانک می پردازند و سود حاصل از وامهای پرداختی به وام گیرندگان توجه می کنند. شرکتهای مخابرات بر نوع و چگونگی ارتباطات تلفنی مشتریان توجه دارند. شرکتای بیمه بر تعادل پرداخت خسارات بیمه گذاران و مدیریت سرمایه گذاریهای انجام یافته با پول حال از دریافت حق بیمه ها متمرکز شده اند. داده کاوی کمک می کند تا نهادی محصول مدار به نهادی مشتری مدار تبدیل شود. داده کاوی به تعبیری دقیق تر به مجموعه ای از ابزارها و تکنیکها اطلاق می شود و یکی از چند تکنولوژی لازم برای حمایت از شرکتی مشتری مدار می باشد. از منظری وسیعتر داده کاوی دیدگاهی است که مطابق آن اعمال تجاری باید براساس یادگیری باشند، دیدگاهی که در آن تصمیمات آگاهانه بهتر از تصمیمات بدون آگاهی هستند. داده کاوی ، موثر واقع شود باید سایر نیازمندیهای مدیریت ارتباط با مشتریان نیز برآورده شود. یک شرکت به منظور ایجاد رابطه ای یادگیرنده با مشتریان خود باید قادر باشد:
1. متوجه آنچه مشتریانش انجام می دهند باشد.
2. عملکرد شرکت و مشتریان شرکت در طول دورانهای مختلف را همیشه به یاد داشته باشد.
3. از آنچه به یاد می آورد درس بگیرد.
4. براساس آنجه یاد گرفته عمل کند تا مشتریانش سودآورتر باشند.
اگرچه تمرکز این کتاب بر گزینه سوم یعنی درس گرفتن از آنچه در گذشته رخ داده می باشد ولی باید گفت یادگیری در خلا اتفاق نمی افتد. باید سیستمهای پردازش تعاملات برای پی بردن به تعاملات مشتریان، انبار داده ها برای ذخیره اطلاعات در مورد رفتارهای گذشته مشتریان و یک استراتژی برای رابطه با مشتری وجود داشته باشد تا آن برنامه ها را به مرحله عمل در آورد.
نقش سیستمهای پردازش تعاملات
یک تجارت کوچک با مشتریان خود روابطی را از طریق توجه به نیازهایشان، به یاد داشتن ترجیحاتشان و درس گرفتن از تعاملات گذشته برقرار می کند تا در آینده به آنها بهتر ارائه خدمات نماید. چگونه یک شرکت عظیم می تواند مشابه این کار را انجام دهد. وقتی این امکان هست که اغلب کارمندان آن شرکت هرگز به صورت شخصی با مشتریان رابطه نداشته باشند؟ حتی اگر تعامل با مشتری هم وجود داشته باشد ممکن است این روابط هر بار با فروشنده یا کارمند متفاوتی در مرکز تلفن برقرار شود. پس چگونه شرکت می تواند به این تعاملات توجه کند. آنها را به یاد آورد و از آنها درس بگیرد؟ چه چیزی می تواند جایگزین حس خلاق یک فروشنده شود که مشتریانش را با اسم و از روی چهره و صدا می شناسد و عادتها و ترجیحات آنها را به یاد می آورد؟ پاسخ این است که هیچ چیز نمی تواند جایگزین شود ولی این مسئله بدان معنی نیست که نمی توان سعی و تلاش کرد. از طریق به کارگیری هوشمندانه تکنولوژیهای اطلاعات حتی بزرگترین شرکتها هم می توانند به نتایج شگفت انگیزی برسند. در شرکتهای تجاری عظیم، اولین گام یعنی توجه به آنچه مشتری انجام می دهد از قبل و به صورت خودکار در آمده است. سیستمهای پردازش تعاملات همه جا هستند و ظاهراً داده هایی را در مورد همه چیز جمع آوری می کنند. نتایج ثبت شده توسط دستگاههای اتوماتیک سخن گو، سرورهای وب، اسکنرهای بارکد کالاهای فروش رفته وموارد مشابه ، تولید کننده داده های خام برای داده کاوی هستند.
امروزه همه ما در طول زندگی جریان مداومی از اطلاعات تعاملی را ایجاد می کنیم. وقتی شما گوشی تلفن را بر می دارید تا یک کالا سفارش دهید جزئیات تماس شما در اداره تلفن محلی ثبت می شود و بطور مثال، زمان تماس، شماره تلفن و عنوان شرکتی را که با آن تماس گرفته اید نشان می دهد. در شرکتی که با آن تماس گرفته اید نیز اطلاعات مشابهی نظیر مدت مکالمه شما ثبت می شود. این داده ها با سایر اطلاعاتی که متشکل از نحوه پرداخت صورتحساب و اسم و آدرس شما برای تهیه یک رسید است جمع می گردد. در شرکتهای تهیه کاتالوگها نیز تماس شما دوباره به همراه اطلاعاتی در باره کاتالوگ مخصوصی که شما از آن سفارش داده اید و هر طرح تشویقی دیگری که به آن پاسخ داده اید ثبت می شود. وقتی پاسخ دهندگان به تماس شما، شماره کارت اعتباری شما و تاریخ انقضای آنرا سوال نموده اند، این اطلاعات هم بلافاصله به سیستم بررسی کارتهای اعتباری داده می شود تا صحت اطلاعات گرفته شده ثابت گردد و این موارد هم البته ثبت می گردد. در یک چشم به هم زدن این تعامل بانکی که صادر کننده کارت اعتباری شماست برقرار می شود و در صورتحساب ماهیانه بعدیتان این مسئله ثبت خواهد شد. وقتی سفارش می دهید آن سفارش با شماره اقلام، اندازه و رنگ آن وارد سیستم سفارشات کاتالوگها می شود و اطلاعات بیشتری را در سیستم کامپیوتری اداره پست تولید می کند جایی که کالاهای ارسالی با پست توسط واحد انبارها بعنوان فرستنده ودر خانه شمابعنوان گیرنده بررسی می شود تا با بررسی وب سایت حامل کالا ببینید کار در چه مرحله ای از پیشرفت است.
این اطلاعات تعاملی برای داده کاوی تولید و جمع آوری نشده اند بلکه برای برآورده کردن نیازهای عملی شرکت ایجاد شده اند. با این وجود همه این اطلاعات حاوی مطالب مفیدی در مورد مشتریان هستند و می توان همگی را با موفقیت کاوش کرد. شرکتهای مخابرات از اطلاعات مربوط به جزئیات تماسها برای دستیابی به شماره تلفن ساکنانی استفاده کرده اند که الگوهای تماسشان شبیه الگوهای تجارتی است تا مخابرات بتواند خدماتخاصی را به افرادی که در منازل خویش کسب و کاری راه انداخته اند عرضه نماید. شرکتهای تهیه کاتالوگها از سفارشات گذشته برای تصمیم گیری در مورد شمولیت هر کدام از مشتریان در ارسال بسته های پستی حاوی کاتالوگ آینده استفاده می کنند. یک شرکت پست از تغییر رخ داده در الگوی تقاضای مشتریان خود در طول تعطیلی موقتی شرکت رقیب استفاده نمود تا سهم خویش را در تجارت توزیع بسته های مشتریانشان محاسبه نماید. سوپر مارکتها از داده های حاصل از اسکن بارکد کالاهای فروش رفته برای تصمیم گیری در مورد چاپ نوع خاصی از کوپن تشویقی برای انواع مشتریان استفاده نموده اند. خرده فروشان اینترنتی از خریدهای قبلی استفاده کرده اند تا تعیین کنند چه کالایی را در زمانی که مشتریان برای بازدید مجدد از سایتشان باز می گردند عرضه کنند.
این سیستم های تعاملی نقطه تماس مشتریان هستند؛ جایی که اطلاعات در مورد رفتار مشتریان برای اولین بار وارد شرکت می شود. در چنین حالتی این سیستم ها در واقع گوش و چشم شرکت هستند.
نقش ذخیره سازی داده ها
شرکتهای مشتری مدار هر اطلاعاتی در مورد هر تعاملی با مشتری یا ارباب رجوع را به عنوان فرصتی برای یادگیری قلمداد می کنند. هر تماسی را با پشتیبانی مشتریان، هر تعاملی را با برگه های فروش، هر نوع سفارش کاتالوگ، هر بازدید از وب سایت شرکت، جزو این تعاملات قلمداد می شود. ولی یادگیری نیازمند چیزی بیش از گردآوری ساده داده هاست . در واقع بیشتر شرکتها صدها گیگابایت یا ترابایت از داده ها را در باره مشتریانشان جمع آوری می کنند بدون اینکه چیزی یاد بگیرند. داده ها جمع می شوند زیرا برای برخی از اهداف عملیاتی چون کنترل فهرستها یا صورتحسابها لازم هستند. وقتی هدف مورد نظر به دست آمد اطلاعات روی یک لوح فشرده ذخیره می شود و یا اصلاً حذف می گردد.
برای اینکه یادگیری رخ دهد باید داده های حاصل از منابع متعدد از جمله اطلاعات موجود در صورتحسابها، داده های اسکنرها، فرمهای ثبت نام، تقاضانامه ها، جزئیات تماسها، نقد کردن کوپنها و معاملات با هم جمع آوری و به روشی مفید و ثابت دسته بندی شوند. این مرحله را ذخیره سازی داده ها می نامند. ذخیره سازی داده ها به شرکتها اجازه می دهد آنچه در مورد مشتریان جلب توجه میکند را به یاد بیاورند.
یکی از مهمترین جنبه های ذخیره سازی داده ها توانایی دنبال کردن رفتار مشتری در طول زمانهای مختلف است. الگوهای مشتریان در طول زمان مشخص می گردد. در ذخیره سازی داده ها لازم است داده های صحیح قدیمی به کار گرفته شود تا داده کاوی بتواند این روندهای مهم را کشف کند. بسیاری از الگوهای مهم در مدیریت روابط با مشتری تنها با گذشت زمان ظاهر می شود. آیا میزان خرید مشتریان روند صعودی و یا نزولی را طی می کند؟ مشتریان چه کانال ارتباطی را ترجیح می دهند؟ مشتریان به چه تبلیغاتی پاسخ می دهند؟
سالها قبل یک شرکت تهیه کاتالوگها وقتی به اهمیت حفظ داده های رفتار گذشته مشتریان پی برد که برای اولین بار اطلاعات مربوط به بیش از یک سال بسته های پستی کاتالوگها و پاسخهایی که ازمشتریانشان گرفته بودند را جمع آوری و نگهداری نمود. آنها دریافتند که بخشی از مشتریان هستند که تنها از طریق کاتالگ و در زمان عید سفارش داده اند. با داشتن شناخت در مورد آن بخش از مشتریان، آنان در مورد اینکه چه کری انجام دهند تصمیماتی گرفتند. آنها می توانستند روشهایی را برای افزایش علاقه این گروه از مشتریان به سفارش دادن در بقیه سال نیز ایجاد نمایند. آنها می توانستند نسبت کلی تعداد پاسخهای دریافتی به تعداد کل بسته های پستی کاتالوگهای ارسال شده را از طریق نفرستادن بسته های پستی برای این بخش در بقیه طول سال افزایش دهند. بدون بررسیهای بیشتر نمی توان گفت که کدامیک پاسخ درست است ولی بدون داشتن داده های گذشته هرگز به این نتیجه نمی رسیدند که باید سوالاتی بپرسند.
یک انباره داده خوب، امکان دسترسی به اطلاعاتی را فراهم می کند که از داده های تعاملی فراهم شده اند و به شکلی کاربردی تر از آنچه در سیستمهای عملیاتی که از آنها داده ها به دست آمده اند نگهداری می شوند.
در حالت ایده آل داده های ذخیره سازها از منابع زیادی جمع آوری می گردد. انباره داده هر شرکت یکی از مهمترین منابع داه ها برای مدیریت روابط تحلیلی با مشتریان است.
نقش داده کاوی
انباره داده برای شرکت مثل یک حافظه عمل می کند ولی حافظه بدون هوش و آگاهی فایده چندانی ندارد. آگاهی به ما اجازه می دهد در حافظه های قبلی خود جستجو کنیم، به الگوهای خاصی توجه نمائیم، قوانینی را ایجاد کنیم، به ایده های جدیدی برسیم، سوالهای درستی را مطرح کنیم و پیش بینی هایی در باره آینده انجام دهیم. در این کتاب به ابزار و تکنکیهایی اشاره می شود که به افزایش گاهی در ذخیره سازی داده ها کمک می نماید. این تکنیکها به شرکتها امکان استفاده از انبوه داده هایی را که از طریق تعاملات با مشتریان و ارباب رجوعها به منظور شناخت بهتر آنها فراهم شده میدهد.
احتمال وفادار ماندن چه مشتریانی زیاد است و چه کسی وفادار نخواهد بود؟ چه محصولاتی را برای چه مشتریان بالقوه ای باید عرضه نمود؟ چه چیزی تعیین می کند که آیا یک فرد به محصول خاصی پاسخ می دهد یا نه؟ چه وقت باید شعبه بعدی را ایجاد نمود؟ محصول یا خدمات بعدی که این مشتری می خواهد کدام است؟ پاسخ به سوالاتی از این دست در بطن داده های شرکت قرار دارد و کشف آنها به ابزارهای قوی داده کاوی نیاز دارد. ایده اصلی داده کاوی برای مدیریت روابط با مشتری این است که داده های قدیمی حاوی اطلاعاتی هستند که در آینده به درد خورده و مفید از آب در می آیند چرا که رفتار مشتریان در داده های شرکت نشان داده شده تصادفی نیستند بلکه نیازهای متفاوت، ترجیحات، تمایلات و عملکردهای مشتریان را نشان می دهند. هدف داده کاوی یافتن الگوهایی در داده های پیشین است که آن نیازها، ترجیحات و تمایلات را روشن تر می نماید. این حقیقت که الگوها همواره واضح نیستند و علائم دریافت شده از مشتریان گاهی مبهم و گیج کننده هستند کار را سخت تر می نماید. جدا کردن علائم از چیزهای به درد نخور یعنی تشخیص الگوهای اساسی در بطن متغیرهای به ظاهر تصادفی، یکی از نقشهای مهم داده کاوی است.
در ادامه، این کتاب بعضی از تکنیکهای مهم داده کاوی را بررسی می کند و نقاط ضعف و قوت هر یک را در زمینه مدیریت روابط با مشتری معین می نماید.
نقش استراتژی مدیریت روابط با مشتری
برای کارایی داده کاوی باید داده کاوی در زمینه ای رخ دهد که به سازمان اجازه تغییر رفتار بر اساس نتیجه حاصل از یادگیری را بدهد. داده کاوی باید در بطن استراتژی روابط با مشتری شرکت قرار گیرد تا برنامه علمیاتی که بایستی انجام گیرد مشخص شود و این عمل در نتیجه آنچه از طریق داده کاوی یاد گرفته شده صورت می پذیرد. وقتی مشتریان کم اهمیت معین شدند چگونه باید با آنها رفتار کرد؟ آیا برنامه هایی برای ترغیب علاقه آنها جهت افزایش اهمیتشان وجود دارد؟ یا بهتر است هزینه خدمات رسانی به آنها را کاهش داد؟ اگر برخی از کانالها به طور مداوم مشتریان سودآوری با خود می آورند چگونه می توان منابع را به سمت آن کانالها سوق داد؟
داده کاوی یک ابزار است و همانطور که در مورد همه ابزارها صدق می کند بیشتر از آنکه لازم باشد بفهمیم داده کاوی چگونه کار می کند، لازم است بفهمیم که چگونه از آن باید استفاده کرد. داده کاوی فرایند تصمیم سازی را بانجام میرساند و تصمیم گیری را به مدیران می سپرد. در واقع داده کاوی پیشنهاد می دهد و نهایتا مدیران آن تجارب تصمیم می گیرند. بطور مثال تجزیه مشکلات یک شرکت ارائه دهنده خدمات تلفن همراه، اغلب نشان می دهد احتمال لغو اشتراک مشترکینی که الگوهای تماسشان با الگوی پیش بینی و طراحی شده توسط شرکت هماهنگی ندارد بیشتر است. آنانی که از تلفن بیش از زمانی که در طرحشان قید شده استفاده می کنند هزینه این زمانهای اضافی را می پردازند و اغلب اشتراک خود را لغو می کنند. آنانی که از کل زمان تخصیص یافته به آنها استفاده نمی کنند هزینه دقایق استفاده نشده را می پردازند و احتمالاً جذب پیشنهاد رقیبی می شوند که قول ارائه طرح ارزان تر را می دهد. این نتایج نشان می دهد که باید کار موثری کرد تا مشتریان را به سمت طرحی سوق داد که دقیقا مطابق خواسته آنان است، ولی این تصمیم آسانی نیست. تا زمانی که مشتریان در طرح نامناسب برای آنان همچنان مشترک هستند اگر آنها را به حال خودشان رها کنیم برای شرکت سودآور ترند. قطعا تجزیه و تحلیل های بیشتری لازم است، احتمالاً بخشی از این مشتریان نسبت به قیمت حساس نیستند و می توان آنها را به حال خودشان گذاشت. یک تحلیل مناسب داده کاوی می تواند به حل این مسائل کمک کند. داده کاوی می تواند با بکارگیری تکنیک مناسب در اتخاذ تصمیمات آگاهانه تر کمک کند ولی نهایتاً این خود مدیران آن تجارت هستند که باید تصمیم نهایی را اتخاذ کنند.
داده کاوی چیست؟
داده کاوی به بررسی و تجزیه و تحلیل مقادیر عظیمی از داده ها به منظور کشف الگوها و قوانین معنی دار اطلاق می شود. با توجه به رویکرد این کتاب، به جهت ایجاد درکی آسانتر مثال ها و نمونه های عملی ذکر شده از مقوله بازاریابی و مدیریت ارتباط با مشتریان انتخاب شده است و فرض کتاب حاضر این است که هدف داده کاوی قادر ساختن یک شرکت به بهبود بازاریابی، فروش و عملکردهای پشتیبانی از مشتریان از طریق درک بهتر مشتریانش می باشد. با این وجود به یاد داشته باشید که ابزارها و تکنیکهای داده کاوی بیان شده در این کتاب در همه زمینه های دیگر نیز یکسان عمل می کنند و کافی است شما آن را به موضوعات خود مرتبط سازید. براساس اعلام دانشگاه MIT امروزه مرز و محدودیتی برای دانش داده کاوی متصور نبوده و مرز آن را از اعماق اقیانوس ها تا بیکران فضا می دانند.
در حقیقت هیچ کدام از الگوریتم های داده کاوی در ابتدا با کاربردهای تجاری در ذهن به وجود نیامدند. داده کاوهای تجاری از یک سری تکنیکهای وام گرفته شده از آمار و علوم کامپیوتر استفاده می کنند. انتخاب مجموعه ای از تکنیکها برای به کارگیری در موقعیت خاص بستگی به ماهیت عمل داده کاوی، ماهیت داده های موجود و مهارتها و ترجیحات داده کاوان دارد.
داده کاوی در دو نوع هدایت شده و غیر هدایت شده ظاهر می شود. داده کاوی هدایت شده دارای هدفی خاص و از پیش تعیین شده است که بدنبال الگویی خاص میگردد در حالیکه هدف داده کاوی غیر هدایت شده یافتن الگوها یا تشابهات بین گروههایی از اطلاعات بدون داشتن هدفی خاص و یا مجموعه ای از دسته ها و الگوهای از پیش تعیین شده می باشد. هر دو نوع داده کاوی در فصول بعدی تشریح خواهد شد.
داده کاوی عمدتاً با ساختن مدلها مرتبط است. یک مدل اساساً به الگوریتم یا مجموعه ای از قوانینی گفته می شود که مجموعه ای از ورودی ها را (معمولاً به شکل زمینه هایی در پایگاه داده های شرکت) با هدف یا مقصد خاصی مرتبط می نماید. رگرسیون ، شبکه های عصبی، درختهای تصمیم و بیشتر تکنکیهای داده کاوی دیگر که دراین کتاب آمده تکنیکهایی برای مدل سازی هستند. یک مدل تحت شرایط درست می تواند منجر به بینش درست شود. بطور مثال از مدلها برای ایجاد امتیازها استفاده می شود. امتیاز نوعی بیان یافته های یک مدل به صورت عددی است. از امتیازها می توان برای تهیه فهرستی از مشتریان از محتمل ترین فرد تا کم احتمال ترینشان در پاسخ به تبلیغات یک محصول جدید و یا محتمل ترین تا کم احتمال ترین فرد برای عدم باز پرداخت وام استفاده کرد.
حال سوال اینجاست که با داده کاوی چه کارهایی می توان انجام داد؟ بسیاری از مسائل محیط اطراف خود را می توان در قالب یکی از شش عمل زیر گنجاند:
* دسته بندی
* تخمین
* پیش بینی
* دسته بندی شباهت
* خوشه بندی
* توصیف و نمایه سازی
سه مورد اول همگی مثالهایی از داده کاوی هدایت شده هستند که هدف آنها یافتن ارزش یک متغیر هدف خاص است. دسته بندی شباهت و خوشه بندی جزء داده کاوی غیر هدایت شده هستد که در آن هدف، یافتن ساختاری در داده ها بدون توجه به یک متغیر هدف خاص است. نمایه سازی عملی توصیفی است که می تواند هم هدایت شده و هم غیر هدایت شده باشد. در ادامه به هر کدام بصورت مختصر پرداخته می شود.
دسته بندی
به نظر می رسد دسته بندی که یکی از معمولترین کارکردهای داده کاوی است یکی از واجبات بشر است. ما برای شناخت و برقراری رابطه در باره دنیا به طور مداوم دسته بندی، قسمت بندی و درجه بندی می کنمی. ما موجودات زنده را به شاخه ها، گونه ها و گل ها تقسیم می کنیم؛ مواد را به عناصر و حیوانات و انسان را به نژادها تقسیم می کنیم.
دسته بندی شامل بررسی ویژگیهای یک مورد جدید و تخصیص آن به یکی از مجموعه های از قبل تعیین شده می باشد. عمل دسته بندی با تعریف درستی از دسته ها و مجموعه ای از ویژگیها که حاوی موارد از پیش دسته بندی شده هستند مشخص می گردد. این عمل شامل ساختن مدلی است که بتوان از آن برای دسته بندی کردن داده های دسته بندی نشده استفاده نمود. اشیایی که باید دسته بندی شوند معمولاً به وسیله اطلاعاتی در جدول پایگاه داده ها یا یک فایل ارائه می شوند و عمل دسته بندی شامل افزودن ستون جدیدی با کد دسته بندی خاصی است. مثالهایی از دسته بندی که با استفاده از تکنیکهای توصیف شده در این کتاب به دست آمده اند در زیر ارائه شده است:
* دسته بندی متقاضیان وام و اعتبار به عنوان کم خطر، متوسط و پرخطر
* انتخاب محتویات یک صفحه وب برای قرار دادن در شبکه اینترنت
* تعیین شماره تلفن های متصل به دستگاههای فکس
* تشخیص مدعیان حق بیمه که دریافت حق بیمه شامل آنها نمی شود
در همه این مثالها تعداد محدودی از دسته ها وجود دارد و انتظار داریم بتوانیم هر اطلاعاتی را به یک یا دو مورد از آنها تخصیص دهیم. (تکنیکهای درختهای تصمیم و نزدیکترین همسایه از جمله تکنیکهای دسته بندی می باشند. شبکه های عصبی و تحلیل پیوندها نیز در شرایط خاصی عمل دسته بندی را انجام می دهند.
تخمین
تخمین با نتایج مجزا که با ارقام پیوسته نشان داده شده اند سروکار دارد. در تخمین داده های ورودی داده می شود و متغیرهای خروجی آن رقمی چون درآمد یا تراز کارت اعتباری می شود.
در عمل، تخمین اغلب برای انجام دسته بندی استفاده میشود. یک شرکت کارتهای اعتباری که مایل است یک فضای تبلیغاتی را در پاکتهای صورتحساب به یک تولید کننده پوتین اسکی بفروشد باید مدلی دسته بندی تهیه کند که همه دارندگان کارتها را در یکی از دو دسته اسکی باز یا غیر اسکی باز قرار دهد. روش دیگر ایجاد مدلی است که به هر دارنده کارت یک امتیاز تمایل به اسکی تخصیص می دهد. این ارقام می تواند صفر ویک باشد که نشانگر احتمال تخمین زده شده برای اسکی باز بودن و یا نبودن دارنده کارت است. عمل دسته بندی اکنون به ایجاد امتیازی آستانه ای منجر می گردد. هر کسی که امتیازی کمتر از امتیاز مورد نظر داشته باشد اسکی باز محسوب نمی گردد.
روش تخمین فواید زیادی دارد که در آن اطلاعات منفرد را می توان مطابق تخمین به دست آمده مرتب نمود. برای پی بردن به اهمیت آن فرض کنید که شرکت تولید پوتین های اسکی برای ارسال پانصد هزار مورد آگهی تبلیغاتی محصول جدید خود بودجه ریزی نموده است. فرض کنید از روش دسته بندی استفاده شده و یک و نیم میلیون نفر اسکی باز تعیین شده اند. پس به راحتی می توان به صورت تصادفی، تبلیغات را در صورتحسابهای پانصد هزار نفر منتخب از آن افراد قرارداد. اگر از طرف دیگر هر دارنده کارت، امتیاز تمایل به اسکی را داشته باشد می توان تبلیغات را برای پانصد هزار از محتمل ترین کاندیداها فرستاد. برخی دیگر از مثالهای تخمین در زیر آمده است:
* تخمین تعداد فرزندان در یک خانواده
* تخمین درآمد کل یک خانواده
* تخمین عمر یک مشتری
* تخمین احتمال پاسخ فردی خاص به یک پیشنهاد بیمه عمر
مدلهای رگرسیون و شبکه های عصبی از جمله تکنیک های مناسب داده کاوی برای تخمین میباشند.
پیش بینی
پیش بینی مانند دسته بندی یا تخمین است با این تفاوت که اطلاعات مطابق برخی از رفتارهای پیش بینی شده آینده یا ارقام تخمین زده آینده دسته بندی می شوند. در عمل پیش بینی تنها روش برای بررسی صحت دسته بندی، انتظار دیدن آینده است.
هر یک از تکنیکهای استفاده شده در دسته بندی و تخمین را می توان برای استفاده در پیش بینی تطبیق داد، جایی که متغیری که باید پیش بینی شود از قبل معلوم است و داده های پیشین برای آن وجود دارد. از داده های پیشین برای تهیه یک مدل که بیانگر رفتار مشاهده شده کنونی است استفاده می شود. وقتی این مدل برای ورودی های کنونی به کار رفت نتیجه کار، پیش بینی رفتار آینده خواهد بود. مثالهایی از پیش بینی که از طریق تکنیکهای داده کاوی بحث شده در این کتاب به آنها پرداخته می شود از این قرارند:
پیش بینی اینکه کدام مشتریان در طول 6 ماه آینده بازار محصول ما را ترک خواهند کرد.
پیش بینی اینکه کدام مشترکین تلفن، متقاضی خدمات ویژه مانند مکالمه سه جانبه یا پست صوتی خواهند شد.
بیشتر تکنیکهای داده کاوی که در این کتاب بیان شده اند در صورت وجود داده های مناسب برای استفاده در پیش بینی مناسبند. انتخاب تکنیک به ماهیت داده های ورودی و نوع متغیری که باید پیش بینی شود بستگی دارد.
دسته بندی شباهت یا قوانین وابستگی
عمل دسته بندی شباهت برای تعیین این است که چه چیزهایی با هم جورند. مثال معمول این موضوع تعیین کالاهایی است که با هم در یک چرخ دستی خرید در سوپر مارکت قرار می گیرند چیزی که آن را تحلیل سبد بازار می نامیم. فروشگاههای زنجیره ای خرده فروشی می توانند از دسته بندی شباهت برای تعیین چیدمان کالاها در قفسه های فروشگاه و یا در کاتالوگ استفاده کنند تا اقلامی که اغلب با هم خریده می شوند در کنار هم قرار گیرند. از دسته بندی شباهت می توان برای تعیین شرایط فروش های متقابل و همزمان و همچنین برای طراحی بسته بندی های جذاب و یا دسته بندی محصولات یا خدمات استفاده کرد.
دسته بندی شباهت یک روش ساده برای ایجاد قوانین از داده هاست. اگر دو قلم کالا مثلاً شیر خشک و پوشک نوزاد را کنار هم بچینیم می توان دو قانون همبستگی ایجاد کرد:
* افرادی که شیر خشک نوزاد می خرند همچنین با احتمال 1P پوشک نوزاد را هم می خرند.
* افرادی که پوشک نوزاد می خرند همچنین با احتمال 2P شیر خشک نوزاد را هم می خرند. قوانین همبستگی در صول آینده به صورت مفصل مورد بحث قرار می گیرد.
خوشه بندی
خوشه بندی به عمل تقسیم جمعیت ناهمگن به تعدادی از زیر مجموعه ها یا خوشه های همگن گفته می شود. نقطه تمایز خوشه بندی از دسته بندی این است که خوشه بندی به دسته های از پیش تعیین شده اختصاص می یابد. این دسته ها از طریق یافته های پژوهش های پیشین تعیین گردیده اند.
در خوشه بندی هیچ دسته از پیش تعیین شده ای وجود ندارد و داده ها صرفا براساس تشابه گروه بندی می شوند و عناوین هر گروه نیز توسط کاربر تعیین میگردد. بطور مثال خوشه های علائم بیماریها ممکن است بیماریهای مختلفی را نشان دهند و خوشه های ویژگیهای مشتریان ممکن است حاکی از بخشهای مختلف بازار باشد.
خوشه بندی معمولاً به عنوان پیش درآمدی برای انواع دیگری از داده کاوی یا مدل سازی به کار می رود. به عنوان مثال، خوشه بندی ممکن است اولین گام در تلاش برای تقسیم بندی بازار باشد. برای ایجاد یک قانون که در همه موارد کاربرد داشته باشد و به این سوال پاسخ که مشتریان به چه نوع تبلیغاتی به بهترین نحو پاسخ می دهند اول باید مشتریان را به خوشه های متشکل از افرادی با عادتهای مشابه خرید تقسیم نمود و سپس پرسید که چه نوع تبلیغاتی برای هر خوشه به بهترین نحو عمل می کند. به تکنیک های یافتن خوشه ها را در فصول بعدی به طور مفصل پرداخته میشود.
نمایه سازی
گاهی اوقات هدف داده کاوی تنها توصیف آن چیزی است که در یک پایگاه داده ای پیچید در جریان است. نتایج نمایه سازی درک ما را از مردم، محصولات یا فرآیندهایی که داده ها را در مرحله اول تولید کرده اند افزایش می د هد. توصیف خوب رفتار، اغلب توضیح خوبی هم به همراه دارد. حداقل یک توصیف خوب نشان می دهد کی می توان انتظار یک توضیح مناسب را داشت. شکاف جنسیتی مشهور در سیاست آمریکا مثالی از این دست است که چگونه این توصیف ساده که تعداد زنان حامی حزب دمکرات بیش از مردان است می تواند توجه بیشتر و مطالعات تکمیلی را برای روزنامه نگاران، جامعه شناسان، اقتصاددانان و دانشمندان علوم سیاسی ایجاد کند.
درختهای تصمیم ابزار مفیدی برای نمایه سازی می باشد. قوانین وابستگی و خوشه بندی را نیز می توان برای نمایه سازی ها استفاده نمود.
چرا حالا؟
بیشتر تکنیکهای داده کاوی که در کتاب توصیف شده اند حداقل به عنوان الگوریتمهای آکادمیک از سالها یا دهه های قبل وجود داشته اند. با این وجود، تنها در دهه اخیر است که داده کاوی تجاری نقش عمده ای را بازی کرده کرده است. این مسئله به خاطر رخداد همزمان عوامل زیر است :
* داده ای که ایجاد شده است.
* داده ای که ذخیره شده است.
* توان محاسباتی بالا که قابل دسترسی است.
* علاقه به مدیریت روابط با مشتریان فراوان است.
* محصولات نرم افزاری داده کاوی وجود دارند.
داده ای که ایجاد شده است
داده کاوی هنگامی بیشترین معنی را پیدا می کند که داده های زیادی وجود داشته باشد. در حقیقت، اغلب الگوریتم های داده کاوی برای تولید مدل های دسته بندی، تخمین، پیش بینی و سایر کارکردهای داده کاوی نیازمند میزان زیادی از داده ها هستند.
صنایعی نظیر مخابرات و کارتهای اعتباری به مدت طولانی روابط تعاملی و اتوماتیک با مشتریان داشته اند و اطلاعات تعاملی زیادی را جمع آوری نموده اند ولی داده های برگرفته از بیشتر صنایع امروزه مرهون اتوماتیک شدن زندگی روزمره در تمامی زمینه ها است. در شرایط حاضر افزایش ثبت الکترونیک فروش فروشگاهها، ماشینهای اتوماتیک سخنگو، کارتهای اعتباری، خرید آنلاین، انتقال پول الکترونیکی، پردازشهای سفارش اتوماتیک ، خرید بلیط الکترونیکی و سایر موارد مشابه، داده ها را به صورت انبوه تولید کرده و به صورت بی نظیری آنها را جمع آوری می نماید.
داده ای که ذخیره شده است
در فرایند ذخیره سازی داده ها، داده ها از منابع بسیار متفاوت اما به شکل واحد و با تعاریف ثابت جمع آوری می گردد. انباره داده باید بصورت عمده بگونه ای طراحی شود که عمل داده کاوی را تسهیل نماید.
توان محاسباتی قابل دسترسی است
الگوریتم های داده کاوی معمولاً نیازمند عبور چند گانه از میزان عظیم داده هاست. بیشتر آنها از نظر محاسباتی فشرده هستند. کاهش شدید و مداوم در قیمت کامپیوتر، انجام تکنیکهایی را که زمانی فقط در چند مرکز دولتی امکان پذیر بود را با کامپیوترهای معمولی عملی ساخته است.
ارائه موفق نرم افزارهای مدیریتی پایگاه داده ها از جانب تولید کنندگان عمده مانند اوراکل، ترادیتا و آی بی ام این توان را ایجاد کرده که فرآیندهای موازی در بسیاری از مراکز داده ای شرکتها برای اولین بار انجام شود. این برنامه سرور پایگاه داده های موازی، فراهم کننده محیطی عالی برای داده کاوی در مقیاس بزرگ می باشد.
علاقه به مدیریت روابط با مشتریان فراوان است
در طیف وسیعی از صنایع، شرکتها به این بینش رسیده اند که مشتریان برای سازمان حیاتی هستند و بالطبع اطلاعات در باره آن مشتریها یکی از دارایی های اساسی سازمان می باشد.
همه تجارتها، خدمات هستند
اطلاعات برای شرکتها در بخش خدماتی، مزایای رقابتی ایجاد می نماید و به این دلیل بطور مثال هتلهای زنجیره ای ترجیح شما به استفاده از اتاق مخصوص غیر سیگاری ها و شرکتهای کرایه اتومبیل، نوع ماشین انتخابی شما را ثبت می کنند. حتی محصولات و ابزارآلات را می توان با خدمات توسعه داد. یک شرکت تامین کننده گازوئلی شوفاژ خانگی که میزان استفاده شما را ثبت کرده است، زمان اتمام سوخت شما را میداند و با شما برای تامین سوخت پیش از اتمام آن تماس میگیرد. بدیهی است این شرکت سرویس بهتری را در مقایسه با شرکت دیگری که انتظار دارد شما یادتان باشد برای تهیه سوخت قبل از خالی شدن مخزن سوخت و یخ بستن لوله ها با آنها تماس بگیرید ارائه میدهد. شرکتهای اعتباری، خطوط هوایی و انواع خرده فروشان اغلب به همان اندازه که روی قیمت با هم رقابت دارند روی کیفیت و نوع خدمات هم رقابت می کنند.
اطلاعات یک محصول است
بیشتر شرکتها در می یابند اطلاعاتی که در باره مشتریانشان دارند نه تنها برای خودشان بلکه برای دیگران هم ارزشمند است. یک سوپر مارکت بوسیله صدور کارت وفاداری برای تک تک مشتریان خود، از اینکه چه کسی چه محصولاتی را می خرد آگاهی می یابد که این اطلاعات از سوی دیگر مطلوب تولید کننده کالاهای بسته بندی شده نیز می باشد. یک شرکت کارت اعتباری چیزهایی می داند که شرکتهای خطوط هوایی هم دوست دارند بدانند یعنی چه مشتریانی بطور مکرر بلیط های پرواز میخرند. هم سوپر مارکت و هم شرکت کارت اعتباری در موقعیتی قرار دارند که به صورت واسطه شناخت و اطلاعات قرار گیرند. یک سوپر مارکت می تواند از شرکتهای ارائه دهنده کالاهای بسته بندی شده تقاضای پول بیشتر برای چاپ کوپن کند وقتی سوپر مارکتها بتوانند قول بازپرداخت با نرخ بالاتر را با چاپ کوپن های خاص برای خریداران مناسب بدهند. شرکت کارت اعتباری می تواند از شرکتهای خطوط هوایی برای ارائه تبلیغات به مشتریانی که به دفعات اما از طریق شرکت های هواپیمایی رقیب پرواز می کنند هزینه بیشتری مطالبه کند. گوگل می داند مردم در وب دنبال چه چیزی هستند. از گوگل از این شناخت و فروش این اطلاعات بهره میبرد. در واقع هر شرکتی که داده های با ارزش جمع آوری می کند در موقعیت یک واسطه اطلاعات قرار دارد.
محصولات نرم افزاری داده کاوی تجاری موجودند
همیشه فاصله ای بین زمانی که الگوریتم های جدید برای اولین بار در مجلات دانشگاهی و مقالات کنفرانسها ظاهر می شوند و زمانی که نرم افزارهای تجاری آن الگوریتم ها به بازار ارائه میشود وجود دارد. همچنین فاصله ای زمانی بین عرضه اولیه اولین محصولات و زمان کسب مقبولیت عمومی آنها وجود دارد. در مورد داده کاوی دوره عرضه گستره و مقبولیت آن فرا رسیده است.
بیشتر تکنیکهای بررسی شده در این کتاب سالها پیش پا به عرصه ظهور گذاشتند. بعد از چند سال از عرضه این تکنیکهای جدید در مراکز دانشگاهی و دولتی، از آنها در قسمتهای تجاری نیز استفاده شد. در این دوران و در مرحله تکامل تکنیک های جدید، نرم افزارهای ابتدایی وجود داشتند تا به کاربرانی که مایل به دستیابی به آنها از طریق FTP، انباشته کردن آنها و فهمیدن چگونگی استفاده از آن با خواندن تز دکترای نویسنده آن بودند کمک نمایند. تنها بعد از موفقیت چند فرد پیشرو در زمینه تکنیکهای جدید، راهنماها و دستورالعملهای کمک به کاربران در مورد محصولات واقعی به وجود آمد. امروزه تکنیکهای جدیدی در حال توسعه اند با این وجود برای توسعه و بهبود تکنیکهای موجود نیز باید کار کرد. همه تکنیکهای بررسی شده در این کتاب در محصولات نرم افزاری تجاری موجودند.
امروزه چگونه از داده کاوی استفاده می شود؟
در بحث کاربردهای جالب داده کاوی هدف ما نشان دادن کاربری گسترده تکنیکهای داده کاوی است که در این کتاب بررسی می گردند.
یک سوپر مارکت واسطه اطلاعات می شود
به خاطر دقت اعمال شده در ثبت همه اقلام خریداری شده و برنامه های کارت وفاداری که آن خریدها را به تک تک مشتریان مرتبط می سازند امروزه سوپرمارکتها به مرحله ای رسیده اند که هر چیزی را در مورد مشتریانشان مد نظر قرار می دهند.
فروشگاههای بزرگ زنجیره ای کشورهای توسعه یافته از این تکنولوژی بهره برده و خود را به شکل یک واسطه اطلاعات مطرح می کنند. این فروشگاهها آدرس و داده های جمعیت شناختی را به طور مستقیم از مشتریانشان گرفته و در ازای آن در هنگام خرید با ارائه کارتهای وفاداری به آنها تخفیف می دهد. برای به دست آوردن کارت، خرید کنندگان به صورت داوطلبانه اطلاعات شخصی را ارائه می دهند که برای به دست آوردن کارت، خرید کنندگان به صورت داوطلبانه اطلاعات شخصی را ارائه می دهند که برای به دست آوردن شناختی عملی در مورد مشتریان به صورت ورودی های مناسب عمل می نماید. از آنجا به بعد هر وقت این مشتریان کارت وفاداری برخوردار از تخفیف را نشان دهد پیشینه تعاملی وی در انباره داده به روز می شود. مشتریان با هر فت و آمد به فروشگاه، داده های جدیدی در مورد خودشان به فروشندگان اضافه می کنند. فروشگاه احتمالاً به الگوهای حاصل از تحلیل داده های مشتریان علاقمندتر است تا به رفتار تک تک مشتریان، الگوهایی نظیر آنکه چه اقلامی باهم به فروش می رسند و یا چه چیزهایی باید کنار هم در قفسه چیده شوند. اطلاعاتی که در باره تک تک مشتریان جمع آوری شده برای تولید کنندگان محصولات عرضه شده در فروشگاه نیز از اهمیت خاصی برخوردار است.
البته فروشگاه به مشتریان اطمینان خاطر می دهد که اطلاعات جمع آوری شده به صورت محرمانه نگهداری می شود. به جای اینکه به شرکت های تولید کننده کالا فهرستی از مصرف کنندگان معمول کالاهای آن شرکت را بدهند، فروشگاه امکان دسترسی به مشتریانی را فراهم می کند که براساس عادتهای خریدشان و داده های که عرضه کرده اند به صورت خریداران احتمالی محصول آن تولید کننده خاص و یا رقیب آن تولید کننده در آمده اند. این فروشگاه ها از تولید کنندگانی که می خواهند کوپن ها یا فعالیت های تبلیغاتی شان را به دست افراد مناسب برسانند مبلغی در ازای ارائه هر اسم می گیرند. از آنجایی که خرید با ارائه کوپن ها نیز به صورت یک ورودی در فایل پیشینه تعاملی خریداران در می آید، نرخ دقیق پاسخ گروه مشتریان هدف یکی از دستاوردهای مهم اطلاعاتی است. علاوه بر این، پاسخ و یا عدم پاسخ یک مشتری خاص به صورت ورودی برای مدلهای پیش بینی آینده در می آید.
بعضی از شرکت های بزرگ در کشورهای توسعه یافته کار مشابهی انجام داده و فضای تبلیغاتی روی پاکتهای صورتحسابشان را می فروشند. قیمتی که آنها می توانند برای فضای موجود در پاکتها مطالبه کنند به طور مستقیم به توانایی آنها در تعیین صحیح افرادی که احتمالاً به تبلیغات پاسخ می دهند مرتبط است. اینجاست که پای دانش نوین داده کاوی به میان می آید.
تجارت بر اساس توصیه
شرکت های بزرگ به صورت مستقیم و از طریق وب سایت، محصولات خود را به مصرف کنندگان می فروشند. از مشتریان جدید در هنگام اولین بازدیدشان از سایت برای تکمیل یک پرسشنامه دعوت می شود. این پرسشنامه از هر مصرف کننده می خواهد انواع مختلف کالاها را رتبه بندی کند. از این رتبه بندی برای تهیه اطلاعات مربوط به سلیقه مشتریان استفاده می شود. در طول دوره تهیه این اطلاعات در این سایت به مشتریان توصیه های آزمایشی داده می شود و مشتری شانس این را دارد که با آن نظرات موافقت یا مخالفت نموده تا اطلاعات اصلاح شود. وقتی تحلیل حاصل از این پرسشنامه های تکمیل یافته اتمام یابد، سایت به اندازه کافی در باره مشتریان اطلاعات در اختیار دارد تا توصیه های اصلاح و تکمیل شده خود را در اختیار آنها قرار دهد.
در طول زمان این سایت هر آنچه را که مشتریان می خرند دنبال می کند و از این اطلاعات برای به روز کردن خوداستفاده می کند. مشتریان می توانند اطلاعات خویش را با تکمیل مجدد این پرسشنامه هر گاه که بخواهند انتقال دهند. آنها می توانند در میان اطلاعات مربوط به خریدهای قبلی خود نیز جستجو کنند. اطلاعات هر کالایی را که تا بحال مشتری خریده یا در سایت رتبه بندی کرده در آنجا ذخیره می شود.
ممکن است مشتریان خریدهای گذشته خود را هر گاه بخواهند رتبه بندی یا دوباره رتبه بندی کنند که اطلاعات خوبی را بطور پیوسته برای سیستم فراهم می کند. این وب سایت با این توصیه ها می تواند به مشتریان جدید، کالاهایی را که دوست دارند توصیه نموده و بدین روش با سایت های فروش کالای رقیب رقابت نماید.
فروش متقابل و همزمان
شرکت های بیمه در کشورهای توسعه یافته امروزه به بازاریابی اطلاعات مدار روی آورده اند. این شرکت ها اطلاعات مشتریان خود را با جزئیات فراوان نگه می دارند و از داده کاوی در تمامی موارد از جمله برای پیش بینی نیاز هر کدام از مشتریان به هر کدام از محصولات بیمه ای براساس پیش بینی جایگاه آنان در چرخه زندگی استفاده می کنند.
شرکت ها از داده کاوی برای توسعه توانایی فروش
متقابل وهمزمان خویش نیز بهره می برند. این شرکت ها دارای انباره داده ای هستند که حاوی اطلاعات مربوط به همه مشتریانشان است و از این اطلاعات برای تهیه مدلهای داده کاوی استفاده مشتریان را جلب خواهد نمود. با داشتن این شناخت، وقتی یکی از مشتریان کنونی با این شرکت ها تماس می گیرد، صفحه تلفن نشان می دهد که دقیقاً مکالمه باید به کجا منتقل شود.
این شرکت ها علاوه بر توسعه توانایی خود برای فروش متقابل و همزمان ، با بهره گیری از انباره داده های بازاریابی خود، مدلهایی می سازند که عوامل موثر بر افزایش وفاداری و حفظ مشتریان را شناسایی نموده و در نتیجه برای بقای مشتریان برنامه ریزی می نمایند. بطور مثال این مدلها شرکت را به حفظ خدمات خاصی را که امکان عدم تداوم آن وجود داشت هدایت می کند. نتایج این مدل داده کاوی نشان میدهد که افراد استفاده کننده از این خدمات در صورت عدم تداوم این خدمات، احتمال بسیار بیشتری نسبت به متوسط مشتریان در رجوع به رقیب داشتند. در صورت عدم بهره گیری از دانش داده کاوی و بالنتیجه عدم تداوم این خدمات خاص، گروه سودآوری از مشتریان وفادار به خرید از سایر شرکتها ترغیب می شدند.
حفظ مشتریان خوب و غربال کردن مشتریان بد
امروزه شرکتهای مختلف کشورهای توسعه یافته از شرکتهای خدماتی گرفته تا تولید کنندگان عظیم، از دانش نوین داده کاوی برای حفظ و افزایش ارزش هر مشتری استفاده می کنند در جایی که از یک سو مشتریان آزادند تولید کنندگان را به خاطر قیمت بهتر کالا عوض کنند و از سوی دیگر رقبا مشتاقند آنها را جذب کنند. این مسئله یک موضوع مهم است، بنابراین با کسب شناخت در باره محتمل ترین افراد برای ترک شرکت و دلیل آن می توان یک طرح حفظ مشتری را تهیه کرد تا به درستی به مسائل پرداخته شده و مشتریان مناسب به عنوان هدف انتخاب شوند.
در یک بازار حرفه ای، جذب یک مشتری جدید بیش از حفظ مشتری کنونی هزینه بر است. با این وجود، انجام اعمالی برای حفظ یک مشتری نیز معمولاً هزینه بر است. دانش داده کاوی با دسته بندی مشتریان به سه دسته مشتریانی که بایستی برای حفظ آنان هزینه کرد، مشتریانی که بدون هزینه باقی می مانند و مشتریانی که در هر صورت شرکت را ترک می کنند برنامه و الگویی خاص ارائه می دهد.
در بیشتر صنایع، هزینه برخی از مشتریان بیش تر از آن چیزی است که می ارزند، اینها احتمالاً کسانی هستند که منابع زیادی از پشتیبانی مشتریان را بدون خرید کردن هدر می دهند.
از همان تکنیکهای داده کاوی که برای با ارزش ترین مشتریان استفاده می شد می توان برای تشخیص آنانی که صلاحیت اعطای وام را ندارند، آنانی که باید بسیار منتظر بمانند و آنانی که باید در صف مقدم قرار گیرند استفاده نمود.
تحول اساسی در یک صنعت
در سال 1988 این ایده که با ارزشترین موهبت یک شرکت کارتهای اعتباری، اطلاعاتی است که در باره مشتریانش دارد تحولی اساسی ایجاد نمود. این ایده ای بود که ریچارد فیربنک1 و نیگل موریس2 در 25 بانک عملی کردند قبل از اینکه شرکت بانکداری سیگنت3 تصمیم به آزمایش این ایده بگیرد.
سیگنت داده های رفتاری را از منابع زیادی به دست آورد و برای تهیه مدلهای پیش بینی از آنها استفاده نمود. با استفاده از این مدلها روش کار صنعت کارتهای اعتبار تغییر کرد. در سال 1994، شرکت سیگنت کار تهیه کارتهای اعتباری را تحت عنوان کپتال وان4 شروع کرد که امروزه یکی از ده شرکت برتر کارتهای اعتباری است. بهره گیری از تکنولوژی داده کاوی که باعث چنین رشد سریعی شد در نگه داشتن کپتال وان در بین شرکتهایی با کمترین نرخ بهره در صنعت نقش مهمی ایفا کرد. داده کاوی امروزه در قلب استراتژی بازاریابی همه موسسات عمده کارتهای اعتباری است.
بانک های بزرگ در کشورهای توسعه یافته از تکنیکهای داده کاوی برای پیش بینی اینکه احتمالاً کدام مشتریان به زودی محل سکونت خود را تغییر می دهند استفاده می کنند. برای اغلب مردم، عزیمت به خانه ای جدید در شهری دیگر به معنی بستن حساب خود در بانک قبلی و افتتاح حساب در بانک جدید است. این بانک ها با تعیین مشتریانی که در شرف تغییر مکان هستند و تسهیل امر انتقال آنان به شعبه دیگر این بانک ها در محل جدید، نرخ حفظ مشتریان را بالا میبرند. بدین روش نه تنها حفظ مشتریان افزایش زیادی می یابد بلکه یک تجارت سودآور دیگر نیز با این تغییر مکان به وجود می آید. این بانک ها علاوه بر افتتاح حساب بانکی برای گاز، برق و سایر خدمات در مکان جدید برنامه ریزی می نمایند.
گستره کاربرد دانش داده کاوی
این کاربردها باید در شما این احساس را بوجود آورد که با به کار بردن داده کاوی چه چیزهایی ممکن می گردد ولی نمی توان تک تک همه کاربردها را نام برد. همانطور که پیشتر اشاره شد بنابر اعلام دانشگاه MIT امروزه مرز و محدودیتی برای دانش داده کاوی در نظر گرفته نشده و دامنه کاربرد آن را از اعماق اقیانوس ها تا اعماق فضا می دانند. البته بدیهی است که تنها محدودیت دانش داده کاوی وجود داده ها می باشد. تکنیک های داده کاوی بیان شده در این کتاب می تواند برای انجام بسیاری از موضوعات مورد نیاز استفاده شود. در فصل بعد چگونگی استفاده موثر از داده کاوی با استفاده از چرخه های مختلف داده کاوی تشریح شده است.
مطالب آموخته شده در این فصل
داده کاوی یکی از مولفه های مهم مدیریت تحلیلی روابط با مشتری است. هدف مدیریت تحلیلی روابط با مشتری تا جایی که امکان پذیر است باز تولید روابط یادگیری است که یک تجارت موفق با مشتریانش دارد. تعاملات یک شرکت با مشتریانش داده های زیادی را تولید می کند. این داد ها در وهله اول از طریق سیستمهای پردازش تعاملات چون فایلهای اطلاعاتی فروشگاهها تولید می شوند. سپس داده ها جمع آوری، تصفیه اتوماتیک و خلاصه می شوند تا در انباره داده های مشتری قرار گیرند. یک انباره داده های مشتری که به خوبی طراحی شده حاوی اطلاعات تاریخی درباره تعاملات مشتریان است که به صورت حافظه شرکت عمل می کند. با استفاده از ابزارهای داده کاوی برای اطلاعات قبلی، شرکت چیزهای جدیدی در باره مشتریان یاد می گیرد که در نتیجه استفاده از دانش ایجاد شده شرکت قادر خواهد بود در آینده به مشتریان بهتر خدمت رسانی نماید.
داده کاوی به خودی خود به فرآیند یافتن الگوها و نتایج مفید در میان انبوه داده ها اطلاق می شود. این فصل، شش عمل داده کاوی شامل دسته بندی، تخمین، پیش بینی،دسته بندی شباهت، خوشه بندی و نمایه سازی را معرفی و تعریف نمود. در بقیه کتاب الگوریتمها و تکنیکهای مختلف داده کاوی بررسی می شود که می توان آنها را در این شش مورد به کار برد. برای نیل به موفقیت باید این تکنیکها به صورت بخش درونی یک فرآیند بزرگتر تجاری در آیند. این تعامل مبحث فصل بعدی تحت عنوان چرخه تعالی داده کاوی است.
3
روشهای داده کاوی
در فصل قبل چرخه تعالی داده کاوی به عنوان یک فرآیند کسب و کار و تجارت مطرح و اشاره گردید که فرآیند داده کاوی دارای چهار مرحله است:
1. تشخیص مسئله
2. تبدیل داده ها به اطلاعات
3. اقدام عملی
4. بررسی و اندازه گیری حصول نتیجه
حالا وقت آن رسیده که به داده کاوی به عنوان یک فرآیند تکنیکی نگاه شود. با این نگرش تغیری در طرح کلی مسئله ایجاد نمی شود اما نقطه اتکا عوض می شود. حالا به جای تشخیص یک مسئله کسب و کار و تجارت، توجه بر تبدیل مسائل کسب و کار و تجارت به مسائل داده کاوی متمرکز میگردد. موضوع تبدیل داده ها به اطلاعات خود به صورت چند مطلب از جمله آزمون فرضیه، نمایه سازی و مدل سازی پیش بینی کننده در می آید. در این فصل منظور از اقدام عملی، اقدامات تکنیکی همچون پیاده سازی مدل است. منظور از سنجش نیز آزمونی است که باید برای ارزیابی پایایی و اثر بخشی مدل پیش از استفاده آن انجام شود.
چون کل این کتاب بر پایه همین روش است، راهکارهای برتری که در این فصل معرفی می شوند در جاهای دیگر نیز مفصلاً توضیح داده می شوند. هدف این فصل جمع کردن این ر اهکارها در یکجا و سازمان دهی آن ها به صورت یک روش واحد است.
بهترین راه برای اجتناب از شکست چرخه تعالی داده کاوی، شناخت روشهای شکست احتمالی آن و انجام اقدامات پیشگیرانه است. در طول سالیان، محققان با روشهای مختلف داده کاوی مواجه شده اند که منجر به شکست پروژه های داده کاوی شده است. در پاسخ به این مسئله، این کتاب مجموعه مفیدی از رویه ها از بیان اولیه یک مسئله کسب و کار و تجارت تا ایجاد یک مدل پایا که نتایج عملی و قابل سنجش تولید می کند را معرفی نموده است. فصل حاضر مجموعه ای از راهکارهای برتر را به عنوان مراحل پشت سر هم یک روش داده کاوی ارائه می کند. داده کاوی ذاتاً یک فرآیند تکرار شونده است بگونه ایکه بعضی مراحل باید چندین بار تکرار شوند اما از هیچکدام نمی توان به کلی چشم پوشی کرد.
نیاز به یک رویکرد دقیق در داده کاوی با پیچیده تر شدن روش داده کاوی افزایش می یابد. این فصل پس از اثبات لزوم وجود یک روش از طریق توضیح راه های مختلفی که منجر به شکست تلاش های داده کاوی در غیاب یکی آنها می شود با ساده ترین رویکرد نسبت به داده کاوی آغاز شده و با معرفی روش های پیچیده تر ادامه یافته و در آخر، چهار مرحله چرخه تعالی را به صورت یک روش یازده مرحله ای داده کاوی ارائه می دهد.
چرا باید روشی داشت؟
داده کاوی روش یادگیری از اطلاعات گذشته برای اتخاذ تصمیمات بهتری در آینده است. راهکارهای برتری که در این فصل بیان می شود برای اجتناب از دو نتیجه نامطلوب از این فرآیند یادگیری طراحی شده اند:
* یادگیری چیزهایی که درست نیستند.
* یادگیری چیزهایی که درست هستند ما مفید نیستند.
داده کاوان باید با شناخت نکات فوق از خطر افتادن در این ورطه ها برحذر باشند.
یادگیری چیزهایی که درست نیستند
یادگیری چیزهای نادرست خطرناک تراز یادگیری چیزهای بی فایده است چرا که اتخاذ تصمیم های مهم کاری و تجاری می تواند براساس اطلاعات نادرست بنا شود. نتایج داده کاوی معمولاً قابل اعتماد به نظر می رسند چون به شیوه ای ظاهراً علمی و بر پایه داده های واقعی به دست آمده اند. این ظاهر قابل اعتماد می تواند گمراه کننده باشد. ممکن است خود داده ها نادرست یا نامربوط به مسئله مورد بررسی باشند. شاید الگوهای کشف شده بازتاب تصمیمات کاری و تجاری در گذشته باشند یا اصلاً نشان دهنده چیزی نباشند. تبدیلات داده ها مثل خلاصه سازی ممکن است اطلاعات مهمی را حذف یا پنهان کند. در مطالب زیر در مورد برخی از مشکلات معمول که می تواند منجر به نتیجه گیری های غلط گردد بحث می شود.
ممکن است الگوها نشان دهنده هیچ قاعده ضمنی نباشند
معمولاً گفته می شود که اعداد دروغ نمی گویند اما دروغ گوها می توانند از اعداد استفاده کنند. هنگام یافتن الگوها در داده ها لازم نیست که اعداد برای دلالت بر چیزهای نادرست دروغ بگویند. روشهای زیادی برای تهیه الگوهایی وجود دارد که هر مجموعه تصادفی از داده یکی از آنها را نشان می دهد. انسان در زندگی خود آنقدر به الگوها متکی است که حتی وقتی وجود خارجی ندارند هم می خواهد آنها را مشاهده کند. ما شب ها به آسمان نگاه می کنیم و به جای یک آرایش تصادفی از ستارگان، دب اکبر را می بینیم. عده ای حتی الگوها و نشانه های طالع بینی را می یابند که می توان با استفاده از آن ها آینده را پیش گویی کرد. مقبولیت گسترده تئوری هایی در مورد بیگانگان فضایی سایر کرات آسمانی نیز شاهدی دیگر بر نیاز انسان به یافتن الگوهاست.
احتمالاً علت این که انسان ها چنین علاقه ای به الگوها پیدا کرده اند این است که الگوها غالباً نشانگر یک حقیقت پایه ای در مورد ساز و کار جهان هستند. حالتهای ماه، تغییر فصول، پشت سر هم آمدن مداوم شب و روز و حتی نمایش یک برنامه پرطرفدار تلویزیونی در یک ساعت و روز خاص از هفته همگی مفیدند چون پایا و در نتیجه قابل پیش بینی می باشند. از چنین الگوهایی می توان برای تصمیم گیری در مورد زمان درست کاشت سبزیجات و یا چگونگی برنامه ریزی دستگاه ضبط ویدیویی برنامه های دلخواه خود استفاده کرد. بعضی الگوهای دیگر مشخصاً توان پیش بینی ندارند.
اگر یک سکه پنج بار پشت سر هم شیر بیاید هنوز در پرتاب ششم دارای احتمال 50-50 برای آمدن خط است.
چالش پیش روی داده کاوان این است که دریابند کدام الگوها پیش بینی کننده اند و کدام ها نیستند. الگوهای زیر را در نظر بگیرید که همگی به گونه ای مطرح شده اند که گویی قابلیت پیش بینی دارند:
* حزبی که ریاست جمهوری را در اختیار ندارد کرسی های انتخابات میان دوره ای مجلس را از آن خود می کند.
* وقتی تیم ملی فوتبال برنده مسابقات جهانی می شود کاندیدای حزب الف رئیس جمهوری می شود.
* وقتی تیم ب آخرین بازی خانگی خود را ببرد رئیس جمهور فعلی مجددا برای دوره بعد انتخاب می شود.
* در انتخابات ریاست جمهوری معمولاً افراد قد بلندتر برنده می شوند.
الگوی اول در مورد انتخابات میان دوره ای با ادبیات صرفاً سیاسی قابل توضیح است. به دلیل وجود یک توضیح ضمنی، محتمل به نظر می رسد که این الگو در آینده ادامه یابد و بنابراین دارای ارزش پیش بینی کنندگی است. دو جمله بعدی که ادعای پیش بینی کنندگی دارند و مربوط به وقایع ورزشی هستند مشخصاً دارای هیچ گونه ارزش پیش بینی کنندگی نیستند. علی رغم تعداد دفعاتی که در گذشته حزب الف و تیم ملی فوتبال دارای پیروزی مشترک بوده اند دلیلی وجود ندارد که انتظار ادامه این اشتراک را در آینده داشته باشیم.
در مورد قد کاندیداها چطور؟ با نگاهی به قد روسای جمهور منتخب دنیا تاکنون معلوم می شود که همواره افراد منتخب از رقبای خود بلند قدتر نبوده اند. به نظر نمی رسد که قد ربطی به وظائف ریاست جمهوری داشته باشد. از طرف دیگر، قد دارای همبستگی مثبت با درآمد و سایر نشانه های اجتماعی موفقیت است، پس آگاهانه یا نا آگاهانه ممکن است رای دهندگان یک کاندیدای قد بلندتر را برای ریاست جمهوری مناسب تر تلقی کنند.
همان طور که این فصل تشریح می کند راه درست برای تشخیص پایایی و پیشگویی یک قاعده، مقایسه عملکرد آن روی نمونه های مختلفی است که به طور تصادفی از یک جامعه انتخاب شده اند. غالباً این طور است که سخت ترین بخش کار حتی با وجود سیستم های بزرگی نظیر گوگل، جمع آوری داده هاست، پیدا کردن قد کاندیداهای برنده و بازند ریاست جمهوری در دوره های قبلی در دنیا کار ساده ای نیست.
اصطلاح تکنیکی برای یافتن الگوهایی که قابل تعمیم نیستند زیاده برازش5 است. زیاده برازش منجر به مدل های ناپایا می شود که یک روز و برای نمونه ای خاص کار می کنند و روز دیگر وبرای نمونه ای دیگر کار نمی کنند. اینگونه مدل ها کاملا بر گرفته و منطبق با نمونه ای است که مدل بر اساس داده های آن ساخته شده است. اگر چه این مدل ها کاملا برآورده کننده آن نمونه مشخص هستند اما بهیچ وجه قابلیت تعمیم به نمونه های دیگر و به کل جامعه را ندارند. ساختن مدل های پایا با قابلیت تعمیم، هدف اصلی روشهای داده کاوی است.
مجموعه مدل ممکن است نشانگر جامعه مرتبط نباشد
مجموعه مدل منتخبی از داده های تاریخی است که برای ایجاد مدل های داد کاوی استفاده می شود. برای این که استنتاج های ما از مجموعه مدل معتبر باشند باید مجموعه مدل نماینده جامعه ای باشد که مدل می خواهد آن را توصیف، دسته بندی و یا امتیاز دهی کند. نمونه ای که به درستی منعکس کننده جامعه اصلی نباشد اریب است. استفاده از یک نمونه اریب به عنوان مجموع مدل، موجب یادگیری چیزهایی می شود که درست نیستند. باید به خاطر داشت که اجتناب از این مساله کار آسانی نیست. در نظر بگیرید:
مشتریان بالفعل مانند مشتریان بالقوه نیستند.
پاسخ دهندگان به نظر سنجی و مطالعه مانند آنانی که پاسخ نداده اند نیستند.
افرادی که پست الکترنیکی خود را می خوانند مانند افرادی که پست الکترونیکی خودشان را نمی خوانند نیستند.
افرادی که در یک وب سایت ثبت نام می کنند مانند افرادی که ثبت نام نمی کنند نیستند.
اطلاعات بدون هیچ مقدار گمشده، جامعه ای متفاوت را در مقایسه با اطلاعات با مقادیر از قلم افتاده نشان می دهد.
مشتریان بالفعل مانند مشتریان بالقوه نیستند چون افرادی را نشان می دهند که به هرگونه پیام، پیشنهاد و تبلیغ تهیه شده برای جذب مشتری در گذشته پاسخ مثبت داده اند. مطالعه مشتریان فعلی احتمالاً ادامه چنین روندی را پیشنهاد می کند. در صورتی که حرکت های قبلی به دنبال یافتن مصرف کنندگان متمول و شهرنشین بوده باشد هر گونه مقایسه مشتریان فعلی با کل جامعه احتمالاً نشان خواهد داد که مشتریان تمایل دارند آدم های متمول و شهرنشین باشند. چنین مدلی ممکن است فرصت ها را در مورد حومه نشینان با درآمد متوسط بسوزاند. پی آمدهای استفاده از یک نمونه اریب می تواند بدتر از دست دادن ساده یک فرصت بازاریابی باشد. توجه دقیق به انتخاب و نمونه برداری داده ها برای مجموعه مدل در موفقیت داده کاوی نقشی حیاتی بازی می کند.
ممکن است داده ها دارای سطح جزئیات نادرستی باشد
در مورد صنایع مختلفی گفته می شود که غالباً یک ماه پیش از آن که مشتری سازمان را ترک کند خرید او کاهش می یابد. با بررسی دقیق تر مشخص می شود که این مثالی از یادگیری چیزی است که درست نیست. شکل 1-3 نشان دهنده میزان دقایق مکالمه ماهانه یک مشترک تلفن همراه است.در طول 7 ماه ف مشترک حدود 100 دقیقه در هر ماه مکالمه داشته است سپس در ماه هشتم مصرف تقریباً به نصف این مقدار کاهش یافته و در ماه نهم مصرف به صفر رسیده است.
شکل 1-3: آیا کاهش مصرف در ماه هشتم پیش بینی کننده قطع استفاده از خدمات در ماه نهم است؟
به نظر می رسد که این مشترک خاص در این الگو که کاهش مصرف ماهانه مقدمه انصراف از ادامه دریافت آن خدمات است بگنجد. اما ظواهر گمراه کننده اند، با نگاهی به میزان دقایق مکالمه روزانه به جای ماهانه می تواند دید که مشتری تا وسط ماه به استفاده از خدمات با یک نرخ ثابت ادامه داده و سپس کاملاً متوقف شده است، احتمالاً به این خاطر که در آن روز استفاده از سرویس رقیب را شروع کرده است. دوره فرضی کاهش مصرف در واقع وجود خارجی ندارد و از این رو مسلماً فرصتی را برای حفظ مشتری فراهم نمی کند. بنابراین چیزی که به نظر یک شاخص راهنما می آید در حقیقت یک شاخص گمراه کننده است.
شکل 2-3 نمونه دیگری از گمراهی ناشی از تجمیع را نمایش می دهد. ظاهراً فروش در ماه دهم نسبت به ماه های هشتم و نهم کاهش یافته است. این شکل متعلق به شرکتی است که فقط در روزهای کاری بازارهای مالی، فروش داشته است. با نگاهی به تقویم می شود دید که به علت ترتیب قرار گرفتن تعطیلات در این سال مشخص ، ماه دهم روزهای کاری کم تری نسبت به ماه های هشتم و نهم داشته است. این دلیل به تنهایی علت کلی افت در فروش است.
شکل 2-3: آیا فروش در ماه دهم کم شده است؟
در مثال های قبلی، تجمیع منجر به گمراهی شده بود. ناتوانی در تجمیع به میزان مناسب نیز می تواند منشا گمراهی شود. در یک مورد، داده های تهیه شده توسط یک سازمان خیریه نشان دهنده رابطه معکوس بین احتمال پاسخ گویی اهدا کنندگان به درخواست و مقدار اهدایی آن ها بوده است. افراد محتمل تر به پاسخ گویی، مبالغ کم تری هدیه کرده اند. این یافته غیر منتظره، نتیجه تعداد زیاد درخواست های فرستاده شده توسط خیریه برای حامیانش است.
دو اهدا کننده را در نظر بگیرید که هر یک قصد دارند پنج میلیون ریال به خیریه کمک کنند. یکی از آن ها به درخواست ماه فروردین موسسه خیریه با اهدای کل پنج میلیون ریال به صورت یکجا پاسخ می گوید و بقیه درخواست نامه ها را به دور می اندازد و دیگری در پاسخ به هر یک از پنج درخواست یک چک یک میلیون ریالی می فرستد. هر دو اهدا کننده پنج میلیون ریال اهدا کرده اند اما از منظر درخواست های جداگانه اهدا کننده دوم پاسخ گوتر به نظر می رسد. با تجمیع در سطح سالانه این تاثیر از بین می رود.
یادگیری چیزهایی که درست هستند اما مفید نیستند
یادگیری چیزهایی که مفید نیستند به خطرناکی یادگیری چیزهایی که درست نیستند نمی باشد اما بسیار متداول تر هستند.
یادگیری چیزهایی که از قبل معلوم بوده اند
داده کاوی باید اطلاعات جدیدی را فراهم کند. بسیاری از قوی ترین الگوها در داده ها چیزهایی را نشان می دهند که از قبل معلوم بوده اند. بطور مثال افراد بالای سن بازنشستگی تمایلی به پاسخ گویی به پیشنهادی برای طرح پس انداز بازنشستگی ندارند. افرادی که در منطقه ای زندگی می کنند که فاقد سرویس تحویل روزنامه در منزل یم باشد مشترک روزنامه نمی شوند. حتی اگر آن ها به پیشنهاد اشتراک پاسخ بدند، این سرویس هرگز شروع نمی شود. به دلیل مشابه، افرادی که در یک منطقه فاقد آنتن مخابراتی زندگی می کنند تمایلی به خرید تلفن همراه ندارند.
معمولا قوی ترین الگوها نشان دهنده قواعد کسب و کار و تجارت هستند. اگر داده کاوی نشان دهد افرادی که دارای سرویس رد تماس ناشناس هستند دارای سرویس شناسایی شماره تلفن تماس گیرنده نیز هستند شاید به این دلیل است که رد تماس ناشناس نها به صورت بخشی از یک بسته خدماتی ارائه می شود که شامل شناسایی شماره تلفن تماس گیرنده نیز هست. اگر محصولات خاصی در یک منطقه ای مشخص به فروش نمی رسد ممکن است این محصولات در آن جا اساسا عرضه نشده باشند. موارد زیادی از این دست وجود دارد. این الگوها نه تنها مورد توجه نیستند بلکه ممکن است باعث پنهان کردن الگوهای مبهم تر شوند.
یادگیری چیزهایی که از قبل معلوم بوده اند از یک جهت مفید است. این مسئله نشان می دهد که از لحاظ فنی، کار داده کاوی درست انجام می شود و داده ها دقت قابل قبولی دارند. این امر می تواند واقعاً آرامش بخش باشد. اگر داده ها وتکنیک های داده کاوی به کار رفته قادر به کشف چیزهایی هستند که از درستی شان آگاهیم، این مایه دل گرمی نسبت به درستی سایر یافته هاست.
همچنین واقعیت دیگر این است که اغلب داده کاوی مواردی را آشکار می کند که باید معلوم می بوده اند اما نبوده اند، مثلاً اینکه بازنشستگان به دعوت نامه برای افتتاح حساب پس انداز بازنشستگی پاسخ خوبی نمی دهند.
یادگیری چیزهایی که قابل استفاده نیستند
گاهی پیش می آید که داده کاوی روابطی را کشف می کند که هم درست هستند و هم پیش تر نیز نامعلوم بوده اند اما با این حال به سختی قابل استفاده اند. گاهی مشکل از مقررات است. الگوهای تماس تلفن همراه یک مشتری می تواند علاقه مندی به برخی بسته های خدمات تلفن راه دور را نشان دهد اما شرکتی که هر دو نوع خدمات را ارائه می دهد ممکن است مجاز به بهره گیری آن نباشد. همین طور سابقه اعتباری یک مشتری می تواند پیش بینی کننده مطالبات آینده از بیمه باشد اما ممکن است مقررات اجازه استفاده از آن برای تصمیم گیری را ندهد.
در مواقع دیگر، داده کاوی نشان می دهد نتایج مهمی وجود دارد که خارج از کنترل سازمان است. شاید یک محصول برای بعضی آب و هواهای خاص مناسب تر باشد اما نمی توان وضع هوا را عوض کرد. ممکن است یک سرویس خدماتی به دلیل ویژگی های محیطی برخی مناطق، وضع نامطلوبی داشته باشد ولی این نیز به سختی قابل تغییر است.
بعضی اوقات این تنها ضعف تخیل ماست که اطلاعات جدید را بی فایده جلوه می دهد. احتمال دارد بررسی ریزش مشتریان نشان دهد که قوی ترین پیش بینی کننده زمان ترک کردن ما توسط مشتریان شیوه جذب شان به سازمان است. دیگر برای بازگشت به عقب و تغییر چنین چیزی برای مشتریان فعلی بسیار دیر است اما این به معنای بی فایده بودن اطلاعات نیست بلکه می توان با تغییر ترکیب کانال های جذب مشتری در آینده به سود آن هایی که ماندنی ترند شرایط را عوض کرد و ریزش مشتریان را کاهش داد.
روش داده کاوی برای صعود بدون واهمه از صخره های یادگیری چیزهای غلط و گردآب های عدم یادگیری چیزهای مفید، طراحی شده است. از یک دید مثبت تر این روش بدین منظور طراحی شده که تضمین کند کار داده کاوی به یک مدل پایایی منتج می شود که به خوبی جواب گوی مسئله کسب و کار و تجارتی است که برای حل آن طراحی شده است.
آزمون فرضیه
ساده ترین رویکرد برای سهیم کردن داده ها در فرآیندهای تصمیم گیری یک سازمان، آزمون فرضیه است. هدف از آزمون فرضیه، اثبات یا رد نظرات پیش داوری شده است و این مورد تقریباً جزئی از همه فعالیتهای داده کاوی است. داده کاوان معمولاً بین رویکردها رفت و برگشت می کنند. ابتدا به کمک متخصصان کسب و کار و تجارت به ارائه توضیحات احتمالی برای رفتار مشاهده شده می پردازند و براساس این فرضیه ها مشخص می کنند که چه داده های باید تحلیل شوند. سپس اجازه می دهند داده ها فرضیات جدیدی برای آزمودن مطرح کنند.
آزمون فرضیه کاری است که دانشمندان و آمارشناسان، عمده زمان خود را صرف آن می کنند. فرضیه یک توضیح پیشنهادی است که اعتبارش را می توان با تحلیل داده ها آزمود. این داده ها ممکن است به سادگی با مشاهده جمع آوری شوند یا مثل ارسال نامه های آزمایشی توسط آزمایش تولید شوند. بالاترین ارزش آزمون فرضیه زمانی است که نشان دهد فرض های هدایت کننده استراتژیهای سازمان در بازار نادرست بوده اند. مثلاً فرض کنید تبلیغات یک شرکت بر مبنای فرضیاتی در مورد بازار هدف یک محصول یا خدمات و ماهیت واکنش مشتریان صورت می گیرد. این مساله که آیا این فرضیات توسط پاسخهای واقعی تایید می شوند ارزش آزمون دارد. یک راه این است که در تبلیغات مختلف از شماره های تماس مختلف استفاده کنیم و شماره ای را که هر مشتری با آن تماس می گیرد ثبت کنیم. سپس می توان اطلاعات به دست آمده از تماس ها را به نمایه جامعه ای که هدف تبلیغ بوده مقایسه کرد.
هر موقع که سازمان در حال جلب واکنش مشتریانش چه از طریق تبلیغات وچه به صورت ارتباطی مستقیم تر باشد فرصتی برای کسب اطلاعات پیش می آید. تغییرات جزئی در طراحی این رابطه همچون در نظر گرفتن راهی برای شناسایی کانال ارتباطی در زمان تماس یک مشتری بالقوه می توانند ارزش داده های جمع آوری شده را به شدت افزایش دهند.
بکارگیری آزمون فرضیه ذاتاً برای منظور خاص است پس شاید اطلاق اصطلاح روش کمی به آن زیاده روی باشد. با این وجود این فرآیند دارای چند مرحله معین است که اولین و مهم ترین آن ها تولید ایده های خوب برای آزمودن است.
تولید فرضیات
فعالیت کلیدی در تولید فرضیات، گرفتن ورودی های گوناگون از سرتاسر سازمان و در صورت لزوم از بیرون آن است. معمولاً تنها کار لازم برای شروع تراوش ایده ها بیان روشن خود مسئله است به خصوص اگر پیش تر به عنوان یک مسئله مطرح نبوده باشد.
بیش از آنچه تصورش می رود ناشناخته ماندن مسائل رخ می دهد و دلیل آن را می توان به این صورت بیان کردکه این مسائل توسط معیارهای مورد استفاده برای ارزیابی عملکرد سازمان به شمار نمی آیند. اگر یک سازمان بخش فروشش را همواره با تعداد فروش های جدید ماهانه اش ارزیابی کرده باشد ممکن است مسئولان فروش هرگز به این سوال فکر نکرده باشند که مشتریان جدید چه مدت فعال می مانند یا این که چه مقدار در طول مدت رابطه شان با آنها خرید می کنند. اما اگر سوالات درست از آن ها پرسیده شود مسئولان فروش می توانند دیدی نسبت به رفتار مشتریان به دست آورند که بخش بازاریابی به علت فاصله بیش ترش با مشتری از آن محروم است.
آزمودن فرضیات
فرضیات زیر را در نظر بگیرید:
* استفاده کنندگان مکرر از سرویس رومینگ تلفن همراه حساسیت کم تری به نرخ مکالمات تلفن همراه دارند.
* احتمال پاسخ گویی خانواده های دارای فرزندان دبیرستانی نسبت به پیشنهاد رهن خانه بیشتر است.
* دفتر حفظ مشتری در مرکز تماس سازمان با مشتریان، کسانی را حفظ می کند که به هر دلیلی باز به آنها مراجعه می کنند.
چنین فرضیاتی را باید طوری تبدیل کرد که بتوانند توسط داده های واقعی آزمایش شوند. بسته به نوع فرضیه، این مسئله می تواند به معنای تفسیر ارزش به دست آمده از یک پرسش ساده، کندو کاو در میان مجموعه ای از قواعد وابستگی تولید شده توسط تحلیل سبد خرید مشتریان، تعیین میزان اهمیت و معنادار بودن همبستگی به دست آمده از یک مدل رگرسیون و یا طراحی یک آزمایش کنترل شده باشد. در هر صورت، تفکر دقیق انتقادی ، لازمه اطمینان از عدم انحراف نتیجه آزمون به مسیری غیر منتظره است.
ارزیابی مناسب نتایج داده کاوی نیازمند دانش تحلیلی و همچنین دانش کسب و کار و تجارت است. وقتی هر دوی این دانشها در یک نفر جمع نشده باشند نیاز به همکاری دوجانبه برای استفاده درست از اطلاعات جدید است.
مدل هاف نمایه سازی و پیش بینی
آزمون فرضیه مسلماً مفید است اما مواقعی پیش می آید که کافی نیست. تکنیک های داده کاوی توضیح داده شده در ادامه این کتاب همگی برای یادگیری چیزهای جدید توسط ایجاد مدل ها بر اساس داده ها طراحی شده اند.
در کل یک مدل توضیح یا توصیف چگونگی کارکرد یک چیز است که واقعیت را طوری نشان می دهد که بتوان از آن برای پی بردن به دنیای واقعی استفاده کرد. انسان ها همیشه به طور ناخودآگاه از مدل ها استفاده می کنند. وقتی شما دو رستوران می بینید و مقایسه می کنید وبه این نتیجه می رسید که رستورانی که دارای رومیزهای سفید و گل های طبیعی روی هر میز است گران تر از رستوران دیگری است که میزهای پلاستیکی و گل های مصنوعی دارد در حال استنتاج از مدلی هستید که در ذهن خود دارید. یا وقتی شما قصد دارید به سوی یک مغازه بروید مجدداً از یک مدل ذهنی نقشه شهر کمک می گیرید.
داده کاوی تماماً در باره ایجاد مدل ها است. همان طور که در شکل 3-3 نشان داده شده مدل ها مجموعه ای از ورودی ها را می گیرند و یک خروجی تولید می کنند. داده هایی که برای ساخت مدل به کار می روند مجموعه مدل نامیده می شوند. وقتی از مدلهایی برای داده های جدیدی استفاده شود آن را مجموعه امتیاز6 می گویند.
شکل 3-3 : مدلها ورودی می گیرند و یک خروجی تولید می کنند.
مجموعه مدل دارای سه مولفه است که در ادامه این فصل مفصل تر مطرح می شوند:
* از مجموعه آموزشی7 برای ساخت مجموعه ای از مدلها استفاده می شود.
* از مجموعه اعتبار سنجی8 برای انتخاب بهترین مدل از میان مدلهای ساخته شده استفاده می شود.
* از مجموعه آزمون9 برای تعیین چگونگی عملکرد مدل بر روی داده های جدید استفاده می شود.
تکنیک های داده کاوی را می توان به منظور ساخت سه نوع مدل برای سه نوع فعالیت به کاربرد: نمایه سازی توصیفی10، نمایه سازی هدایت شده11 و پیش بینی12. تمایز بین این مدلها همیشه واضح نیست.
مدل های توصیفی به توصیف آن چه در داده هاست می پردازند. خروجی آن ها یک یا چند نمودار یک عدد یا شکل است که وقایع را توضیح می دهند. آزمون فرضیه معمولاً منجر به تولید مدل های توصیفی می شود. از سوی دیگر ، هم نمایه سازی هدایت شده و هم پیش بینی، هدفی را هنگام ساخت مدل مد نظر دارند. تفاوت میان آن ها به چارچوب های زمانی مربوط می شود که در تصویر 3-4 نشان داده شده است.
شکل 4-3: نمایه سازی و پیش بینی تنها در چارچوبهای زمانی متغیرهای ورودی و هدف با هم فرق دارند.
در مدل های نمایه سازی ، هدف در همان چارچوب زمانی ورودی است. در مدل های پیش بینی، هدف در یک چارچوب زمانی متاخر تر قرار دارد. پیش بینی به معنای یافتن الگوهایی در داد ه های یک دوره است که قادر به توضیح نتایج یک دوره متاخرتر باشند. علت تاکید بر فرق بین نمایه سازی و پیش بینی، تاثیر بر روش مدل سازی خصوصاً طرز برخورد با زمان در ایجاد مجموعه مدل است.
نمایه سازی
نمایه سازی یک روش آشنا برای بسیاری از مسائل است که نیاز به درگیرشدن با تحلیل پیچیده داده ها ندارد. به عنوان مثال مطالعه و نظر سنجی یک روش رایج برای ساختن نمایه مشتریان است. نظرسنجی ها و مطالعات نشان می دهند که مشتریان بالفعل وبالقوه چه مشخصاتی دارند یا حداقل این که چطور پاسخ دهندگان به سوالات جواب می دهند.
نمایه ها معمولاً مبتنی بر متغیرهای جمعیت شناختی همچون موقعیت جغرافیایی، جنسیت و سن هستند. از انجا که تبلیغات با توجه به همین متغیرها انجام می شود نمایه های جمعیت شناختی را می توان مستقیماً به استراتژی های سازمانی تبدیل کرد. بطور مثال از نمایه های ساده برای تعیین حق بیمه استفاده می شود. یک پسر 17 ساله بیش تر از یک زن 60 ساله برای بیمه خودرو بایستی پرداخت کند. به همین صورت، فرم درخواست برای یک بیمه ساده عمر، تنها در مورد سن، جنسیت، و مصرف دخانیات و نه چیز بیشتری می پرسد.
با وجود این توانایی ها نمایه سازی دارای محدودیت های جدی است. یکی از این محدودیتها این است که قادر به تشخیص علت ومعلول از هم نیست. مادامی که نمایه سازی مبتنی بر متغیرهای آشنای جمعیت شناختی باشد این مسئله قابل توجه نیست. اگر جوانان بیش تر از افراد مسن نوشابه بخرند لازم نیست نگران آن باشیم که شاید مصرف نوشابه علت جوان بودن آن ها است. به نظر می رسد بهتر است فرض کنیم رابطه موجود از سمت جوانان به نوشابه است و نه بر عکس.
در مورد داده های رفتاری جهت علیت همیشه به این روشنی نیست. نمونه های واقعی زیر را از پروژه های داده کاوی انجام یافته در نظر بگیرید:
* کسانی که گواهی سپرده خریداری کرده اند پول ناچیزی در حساب پس اندازشان دارند یا حتی هیچ موجودی ندارند.
* مشتریانی که از پست صوتی استفاده می کنند تماس های کوتاه زیادی با شماره خود می گیرند.
نگه داشتن پول در حساب پس انداز یک رفتار رایج برای دارندگان گواهی سپرده است همان طور که مرد بودن یک مشخصه رایج برای مصرف کنندگان نوشابه است. شرکت های تولید کننده نوشابه به منظور بازاریابی محصول شان به دنبال مردان هستند پس آیا بانک ها هم باید برای عرضه گواهی سپرده به دنبال افرادی باشند که پولی در حساب پس اندازشان ندارند؟ این طور به نظر نمی رسد. احتمالاً دارندگان گواهی سپرده به این دلیل پول زیادی در حساب پس اندازشان ندارند که از این پول برای خریداری گواهی های سپرده استفاده کرده اند. علت رایج تر برای نداشتن پول در حساب پس انداز نداشتن پول کافی است و کسانی که پولی ندارند تمایلی به خرید گواهی سپرده ندارند. همچنین علت تماس زیاد کاربران پست صوتی با شماره خودشان این است که در این سیستم خاص این یک راه را برای چک کردن پست صوتی است این الگو برای یافتن کاربران بالقوه بی فایده است.
پیش بینی
نمایه سازی از داده های تاریخی برای توضیح آنچه در گذشته رخ داده است استفاده می کند. پیش بینی یک گام فراتر می رود و از داده های گذشته برای پیش بینی آنچه محتمل است در آینده رخ دهد استفاده می کند. این یک استفاده مفیدتر از داده هاست. با این که ممکن است همبستگی میان پایین بودن مانده پس انداز و داشتن گواهی سپرده برای دارندگان گواهی سپرده مفید نباشد ولی احتمال دارد بالا بودن مانده پس انداز به همراه شاخص های دیگر پیش بینی کننده خرید گواهی سپرده در آینده باشد.
ساختن یک مدل پیش بینی کننده مستلزم تفکیک زمانی میان ورودی های مدل یا پیش بینی کننده ها و خروجی مدل یا پیش بینی شونده ها می باشد. اگر این تفکیک برقرار نباشد مدل درست کار نخواهد کرد. این یک مصداق از اهمیت پیروی از یک روش مناسب داده کاوی است.
مراحل داده کاوی
روش داده کاوی دارای یازده مرحله است.
1. تبدیل مسئله کسب و کار و تجارت به یک مساله داده کاوی
2. انتخاب داده های مناسب
3. شناخت داده ها
4. ساخت مجموعه مدل
5. رفع مشکلات داده ها
6. تبدیل داده ها برای استخراج اطلاعات
7. ساخت مدل ها
8. ارزیابی مدل ها
9. پیاده سازی مدل ها
10. ارزیابی نتایج
11. شروع دوباره
همان طور که در شکل 5-3 نشان داده شده بهترین تصور از فرآیند داده کاوی به صورت یک مجموعه از حلقه های در هم پیچیده به جای یک خط مستقیم است. این مراحل دارای یک ترتیب طبیعی هستند اما لازم یا حتی مطلوب نیست که یک مرحله را پی از حرکت به سوی مرحله بعدی کاملاً تمام کنیم. همچنین روشن است که یافته های مراحل بعدی باعث تجدید نظر در یافته های مراحل قبلی می شوند.
شکل 5-3 : فرآیند داده کاوی
مرحله اول : تبدیل مسئله کسب و کار و تجارت به یک مسئله داده کاوی
بدون داشتن روشی برای شناسایی مقصد هرگز نمی توانیم تشخیص دهیم که آیا به اندازه کافی به هدف نزدیک شده ایم یا خیر. مقصد مناسب یک پروژه داده کاوی حل یک مسئله تعریف شده کسب و کار و تجارت است. اهداف داده کاوی برای یک پروژه خاص نباید با عبارات کلی و عام همچون موارد زیر بیان شوند:
* رسیدن به بینشی از رفتار مشتری
* پیدا کردن الگوهای معنادار در داده ها
* یافتن یک چیز جالب
این ها همه اهداف ارزشمندی هستند ولی حتی وقتی که به آن ها برسیم به سختی قابل سنجش و اندازه گیری هستند. پروژه هایی که به سختی قابل سنجش هستند به سختی قابل ارزش گذاری اند. تا جایی که ممکن است باید اهداف کلی وعام را به اهداف مشخص تر تقسیم کرد تا راحت تر بتوان بر میزان پیشرفت در دست یابی به آن ها نظارت کرد. رسیدن به بینشی از رفتار مشتری ممکن است به اهداف عینی زیر تبدیل شود:
* شناسایی مشتریانی که بعید است اشتراکشان را تمدید کنند.
* طراحی یک برنامه تماس که ریزش مشتریان دارای کسب و کار در خانه را کاهش دهد.
* رتبه بندی تمام مشتریان براساس تمایل به یک رشته ورزشی
* فهرست محصولاتی که فروش شان در صورت توقف فروش دخانیات به خطر می افتد.
نه تنها نظارت بر این اهداف عینی آسان تر است بلکه تبدیل آن ها به مسائل داده کاوی نیز راحت تر می باشد.
مسئله داده کاوی چگونه مسئله ای است؟
برای تبدیل یک مساله کسب و کار و تجارت به یک مساله داده کاوی باید آن را به یکی از شش فعالیت داده کاوی که در فصل اول معرفی گردید تبدیل نمود:
* دسته بندی
* تخمین
* پیش بینی
* دسته بندی شباهت
* خوشه بندی
* توصیف و نمایه سازی
این ها فعالیت هایی هستند که توسط تکنیک های داده کاوی توضیح داده در این کتاب قابل انجام هستند هر چند کاربرد همه ابزارها یا تکنیکهای داده کایو برای این فعالیت یکسان نیست.
سه فعالیت اول یعنی دسته بندی، تخمین و پیش بینی نمونه هایی از داده کاوی هدایت شده اند. دسته بندی شباهت و خوشه بندی نمونه های داده کاوی غیر هدایت شده اند. نمایه سازی می تواند هم هدایت شده و هم غیر هدایت شده باشد. در داده کاوی هدایت شده همیشه یک متغیر هدف وجوددارد، چیزی که باید دسته بندی ، تخمین یا پیش بینی شود. فرآیند ساخت یک مدل دسته بندی کننده، با یک مجموعه از پیش تعیین شده دسته ها و نمونه هایی از اطلاعات که قبلاً به درستی دسته بندی شده اند شروع می شود. همین طور فرآیند ساخت ی تخمین زننده با داده های تاریخی شروع می شود که مقادیر متغیر هدف از قبل در آن ها معلوم است. عمل مدل سازی برای یافتن قواعدی که مقادیر معلوم متغیر هدف را توضیح دهنده به کار می رود.
در داده کاوی غیر هدایت شده متغیر هدفی وجود ندارد وظیفه داده کاوی این است که الگوهای کلی ای را بیابد که متعلق به یک متغیر خاص نیستند. معمول ترین شکل داده کاوی غیر هدایت شده خوشه بندی است که گروه هایی را با اطلاعات مشابه پیدا می کند بدون اینکه هیچ دستورکاری در این زمینه داشته باشد که بگوید چه متغیرهایی باید مهم تر محسوب شوند. داده کاوی غیر هدایت شده ذاتاً توصیفی است و از این رو غالباً تکنیک های داده کایو غیر هدایت شده برای نمایه سازی به کار می روند اما در عین حال تکنیک های هدایت شده همچون درخت های تصمیم نیز برای ساختن نمایه ها بسیار مفیدند. در ادبیات مربوط به یادگیری ماشینی، داده کاوی هدایت شده را فراگیری تحت نظارت و داده کاوی غیر هدایت شده را فراگیری بدون نظارت می گویند.
چگونه از نتایج استفاده خواهد شد؟
این سوال یکی از مهم ترین سوالاتی است که برای تصمیم گیری در مورد چگونگی تبدیل بهینه مسئله کسب و کار و تجارت به یک مساله داده کاوی باید پرسیده شود و در کمال تجب معمولاً جواب اولیه این است : "مطمئن نیستیم". پاسخ به این سوال مهم است زیرا هر استفاده خاصی از نتایج داده کاوی نیاز به راه حلی متفاوت دارد.
به عنوان مثال بسیاری از کارهای داده کاوی ما برای حفظ مشتریان طراحی می شوند که نتایج چنین مطالعاتی را می توان به صورت های مختلف به کار برد:
* ایجاد ارتباط پیشگیرانه با مشتریان با ریسک و یا ارزش بالا قبل از دست دادن آنان به همراه پیشنهادی برای حفظ ایشان
* تغییر ترکیب کانال های جذب مشتری به جهت کانالهایی که وفادارترین مشتریان را با خود می آورند.
* پیش بینی تعداد مشتریان در ماه های آینده !
* اصلاح محصول به منظور رفع نواقصی که باعث از دست دادن مشتریان می شوند.
هر یک از این اهداف متضمن مواردی در فرآیند داده کاوی است. تماس تلفنی یا پستی با مشتریان فعلی مستلزم آن است که علاوه بر شناسایی مشتریان دارای ریسک، این شناخت حاصل شود که چرا آنها ممکن است از زمره مشتریان ما خارج شوند تا بتوان پیشنهادهای جذابی برای حفظ آنان ارائه نمود و همچنین این که چه زمانی آنها در خطرند تا تماس با مشتریان، زودتر یا دیرتر از موعد مقرر انجام نگردد. پیش بینی، مستلزم این است که علاوه بر شناسایی مشتریان فعلی ای که متمایل به رفتن هستند، امکان تشخیص تعداد مشتریان جدید و اینکه چه مدت احتمال دارد این مشتریان باقی بمانند وجود داشته باشد.
چگونه نتایج بیان خواهد شد؟
یک پروژه داده کاوی می تواند به صورتهای بسیار متفاوتی بیان شود. وقتی که هدف اصلی پروژه رسیدن به یک بینش است وسیله ابراز نتایج معمولاً یک گزارش یا برگه ای پر از نمودار و شکل است.
موقعی که پروژه، یک اجرای آزمایشی است ممکن است وسیله ابراز نتایج ، فهرستی از مشتریانی باشد که در یک آزمایش بازاریابی تحت رفتارهای متفاوتی قرار خواهند گرفت. زمانی که پروژه داده کاوی بخشی از یک کار مستمر و تحلیلی مدیریت روابط با مشتری است وسیله ابراز نتایج یک یا مجموعه ای از برنامه های کامپیوتری است که با اجرای آن زیر مجموعه مشخصی از جامعه مشتریان امتیازدهی شده و مدل ها و امتیازات تولید شده توسط آن در طول زمان مدیریت میشود. شکل و نوع وسیله بیان نتایج نهایی می تواند بر نتایج داده کاوی تاثیر بگذارد.
اگر هدف شگفت زده کردن مدیران باشد تهیه فرستی از مشتریان برای آزمون بازاریابی کافی نیست.
نقش کاربران تجاری و فن آوری اطلاعات
همان طور که در سایر فصول گفته شد تنها روش گرفتن پاسخ های خوب برای پرسش ها، مشارکت مدیران و کارکنان مرتبط با مسئله مورد بررسی در تعیین چگونگی استفاده از نتایج داده کاوی و دخیل کردن کارکنان بخش فن آوری اطلاعات و پایگاه داده ها در تعیین چگونگی تحویل نتایج است. معمولاً بهتر است مشارکت کنندگان را از یک طیف گسترده در داخل سازمان و در صورت امکان خارج از آن انتخاب کنیم. پیشنهاد ما جمع کردن نمایندگان بخش های مختلف شرکت در یک جلسه به جای مصاحبه با تک تک آن ها است. به این شیوه، افراد از حوزه های مختلف دانش وتخصص، امکان آن را می یابند که به نظرات یکدیگر واکنش نشان دهند. هدف تمام این مشاوره ها بیان روشن مسئله کسب و کار و تجارت مورد نظر است. بیان نهائی مسئله کسب و کار و تجارت باید تا آنجا که ممکن است معین و خاص باشد. بطور مثال "شناسایی ده هزار مشتری طلایی که بیش ترین احتمال ترک ما در شصت وز آینده را دارند" بهتر از "تهیه امتیاز ترک برای همه مشتریان است".
نقش متخصصین داده کاوی در این مباحث دادن اطمینان از قابل تبدیل بودن بیان نهایی مسئله کسب و کار و تجارت به مسئله داده کاوی است که در غیر این صورت بهترین عملیات داده کاوی در جهان هم ممکن است به یک مسئله کسب و کار و تجارت اشتباه بپردازد بدین معنا که مسئله داده کاوی ای حل شود که حل کننده مسئله کسب و کار و تجارت، مورد نظر نباشد.
داده کاوی معمولاً به صورت یک مسئله فنی برای یافتین مدلی که روابط متغیر هدف با گروهی از متغیرهای ورودی را توضیح می دهد در نظر گرفته می شود. این کار فنی واقعاً محور اکثر کارهای داده کاوی است اما نباید پیش از تعریف درست متغیر هدف و تعیین دقیق متغیرهای ورودی به سراغ آن رفت. این نیز به نوبه خود منوط به درک درست مسئله کسب و کار و تجارت مورد نظر است. همان طور که قبلا اشاره شد ناتوانی در تبدیل درست مسئله کسب و کار وتجارت به یک مسئله داده کاوی منجر به یکی از خطرهایی می شود که سعی ما پرهیز از آن است و آن یادگیری چیزهایی است که درست هستند اما مفید نیستند.
برای بررسی کامل تبدیل مسائل کسب و کار و تجارت به مسائل داده کاوی دو سوال مهم را قبل از شروع فرآیند اصلی داده کاوی در نظر بگیرید: از نتایج چگونه استفاده خواهد شد؟ و نتایج به چه شکلی ارائه خواهند شد؟ پاسخ سوال اول به میزان زیادی پاسخ سوال دوم را نیز مشخص می کند.
خطردرک نادرست مسئله کسب و کار و تجارت: یک حکایت هشدار دهنده
از یک موسسه پژوهشی دانشگاهی داده کاوی خواسته شد که داده های کارت وفاداری سوپر مارکت ها را برای یک تولید کننده بزرگ و عمده کالاهای مصرفی بسته بندی شده تجزیه تحلیل کند. به طور کلی تا وقتی که یک مشتری بطور مثال نوشابه را می خرد برای مدیریت یک سوپر مارکت مهم نیست که کدام مارک از نوشابه ها را میرخد مگر آنکه احیاناً با یک مارک خاص دارای قرارداد ویژه ای باشد که موقتاً موقعیت برتری به آن می دهد. در عوض برای تولیدکنندگان محصولات قطعاً مهم است چه مارکی فروش خوبی دارد. آنها برای کسب این فرصت که تامین کننده بیشتری از محصولات فروشگاه ها باشند رقابت می کنند. نتایج این پژوهش به این تولید کننده بزرگ امکان داد تا بر نحوه بازاریابی محصولات خود و همچنین رقبایش کنترل داشته باشند. این تولید کننده می خواست توانایی اش را در بکارگیری داده های کارت وفاداری جهت بهبود مدیریت بر محصولات خود نشان دهد. در این مثال خاص، محصول انتخاب شده برای این کار، ماست بود به این دلیل که مطابق معیارهای سوپرمارکتها، ماست بود به این دلیل که مطابق معیارهای سوپرمارکت هاف ماست یک محصول نسبتاً پرسود است. هدف کسب وکار و تجارت، شناسایی طرفداران ماست بود. برای ایجادی ک متغیر هدف، مشتریان دارای کارت وفاداری براساس کل خرید ماست شان در طول یک سال به گروه هایی با علاقه زیاد، متوسط وکم به ماست تقسیم شدند. همچنین براساس سهم ماست از هزینه خریدشان نیز همین تقسیم بندی انجام گرفت. افرادی که در هر دو تقسیم بندی در گروه زیاد جا گرفته بودند طرفداران ماست نامیده شدند. روی داده های تعاملی فروش باید تبدیلات متعددی صورت می گرفت تا به عنوان نشانه مشتری (کل داده های مربوط به یک مشتری که یک ردیف از مجموعه مدل را تشکیل می دهد) در بیایند. متغیرهای ورودی شامل نسبت میزان خرید های مختلف انجام شده در زمان های مختلف روز برای گروههای مختلف، تناوب مراجعات، اندازه متوسط سفارش و سایر متغیرهای رفتاری بود.
با استفاده از این داده ها مدلی درست شد که به هر مشتری یک امتیاز با عنوان "طرفدار ماست" می داد. به کمک این مدل امتیازدهی، هنگامی که طرفداران احتمالی ماست در حال پرداخت پول به صندوق بودند برگه های کوپن حاوی تخفیف ویژه ماست چاپ میشد حتی اگر در آن مراجعه و در آن زمان ماست خریداری نکرده بودند. مدل حتی می توانست مشتریان بالقوه خوبی را شناسایی کند که هنوز به حس درونی علاقمندی به ماست نرسیده بودند ولی با اعطای کوپن به آنها جهت خرید ماست تشویق و تحریک شدند.
مدل دارای پیشرفت خوبی بود که مایه خوشحالی شرکت داده کاوی بود ولی برعکس، سفارش دهنده تحقیق ناراضی بود. او می پرسید"چه چور آدمی طرفدار ماست؟ " که پاسخ "کسی که امتیاز بالایی را درمدل طرفدار ماست بودن بگیرد" پاسخ خوبی برای او به نظر نمی رسید. او به دنبال مثلا چنین چیزی بود: "طرفدار ماست خانمی بین سنین X و Y است که خانه اش در منطقه ای با متوسط قیمت بین M و N است." چنین توضیحی می توانست برای تصمیم گیری در مورد محل های تبلیغاتی و چگونگی شکل دهی به محتوای خلاقانه تبلیغات، مورد استفاده قرار گیرد. توضیح شرکت داده کاوی که به جای متغیرهای جمعیت شناختی مبتنی بر رفتار خرید بود چنین قابلیتی نداشت. این مثال نشان می دهد که با تبدیل غلط یک مسئله کسب و کار و تجارت به مسئله داده کاوی، نتایج بدون فایده خواهد بود.
مرحله دوم: انتخاب داده های مناسب
داده کاوی نیاز به داده دارد. در بهترین حالت ممکن ، داده های مورد نیاز د رانبار داده های شرکت حاضر و آماده هستند. این داده ها معمولا غربال شده، در دسترس و مرتباً به روز شده می باشند اما در عمل، این داده ها اکثراً در سیستم های عملیاتی متفاوت وبا فرمت های ناسازگار با یکدیگر بر روی کامپیوترهایی با سیستم عاملهایی مختلف هستند که با ابزارهای ناسازگار نرم افزاری با آنها کار می شود.
منابع داده هایی که مفید و در دسترس هستند مسلماً از مسئله ای به مسئله دیگر و از یک صنعت به صنعت دیگر فرق می کنند. نمونه هایی از داده های مفید در سطور بعد آورده شده است:
* داده های مطالبه گارانتی شامل زمینه هایی با فرمت ثابت و متن آزاد
* داده های زمان فروش شامل کد تماس، کوپنهای ویژه وتخفیف های اعمال شده
* صورت پرداخت های کارت اعتباری
* داده های مطالبه بیمه درمانی
* داده های وب لاگ ها
* داده های سرور تجارت الکترونیکی
* گزارش های پاسخ پستی مستقیم
* گزارش های مرکز تماس شامل یادداشت هایی که کارکنان مرکز تماس تهیه کرده اند.
* گزارش های کار دستگاه چاپ
* گزارش های ثبت موتور خودرو
* میزان شدت صدای میکروفن های نصب شده در محله های نزدیک فرودگاه برای بررسی آلودگی صوتی
* گزارش های جزئیات تماس های تلفنی
* داده های پاسخ به نظر سنجی
* داده های جمعیت شناسی و شیوه زندگی
* داده های اقتصادی
* ثبت ساعتی وضع هوا شامل جهت باد، شدت باد و میزان بارندگی
* داده های سرشماری
پس از فرموله کردن مسئله کسب و کار و تجارت می توان فهرستی از داده هایی که وجودشان مطلوب است را تهیه کرد. برای مطالعه مشتریان فعلی، این داده ها باید شامل داده هایی از زمان جذب مشتری (کانال جذب، تاریخ جذب، امتیاز اولیه اعتبار و غیره)، داده های مشابه برای بیان وضعیت فعلی آنها و داده های رفتاری ذخیره شده در طول مدت حضورشان در سازمان باشد. البته شاید یافتن تمام موارد در فهرست خواسته ها ممکن نباشد اما بهتر است کار را با نظر به آنچه دوست دارید بیایید شروع کنید.
گاهی یک کار داده کاوی بدون یک مسئله کسب و کار و تجارت خاص آغاز می شود. یک سازمان در می یابد که استفاده خوبی از داده هایی که جمع می کند نمی برد و قصد دارد مشخص کند که آیا می توان به کمک داده کاوی از داده ها بهتر استفاده کرد. رمز موفقیت چنین پروژه ای تبدیل آن به یک پروژه طراحی شده برای حل یک مسئله خاص است. مرحله اول، بررسی داده های موجود و تهیه فهرستی از مسائل بالقوه کسب و کار و تجارت است. از کاربران تجارت بخواهید که فهرست جامعی از خواسته های خود تهیه کنند که بعداً می توان آن را به تعداد محدودی اهداف دست یافتنی در قالب مسئله داده کاوی کاهش داد.
چه چیزی موجود است ؟
اولین جایی که باید به دنبال داده ها گشت ذخیره ساز داده های شرکت است. داده های موجود در ذخیره ساز قبلاً تصفیه، غربال و تایید شده اند و از منابع متعددی گردآوری شده اند. انتظار می رود که یک مدل داده واحد تضمین کند که زمینه های همنام دارای یک معنای یکسان و دارای انواع سازگار داده در سرتاسر پایگاه داده ها هستند. ذخیره ساز داده های شرکت، یک محل ذخیره داده های تاریخی است که داده های جدید به آن افزوده می شوند ولی داده های قدیم هرگز تغییر داده نمی شوند. ذخیره ساز داده ها فراهم کننده داده های انبوهی است که قابل تجمیع به سطح مناسب برای داده کاوی است که برای پشتیبانی تصمیم گیری طراحی شده است.
تنها مشکل این است که در بسیاری از سازمان ها چنین انبار ذخیره ساز داده ها وجود خارجی ندارد و یا یک یا چند انبار ذخیره ساز داده ها موجود است اما آن طور که انتظار می رود نیست. در این صورت داده کاوان باید در پایگاه های داده های بخش های مختلف و اعماق سیستم های عملیاتی به جست و جوی داده ها بپردازند. این سیستم های عملیاتی برای انجام وظیفه ای خاص همچون پردازش مطالبات، انتقال تماس، ثبت سفارش و یا ارسال صورت حساب طراحی شده اند. هدف اصلی از طراحی آن ها پردازش سریع و دقیق تعاملات است و داده ها در هر شکلی که باشند صرفا مناسب این هدف طراحی شده اند. ممکن است برای گرفتن داده ها به شکل مناسب برای کشف اطلاعات نیاز به تلاش قابل توجه تشکیلاتی و برنامه ریزی باشد. در بعضی موارد برای تامین داده ها باید رویه های عملیاتی تغییر کنند. بطور مثال یک فروشنده بزرگ از طریق ارسال کاتالوگ می خواست عادات خرید مشتریانش را تحلیل کند تا بازاریابی متفاوتی را برای مشتریان جدید و قدیمش داشته باشد. متاسفانه هر کس که در شش ماه گذشته سفارشی نداده بود خودبه خود از بایگانی حذف می شد. تعداد قابل توجه افراد وفاداری که از کاتالوگ ها فقط برای خرید انتهای سال و نه بقیه طول سال استفاده می کردند ناشناخته می ماندند و در حقیقت غیر قابل شناسایی بودند تا این که شرکت شروع به نگهداری داده های تاریخی مشتریان خویش کرد.
در خیلی از سازمان ها تشخیص این که چه داده هایی در دسترس هستند به طرز عجیبی مشکل است. مستندات مربوط به داده ها معمولاً مفقود یا تاریخ گذشته اند. اغلب هیچ فردی وجود ندارد که بتواند تمام پاسخ ها را فراهم کند. تعیین این که چه چیزی موجود است نیازمند مراجعه به فهرست داده ها، مصاحبه با کاربران و اداره کنندگان پایگاه داده ها و بررسی گزارش های فعلی است.
از مستندات پایگاه داده ها و فهرست های داده ها صرفا به عنوان راهنما بایستی استفاده کرد اما آنها را به عنوان حقیقت مطلق تغییرناپذیر قبول نکرد. این امر که یک زمینه در یک جدول تعریف شده یا در یک سند به آن اشاره شده است به معنای وجود این زمینه، قابل دستیابی بودن آن برای تمام مشتریان و صحیح بودن محتوای آن نیست.
چقدر داده کافی است ؟
متاسفانه جواب ساده ای برای این سوال وجود ندارد. جواب بستگی به الگوریتم های به کار رفته، پیچیدگی داده ها و فراوانی نسبی نتایج ممکن دارد. دانشمندان سال ها برای توسعه آزمون های تعیین کوچک ترین مجموعه مدل که قابل استفاده برای ساخت یک مدل باشد کار کرده اند. محققان در زمینه یادگیری ماشینی، زمان و انرژی زیادی را صرف ایجاد روشهایی برای استفاده مجدد از بخش هایی از مجموعه فراگیری برای اعتبار و آزمون کرده اند. در تمام این کارها یک نکته مهم نادیده گرفته می شود: در عالم تجارت، داده کاوان کم یابند اما داده ها هرگز.
به هر صورت، جایی که داده واقعاً کم یاب است داده کاوی نه تنها اثر بخشی کم تری دارد بلکه حتی احتمال مفید بودنش هم کم است. داده کاوی وقتی بیشترین استفاده را دارد که حجم بالای داده ها الگوهایی را که ممکن است در پایگاه های داده های کوچک تر قابل کشف نبوده باشند را قابل کشف مینماید. بنابراین توصیه ما استفاده از داده های انبوه است که اساساً سوالی در مورد حداقل اندازه نمونه پیش نیاید. معمولاً اگر با میلیون ها اطلاعات از قبل دسته بندی شده شروع نکنیم بایستی حداقل با دهها هزار مورد کار را آغاز کرد تا مجموعه های آموزشی، اعتبار سنجی و آزمون هر یک دارای هزاران ردیف از اطلاعات باشند.
در داده کاوی هر چه داده ها بیشتر باشد بهتر است اما چند نگرانی وجود دارد. اولین نگرانی به رابطه بین اندازه مجموعه نمونه وتراکم آن برمی گردد. تراکم، نشان دهنده میزان حضور نتایج مورد نظرا ست. متغیر هدف معمولاً نشان دهنده یک پدیده نسبتاً نادر است. مشتریان بالقوه به ندرت به یک پیشنهاد پستی پاسخ می دهند. دارندگان کارت اعتباری به ندرت مرتکب تقلب می شوند. در طول هر ماه مشترکان روزنامه به ندرت اشتراکشان را لغو می کنند. همان طور که در ادامه این فصل در بخش ساخت مجموعه مدل آمده در فرآیند تهیه مدل بهتر است که مجموعه مدل با تعداد مساوی از هر یک از نتایج متوازن شود. یک نمونه کوچک تر و متوازن به یک نمونه بزرگ تر با سهم بسیار کمی از نتایج نادر ترجیح داده میشود.
نگرانی دوم به زمان داده کاوی مربوط می شود. وقتی که مجموعه مدل به اندازه کافی برای ساخت مدل های خوب و پایا بزرگ باشد بزرگ تر کردن آن تاثیر منفی می گذارد چون اجرای هر کاری بر روی مجموعه داده های بزرگتر زمان بیش تری می گیرد. از آنجا که داده کاوی یک فرآیند تکرار شونده است اگر هر اجرای یک فرآیند مدل سازی به جای چند دقیقه چند ساعت طول بکشد زمان انتظار برای به دست آوردن نتایج می تواند بسیار طولانی شود.
یک آزمون ساده برای بسندگی اندازه نمونه استفاده شده برای مدل سازی، دو برابر کردن آن و سنجش افزایش دقت مدل است. اگر مدل ساخته شده از نمونه بزرگتر به طور معناداری بهتر از مدلی باشد که با استفاده از نمونه کوچکتر تهیه شده است پس نمونه کوچک تر به اندازه کافی بزرگ نیست. اگر بهبود عمده ای حاصل نشود یا این افزایش بسیار جزئی باشد احتمالاً نمونه اولیه کافی است.
چه مقدار از اطلاعات پیشین مورد نیاز است؟
داده کاوی از داده های گذشته برای پیش بینی آینده استفاده می کند. برای داده های پیشین چقدر باید به گذشته رفت؟ این یک سوال ساده دیگر بدون پاسخ ساده است. اولین چیزی که باید در نظر گرفت آثار فصلی است. بطور مثال، اگر تجارتها تا حدی آثار فصلی را بروز می دهند. فروش در فصل زمستان در برخی از آنان بیش تر می شود. سفرهای تفریحی در تابستان افزایش می یابد. باید آن قدر داده های تاریخی و پیشین موجود باشد که پیش آمدها و نتایج دوره ای از این دست را در بر بگیرد.
از طرف دیگر، داده های خیلی قدیمی ممکن است به علت تغییر شرایط بازار برای داده کاوی مفید نباشند. خصوصاً وقتی که یک پیش آمد خارجی مثل تغییر مقررات به میان آمده باشد این مسئله بارزتر است. برای بسیاری از کاربردهای مشتری محوردو تا سه سال اطلاعات قبلی مناسب است. اما در چنین حالت هایی داده های آغاز رابطه با مشتری معمولاً ارزش بالایی دارد. داده هایی در خصوص پاسخ به سئوالاتی نظیر کانال جذب اولیه چه بوده، پرداخت اولیه مشتری چگونه بوده است.
تعداد مناسب متغیرها
داده کاوان بی تجربه گاهی عجله زیادی برای دور ریختن متغیرهایی دارند که بعید به نظر می رسد به کار بیایند تا تنها تعداد کمی متغیر گلچین شده که از نظر آن ها مهم است را نگهداری کنند. لازمه رویکرد داده کاوی آن است که تشخیص اهمیت داده ها به خود داده ها به خو داده ها سپرده شود. غالباً معلوم می شود که متغیرهایی که پیش تر نادیده گرفته می شدند در صورت ترکیب با متغیرهای دیگر دارای ارزش پیش بینی کنندگی هستند. به عنوان مثال، یک صادر کننده کارت اعتباری که هرگز داده های وام نقدی را در مدل های سودآوری مشتری اش منظور نمی کرد به واسطه داده کاوی متوجه شد کسانی که فقط در دو ماه منتهی به تابستان از وام نقدی استفاده می کنند بسیار سودآورند. احتمالاً این ها افراد محتاطی بوده اند که اکثر مواقع از گرفتن پول با نرخ بهره بالا اجتناب می کنند، احتیاطی که احتمال ناتوانی شان را در بازپرداخت، نسبت به استفاده کنندگان همیشگی از وام نقدی کاهش می دهد اما نیاز به پول بیشتری برای تعطیلات دارند وحاضرند بهره گزافی بابت آن بپردازند.
درست است که یک مدل نهایی معمولاً مبتنی بر تعداد محدودی متغیر است اما این چند متغیر غالباً از ترکیب چندین متغیر دیگر به دست می آیند و ممکن است از ابتدا معلوم نباشد که نهایتاً کدام ها مهم خواهند بود.
داده ها باید حاوی چه چیز باشند؟
داده ها باید حداقل در برگیرنده نمونه هایی از تمام نتایج مورد نظر باشند. در داده کاوی هدایت شده که به دنبال پیش بینی مقدار یک متغیر هدف است برخورداری از یک مجموعه مدل متشکل از داده هایی که از قبل دسته بندی شده اند حیاتی است. برای تفکیک افرادی که به احتمال زیاد وام دریافتی را بازپرداخت میکنند از آن ها که احتمالا وام خود را بازپرداخت نمیکنند، لازم است که هزاران نمونه از هر دسته موجود باشد تا بتوان مدلی ساخت که این دو را از هم تشخیص دهد. وقتی که یک متقاضی جدید مراجعه کند، درخواست نامه او با استفاده از تکنیک های داده کاوی با مشتریان گذشته مقایسه می شود. اگر درخواست جدید شبیه درخواست افرادی باشد که در گذشته ناتوان از بازپرداخت بوده اند، رد می شود.
توضیح فوق، متضمن این ایده است که این امکان هست که در یابیم در گذشته چه روی داده است.برای یادگیری از اشتباهات ، اول باید متوجه شویم که اشتباه کرده ایم و این همیشه ممکن نیست. یک شرکت مجبور شد از تلاش برای استفاده از داده کاوی هدایت شده برای ساخت ی مدل تشخیص تقلب در مطالبه گارانتی دست بردارد زیرا با وجود این که به برخی ادعاها شک داشتند، در مورد این که کدام مطالبات واقعی نیستند اطلاعاتی نداشتند. بدون یک مجموعه آموزشی شامل ادعاهای مشخص شده به عنوان تقلبی یا یا موثق، بکارگیری این تکنیک ها غیر ممکن بود. یک شرکت دیگر به دنبال ساخت یک مدل پاسخ به نامه های ارسالی بود اما تنها می توانست داده های مربوط به افرادی را فراهم کند که به تبلیغات گذشته پاسخ داده بودند. آن ها هیچ اطلاعاتی را از کسانی که پاسخ نداده بودند نگه نداشته بودند پس مبنایی برای مقایسه وجود نداشت.
مرحله سوم : شناخت داده ها
صحبت درباره اهمیت زمان صرف شده برای بررسی داده ها پیش از شروع تهیه مدلها کار آسانی نیست. به نظر می رسد داده کاوان خوب به شم خود بسیار تکیه می کنند و به نوعی قادرند حدس بزنند مثلاً چه متغیری برای ورود به مدل خوب است. تنها روش بهتر کردن شم در مورد آنچه در یک مجموعه از داده های ناآشنا رخ می دهد وارد شدن به آن مجموعه است. در این حالت احتمال دارد بسیاری از مسائل مربوط به کیفیت داده ها کشف شده و سوالات زیادی به ذهن خطور کند که در غیر این صورت به ذهن نمی رسید.
بررسی توزیعها
ابزارهای تصویرسازی داده ها می توانند در طول بررسی های اولیه مجموعه داده ها بسیار مفید باشند. بررسی هیستوگرام هر کدام از متغیرها در مجموعه داده ها و پی بردن به آنچه هست و بیان می کند، برداشتن یک گام خوب است. در باره هر چیز جالب توجه، یادداشت برداری کنید. اگر نمودار میله ای متغیری که در مورد استان ها وجود دارد در مورد یک استان خاص بلندترین است بایستی از خود سوال کنید که آیا غیر منتظره است؟ به دامنه هر متغیر توجه کنید. آیامتغیرهایی که باید به حساب بیایند مقادیر منفی به خود می گیرند؟ آیا بالاترین و پائین ترین ارقام که آن متغیرهایی که باید به حساب بیایند مقادیر منفی به خود می گیرند؟ آیا بالاترین و پائین ترین ارقام که آن متغیر می گرد معقولانه به نظر نمی رسد؟ آیا میانگین با میانه تفاوت زیادی دارد؟ تعداد داده های گم شده چقدر است؟ آیا شمار متغیرها در طول زمان ثابت بوده است؟
به محض دست زدن به پوشه داده های یک منبع جدید بهتر است داده ها را نمایه سازی کنید تا بفهمید چه چیزی در حال رخ دادن است. این موضوع شامل به دست آوردن شمارگان و خلاصه آماری هر زمینه، شمار تعداد مجزای ارقام به دست آمده توسط متغیرهای دسته ای و هر جا لازم باشد جدول بندی چند بعدی مانند فروش با محصول با ناحیه میباشد. علاوه بر به دست آوردن بینش نسبت به داده ها احتمالاً عمل نمایه سازی زنگ خطرهایی را در باره عدم ثبات یا مسائل دیگر به صدا در می آورد که می تواند مفید بودن تجزیه تحلیل های بعدی را به خطر بیاندازد.
مقایسه ارقام با توصیفات
به رقمهای هر متغیر نگاه کنید و آنها را با توصیفات داده شده برای هر متغیر در نوشته های موجود مقایسه کنید. این کار اغلب نشان می دهد که توصیفات، غیر صحیح و ناکامل هستند. در یک مجموعه داده ها از خریدهای یک فروشگاه، متغیری که به عنوان تعداد قلم کالا نامگذاری شده بود دارای ارقامی بود که عدد صحیح نبودند. با بررسی های بیشتر معلوم شد که اگرچه در این زمینه حاوی تعداد اقلامی بود که برای محصولات فروخته شده به کار می رفت ولی وزن اقلامی که بصورت وزنی فروخته شده بودند نیز در نظر گرفته می شد. یک مجموعه دیگر داده ها از یک شرکت فروش کاتالوگی شامل زمینه ای بود که به عنوان کل هزینه های صرف شده در طول چند فصل نامگذاری شده بود. این زمینه به صورت مرموزی قادر به پیش بینی متغیر هدف بود، متغیری که می گفت آیا یک مشتری از یک کاتالوگ خاص پستی، سفارشی داده بود یا خیر. هر کسی که سفارش نداده بود در این زمینه صفر و هر کسی که سفارش داده بود نمره ای بالاتر از صفر می گرفت. نهایتا این نتیجه حاصل شد که این زمینه واقعاً شامل نمره سفارش مشتریان از پست مورد بررسی بود و نه کل هزینه های صرف شده در طول چند فصل، آنطور که عنوان آن می گفت. در هر صورت این مجموعه داده ها مطمئناً با عنوان خود هماهنگی نداشتند.
اعتبار بخشی به فرضیات
با استفاده از جدول بندی چند بعدی و نمودارهای پراکندگی، میله ای و نقشه ها، فرضیات موجود در باره داده ها را می توان معتبر ساخت. به متغیر هدف در ارتباط با انواع مخالف متغیرهای دیگر نگاه کنید تا ارتباطاتی چون ارتباط میزان دریافت پاسخ و کانال خاص ارسال نامه های تبلیغاتی، یا ارتباط نرخ از دست دادن مشتری به بازار و یا ارتباط درآمد و جنسیت را ببینید.در صورت امکان سعی کنید خلاصه گزارشها را با بازسازی مستقیم آنها از داده های اولیه مطابقت دهید. به عنوان مثال اگر از دست دادن ماهیانه مشتری دو درصد گزارش شده است تعداد مشتریانی را که در طول یکماه رابطه خود را لغو می کنند بشمارید تا اطمینان حاصل کنید که تعدادشان حدود دو درصد کل مشتریان می باشد.
سئوالات زیادی بپرسید
هرگاه به نظر رسید که داده ها با عقل و یا انتظارات شما جور در نمی آینند مسئله را یادداشت کنید. یکی از خروجی های مهم فرآیند بررسی داده ها فهرستی از سئوالات برای کسانی که داده ها ر ا تهیه نموده اند. اغلب این سئوالات نیازمند تحقیقات بیشتر هستند زیرا کاربران معدودی به دقت داده کاوان، داده ها را بررسی می کنند. مثالهایی از انواع سئوالات ارائه شده که احتمالاً از بررسی های اولیه ناشی می شوند در زیر آمده است:
چرا هیچ نوع بیمه ماشین شرکت بیمه خاص در استان های الف و ب فروخته نمی شود؟
چرا برخی از مشتریان در طول 31 روز دی ماه فعال بودند اما هیچکدام بیش از 28 روز در بهمن ماه از خود فعالیت نشان ندادند؟
چرا سال تولد مشتریان زیادی 1311 است؟ آیا واقعاً سن آنها همین قدر است؟
چرا هیچ موردی از خریدهای تکرار گزراش نشده است؟
وقتی تاریخ شروع قرارداد بعد از تاریخ اتمام قرارداد است چه معنی می تواند داشته باشد؟
چرا اعداد منفی در زمینه قیمت فروش وجود دارد؟
چگونه مشتریان فعال می توانند یک رقم غیر صفر در زمینه کد دلیل لغو کردن رابطه شان داشته باشند؟
همه اینها سوالات مرسومی هستند که گاه و بیگاه در مورد داده های واقعی می پرسی. اغلب جوابها به ما چیزهایی می آموزند که در باره صنعت و مشتریان نمی دانستیم. شرکت بیم خاص در استان های الف و ب فعالیت ندارد. بعدها در باره سیستمهای عملیاتی فردی مانند نمایش ورودی داده ها چیزهایی فهمیدیم که بر یک تاری تولد حتی وقتی هیچ کس نمی دانست تاکید می کرد و منجر به این شد که افراد زیادی دارای تاریخ تولد یازدهم ماه بهمن سال 1311 باشند چون 11/11/11 تاریخی است که با فشار دکمه 1 وتکرار اتوماتیک آن تا پرشدن کامل زمینه به دست می آید و با هیچ دکمه دیگری نمی توان چنین کاری را کرد تا تاریخهای معتبر به دست آورد. در ادامه آشنایی با داده ها، نتیجه گیری شد که مشکلات جدی در مورد داده ها وجود دارد و فرآیند استخراج داده های دارای نقص بوده است.
مرحله چهارم : تهیه یک مجموعه مدل
مجموعه مدل حاوی همه داده هایی است که در فرآیند مدل سازی مورد استفاده قرار گرفته است. از برخی از داده ها در مجموعه مدل برای یافتن الگوها استفاده می شود. از برخی دیگر از داده ها در مجموعه مدل برای اثبات تداوم مدل استفاده می شود و برخی برای ارزیابی عملکرد مدل به کار گرفته می شود. تهیه یک مجموعه مدل نیازمند جمع آوری داده ها از منابع چندگانه برای تشکیل بخشهای مشتریان و سپس آماده کردن داده ها برای تجزیه و تحلیل است.
جمع آوری بخشهای مشتریان
مجموعه مدل عبارت از یک جدول و یا مجموعه ای از جداول است که برای هر مورد دارای یک ردیف حاوی زمینه های مشخص در باره آن مورد است. وقتی داده ها مشتریان را توصیف می کند، ردیفهای مجموعه مدل را اغلب بخشهای مرتبط با مشتریان می نامند. جمع آوری بخشهای مرتبط با مشتریان از پایگاه داده های ارتباطی اغلب نیازمند بررسیهای پیچیده برای مرتبط نمودن داده ها از جدولهای فراوان و سپس افزودن داه های سایر منابع به آن است. بخشی از فرآیند جمع آوری داده ها شامل گرفتن همه داده هایی است که در سطح صحیح خلاصه سازی قرار دارند، بنابراین به ازای هر مشتری یک رقم تخصیص یافته است بجای آنکه یک رقم برای هر تعامل یا یک رقم برای هر کد پستی وجود داشته باشد.
تهیه یک نمونه متعادل
اغلب عمل داده کاوی شامل یادگیری برای تمایز قائل شدن بین گروههایی چون پاسخ دهندگان و غیره پاسخ دهندگان، خوبا و بدها یا اعضای بخش های مختلف مشتریان است. همانطور که قبلاً اشاره شد الگوریتم های داده کاوی زمانی به خوبی عمل می کنند که این گروهها دارای شمار اعضای یکسانی باشند و این مسئله در حالت طبیعی محتمل نیست چرا که در دنیای واقعی معمولاً گروههای مطلوبتر کمتر هستند. قبل از مدل سازی باید مجموعه داده ها را یا به وسیله نمونه گیری از گروههای مختلف با نرخهای مختلف و یا با افزودن یک عامل وزنی متعادل کرد.
در آمار معمولاً مشاهدات پرت را حذف می کنند؛ مشاهداتی که از دامنه معمولی بسیار دورتند. با این وجود در داده کاوی این مشاهدات پرت و خارج از دامنه شاید همان چیزی باشد که به دنبالش می گردیم.بطور مثال در داده های فرآیند تجارت، این نوع مشاهدات می تواند نشانگر نوعی تقلب و یا عمل غیر قانونی باشد و یا بالعکس بازار بسیار سودآوری را نشان دهد. در این موارد، مشاهدات پرت را نبایستی حذف نمود بلکه باید آنها را شناخت و درک کرد.
در نظر گرفتن چارچوبهای زمانی چند گانه
هدف اولیه در روش شناسی داده کاوی، تهیه مدلهای پایدار است. مهم این است که مدلهادر آینده ودر هر زمانی از سال به خوبی کار کنند. اگر داده های موجود در مجموعه مدل همگی از یک زمان در سال گرفته شده باشند احتمال وقوع بی ثباتی در مدل بیشتر است. حتی اگر قرار است مدلی براساس داده های تنها سه ماه ساخته شود، ردیفهای مختلف مجموعه مدل باید از دوره های سه ماهه متفاوت استفاده کنند. این ایده به مدل اجازه می دهد چیزهایی را از گذشته اقتباس کند نه آنکه آنچه را که قبلاً در زمان خاصی در گذشته رخ داده فقط حفظ نماید.
تهیه یک مدل براساس داده هایی که از یک دوره خاص زمانی گرفته شده اند خطر مواجهه با چیزهایی را که در کل درست نیستند افزایش می دهد. مثلاً فرض کنید زمانی با مدل قوانین وابستگی مواجه شدید که حاوی اقلام خاصی مثلا زولبیا در یک سبد خرید باشد. در این حالت همه قوانین وابستگی، فروش زولبیا را پیش بینی می کنند. این نتیجه تعجب برانگیز زمانی عادی تر میشود که دریابیم که مجموعه مدل از داده های مربوط به هفته قبل از ماه رمضان تهیه شده بوده است.
تهیه یک مجموعه مدل بریا پیش بینی استفاده شود باید در باره جنبه دیگری از زمان نیز نگران بود. اگر چه مجموعه مدل باید حاوی چارچوبهای زمانی چند گانه باشد ولی هر بخش مشتری باید فاصله ای زمانی بین متغیرهای پیشگو و متغیر هدف داشته باشد. زمان را همیشه می توان به سه دوره گذشته ، حال و آینده تقسیم کرد. یک مدل پیش بینی از داده های گذشته برای پیش بینی آینده استفاده می کند. همانطور که در شکل 7-3 نشان داده شده هر سه دوره زمانی باید در مجموعه مدل باشند.
البته همه داده ها از گذشته تهیه می شوند بنابراین دوره زمانی در مجموعه مدل در واقع
شکل 7-3 : یک مدل پیش بینی از داده های گذشته برای پیش بینی آینده استفاده می کند.
گذشته دور، گذشته نه چندان دور و گذشته خیلی نزدیک هستند. مدلهای پیش بینی کننده با یافتن الگوهایی در گذشته دور تهیه می شوند و نتایجی رادر گذشته خیلی نزدیک بیان می کنند.
وقتی مدل به کار گرفته شد آنگاه قادر خواهد بود از داده های گذشته خیلی نزدیک نیز برای پیش بینی آینده استفاده کند. ممکن است در بدو امر مشخص نباشد که چرا برخی از داده های اخیر که از گذشته نه چندان دور تهیه شده اند در یک بخش خاص مشتری به کار نمی روند. پاسخ این مسئله است که وقتی از مدل در زمان حال استفاده شد هیچ داده ای مربوط به زمان حال به عنوان ورودی مدل وجود ندارد. شکل 8-3 این موضوع را به روشنی نشان می دهد.
اگر مدلی با استفاده از داده های مربوط به ماه شهریور تهیه شد (گذشته نه چندان دور) تا در باره ماه مهر پیش بینی هایی انجام دهد (گذشته نزدیک) پس نمی توان آنرا برای پیش بینی آذر ماه به کاربرد مگر اینکه داده های آبان ماه موجود باشد. ولی چه زمانی داده های آبان ماه به دست می آید؟ مطمئناً در خود آبان ماه بدست نمی آید زیرا در این ماه این داده ها تازه در حال تهیه شدن است. در بیشتر سازمان ها داده های آبان تا اواسط آذر یا حتی دی ماه آغاز نمی شوند که تا آن زمان دیگر کسی درباره پیش بینی ماه آذر فکر نمی کند. راه حل این مسئله گنجاندن یک ماه نهفته در مجموعه مدل است.
شکل 8-3: زمانی که مدل تهیه شده است با زمانی که مدل مورد استفاده قرار می گیرد مقایسه شده است.
تقسیم بندی مجموعه مدل
هنگامی که داده های از پیش تعیین شده از چارچوبهای زمانی مناسب به دست آمد لازم است بقیه کار را در سه مرحله انجام داد. از اولین مرحله که مجموعه آموزشی نام دارد برای تهیه مدل اولیه استفاده می شود. از مرحله دوم که مجموعه اعتبار سنجی نام دارد برای تعدیل مدل اولیه استفاده می شود تا آنرا کلی تر کند و کمتر به ویژگی های خاص مجموعه آموزشی وابسته باشد. سومین مرحله که مجموعه آزمون نام دارد برای تعیین احتمال کارآیی مدل در هنگام استفاده برای داده های مشاهده نشده به کار می رود. وجود و تفکیک این سه مجموعه داده الزامی است زیرا وقتی از داده ها در یک مرحله از فرآیند استفاده شد دیگر نمی توان از آن برای مرحله بعدی استفاده کرد زیرا اطلاعاتی که ارائه می شود دیگر چزئی از مدل شده است بنابراین نمی توان از آن برای تصحیح و یا قضاوت در مورد مدل ساخته شده استفاده کرد. اغلب درک این مسئله برای افراد مشکل است که چرا وقتی مجموعه های آموزشی و اعتبار سنجی برای ساختن یک مدل بکار میروند دیگر غیر قابل استفاده می شوند. شاید این موضوع با یک مقایسه روشن تر شود. فرض کنید در کلاس اول راهنمایی قرار دارید و در کلاس در حال دادن امتحان املای انگلیسی می باشید. فرض کنید در امتحان آخر دوره، معلم از شما می خواهد نمره خود را در امتحان با علامت گذاشتن کلمات اشتباه تخمین بزنید. شما به خودتا نمره خیلی خوبی می دهید ولی املایتان پیشرفت نمی کند. اگر در اول دوره فکر می کردید که باید یک حرف e در آخر کلمه tomato باشد الان چیزی رخ نداده که ذهنتان را عوض کند. هیچ اطلاعات جدیدی به سیستم وارد نشده است . شما به یک مجموعه اعتبار سنجی نیاز دارید.
حالا فرض کنید معلم در آخر امتحان به شما اجازه می دهد قبل از اینکه به خود نمره بدهید به ورقه چند نفر از همکلاسی هایتان نگاهی بیاندازید. اگر همه آنها بر سر این مسئله توافق دارند که در آخر کلمه tomato هیچ e وجود ندارد پس آنگاه مطمئن می شوید که نوشتن شما اشتباه بوده است. اگر معلم فردا صبح همان امتحان را تکرار کند شما بهتر عمل خواهید کرد. اما چقدر بهتر؟ اگر شما از ورقه های همکلاسی های خود برای ارزیابی نحوه عملکردتان در فردا صبح استفاده کنید باز هم شاید خود را گول بزنید. اگر همه آنها بگویند که potatoes احتیاج به e دیگری مانند tomato ندارد و شما هم حدس خود را تغییر دهید تا مثل آنها فکر کنید آنگاه در مورد نمره واقعی خود در امتحان دوم هم تخمین فراتری از واقعیت زده اید. به همین دلیل است که باید مجموعه آزمون از مجموعه اعتبار سنجی متفاوت باشد.
برای مدلهای پیشگو، مجموعه آزمون از دوره های زمانی متفاوتی در مقایسه با مجموعه های آموزشی و اعتبار سنجی ایجاد می شود. اثبات تداوم یک مدل در توانایی آن در عملکرد خوب در ماههای متوالی است. یک مجموعه آزمون از دوره های زمانی متفاوت را اغلب یک مجموعه آزمون خارج از زمان می نامند که روش خوبی برای اثبات تداوم مدل است هر چند چنین مجموعه آزمون همواره موجود نیست.
مرحله پنجم: رفع مشکلات داده ها
معمولا همه داده دارای مشکل بوده و ناپاک و نیازمند رفع مشکل هستند. اینکه یک موضوع مشکل نامیده می شود یا خیر، بسته به نوع تکنیکهای داده کاوی دارد.
در برخی از تکنیکها چون درختهای تصمیم، داده های گمشده و مشاهدات پرت مشکل زیادی ایجاد نمی کنند ولی در برخی دیگر مثل شبکه های عصبی این موارد باعث انواع مشکلات می گردند. به همین دلیل برخی از موضوعات مرتبط با رفع مشکلات داده ها در فصول خاص تیکنیکها بحث می شود.
– متغیرهای عددی با توزیع و مشاهدات پرت نادرست
توزیعهای اریب و مشاهدات پرت باعث ایجاد مشکلات در آن دسته از تکنیکهای داده کاوی می شوند که از مقادیر به صورت عددی استفاده می کنند. در اغلب موارد بهتر است اطلاعاتی را که حاوی مشاهدات پرت هستند حذف کرد. در برخی دیگر از موارد بهتر است ارقام را به دسته های مساوی از نظر اندازه مثلاً دسته های ده تایی تقسیم کرد یا آنکه با تبدیل چنین متغیرهایی مثلاً با جایگزینی با لگاریتم خود، دامنه ارقام را کاهش داد.
مقادیر گمشده
برخی از الگوریتم های داده کاوی می توانند با داده های گمشده مثل یک مقدار برخورد کنند و آنها را در تحلیل خود جای دهند. برخی دیگر از این الگوریتم ها متاسفانه نمی توانند با مقادیر گمشده کار کنند. در صورت عدم انجام آزمون تصادفی بودن مقادیر گمشده ، حذف اطلاعاتی که دارای مقادیر گمشده هستند باعث تحریف می شود. جایگزینی مقادیر گمشده با برخی از مقادیر محتمل مثل میانگین یا مقادیر با بیشترین فراوانی باعث افزودن اطلاعات غیر واقعی می شود. جایگزینی مقادیر گمشده با یک مقدار نامحتمل حتی از عدم جایگزینی مقدار گمشده بدتر است چرا که الگوریتم های داده کاوی بطور مثال تشخیص نخواهند داد که عدد 999 یک مقدار نامحتمل برای سن است و به همین جهت الگوریتم ها بدون احساس مشکلی از آن استفاده می کنند.وقتی که باید مقادیر گمشده را جایگزین کرد بهترین روش، استفاده از مدلی است که از مقادیر گمشده به عنوان متغیر هدف استفاده نموده و آن را تخمین میزند.
ارقام با معانی که در طول زمان تغییر می کنند
وقتی داده ها از دوره های قدیمی متفاوتی حاصل می شود، تغییر معانی یک رقم یکسان در یک زمینه یکسان در طول زمان، غیر معمول نیست. بطور مثال دسته اعتباری الف ممکن است همواره بهترین دسته باشد ولی دامنه دقیق امتیازات اعتباری که به عنوان الف دسته بندی شده اند ممکن است از زمانی به زمان دیگر فرق کند. برای مواجهه درست با این مسئله به ذخیره ساز داده هایی احتیاج هست که به خوبی طراحی شده و چنین تغییراتی در معانی ثبت می شوند تا یک متغیر جدید را بتوان به نحوی تعریف کرد که در طول زمان معنی ثابتی داشته باشد.
کد گذاری غیر ثابت داده ها
وقتی اطلاعات در خصوص یک موضوع واحد از منابع مختلفی جمع آوری شود اغلب این منابع متفاوت، داده ه های یکسان را به روشهای گوناگونی عرضه می کنند. با اشراف به این موضوع می توان از بروز نتایج غلط جلوگیری نمود.
مرحله ششم: تبدیل داده ها برای استخراج اطلاعات
هنگامی که داده ها جمع آوری شد و مشکلات عمده داده ها رفع گشت باید داده ها را برابی تحلیل آماده کرد. این مرحله شامل افزودن زمینه های جدید مشتق شده برای استخراج اطلاعات است. حتی شاید این مرحله شامل حذف مشاهدات پرت، گروه بندی دسته ها در متغیرهای گروهی، به کارگیری تبدیلات مانند لگاریتم ها، تبدیل شماره ها به نسبتها و شبیه آنها باشد. آماده کردن داده ها چنان موضوع مهمی است که کتاب هایی اختصاصی با عنوان آماده کردن داده ها برای داده کاوی منتشر گردیده است. در اینجا چند مثال از این تبدیلات آورده شده است.
کشف روندها
اغلب داده های سازمان ها مانند گزارشات ماهیانه اطلاعات صورتحساب، مصرف، تماسها و غیره حاوی سریهای زمانی هستند.اغلب الگوریتم های داده کاوی داده های سری زمانی را درک نمی کنند. علائمی چون سه ماه کاهش سود را نمی توان با استفاده از مشاهدات جداگانه هر ماه تشخیص داد. این مسئله بر عهده داده کاو است تا اطلاعات مربوط به روندها را کشف کند. و این کار را با افزودن متغیرهای جدید مانند نسبت پول هزینه شده در ماههای اخیر به هزینه ماه قبل در یک روند کوتاه مدت یا نسبت ماههای اخیر به همان ماهها در سال قبل برای یک روند طولانی مدت می تواند انجام دهد. اغلب این زمینه های جدید حاصل از نسبت هایی از زمینه های موجود است که برای یک تحلیل گر آگاه دارای مفهوم آشکار هستند ولی با نرم افزارهای صرف نمی توان به آنها پی برد. افزودن زمینه هایی که روابط مهم را از دید کارشناسان موضوع مورد تحقیق نشان می دهند روشی است که ازطریق آن فرآیند داده کاوی از وجود کارشناسان آن رشته بهره می برد.
تبدیل شماره ها به نسبتها
بیشتر مجموعه داده ها حاوی شماره ها یا ارقام پولی هستن که در عمل جالب نیستند زیرا به نسبت ارقام دیگر تغییر می کنند. خانواده های بزرگتر در مقایسه با خانواده های کوچکتر پول بیشتری را صرف خواروبار می کنند. آنها پول بیشتری را صرف گوشت، کالاهای بسته بندی شده، مواد شوینده و پاک کننده و هر چیزی دیگری می کنند. بنابراین مقایسه میزان پولی که توسط خانواده های مختلف برای خرید هر گروهی از کالاها مثل نان صرف شده است تنها بیانگر این واقعیت است که خانواده های بزرگتر پول بیشتری هزینه می کنند در حالیکه بهتر است بجای میزان پول هزینه شده بطور مطلق، از نسبت مصرف هر خانواده در هر گروه استفاده شده و مقایسه صورت پذیرد.
مرحله هفتم : تهیه مدلها
جزئیات این مرحله از تکنیکی به تکنیک دیگر متفاوت است و در فصول مربوط به روشهای مختلف داده کاوی بیان شده است. در شرایط کلی، مرحله هفتم مرحله ای است که قسمت عمده کار تهیه یک مدل در آن رخ می دهد.
در داده کاوی هدایت شده از مجموعه آموزشی برای بیان متغیر مستقل یا هدف براساس متغیرهای وابسته یا ورودی استفاده می شود. این بیان ممکن است به شکل یک شبکه عصبی، یک درخت تصمیم و یا سایر تکنیک ها باشد. در داده کاوی غیر هدایت شده هیچ متغیر هدفی وجود ندارد و مدل به یافتن روابط بین داده ها و بیان آنها به عنوان قوانین وابستگی و یا تخصیص آنها به خوشه ها می پردازد.
تهیه مدلها مرحله ای از فرآیند داده کاوی است که در واقع توسط نرم افزارهای داده کاوی انجام شده و به همین دلیل نسبتاً زمان کمی در پروژه داده کاوی به خود اختصاص می دهد.
مرحله هشتم : ارزیابی مدلها
مرحله ارزیابی مدلها تعیین می کند که آیا مدلها به خوبی کار می کنند یا نه. در ارزیابی یک مدل باید به سوالات زیر پاسخ داده شود:
* صحت و دقت مدل چقدر است؟
* مدل تا چه حد داده های مشاهده شده را به خوبی توصیف می کند؟
* به پیش بینی های مدل چقدر می توان اعتماد داشت؟
* مدل تا چه حد قابل فهم است؟
* البته پاسخ این سوالات به نوع مدلی بستگی دارد که ساخته شده است. در اینجا منظور از ارزیابی مدل، بررسی ویژگیهای فنی مدل است.
– ارزیابی مدلهای توصیفی
قانون اگر (استان=تهران باشد) منبع گرمایش گاز است به نظر توصیف کننده تر از این قانون می آید که اگر (منطقه =10 یا منطقه =15 یا منطقه =6 یا منطقه =8 یا منطقه =22 یا منطقه =16 باشد) آنگاه منبع گرمایش گاز است. حتی اگر معلوم شود هر دو قانون یکسان هستند، قانون اول باز هم بیان کننده تر است.
قدرت بیان کنندگی ممکن است قدرتی صرفاً ذهنی به نظر آید ولی در واقع در اینجا روشی تئوریکی برای اندازه گیری وجود دارد که اندازه حداقل توصیف کنندگی13 نامیده می شود. اندازه حداقل توصیف کنندگی برای یک مدل به تعداد اجزایی گفته می شود که برای رمز گذاری قوانین و فهرست تمام استثناهای آن لازم است. هر چه اجزای کمتری لازم باشد قانون بهتر است. برخی از ابزارآلات داده کاوی از MDL برای تصمیم گیری در باره اینکه چه مجموعه ای از قوانین را نگه دارند و کدامها را دور بریزند استفاده می کنند.
– ارزیابی مدلهای هدایت شده
مدلهای هدایت شده براساس صحت شان در مورد داده های مشاهده نشده قبلی ارزیابی می شوند. کارهای مختلف داده کاوی نیازمند روشهای مختلف ارزیابی عملکرد مدل به عنوان یک کل و روشهای مختلف قضاوت در مورد احتمال ایجاد نتایج صحیح برای هر اطلاعات خاصی است. ارزیابی هر مدل به ساختار آن بستگی دارد، یک مدل رامی توان براساس یک روش اندازه گیری، خوب و همان را بر اساس روش اندازه گیری دیگر، بد نامید. هدف محققان تهیه مدلهایی است که در زمینه کسب بهترین تناسب ذهنی، محققان اغلب مدلهایی را ترجیح می دهند که از قوانین ساده و کمتری تشکیل شده اند تا مدلهایی که حاوی قوانین بسیار زیادی هستند حتی اگر اینگونه مدلها صحیح تر باشند.
– ارزیابی دسته بندی کننده ها و پیشگوها
برای کارهای دسته بندی و پیش بینی، صحت را براساس نرخ خطا اندازه می گیرند که درصد اطلاعات دسته بندی شده نادرست است. از نسبت خطای دسته بندی مجموعه آموزشی از قبل دسته بندی شده، برای تخمین نسبت خطای مورد انتظار در هنگام دسته بندی اطلاعات جدید استفاده می شود. البته این روش تنها هنگامی معتبر است که مجموعه آموزشی نماینده جمعیت بزرگتری باشد. روش به دست آوردن نسبت خطای یک مدل، اندازه گیری این نسبت در یک مجموعه داده ها است که از جمعیت یکسانی گرفته شده است. در حالت ایده آل چنین مجموعه آموزشی باید در مقایسه با داده های موجود در مجموعه مدل از داده های گذشته خیلی اخیر تهیه شده باشد، با این وجود در عمل چنین چیزی ممکن نیست.
یکی از مشکلات نسبت خطا به عنوان وسیله ای برای ارزیابی این است که برخی از خطاها از سایرین بدتر هستند. یک مثال معروف که در دنیای پزشکی رخ می دهد هنگامی است که جواب منفی اشتباه در یک آزمایش مربوط به یک بیماری سخت، باعث می شود بیمار معالجه نشود و عواقب وخیمی را در زندگی اش تجربه کند در حالیکه یک جواب مثبت اشتباه منجر به آزمایش دوم احتمالاً گرانتر و تخصصی تر می شود. از یک ماتریس آشفتگی یا ماتریس دسته بندی صحیح که در شکل 9-3 نشان داده شده می توان برای تشخیص منفی های غلط از مثبتهای غلط استفاده کرد.
شکل 9-3: نتایج پیش بینی شده یک ماتریس آشفتگی با جدول بندی چند بعدی به همراه نتایج واقعی
– ارزیابی تخیمن زننده ها
در کارهای تخمین زدند صحت را براساس تفاوت بین امتیاز پیش بینی شده و نتایج واقعی اندازه گیری شده بیان می کنند. هم صحت هر یک از تخمین ها و هم صحت مدل به عنوان یک کل مهم هستد. ممکن است یک مدل برای دامنه ای از مقادیر ورودی کاملاً صحیح باشد و برای سایر مقایدر نادرست باشد. شکل 10-3 یک مدل خطی را نشان می دهد که سود کلی را براساس قیمت واحد یک محصول تخمین می زند. این مدل ساده روی یک دامنه قیمت به خوبی کار می کند ولی وقتی قیمت به حدی برسد که قابلیت انعطاف پذیری تقاضا برای آن محصول (نسبت درصد تغییر در کمیت فروخته شده به درصد تغییر در قیمت) بیشتر از یک باشد دیگر مدل کارآیی لازم را ندارد. قابلیت انعطاف پذیری بیشتر از یک به معنی این است که هر افزایش قیمتی منجر به کاهش سود خواهد شد زیرا سود افزایش یافته در هر واحد بیش از تعدیلی است که با کاهش تعداد واحدهای فروخته شده صورت گرفته است. روش استاندارد بیان صحت یک مدل تخمین، از طریق اندازه گیری میزان دور بودن تخمینها به طور میانگین از مقدار واقعی است ولی میانگین تفاضل ارقام
شکل 10-3 : صحت یک تخمین زننده ممکن است در طول دامنه ای از ورودی ها تفاوتهای آشکاری داشته باشد.
تخمین زده شده و ارقام واقعی ممکن است منجر به جوابی بی معنی می شود. دلیل این مسئله در تخمینهای مثال جدول 1-3 نشان داده شده است.
جدول 1-3 : جدول محاسبه خطاها
رقم واقعی
رقم تخمین زده شده
خطا
127
132
5-
78
76
2
120
122
2-
130
129
1
95
91
4
همانطور که دیده می شود میانگین تفاوت بین ارقام واقعی و تخمین ها صفر است چرا که تفاوتهای مثبت و منفی همدیگر را خنثی کرده اند. برای رفع این مشکل، روش معمول حل این مسئله این است که بجای تفاوتها از مربع تفاوتها استفاده می شود. همانطور که از قبل می دانید میانگین مربع تفاوتها واریانس نامیده می شود. تخمین ها در این مثال دارای واریانس 10 هستند. هر چه واریانس کوچکتر باشد اختلاف تفاوت بین ارقام واقعی و تخمین ها کمتر ودر نتیجه تخمین صحیح تر است. یکی از نقطه ضعفهای واریانس به عنوان وسیله ای برای اندازه گیری این است که واحد واریانس با واحد تخمینها یکسان نیست. برای قیمتهای تخمین زده به یک واحد پولی بهتر است بدانیم تخمینها چند واحد پولی از واقعیت دور هستند تا مربع آن واحد پولی. به همین دلیل معمولاً بجای استفاده از واریانس از جذر آن یعنی انحراف معیار استفاده می شود. انحراف معیار تخمینهای مثال یاد شده، جذر عدد 10 یعنی 16/3 می باشد. در واقع انحراف معیار اندازه ای برای نشان دادن میزان تفاوت ارقام تخمین زده شده از ارقام واقعی است.
مقایسه مدلها با استفاده از صعود
مدلهای هدایت شده ساخته شده با استفاده از شبکه های عصبی، درختهای تصمیم ویا الگوریتم ژنتیک ، همگی برای انجام اعمالی تهیه شده اند که بایستی در باره آنها براساس توانایی دسته بندی، تخمین و پیش بینی شان قضاوت کنیم. معمولترین روش برای مقایسه عملکرد مدلهای دسته بندی استفاده از نسبتی است که صعود نامیده می شود. این اندازه را می توان برای مقایسه مدلهایی که برای سایر عملکردها هم طراحی شده اند متناسب نمود. آنچه واقعاً توسط صعود اندازه گرفته می شود تغییر تمرکز یک دسته خاص است وقتی که از مدل برای انتخاب یک گروه در میان جمعیت کلی استفاده می شود.
با آوردن یک مثال این مسئله بیشتر توضیح داده می شود. فرض کنید در حال تهیه مدلی برای پیش بینی افراد محتمل به پاسخ دادن به یک تبلیغات پستی مستقیم هستیم. طبق معمول مدل را با استفاده از یک مجموعه داده های آموزشی از پیش دسته بندی شده تهیه می کنیم و اگر لازم باشد از یک مجموعه اعتبار سنجی از قبل دسته بندی شده هم استفاده خواهیم نمود. اکنون برای استفاده از مجموعه آزمون جهت محاسبه میزان صعود مدل آماده ایم.
به اطلاعات موجود در مجموعه آزمون جداگانه اینکه "پیش بینی شده که پاسخ دهد" و یا "پیش بینی شده که پاسخ ندهد" تعلق می گیرد. البته همواره این مسئله درست نیست ولی اگر مدل، مدل خوبی باشد گروه افرادی که به عنوان "پیش بینی شده که پاسخ دهد" علامت گذاری شده اند دارای نسبت بیشتری از پاسخ دهندگان واقعی هستند تا مجموعه آزمون به عنوان یک کل. بعنوان مثال اگر مجموعه آزمون و نمونه به ترتیب حاوی 5 و 50 درصد پاسخ دهندگان واقعی باشد، مدل دارای صعود 10 درصدی خواهد بود که از تقسیم 50 بر 5 حاصل می شود.
آیا مدلی که بالاترین مقدار صعود را دارد لزوماً بهترین مدل است؟ مطمئناً فهرستی از افرادی که نصف آنها پاسخ خواهند دد نسبت به فهرستی که تنها یک چهارم آنها پاسخ خواهند داد ارجح تر است. آیا این موضوع همواره درست است؟ لزوماً نه، هنگامی که لیست اول تنها دارای 10 اسم است این موضوع بهیچوجه درست نیست. نکته در این است که صعود تابع اندازه نمونه است. همانطور که سطح اطمینان مورد نیاز برای دسته بندی فرد به عنوان محتمل به پاسخگویی کاهش می یابد فهرست پستی طولانی تر شده و صعود نیز کاهش می یابد.
نمودارهایی مانند آنچه در شکل 11-3 نشان داده شده در هنگام کار با ابزارهای داده کاوی برای شما آشناتر می شود. این نمودار با دسته بندی همه مشتریان بالقوه براساس احتمال پاسخ گویی آنها، بعنوان خروجی مدل پیش بینی تهیه می گردد. هر چه تعداد افراد فهرست پستی افزایش می یابد به آخرهای فهرست نزدیکتر می شویم. محورX، درصد جمعیتی را نشان می دهد که نامه پستی ما را دریافت می کنند و محور Y درصد همه پاسخ دهندگان را نشان می دهد.
شکل 11-3: پاسخ تجمعی پست هدف دار در مقایسه با پست انبوه
اگر از هیچ مدلی استفاده نمی شد با فرستادن نامه پستی برای 10 درصد از جامعه به 10 درصد پاسخ دهندگان و با فرستادن نامه پستی برای 50 درصد جمعیت به 50 درصد پاسخ دهندگان و با فرستادن نامه برای همه جمعیت به همه پاسخ دهندگان می رسیدیم. این روش پست انبوه در شکل 11-3 با خطی که به طرف بالا متمایل است نشان داده شده است. منحنی بعدی نشان می دهد اگر از مدل برای انتخاب مخاطبان نامه ها استفاده شود چه اتفاقی می افتد. مدل می گوید که با فرستادن نامه تنها برای 10 درصد جمعیت به 20 درصد پاسخ دهندگان وبا فرستادن نامه برای 50 درصد جمعیت به بیش از 70 درصد پاسخ دهندگان خواهیم رسید. از نمودارهایی مثل آنچه در شکل 11-3 آمده اغلب به عنوان نمودارهای صعود یاد می شود. شکل 12-3 نمودار صعود واقعی متعلق به نمودار پاسخ شکل 12-3 را نشان می دهد. این نمودار به وضوح نشان می دهد که اگر تعداد افراد فهرست هدف افزایش یابد صعود کاهش می یابد.
شکل 12-3 : نمودار صعود با رقم بالایی شروع می شود و به 1 ختم می شود.
مشکلات صعود
صعود، مسئله چگونگی مقایسه عملکردهای مدلهای مختلف را حل می کند اما هنوز نمی تواند به سوالات مهمی از این دست پاسخ دهد: آیا این مدل ارزش صرف وقت، تلاش و پولی را که برای تهیه کردن آن هزینه شده دارد؟ آیا فرستادن نامه پستی برای بخشی که در آن صعود 3 است منجر به فعالیتی سود آور خواهد شد؟
بدون داشتن دانش کافی در مورد تجارت مورد بررسی نمی توان به این سوالات برای محاسبه هزینه ها و عواید پاسخ داد. با این وجود، صعود وسیله ای دم دستی برای مقایسه عملکرد دو مدل ساخته شده با داده های یکسان یا داده های مقایسه پذیر است. توجه داشته باشید که عملکرد دو مدل را تنها می توان با استفاده از صعود مقایسه کرد وقتی که مجموعه های آزمون دارای تراکم یکسانی از نتایج باشند.
مرحله نهم : پیاده سازی مدلها
پیاده سازی یک مدل به معنی انتقال آن از محیط داده کاوی به محیط امتیاز دهی است. این فرآیند می تواند آسان یا مشکل باشد. در بدترین حالت، مدل در محیط مدل سازی خاصی با استفاده از نرم افزاری تهیه می شود که در هیچ جای دیگری اجرا نمی شود. برای پیاده سازی مدل، یک برنامه ریز، یک توصیف از مدل را گرفته و آنرا به زبان دیگر برنامه نویسی می نویسد تا بتوان در زمینه امتیاز دهی آنرا اجرا نمود.
یکی از مشکلات معمول در این حالت این است که مدل از متغیرهای ورودی استفاده می کند که در داده های اصلی وجود ندارند. شاید این مشکل عمده ای نباشد زیرا ورودی های مدل حداقل از زمینه هایی استخراج شده اند که در اصل از مجموعه مدل به دست آمده اند. متاسفانه داده کاوان همواره اطلاعات مفید و قابل استفاده مجددی از تغییرات انجام شده روی داده ها را نگه نمی دارند. چالش پیاده سازی مدلهای داده کاوی این است که اغلب از مدلها برای امتیاز دهی مجموعه داده های بسیار بزرگی استفاده می شود. در برخی از محیطها اطلاعات هر یک نفر از یک میلیون مشتری هر روزه با امتیاز رفتارهای جدید به روز می شود. یک امتیاز تنها زمینه ای اضافی در جدول پایگاه داده هاست. امتیازها اغلب احتمال یا امکان را به صورت ارقام عددی بین صفر تا 1 نشان می دهند ولی همیشه لزوماً اینگونه نیست. یک امتیاز می تواند عنوان یک دسته ای که مثلاً با مدل خوشه بندی تهیه شده و یا عنوان دسته ای که احتمال را نشان می دهد نیز باشد.
مرحله دهم : ارزیابی نتایج
نمودار پاسخ موجود در شکل 14-3 تعداد پاسخ دهندگان به دست آمده در یک فعالیت پستی را در دو حالت با استفاده و بدون استفاده از یک مدل پیشگو مقایسه می کند. یک نمودار مفیدتر باید نشان می داد چند واحد پولی از طریق سرمایه گذاری روی فعالیت بازاریابی به دست آمده است. از اینها گذشته اگر تهیه مدل بسیار هزینه بردار است، عملیات پست انبوه شاید بسیار مقرون به صرفه تر از یک عملیات پست هدف دار باشد.
* هزینه ثابت انجام عملیات و مدلی که آنرا پشتیبانی می کند چقدر است؟
* هزینه پست برای هر گیرنده چقدراست؟
* هزینه هر پاسخ دهنده برای انجام سفارش چقدر است؟
* ارزش یک پاسخ مثبت چقدر است؟
با یادداشت کردن این ارقام در یک صفحه کاغذ می توان تاثیر مدل را به واحد پولی سنجید. آنگاه نمودار پاسخ تجمعی را می توان به صورت یک نمودار سود تجمعی در آورد که تعیین می کند کجا باید فهرست مرتب شده پستی را قطع کرد. اگر مثلاً یک قیمت ثابت بالا برای انجام فعالیت و همچنین یک هزینه نسبتاً بالا برای هر ارائه پیشنهاد به هر گیرنده وجود داشته باشد (مثل زمانی که یک شرکت تلفن همراه، وفاداری مشتریان را با هدیه دادن گوشی موبایل یا صرف نظر کردن از هزینه های جدید می خرد)، شرکت با گشتن به دنبال مشتریان بالقوه پول فراوانی از دست می دهد زیرا هنوز پاسخ دهندگان کافی برای جبران هزینه های ثابت زیاد این برنامه وجود ندارد. از طرف دیگر اگر شرکت برای افراد زیادی پیشنهاد پستی عرضه کند هزینه های بسیار متغیر باعث صدمه رساندن به آن می شود.
البته مدل سود هنگامی خوب است که ورودیهایش خوب باشد. در حالیکه فائق شدن بر هزینه های ثابت و متغیر فعالیت نسبتاً آسان باشد، تخمین رقم پیش بینی شده یک پاسخ دهنده سخت تر می گردد. فرآیند تعیین ارزش یک مشتری فراتر از محدوده این کتاب است اما یک تخمین خوب به اندازه گیری ارزش واقعی مدل داده کاوی کمک می کند.
در نهایت، اندازه ای که دارای بیشترین ارزش است میزان بازگشت سرمایه است. اندازه گیری صعود در یک مجموعه آزمون به انتخاب مدل درست کمک می کند. مدلهای سودآوری براساس صعود به تصمیم گیری در مورد چگونگی به کارگیری نتایج مدل کمک خواهند نمود. در یک عملکرد بازاریابی براساس پایگاه داده ها لازم است همواره در کنار گروه کنترل بود و پاسخ مشتریان را براساس امتیازهای متفاوت مدل با دقت دنبال کرد.
مرحله یازدهم: شروع دوباره
هر پروژه داده کاوی سوالات جدید پاسخ داده نشده بیشتری نسبت به سئوالات پاسخ داده شده ایجاد می کند. این خوب است چرا که بدان معنی است که پس از انجام پروژه داده کاوی، روابط جدیدی آشکار می شوند که قبلاً پنهان بودند. روابط تازه کشف شده، فرضیات جدیدی را برای آزمون پیشنهاد می کنند و فرآیند داده کاوی از اول شروع می شود.
مطالب آموخته شده در این فصل
داده کاوی به دو صورت ظاهر می شود، داده کاوی هدایت شده شامل بررسی داده های قدیمی برای یافتن الگوهایی است که یک نتیجه خاص را بیان می کنند. داده کاوی هدایت شده در برگیرنده دسته بندی، تخمین، پیش بینی و نمایه سازی است. داده کاوی غیر هدایت شده در بین همان داده ها برای یافتن الگوهای جالب جستجو می کند. این نوع داده کاوی شامل خوشه بندی، یافتن قوانین وابستگی و توصیف است.
داده کاوی، تجارت را به داده ها نزدیکتر می کند. در نتیجه تست فرضیه یکی از قسمتهای مهم فرآیند داده کاوی است. با این وجود، نکته اولیه این فصل این است که مسیر داده کاوی برای آنانی که هوشیار نیستند پر از دام است و دنبال کردن یک روش مبتنی بر تجربه می تواند به آنها در پیمودن مسیر کمک کند.
اولین مانع، تبدیل مسئله تجارت به یکی از شش عملی است که می توان آنها را با داده کاوی حل کرد: دسته بندی، تخمین، پیش بینی، دسته بندی شباهت، خوشه بندی و نمایه سازی. چالش بعدی تهیه داده های مناسب است که بتوان آنها را به اطلاعات عملی تبدیل نمود. وقتی داده ها تهیه شد باید همه آنها را زیرورو کرد. شاید در فرآیند بررسی، مشکلات موجود در داده ها آشکار شود. این بررسی به داده کاوان کمک می کند درک درستی از داده ها در ذهن خود ایجاد کنند. مرحله بعدی تهیه یک مجموعه مدل و تقسیم بندی آن به مجموعه آموزشی، اعتبار سنجی و آزمون است.
تغییرات داده ها به دو دلیل لازم هستند: برای حل مشکلات داده ها چون مقادیر گمشده و برای استخراج اطلاعات با تهیه متغیرهای جدید جهت نشان دادن روند ها وسایر نسبتها و ترکیبات.
هنگامی که داده ها آماده شد تهیه مدلها فرآیند نسبتاً آسانی خواهد بود. هرنوع مدل دارای ویژگیهای خاص خود است که با همانها می توان مدل را ارزیابی کرد ولی در عین حال ابزارهای ارزیابی هم وجود دارند که به نوع مدل بستگی ندارند. یکی از مهمترین این ابزارها نمودار صعود است که نشان می دهد چگونه مدل، تمرکز رقم مطلوب از متغیر هدف را افزایش داده است و یکی دیگر از آنها ماتریس آشفتگی است که نشان می دهد نرخ خطای دسته بندی اشتباه برای هر یک از دسته های هدف چه میزان است. در فصول بعد از مثالهای واقعی در پروژه های داده کاوی استفاده خواهیم کرد تا این روشها را در عمل به شما نشان دهد.
4
کاربرد داده کاوی در بازاریابی و مدیریت ارتباط با مشتری
برای بعضی از افراد روشهای داده کاوی از دیدگاه تکنیکی جالب است؛ در حالیکه برای اغلب افراد اهمیت این روشها در این است که به عنوان وسیله ای برای رسیدن به هدف نهایی به کار می روند. تکنیکها در خلاء وجود ندارند بلکه در زمینه تجارت قرار گرفته اند. این فصل حول مجموعه ای از اهداف کسب و کار و تجارت که از طریق داده کاوی محقق می گردد سازماندهی شده است. هر یک از اهداف تجاری انتخاب شده، به روشهایی از داده کاوی مرتبطند که برای حل آن مساله مناسب هستند. موضوعات تجاری که در این فصل ارائه می شود به ترتیب افزایش پیچیدگی ارتباط با مشتری نشان داده شده اند.
این فصل با پرداختن به مسئله ارتباط با مشتریان بالقوه ای شروع می شود که درباره آنها چیز زیادی نمی دانیم و روی موقعیتهای گوناگون داده کاوی که در روابط مستمر با مشتری ظهور و بروز میکند کار می کند. این موقعیت ها شامل محصولات چندگانه ، کانالهای ارتباطی چند گانه و تعاملات فزاینده فردی میباشد.
در بحث کاربردهای تجاری، مطالب تکنیکی مناسبی ارائه می شود ولی جزئیات تکنیکهای خاص داده کاوی به فصلهای بعدی موکول می شود.
مشتری با لقوه
به نظر می رسد که جذب کردن14 مشتری نقطه آغاز خوبی برای شروع مباحث کاربردهای داده کاوی در تجارت باشد. معنی اولیه فعل جذب کردن مشتری در زبان انگلیسی، به استخراج سنتی معدن بر می گردد که به معنی جستجوی ذخایر معدنی یا نفتی است. این کلمه به عنوان اسم به منطقه ای گفته می شود که امکان یافتن اراضی نفت خیز یا معدن در آن وجود دارد. در بازاریابی این واژه به معنای کسی است که اگر به طریق صحیحی به او نزدیک شویم، ممکن است به دلایلی انتظار برود که به مشتری بالفعل تبدیل بشود. این کلمه چه به صورت فعل و چه به صورت اسم نشانگر، ایده ای مهم است: "استفاده از داده کاوی برای رسیدن به هدف تجاری تعیین افرادی که در آینده مشتریان با ارزشی خواهند بود".
برای بیشتر تجارتها بطور نسبی عده کمی از جمعیت بیش از 6 میلیارد نفری ساکن روی زمین، مشتری بالفعل محسوب می شوند. عده زیادی بخاطر مسائل جغرافیایی، سن، قدرت خرید و نیاز به محصول یا خدمات، کنار گذاشته می شوند. برای مثال، شرکتی که مجموعه ای از اسباب بازیهای مناسب برای نصب در حیاط منازل را می فروشد می خواهد کاتالوگ خود را برای خانواده هایی که صاحب فرزند هستند و در منزل و نه آپارتمان زندگی می کنند ارسال کند. یک مجله می خواهد افرادی را هدف بازار خود قرار دهد که زبان آن مجله برایشان مناسب است و به شرکتهایی که در آن تبلیغ می کنند علاقمندند.
داده کاوی می تواند نقشهای زیادی در جذب مشتری بازی کند. که مهمترین آنها عبارتنداز :
– شناسایی مشتریان بالقوه خوب
– انتخاب کانال ارتباطی برای رسیدن به مشتریان بالقوه
– انتخاب پیام مناسب برای گروه های متفاوت مشتریان بالقوه
با وجود آنکه همه این موارد مهم هستند، ولی مورد اول، یعنی شناسایی مشتریان خوب، پیش از سایر موارد کاربرد دارد.
شناسایی مشتریان بالقوه خوب
یک مشتری بالقوه خوب، کسی است که حداقل برای تبدیل به مشتری بالفعل از خود تمایل نشان دهد. برای این مفهوم می توان تعریفهای پیچیده تری نیز ارائه کرد. مشتریان بالقوه واقعاً خوب نه تنها به مشتری بالفعل شدن علاقه دارند، بلکه آنها توانایی مشتری شدن نیز دارند. داشتن آنها به عنوان مشتری مفید خواهد بود. آنها علاقه ای به فریب شرکت ندارند و انتظار می رود صورتحساب خود را پرداخت کنند و اگر با آنها خوب برخورد شود، به صورت مشتریان وفاداری باقی می مانند و به دیگران هم توصیه می کنند و مشتریانی را با خود می آورند. مهم نیست تعریف مشتری بالقوه ساده باشد یا پیچیده بلکه موضوع مهم، هدف قراردادن آنهاست.
چه انتقال پیام از طریق تبلیغات باشد و چه از طریق کانالهای مستقیم تری مثل پست، تماس تلفننی ویا پست الکترونیک، هدف قراردادن مشتریان بالقوه مهم است. حتی پیامهای روی تابلوهای بزرگ تبلیغاتی تااندازه ای هدف دار هستند بگونه ای که معمولاً تابلوهای شرکتهای هوایی و شرکتهای کرایه ماشین در کنار بزرگراههایی قرار داشته باشند که به فرودگاه ختم می شوند. جایی که افراد استفاده کننده از این خدمات بیشتر از آنجا عبور می کنند.
از داده کاوی در ابتدا برای تعریف مشتری بالقوه خوب استفاده می شود و بعد قوانینی کشف می شود که افرادی با این مشخصات مورد هدف قرار بگیرند. برای بسیاری از شرکتها اولین قدم در راه استفاده از داده کاوی جهت تعیین مشتری بالقوه خوب، تهیه یک مدل پاسخگویی است. در ادامه فصل بحث مفصل تری در باره مدلهای پاسخگویی، روشهای گوناگون استفاده از آنها و کارهایی که می توانند بکنند و نمی توانند بکنند ارائه خواهد شد.
انتخاب کانال ارتباطی
جذب مشتری نیاز به ارتباط دارد. بطور کلی شرکتها عمداً به روشهای مختلفی با مشتریان بالقوه ارتباط برقرار می کنند. یکی از این روشها ارتباط عمومی است که به تشویق رسانه ها برای پوشش دادن اخباری در مورد شرکت وگسترش پیام مثبت بصورت دهان به دهان اطلاق می شود. با وجود کارایی زیاد برای بعضی شرکتها، ارتباطات عمومی به عنوان پیامهای بازاریابی مستقیم به حساب نمی آیند.
آنچه که بیشتر توجه ما را جلب می کند تبلیغات و بازاریابی مستقیم است. تبلیغات می تواند به معنی هر چیزی از تبلیغات روی جلد کبریت گرفته تا تبلیغات در وب سایتهای تجاری یا درمیان برنامه های خاص تلویزیونی در خلال مسابقات ورزشی و آوردن اسامی محصولات شرکت در فیلم ها باشد. در این زمینه، تبلیغات گروههایی از افراد را با ویژگیهای مشابه مورد هدف قرار می دهد، چرا که امکان ارائه پیامهای اختصاصی برای تک تک افراد امکانپذیر نمی باشد. بخش بعدی در باره انتخاب مکان صحیح تبلیغات با استفاده از تطبیق مشخصات جغرافیایی با مشخصات مشتریان بالقوه بحث می کند.
بازاریابی مستقیم به ما اجازه می دهد تا پیامها را برای تک تک افراد، سفارشی کنیم. این مسئله می تواند شامل تماس تلفنی، پست الکترونیک، ارسال کارت پستال و یا کاتالوگهای رنگی باشد. در ادامه فصل، بخشی در مورد تحلیل پاسخ های متفاوت مشتریان می آید که چگونگی به کارگیری داده کاوی را در تصمیم گیری برای انتخاب کانال مفید ارتباط با مشتریان نشان می دهد.
انتخاب پیامهای درست
ارسال پیامهای متفاوت برای افراد مختلف حتی زمانی که محصولات یا خدمات یکسانی را می فروشیم امری ضروری و اجتناب ناپذیر است. برای مثال یک روزنامه ممکن است برای عده ای از خوانندگان در ابتدا به دلیل صفحه ورزشی اش مورد توجه قرار گیرد و برای عده ای دیگر به دلیل پوشش سیاسی یا هنری اش. زمانی که خود محصول به صورتهای مختلفی عرضه می شود یا زمانی که محصولات چند گانه ای ارائه می شود انتخاب پیام درست، نقش مهم تری بازی می کند.
حتی زمانی که یک محصول واحد داریم، انتخاب پیام می تواند مهم باشد. یک مثال قدیمی، تعادل بین راحتی و قیمت است. بعضی از افراد نسبت به قیمت بسیار حساسند وبه خاطر قیمت ارزان تر به خرید عمده از تولید کنندگان و یا عمده فروش ها علاقه دارند، این افراد در زمانیکه تعرفه تلفن در شب کمتر باشد امور تلفنی خود را شبها و دیروقت انجام می دهند، همیشه هواپیما عوض می کنند و مسافرتهای خود را طوری برنامه ریزی می کنند که در شب قبل از تعطیلات آخر هفته انجام می شود چرا که قیمت بلیط در روزهای منتهی به تعطیلات آخر هفته ارزان تر است. اما برعکس، عده ای حاضرند برای راحت ترین خدمات، هزینه بیشتری بپردازند. پیامی که براساس قیمت طراحی شده است، نه تنها مشتریانی را که به دنبال راحتی هستند تحریک نمی کند بلکه با این خطر همراه است که آنها را به سمت کالاهایی با سود کمتر سوق بدهد در حالیکه آنها مایلند بیشتر پرداخت کنند.
این فصل توضیح می دهد که چگونه می توان مدلهای پاسخگویی ساده و تک فعالیتی رابا هم ترکیب کرد تا بهترین مدل تبلیغاتی بعدی که تطبیق دهنده فعالیتها با مشتریان است تهیه شود.
داده کاوی برای انتخاب مکان صحیح تبلیغات یکی از روشهای مناسب برای هدف قرار دادن مشتریان بالقوه جستجوی آنانی است که شبیه مشتریان فعلی هستند برای مثال، یک نشریه عمومی، از طریق بررسی هایی دریافت که خوانندگانش دارای مشخصات زیر هستند :
1- 59% خوانندگان تحصیلات دانشگاهی دارند.
2- 46% شغلهای حرفه ای یا اجرایی دارند
3- 21% خوانندگان در آمد خانواری بیش از 24 میلیون تومان در سال دارند.
4- 7% خوانندگا ن در آمد خانواری بیش از 36 میلیون تومان در سال دارند.
دانستن این مشخصات از دو طریق به نشریه کمک می کند: اول، با مورد هدف قرار دادن مشتریانی که با این مشخصات تطبیق دارند می توان نرخ پاسخ به کارهای تبلیغاتی را افزایش داده و دوم آنکه می توان فضای تبلیغاتی نشریه را به شرکتهایی که به دنبال مشتریانی با مشخصات ذکر شده هستند فروخت. از آنجایی که موضوع این فصل مورد هدف قرار دادن مشتریان بالقوه است، ببینیم که نشریه چگونه از این مشخصات برای تمرکز بر روی فعالیتهای جذب مشتری خود استفاده کرده است. ایده اصلی، ساده است. اگر نشریه بخواهد در رادیو تبلیغ کند، باید به دنبال شبکه هایی باشد که شنوندگان آن بیشترین مطابقت را با این مشخصات دارند. هنگامی که می خواهد از طریق تلفن بازاریابی کند، بایستی به افرادی با مشخصات مورد نظر تلفن کند. چالش داده کاوی یافتن تعریف خوبی برای این ایده است که معنی مطابقت با مشخصات چیست.
چه کسی با مشخصات مطابقت دارد؟
یکی از روشهای تعیین میزان تطبیق یک مشتری با مشخصات، اندازه گیری مشابهت (که آن را فاصله هم می نامیم) بین مشتری و مشخصات یاد شده است. تکنیکهای داده کاوی زیادی از ایده اندازه گیری مشابهت با عنوان فاصله استفاده می کنند.
خوشه بندی یکی از روشهای داده کاوی است که به توانایی محاسبه فاصله بین دو داده به منظور یافتن خوشه هایی از داده های مشابه نزدیک به هم، بستگی دارد.
برای مثال ذکر شده در باره مشخصات، هدف، تعیین یک فاصله کمی برای یافتن میزان تطابق مشتری با مشخصات. داده ها از نتایج بررسی هایی به دست می آیند که یک دید کلی از مشتریان را در یک زمان خاص ارائه می کند. با این داده ها چه نوع اندازه گیری درست است؟ بطور خاص، با این حقیقت که مشخصات بصورت درصد بیان شده اند (58% با تحصیلات دانشگاهی، 7% با درآمد بیش از 36 میلیون تومان) چه کار باید بکنیم در حالیکه یک فرد یا دارای تحصیلات دانشگاهی است یا فاقد آن، یا کمتر از 36 میلیون تومان درآمد دارد یا بیشتر از آن؟
دو نفر را که در پژوهش انجام یافته شرکت داشته اند در نظر بگیرید. فرد اول تحصیلات دانشگاهی دارد، یک فرد حرفه ای است و سالانه 26 میلیون تومان درآمد دارد. فرد دوم تحصیلات دبیرستانی دارد و سالانه 20 میلیون تومان کسب می کند. کدام یک بیشتر با مشخصات خوانندگان مطابقت دارد؟ جواب به چگونگی انجام این مقایسه بستگی دارد. جدول 1-4 روشی را نشان می دهد که برای ایجاد امتیاز تنها از مشخصات و فاصله کمی ساده، استفاده می کند.
جدول 1-4 : محاسبه تناسب امتیازات هر فرد با مقایسه آنها براساس اندازه های جمعیت شناختی
خواننده بودن
نمره مثبت
نمره منفی
فرد اول
فرد دوم
امتیاز فرد اول
امتیاز فرد دوم
دارای تحصیلات دانشگاهی
58%
58%
42/0
بله
خیر
58%
42/0
فاقد تحصیلات دانشگاهی
46%
46%
54/0
بله
خیر
46%
54/0
درآمد بالای 24 میلیون تومان
21%
21%
79/0
بله
خیر
21%
79/0
درآمد بالای 36 میلیون تومان
7%
7%
93/0
خیر
خیر
93/0
93/0
کل
18/2
68/2
این جدول امتیاز را براساس نسبت مشتریانی که با هر مشخصه مطابقت دارند، محاسبه می کند. برای مثال، به دلیل اینکه 58% خوانندگان تحصیلات دانشگاهی دارند، فرد اول برای این مشخصه امتیاز 58/0 می گیرد. فرد دوم که تحصیلات دانشگاهی ندارد امتیاز 42/0 می گیرد زیرا بقیه 42% خوانندگان احتمالاً دانشگاه نرفته اند. این روش محاسبه برای سایر مشخصه ها نیز ادامه پیدا می کند و امتیازات با هم جمع می شوند. در نهایت به فرد اول امتیاز 18/2 و به فرد دوم امتیاز بالاتر 68/2 تعلق می گیرد. این امتیاز بالاتر نشان دهنده آن است که فرد دوم به مشخصات خوانندگان فعلی مشکل این روش در این است که هر چند فرد دوم بیشتر از فرد اول با مشخصات هماهنگ تر به نظر می رسد ولی، فرد اول بیشتر با مشتری که نشریه مورد هدف قرار داده است یعنی افرادی با تحصیلات و در آمد بالا مطابقت دارد. موفقیت این روش هدف گذاری از مقایسه مشخصات خوانندگان با مشخصات جمعیت شناختی کل، روشن است. این موضوع با در نظر گرفتن مشخصات کل جامعه به علاوه مشخصات خوانندگان، روش پیچیده تری را برای اندازه گیری تطابق فرد با مخاطب نشریه پیشنهاد می کند. این راهکار، میزان تفاوت عملکرد مشتریان بالقوه را از کل جامعه اندازه می گیرد. ملاک این اندازه گیری رفتار افرادی است که مجله را مطالعه می کند.
خواننده در مقایسه با جامعه، با سوادتر، حرفه ای تر و با درآمد بالاتر است. در جدول 2-4 ستونهای شاخص، مشخصات خوانندگان را با کل جامعه مقایسه می کنند که این ستون ها از تقسیم درصد خوانندگانی با ویژگی خاص به درصد جامعه که همان ویژگی را دارند بدست می آید.
جدول 2-4: محاسبه امتیازات با در نظر گرفتن نسبتها در جمعیت
خواننده بودن
درصد خواننده بودن در کل جمعیت
شاخص
خواننده نبودن
درصد خواننده نبودن در کل جمعیت
شاخص
دارای تحصیلات دانشگاهی
58%
3/20%
86/2
42%
7/79%
53/0
فاقد تحصیلات دانشگاهی
46%
2/19%
40/2
54%
8/80%
67/0
درآمد بالای 24 میلیون تومان
21%
5/9%
21/2
79%
5/90%
87/0
درآمد بالای 36 میلیون تومان
7%
4/2%
92/2
93%
6/97%
95/0
در اینجا می بینیم احتمالاً خوانندگان سه برابر بیشتر از کل جامعه دارای تحصیلات دانشگاهی هستند. به همین ترتیب، حدود نصف آنها فاقد تحصیلات دانشگاهی هستند. با استفاده از شاخص ها به عنوان امتیاز برای هر مشخصه، فرد اول امتیاز 42/8 (95/0+ 21/2+40/2+86/2) را کسب می کند درحالیکه فرد دوم تنها امتیاز 02/3 (95/0+87/0+67/0+53/0) را بدست می آورد. امتیازات به دست آمده براساس شاخصها مطابقت بیشتری با مخاطبان هدف نشریه دارد. امتیازات جدید قابل فهم تر هستند زیرا در این مرحله از اطلاعات اضافی در مورد چگونگی تمایز مخاطب هدف از جامعه به عنوان کل استفاده شده است.
هنگام مقایسه مشخصات مشتری، در نظر گرفتن این نکته مهم است که مشخصات کل جامعه را به عنوان یک کل در نظر بگیریم . به این دلیل استفاده از شاخصها اغلب بهتر از استفاده از ارقام خام است.
اندازه گیری تطابق گروههای خوانندگان
ایده پشت امتیازات براساس شاخصها را می توان در مورد گروههای بزرگتر افراد نیز اعمال کرد. این امر بدین دلیل مهم است که ممکن است ویژگی های خاص به کار رفته برای اندازه گیری برای هر مشتری بالقوه یا بالفعل در دسترس نباشد. خوشبختانه و نه بطور تصادفی تمام ویژگیهای سابق الذکر، ویژگیهای جمعیت شناختی هستند که معمولا از طریق سرشماری های انجام یافته قابل دسترسی می باشند و می توان با تقسیم بندی های جغرافیایی مثل ناحیه آماری آنها را اندازه گیری کرد.
فرآیند به کار رفته در اینجا عبارت است از رتبه بندی هر ناحیه آماری با توجه به تطابق برای نشریه. کاری که باید انجام داد این است که نسبت تطابق هر ناحیه آماری را با مشخاصت خوانندگان نشریه، تخمین بزنیم. برای مثال اگر یک ناحیه آماری دارای جمعیت بزرگسالی با 58% دارای تحصیلات دانشگاهی باشد، در این صورت تمام افراد در آن ناحیه برای این ویژگیی امتیاز تطابق معادل 1 دریافت می کنند. اگر 100% آنها دارای تحصیلات دانشگاهی باشندف امتیاز همچنان 1 است. و این کاملترین تطابقی است که می توان به دست آورد. اگر تنها 8/5% افراد دارای تحصیلات دانشگاهی باشند، آنگاه امتیاز تطابق برای این ویژگی برابر 1/0 خواهد بود. امتیاز تطابق کلی، میانگین امتیازات هر فرد برای هر ویژگی است.
داده کاوی برای بهبود اعمال بازاریابی مستقیم
از تبلیغات می توان برای رسیدن به مشتریان بالقوه ای که چیزی در مورد آنها به عنوان یک فرد نمی دانیم استفاده کرد. بازاریابی مستقیم نیازمند حداقل اندکی اطلاعات مانند اسم و آدرس یا شماره تلفن یا آدرس پست الکترونیک است. هر جا اطلاعات بیشتری موجود، فرصتهای بیشتری هم برای داده کاوی وجود خواهد داشت . پایه ای ترین کاربرد داده کاوی تعیین لیست مشتریان بالقوه برای برقراری تماس با آنها است.
در واقع مرحله اول هدفگیری نیازی به داده کاوی ندارد بلکه تنها به داده نیازمند است. حتی در کشورهای توسعه یافته هم داده های بسیار کمی در مورد نسبت بزرگی از جامعه در دسترس است. در بسیاری از کشورها شرکتهایی وجود دارند که داده هایی را در سطح خانوارها درمورد انواع چیزها از جمله درآمد، تعداد فرزندان، سطح تحصیلات و حتی تفریحات جمع آوری کرده و می فروشند. بخشی از این داده از طریق ثبت قانونی و اجباری اطلاعات هستند که می توان آنها را از دفاتر ثبت رسمی جمع آوری کرد. سایر داده ها را می توان از طریق فرمهای ثبت محصول جمع آوری کرد. بعضی دیگر از داده ها نیز با استناد به مدلها بدست می آیند. قوانین حاکم بر استفاده از این داده ها برای اهداف بازاریابی از کشوری به کشور دیگر متفاوت است. در برخی از کشورها می توان داده ها را بوسیله آدرس فروخت ولی اعلام اسم افراد مجاز نیست. در برخی دیگر از کشورها از داده فقط برای اهداف ثابت شده خاص می توان استفاده کرد. در بعضی جاها، استفاده از داده ها با موانع کمتری روبرو است ولی فقط تعداد محدودی از خانوارها پوشش داده می شوند. بطور مثال در کشورهای توسعه یافته، بعضی داده ها مثل اطلاعات پزشکی – دارویی بطور کلی دارای محدودیت هستند. بعضی داده ها مثل پیشینه اعتباری را تنها می توان برای اهداف ثابت شده خاصی به کار برد و استفاده از بقیه داده ها بدون محدودیت می باشد.
می توان داده های در سطح خانوار را به طور مستقیم برای تقسیم بندی اولیه براساس درآمد، تملک خودرو و وجود فرزندان به کار برد. مشکل این است که حتی بعد از فیلتر کردن اطلاعات هم داده های باقیمانده به میزان زیادی به تعداد مشتریان بالقوه ای که احتمال دارد جواب بدهند وابسته خواهد بود. بنابراین کاربرد اصلی داده کاوی در مورد مشتریان بالقوه، هدفگیری است یعنی پیدا کردن مشتریان بالقوه ای که احتمالاً به پیشنهاد ارائه شده پاسخ واقعی می دهند.
مدل سازی پاسخ
اعمال بازاریابی مستقیم نوعاً دارای نرخهای پاسخ تک رقمی هستند. از مدلهای پاسخ با تعیین مشتریان بالقوه ای که احتمال پاسخ به یک درخواست مستقیم را دارند برای بهبود نرخ پاسخ استفاده می شود. مفیدترین مدلهای پاسخ، تخمین واقعی از احتمال پاسخ را فراهم می کنند. هر مدلی که امکان رتبه بندی مشتریان بالقوه را براساس احتمال پاسخ دهی فراهم کند مناسب است. بازاریابان مستقیم با در دست داشتن یک فهرست رتبه بندی شده می توانند درصد پاسخ دهندگان را افزایش دهند که با تماس با افراد بالای لیست این هدف محقق میگردد.
در قسمتهای بعدی روشهای متعدد استفاده از مدلها برای بهبود بازاریابی مستقیم ارائه می شود. این بحث، مستقی از تکنیکهای داده کاوی است که برای ایجاد امتیازات استفاده می شود. هر چند بسیاری از تکنیکهای داده کاوی در این کتاب را می توان برای مدل سازی پاسخ استفاده کرد و استفاده نیز شده است.
با توجه به برآوردهای اولیه اگرچه هزینه ارتباط با مشتریان بسته به روش ارتباط بسیار متفاوت است برای سادگی محاسبات در مثالهای این کتاب فرض بر این بوده که هزینه دسترسی به هر فرد از طریق عمل نامه نگاری مستقیم هزار تومان است. این تخمین بی دلیل نیست، هر چند هزینه پستهای ساده کمتر و پستهای سریع بسیار بیشتر است.
بهینه کردن پاسخ با بودجه ای ثابت
ساده ترین روش استفاده از امتیازات مدل، استفاده از امتیازات برای رتبه بندی است. هنگامی که مشتریان بالقوه براساس امتیاز تمایل به پاسخگویی را دارند در بالای لیست و آنهایی که کمترین احتمال پاسخگویی را دارند در پایین آن قرار بگیرند. می توان از بسیاری از تکنیکهای مدل سازی شامل مدلهای رگرسیون، درخت تصمیم و شبکه های عصبی، جهت ایجاد امتیازات پاسخها استفاده نمود.
مرتب کردن فهرستها زمانی معنا دارد که زمان یا بودجه کافی برای تماس با تمام مشتریان بالقوه وجود نداشته باشد. اگر قرار است بعضی از افراد کنار گذاشته شوند به نظر می رسد افرادی باید حذف شوند که کمترین احتمال پاسخگویی را دارند. در همه تجارتها نیاز به کنار گذاشتن مشتریان وجود ندارد. یک شرکت اینترنت پرسرعت ممکن است هر خانوار شهر را به عنوان مشتری بالقوه در نظر بگیرد و ممکن است ظرفیت نوشتن نامه یا تماس تلفنی با همه خانوارها را حتی چند بار در سال داشته باشد. هنگامی که برنامه بازاریابی، تصمیم به تماس با تمامی مشتریان بالقوه برای عرضه پیشنهادهای یکسان می گیرد نیاز چندانی به مدل سازی پاسخ وجود ندارد. هر چند ممکن است داده کاوی همچنان برای انتخاب پیام درست و پیش بینی نحوه عملکرد مشتریان بالقوه استفاده شود.
یکی از مسائل معمول تر هنگامی است که بودجه بازاریابی، اجازه تماس یکسان با تمام مشتریان بالقوه را ندهد. شرکتی را با یک میلیون اسم در لیست مشتریان بالقوه اش و 300 میلیون تومان بودجه بازاریابی در نظر بگیرید که برای هر تماس هزار تومان صرف می شود. این شرکت می تواند تعداد پاسخهایی را که دریافت می کند با توجه به هزینه 300 میلیون تومانی افزایش دهد و این کار را بوسیله امتیاز دهی لیست مشتریان بالقوه با استفاده از مدل پاسخ و ارسال درخواست برای مشتریان بالقوه که امتیازات بالای 300000 دارند انجام می شود. اثر این عمل در شکل 2-4 نشان داده شده است.
شکل 2-4: یک نمودار تجمعی یا تمرکز نشانگر فایده بهره گیری از یک مدل است.
بهینه سازی سوددهی اعمال بازاریابی
هیچ شکی وجود ندارد که دو برابر کردن نرخ پاسخ برای هر عملی یک نتیجه مطلوب است. ولی واقعاً چقدر ارزش دارد؟ آیا این کار سودآور خواهد بود؟ هر چند صعود، یک روش مفید برای مقایسه مدلهاست ولی به این سوالات مهم پاسخ نمی دهد. برای پرداختن به مسئله سود دهی به اطلاعات بیشتری نیاز است. به ویژه، محاسبه سوددهی نیازمند اطلاعاتی در مورد درآمدها و همچنین هزینه هاست. مجددا به مثال قبلی بازمیگردیم. برای ساده سازی فرض می کنیم سازمان مورد اشاره در مثال، تنها یک محصول و فقط با یک قیمت می فروشد. مثلاً قیمت یک محصول 100 هزار تومان است و هزینه کل برای تولید، نگهداری و توزیع محصول برای شرکت 55 هزار تومان تمام شده است. همانطور که گفته شد هزینه دسترسی به هر مشتری هزار تومان است. اکنون اطلاعات کافی برای محاسبه ارزش هر پاسخ وجود دارد. ارزش ناخالص هر پاسخ 100 هزار تومان است. ارزش خالص هر پاسخ با محاسبه هزینه های مرتبط با پاسخ (55 هزار تومان هزینه محصول و هزار تومان برای تماس) به درآمد خالص 44 هزار تومان برای هر پاسخ می رسد. خلاصه این اطلاعات در جدول 3-4 آمده است.
پست شده
پاسخ داده شده
بله
خیر
بله
44 هزارتومان
منفی هزار تومان
خیر
صفر تومان
صفر تومان
این جدول می گوید که اگر با یک مشتری بالقوه تماس گرفته شود و وی پاسخ بدهد، شرکت 44 هزار تومان بدست می آورد. اگر با یک مشتری بالقوه تماس گرفته شود ولی جواب دریافت نشود، شرکت هزار تومان از دست می دهد. در این مثال ساده، هیچ سود و هزینه ای برای انتخاب عدم تماس با یک مشتری وجود ندارد. در تحلیلهای پیچیده تر ممکن است هزینه تماس نگرفتن با مشتری که جواب می داده است را در نظر بگیرند که در نتیجه ممکن است حتی آنانی که تحت عنوان غیر پاسخ دهنده ارزیابی شده اند در آینده در نتیجه تماس از طریق افزایش آگاهی به مشتریان بالقوه خوبی تبدیل شوند. جدا از این پیچیدگی ها، می توان از این ماتریس ساده سود و زیان، فرآیند تبدیل پاسخ به عمل را بر مبنای میزان سود توضیح داد. با کنار گذاشتن هزینه های ثابت عمل بازاریابی، اگر به ازای هر مشتری بالقوه ای که پاسخ می دهد، 44 نفر پاسخ ندهند، عمل انجام شده با شکست مواجه می شود. اگر نرخ پاسخ از این بهتر باشد، عمل سودآور خواهد بود.
لازم به ذکر است که اگر هزینه یک تماس ناموفق خیلی پایین در نظر گرفته شود، ماتریس سود و زیان، پیشنهاد می کند که با همه تماس برقرار شود. به دلایل خاصی این ایده خوبی نیست چرا که امکان دارد به این وسیله مشتریان بالقوه با سیل پیشنهادهای نامناسب روبرو شوند.
چگونه مدل بر سوددهی اثر می گذارد؟
چگونه مدلی که صعود و سود آن در شکل 2-4 مشخص شده است بر روی سوددهی یک کار اثر می گذارد؟ جواب به هزینه های شروع کار، تعداد و میزان گسترش پاسخ دهنده ها در کل جمعیت و مرز حذف افرادی که تصمیم به عدم تماس با آنها گرفته شده است بستگی دارد. مجددا مثال پیش گفته را مرور می کنیم، این سازمان بودجه ای برابر 300 میلیون تومان داشت. فرض کنید که گسترش پاسخ دهنده ها در جمعیت 1% است. این بودجه برای برقراری تماس با 300000 مشتری بالقوه یا 30% کل مشتریان بالقوه، کافی است. در عمق 30% مدل، صعودی در حدود 2 ارائه می کند، پس این سازمان می تواند انتظار 2 برابر پاسخ دهنده هایی داشته باشد که در حالت بدون مدل دارد. در این مورد، دو برابر یعنی 2% به جای 1% و در نتیجه 6000 نفر (2درصد 300000 نفر) پاسخ دهنده که هر کدام 44 هزار تومان خالص سود دارند. با این فرضها، این سازمان سود ناخالص 600 میلیون تومان و سود خالص 264 میلیون تومان را از پاسخ دهنده ها دریافت می کند. در حالیکه 98% مشتریان بالقوه یا 249000 نفر پاسخ نداده اند که هزینه هر کدام هزار تومان بوده است، پس در نتیجه، این سازمان 30 میلیون تومان را در این فعالیت از دست می دهد.
جدول 4-4 داده هایی را نشان می دهد که برای تهیه نمودار تجمعی در شکل 2-4 استفاده شده است.
نفوذ
سود
سود تجمعی
صعود
0%
0%
0%
0
10%
30%
30%
000/3
20%
20%
50%
500/2
30%
15%
65%
167/2
40%
13%
78%
950/1
50%
7%
85%
700/1
60%
5%
90%
500/1
70%
4%
94%
343/1
80%
4%
96%
225/1
90%
2%
100%
111/1
100%
0%
100%
000/1
این جدول پیشنهاد می کند که این فعالیت می تواند با صرف هزینه کمتر در تماس با مشتریان بالقوه کمتر انجام شود در حالیکه نرخ پاسخ بیشتری کسب می کند. با پست نامه تنها به 10000 مشتری بالقوه یا 10% بالای لیست مشتریان بالقوه به صعود 3 می توان رسید. این مسئله این نرخ پاسخ را از 1% به نرخ پاسخ 3% تغییر می دهد. دراین حالت ، 3000 نفری که پاسخ می دهند 132 میلیون تومان سود ایجاد می کنند. در اینجا 97000 نفر پاسخ نداده اند که هر کدام هزار تومان هزینه دارند و سود به دست آمده به 35 میلیون تومان می رسد. مسلما این حالت بهتر است چون این سازمان هنوز 200 میلیون تومان از بودجه بازاریابی خود را مصرف نشده در اختیار دارد که می تواند در یک فعالیت دیگر بازاریابی و یا برای بهبود همین فعالیت بازاریابی به کار ببرد که احتمالاً باز هم نرخ پاسخ را افزایش می دهد.
یک فعالیت کوچکتر و با هدف گذاری بهتر می تواند از یک فعالیت بزرگتر و پرهزینه تر سودده تر باشد. صعود با کوچکتر شدن فهرست افزایش می یابد، بنابراین آیا می توان نتیجه گرفت که کوچکتر همیشه بهتر است؟ جواب منفی است، زیرا درآمد مطلق با کاهش تعداد پاسخ دهنده ها کاهش می یابد. به عنوان مثال اغراق آمیز فرض کنید مدل می تواند سازمان را با پیدا کردن یک گروه با نرخ پاسخ 100% که در آن نرخ پاسخ اصلی 1% است به صعود 100 برساند. به نظر عالی است ولی اگر فقط 10 نفر هم در گروه باشند، آنها هنوز 440 هزار تومان ارزش دارند. یک مثال واقعی تر شامل هزینه های ثابت نیز خواهد بود. شکل 3-4 ، فرض 20 میلیون تومان هزینه ثابت برای فعالیت به اضافه هزینه هزار تومان برای هر تماس، درآمد 44 هزار تومان از هر پاسخ و نرخ پاسخ 1% سودآور است. استفاده از مدل برای بهینه کردن سوددهی یک فعالیت به نظر جذابتر از استفاده از آن برای انتخاب
شکل 3-4 فعالیت سوددهی به عنوان تابعی از نفوذ
کسانی است که باید در فهرست تماس پستی یا تلفنی با اندازه ای از پیش تعیین شده قرار گیرند ولی در این روش مشکلاتی هم وجود دارد. بطور مثال، نتایج به هزینه فعالیت، نرخ پاسخ و درآمد حاصل از هر پاسخ دهنده بستگی دارد که هیچ کدام قبل از اجرای فعالیت مشخص نیستند. در مثال گفته شده، موارد پیش گفته معلوم بودند ولی در زندگی واقعی تنها می توان آنها را تخمین زد. تنها با تغییر کوچکی در هریک از موارد گفته شده، کل فعالیت می تواند به طور کلی غیر سودده شود و یا آن را برای گستره بزرگتری از دهک ها سودآور کند.
شکل 4-4 نشان می دهد که اگر تمام فرضیات در باره هزینه، نرخ پاسخ ودرآمد به میزان 20% تغییر یابد، چه شرایطی حاصل می شود. در بدبینانه ترین حالت بهترین چیزی که بدست می آید یک ضرر 20 میلیون تومانی است و در خوشبینانه ترین حالت، فعالیت یک بیشینه سود 161696 هزار تومانی را در نفوذ 40% بدست می آورد. انتظار می رود که تخمین هزینه نسبتاً دقیق باشد زیرا این تخمین ها براساس هزینه های پستی، هزینه های چاپ و تهیه بسته های پستی، و سایر هزینه هایی است که از قبل قابل تعیین هستند.
شکل 4-4 یک تغییر 20 درصدی در نرخ پاسخ ودرآمد حاصل از هر پاسخ دهنده تاثیر عظیمی بر سوددهی یک فعالیت دارد.
تخمین نرخ های پاسخ و درآمد، اغلب کمی بیشتر از آنچه حدس زده شده می باشد. بنابراین در حالیکه بهینه کردن سوددهی یک فعالیت به نظر مطلوب است، احتمالاً وارد عمل شدن بدون اجرای یک فعالیت آزمایشی واقعی ممکن نخواهد بود.
مدل سازی فعالیت سوددهی از قبل در ابتدا یک تحلیل "چه می شد اگر" است که برای تعیین مرزهای محتمل سوددهی براساس فرضهای مختلف به کار می رود. با وجود این بهینه کردن یک فعالیت از قبل به طور خاص مفید نیست ولی می تواند در اندازه گیری نتایج یک فعالیت بعد از اجرای آن مفید باشد. هر چند برای انجام موثر این عمل به مشتریانی با گستره کامل امتیاز پاسخ نیاز است بگونه ایکه مشتریانی از دهکهای پائین تر نیز در فعالیت قرار گیرند.
بایستی متذکر شد که سوددهی یک فعالیت به عوامل زیادی بستگی دارد که تنها می توان آنها را از قبل تخمین زد و تنها راه قابل اعتماد برای انجام آن استفاده از یک آزمون بازار واقعی است.
یافتن افرادی که بیشتر از دیگران تحت تاثیر پیام قرار گرفته اند
یکی از فرضیات ساده سازی دقیقی که تاکنون به وجود آمده این است که یک مدل با صعود خوب به شناسایی افرادی میپردازد که تاکنون به پیشنهاد پاسخ داده اند. از آنجایی که این افراد پیشنهادی دریافت می کنند و نسبت به دیگران با نرخ بیشتری اقدام به خرید می نمایند، به نظر می رسد که این فرض تایید شده باشد. ولی امکان دیگری نیز وجود دارد:
مدل می تواند افرادی را شناسایی کند که احتمالاً محصول را با پیشنهاد یا بدون پیشنهاد خریداری می کنند.
این تنها یک موضوع صرفاً نظری نیست، به عنوان مثال یک بانک بزرگ، یک فعالیت مکاتبه و نامه نگاری مستقیم را به منظور تشویق مشتریان برای افتتاح حساب های پس انداز ترتیب داد. گروه تحلیل گر بانک، مدلی را برای پاسخگویی به این نامه نگاری تهیه کردند. آن ها کار بررسی فعالیت را با استفاده از سه گروه آغاز نمودند:
1. گروه کنترل: گروهی که به طور تصادفی برای دریافت نامه ها انتخاب شدند.
2. گروه آزمون: گروهی که بر اساس امتیاز پاسخهای مدل برای دریافت نامه ها انتخاب شدند.
3. گروه خارج از برنامه : گروهی که بر اساس امتیاز مدل انتخاب شده بودند ولی نامه ای دریافت نکرده بودند.
مدل ها عملکرد تقریباً مناسبی داشتند به طوری که مشتریانی که از امتیازات بالایی در مدل برخوردار بودند در مقایسه با گروه کنترل و مشتریان دارای امتیاز کمتر با نرخ بالاتری پاسخ دادند. با این وجود، مشتریان گروه خارج از برنامه با نرخی برابر با مشتریان گروه آزمون پاسخ دادند.
سوال اینجا است که چه اتفاقی رخ داده بود؟ مدل فوق جهت تعیین افرادی که به این نوع حساب های بانکی تمایل دارند به درستی عمل نمود. با این وجود، هر بخش از بانک بر موضوع ترغیب مشتریان به افتتاح حساب های پس انداز، تبلیغات رادیو تلویزیونی، پوسترهای گوناگون در شعب مختلف بانک، پیام های موجود در شبکه اینترنت، آموزش کادر واحد خدمات مشتریان متمرکز شده بودند. نامه نگاری مستقیم در غوغای ایجاد شده توسط سایر کانال ها غرق شد و غیر ضروری از آب درآمد.
بایستی براین نکته تاکید کرد که جهت بررسی تاثیرگذاری مدل و فعالیتی که مدل آنرا پشتیبانی می کند، ارتباط بین نرخ پاسخ و امتیاز مدل در بین مشتریان بالقوه در یک گروه خارج از برنامه که جزو فعالیت نیستند و همچنین در بین مشتریان بالقوه ای که در فعالیت قرار دارند بدست آمده و مورد دقت قرار گیرد.
هدف یک فعالیت بازاریابی تغییر رفتار است. از این نظر، بدست آوردن مشتری بالقوه ای که در هر صورت قصد خرید دارد، موثرتر از بدست آوردن مشتری است که بدون دریافت پیشنهاد، خریدی انجام نمی دهد. گروهی که به عنوان پاسخ دهندگان احتمالی شناخته می شوند نیز با احتمال کمتری تحت تاثیر یک پیام بازاریابی قرار می گیرند. عضویت آنها در گروه هدف بدین معناست که آنها احتمالاً با پیامهای مشابهی در گذشته از جانب رقیبان مواجه شده اند.
احتمال دارد آنها هم اکنون محصول یایک جایگزین نزدیک به آن را در اختیار داشته و یا برای عدم خرید آن دلیل قانع کننده ای داشته باشند. یک پیام بازاریابی برای کسانی که آن را قبلاً نشنیده اند در مقایسه با افرادی که آن را دریافت کرده اند تفاوت زیادی ایجاد می کند.
بخشهایی که بیشترین امتیازات را دارند ممکن است حتی بدون سرمایه گذاری در بازاریابی به هر صورت واکنش نشان دهند. این موضوع باعث ایجاد این نتیجه تقریباً متناقض می شود که بخشهای دارای بیشترین امتیاز در یک مدل پاسخگویی، ممکن است بیشترین بازگشت را در یک سرمایه گذاری بازاریابی نداشته باشند.
تجزیه و تحلیل پاسخای متفاوت
راه گریز از این تنگنا، مدل سازی مستقیم هدف واقعی فعالیت است که تنها هدف آن رسیدن به مشتریان بالقوه ای که بعداً خرید می کنند نیست. هدف بایستی بدست آوردن مشتریان بالقوه ای باشد که در نتیجه برقراری ارتباط با آن ها با احتمال بیشتری خرید خواهند کرد. این مسئله را تجزیه و تحلیل پاسخهای متفاوت می نامند.
تحلیل پاسخهای متفاوت با یک گروه آزمایشی و یک گروه کنترل شروع می شود. اگر آزمایش تاثیر مطلوب را داشته باشد، پاسخ کلی در گروه آزمایشی بیش از گروه کنترل خواهد بود. هدف تجزیه پاسخهای متفاوت، یافتن بخشهایی است که در آنها تفاوت در پاسخهای دو گروه بیشترین باشد. نرم افزارهای بازاریابی که مبتنی بر دانش داده کاوی است، این تجزیه و تحلیل که آنرا تحلیل بهبود می نامند را با استفاده از یک درخت تصمیم که کمی تغییر یافته و در شکل 5-4 مشاهده می کنید انجام می دهد.
شکل 5-4 : درخت پاسخهای متفاوت سعی می کند تفاوت پاسخهای بین گروه آزمایشی و یک گروه کنترل را به حداکثر برساند
درخت ترسیم شده براساس داده های حاصل از پاسخ های داده شده به یک نامه نگاری آزمایشی که در جدول 5-4 آمده رسم شده است. داده های این جدول نرخ پاسخ های داده شده را به تفکیک سن و جنسیت افراد در خدماتی که تبلیغ شده، بین گروه های آزمایشی که نامه را دریافت کرده اند و گروه کنترل که نامه ای دریافت نکرده اند نشان می دهد.
جدول 5-4: داده های منتج از پاسخهای داده شده به یک آزمایش پستی
گروه کنترل
گروه آزمایشی که برای آنها پست انجام شده
جوانها
مسن ها
جوان ها
مسن ها
زنان
8/0%
45/0%
1/4%(3/3 )
6/4%(2/4)
مردان
8/2%
3/3%
2/6% (4/3
2/5%(9/1)
احتیاجی به بکارگیری تکنیک های زیادی از داده کاوی نیست که این نکته را درک کنیم که گروه با بیشترین نرخ پاسخها مردان جوان و سپس مردان مسنی هستند که نامه ها را دریافت کرده اند. آیا این امر بدین معنی است که فعالیت بازاریابی این خدمات را باید در درجه اول بر مردان متمرکز نمود؟ اگر هدف بیشینه کردن تعداد مشتریان جدیدی باشد که بدون تبلیغات به شما روی نمی آورند پاسخ منفی خواهد بود. مردان شرکت کننده در این فعالیت برای استفاده از این خدمات بیش از زنان نام نویسی کرده اند اما مردان به احتمال بیشتری در هر صورت خدمات فوق را خریداری می کنند. درخت پاسخهای متفاوت نشان می دهد که گروهی که بیشتر از سایرین تحت تاثیر این فعالیت قرار گرفته اند زنان مسن هستند. به هیچ وجه امکان ندارد (4/0درصد) این گروه بدون تبلیغ این خدمات را بخرند ولی با انجام تبلیغات، خرید آن ها بیش از ده برابر افزایش می یابد.
استفاده از مشتریان فعلی جهت شناخت مشتریان بالقوه
یک راه مفید جهت یافتن مشتریان بالقوه مناسب، بررسی همان مکانهایی است که بهترین مشتریان کنونی از آن جا آمده اند. این مسئله به معنی داشتن راهی برای تعیین بهترین مشتریان امروزه است. همچنین این امر به معنای ثبت اطلاعاتی از چگونگی به دست آوردن مشتریان فعلی و بررسی وضعیت آن ها در هنگام جذب شدن می باشد.
البته، خطر اتکا نمودن به مشتریان فعلی جهت شناخت مکانی که در آن به دنبال مشتریان بالقوه باشیم آن است که مشتریان فعلی بازتاب تصمیمات بازاریابی گذشته هستند. مطالعه مشتریان کنونی عرصه های جدیدی جستجوی مشتریان بالقوه را به ما نشان نمی دهد. با این همه، عملکرد مشتریان فعلی راهی ارزشمند جهت ارزیابی کانال های فعلی جذب مشتری است. دانستن اینکه مشتریان فعلی در گذشته و هنگامی که خودشان مشتریان بالقوه بوده اند در چه شرایطی به سر می بردند برای اهداف مشتری یابی مهم است. به طور ایده آل شما بایستی:
– مشتریان را پیش از این که تبدیل به مشتری شوند دنبال کنید.
– از مشتریان جدید در زمانی که جذب می شوند اطلاعات جمع آوری کنید.
– ارتباط بین داده های مربوط به زمان جذب شدن مشتری و نتایج مطلوب آینده را مدل سازی کنید.
در ادامه این فصل جزئیات بیشتری از موضوعات فوق ارائه خواهد شد.
مشتریان را پیش از این که تبدیل به مشتری شوند دنبال کنید
اقدام به ثبت اطلاعات در باره مشتریان بالقوه حتی پیش از این که تبدیل به مشتری بالفعل شونند ایده خوبی است. وب سایت ها می توانند این عمل را از طریق تهیه کوکی در زمانیکه بازدید کننده ای برای نخستین بار به آن سایت مراجعه می کند انجام دهند تا هر آن چه را که بازدید کننده فوق انجام می دهد ثبت نماید. هنگامی که یک بازدیدکننده خاص با استفاده از همان کامپیوتر و همان جستجوگر دوباره به همان سایت مراجعه نمود، کوکی شناخته می شودو اطلاعات قبلی به روز می گردد. هنگامی که این بازدیدکننده در نهایت، تبدیل به یک مشتری یا کاربر ثبت نام کرده می شود، آن فعالیتی که مقدمه این تبدیل شده به صورت قسمتی از سابقه مشتری می شود.
ردیابی پاسخ ها و پاسخ دهندگان در دنیای خارج از اینترنت هم شیوه موثری است. اولین اطلاعات حیاتی که بایستی ثبت شود این واقعیت است که مشتری بالقوه اصلاً پاسخی داده است؟ داده هایی که نشان دهد چه کسی پاسخی داده و چه کسی پاسخ نداده است، جزء ضروری مدل های پاسخ در آینده است.
در صورت امکان بهتر است داده های منتج از پاسخ، شامل موارد زیر باشد: اقدامات بازاریابی که پاسخها را سرعت بخشیده اند، کانال هایی که از طریق آن ها پاسخ دریافت شده است و زمانی که پاسخ دریافت شده است.
تعیین این که کدام یک از پیام های بازاریابی پاسخ گویی را سرعت بخشیده اند می تواند فریبنده بوده و در بعضی از موارد این امر شاید اصلاً امکان پذیر نباشد. برای سهولت انجام این کار فرم های پاسخ گویی و کاتالوگ ها دارای کدهای شناسایی هستند و وب سایت ها، لینک های مرجع را شناسایی می کنند. حتی فعالیت های تبلیغاتی را می توان با استفاده از شماره تلفن ها، صندوق های پستی و یا آدرس های اینترنتی مختلف از هم متمایز نمود. براساس ماهیت محصول یا خدمات، ممکن است نیاز باشد که پاسخ دهندگان اطلاعات اضافه ای را در قالب یک فرم تقاضای یا ثبت نام ارائه نمایند. اگر خدمات شامل تمدید اعتبار باشد، شاید اطلاعات اداری اعتباری نیز لازم باشد، اطلاعاتی که در ابتدای ارتباط با مشتری جمع آوری می شوند و دارای دامنه وسیعی هستند.
اطلاعات مشتریان جدید را جمع آوری کنید
هنگامی که یک مشتری بالقوه تبدیل به یک مشتری واقعی می شود، فرصتی طلایی برای جمع آوری اطلاعات فراهم می گردد. پیش از تبدیل مشتری بالقوه به یک مشتری بالفعل همه اطلاعات در مورد مشتریان بالقوه جزو اطلاعات مکانی و جمعیت شناختی هستند.
فهرستهای خرید معمولاً اطلاعاتی بیش از نام و اطلاعات ارتباطی را فراهم نمی کنند. وقتی آدرسی موجود باشد، استنباط سایر مشخصات مشتریان بالقوه براساس مشخصات محل زندگی آن ها امکان پذیر خواهد بود. از اسامی و آدرسها می توان برای خرید اطلاعات از ارائه کنندگان داده های بازاریابی در سطح خانگی در مورد مشتریان بالقوه استفاده کرد. این نوع از اطلاعات برای بخش وسیع و گسترده ای مثل "مادرهای جوان" یا "نوجوانان شهرنشین" مناسبند اما آنقدر جزئیات ندارند که مبنایی برای ارتباط فردی شده با مشتری قرار گیرد.
موارد زیر از مفیدترین اطلاعاتی هستند که می توان برای داده کاوی های آینده جمع آوری کرد: تاریخ خرید اولیه، کانال جذب اولیه، پیشنهاد و پاسخ داده شده، اولین محصول خریداری شده، امتیاز موجودی اولیه، زمان و مکان پاسخگویی. ما به این نتیجه رسیده ایم که این اطلاعات برای پیش بینی دامنه وسیعی از نتایج مطلوب چون دوره مورد انتظار روابط، بدهی ها و خریدهای بعدی مفید هستند. این مقادیر اولیه بایستی همان طور که هستند حفظ شوند نه اینکه به وسیله مقادیر جدیدی که در فرآیند توسعه ارتباط با مشتری حاصل می شوند بازنویسی گردند.
متغیرهای زمان جذب مشتری می تواند نتایج آینده را پیش بینی نماید
تجارتها با ثبت هر آن چه که در زمان جذب مشتری رخ داده است و سپس مطالعه مشتریان در طی دوران آینده می توانند جهت مرتبط کردن متغیرهای زمان جذب مشتری با نتایج آینده مثل طول عمر مشتری، ارزش مشتری و ریسک عدم پرداخت بدهی از دانش داده کاوی استفاده کنند. این اطلاعات می تواند در آینده و به منظور هدایت فعالیت های بازاریابی با تمرکز بر کانال ها و پیام هایی که بیشترین نتایج را ایجاد می کند مورد استفاده قرار گیرد.
داده کاوی برای مدیریت ارتباط با مشتری
مدیریت ارتباط با مشتری به طور طبیعی بر مشتریان فعلی تمرکز می کند. خوشبختانه مشتریان فعلی غنی ترین منبع داده ها برای کاوش به شمار می آیند. به خصوص که داده هایی که از مشتریان فعلی به دست آمده اند رفتار فردی واقعی آن ها را منعکس می کند.
آیا مشتری صورتحساب ها را به موقع پرداخت می کند؟ این مشتری مورد مطالعه، صورتحسابهای خود را به وسیله کدام روش پرداخت، از طریق چک و یا با کارت اعتباری پرداخت می کند؟ آخرین خرید وی در چه زمانی بوده است؟ چه کالایی خریداری شده است؟ قیمت آن چقدر بوده است؟ چند دفعه این مشتری با واحد خدمات مشتریان تماس گرفته است؟ ما چند بار با مشتری تماس گرفته ایم؟ مشتری اغلب از چه نوع وسیله حمل کالا استفاده میکند؟ چند بار مشتری کالای خرید کرده را پس داده است؟ از این نوع اطلاعات رفتاری می تواند جهت ارزیابی ارزش بالقوه مشتریان، ارزیابی خطر قطع ارتباط آنها، ارزیابی ریسک عدم پرداخت صورت حساب هایشان و نیز پیش بینی نیازهای آینده آن ها استفاده کرد.
مطابقت فعالیتها با مشتریان
همان امتیازهای مدل پاسخ که برای بهینه سازی بودجه یک نامه نگاری تبلیغاتی برای مشتریان بالقوه مورد استفاده قرار گرفت، برای مشتریان فعلی حتی مناسب تر خواهد بود چرا که برای همگن کردن ترکیب مناسبی از پیام های بازاریابی استفاده می شوند که یک شرکت برای مشتریان فعلی خود می فرستد. هنگامی که مشتریان جذب شدند، بازاریابی متوف نمی شود بلکه انواع مختلفی از فعالیتهای فروش چند بعدی و فروش صعودی، استفاده از فعالیتهای ترغیبی، برنامه های وفاداری مشتری و …. وجود دارد که می توان در هنگام فعالیت دستیابی به مشتریان، آنها را به عنوان روشهایی برای این موارد در نظر گرفت.
هنگامی که هر یک از این فعالیتها را به طور جداگانه مورد بررسی قرار داده و امتیازات پاسخهای داده شده برای هر فعالیت به همه مشتریان داده شود، آنچه معمولا رخ می دهد این است که گروه مشابهی از مشتریان برای بسیاری از این فعالیت ها امتیازات بالایی کسب می کنند. بعضی از مشتریان همان طور که از امتیازهای مدل دریافت می شود، بیش از بقیه از خود علاقه و توجه نشان می دهند. این رویکرد منجربه مدیریت ضعیف ارتباط با مشتری می شود، بدین ترتیب که گروهی که بالاترین امتیازات را دارا هستند با پیام های مختلف بمباران شده و آزرده و بی علاقه می شوند در حالیکه مشتریان دیگر هیچ گاه پیامی را از شرکت دریافت نکرده و برای گسترش روابط با شرکت ترغیب نمی گردند.
گزینه جایگزین، آن است که بریا هر مشتری تعداد پیام محدودی فرستاده شود و از امتیازها تنها جهت تعیین میزان مفید بودن پیام ها برای هر یک از مشتریان استفاده شود. حتی یک مشتری با امتیازات پایین برای هر پیشنهاد در مقایسه با برخی دیگر، امتیازات بالاتری دارد.
بخش بندی مشتریان
بخش بندی مشتریان یکی از کاربردهای معمول داده کاوی در رابطه با مشتریانی است که جذب سیستم شده اند. هدف بخش بندی ، همگن نمودن محصولات، خدمات و پیام های بازاریابی با هر کدام از بخشهاست. بخشهای مشتریان به طور سنتی براساس تحقیقات در بازار و ویژگیهای جمعیت شناختی بوده است. براین اساس مثلا قسمتهایی چون "جوان و مجرد" به وجود می آید. مشکل انجام بخش بندی ها براساس تحقیقات در بازار این است که به کارگیری نتایج حاصله از مطالعه برای مشتریانی که آن مطالعه شامل آنان نبوده مشکل است. از سوی دیگر، مشکل بخش بندی براساس ویژگیهای جمعیت شناختی هم این است که مثلا تمامی افراد "جوان و مجرد" یا "کسانی که تنها زندگی می کنند" به راستی دارای سلیقه و گرایشی نیستند که به آنها در مورد کالاها و خدمات نسبت داده شده است. رویکرد داده کاوی، تعیین قسمت رفتاری است.
یافتن قسمتهای رفتاری
یکی از راه های یافتن قسمتهای رفتاری استفاده از تکنیک های خوشه بندی غیر مستقیم است. این روش منجر به خوشه بندی مشتریان مشابه می شود اما ممکن است درک این نکته که چگونه این خوشه ها به تجارت مرتبط می شوند سخت باشد. پیشتر مثالی در باره بانکی آورده شد که به طرز موفقیت آمیزی از راه حل کشف اتوماتیک خوشه ها به منظور شناخت قسمتی از مشتریان تجارت های کوچک استفاده کرد که آنان مشتریان بالقوه خوبی برای وام خرید لوازم منزل به شمار می آمدند، اگرچه این تنها یکیاز 14 خوشه شناخته شده بود و دیگر خوشه ها کاربردهای بازاریابی واضحی نداشتند. معمولاً یک تجارت تمایل دارد که بخش بندی هایی را اجرا کند که هر یک از مشتریان را در قسمت هایی قرار دهد که به راحتی توصیف گردند. اغلب این بخش بندی ها با مد نظر قرار دادن اهداف بازاریابی انجام می شوند. تکنیک های درخت تصمیم جهت این نوع بخش بندی ها ایده آل هستند.
یک مورد معمول دیگر، زمانی است که قسمتهای از قبل تعریف شده ای وجود دارد که بر اساس رفتار مشتریان شکل گرفته اند و چالش داده کاوی دریافتن و شناختن الگوهای در داده هاست که با این بخش ها مطابق باشند. یک مثال خوب، بخش بندی مشتریان کارت های اعتباری به دو قسمت "دارندگان حساب های عمده در گردش" یا "معامله گران با حجم بالا" است.
یکی از کاربردهای جالب داده کاوی در امر یافتن الگوهای متناظر با بخش های از پیش تعریف شده مشتریان می باشد. سیستمی که یکی از بزرگترین شرکت های تلفن دنیا از آن استفاده می کند تا تصمیم بگیرد که آیا احتمال دارد یک تلفن برای اهداف تجاری مورد استفاده قرار گیرد.
این شرکت تلفن تمام افرادی را که یک خط تلفن دارند اما قبل از اینکه مشتری شوند از مشتریان بالقوه نبوده اند را مورد مطالعه قرار می دهد. برای اهداف بازاریابی آن ها لیستی از شماره تلفن ها را در طول مدت طولانی نگهداری کرده اند.این لیست که حاوی اطلاعات تقریباً کاملی از تمام شماره تلفن های مشتریان ودیگر شرکت های مخابراتی می باشد تلفن ها را به تفکیک تلفن های تجاری و مسکونی معین نموده بود.
روش اصلی بدست آوردن مشتریان غیر آن شرکت این بود که دفاتر راهنمایی از شرکت های تلفن محلی خریداری شود و در آن ها شماره تلفن هایی که در لیست مشتریان آن شرکت نبودند جستجو گردد. این شیوه هزینه بر و در عین حال نامطمئن بود و امکان افزایش هزینه ها هم وجود داشت؛ به این دلیل که شرکت هایی که تهیه کننده این دفاتر راهنما بودند بیشتر و بیشتر به طور مستقیم با شرکت تلفن وارد رقابت می شدند. راه بهتر تماس گرفتن با محل سکونت و سوال کردن از آنها بود.
پژوهشگران بعدا به راه حل بهتری دست یافتند. این شرکت تلفن مانند دیگر شرکت های تلفن، تمام داده های مربوط به هر تماس را که از شبکه اش عبور می کند جمع آوری می نماید. بسیاری از این تماس ها توسط کسانی که مشتری شرکت نبودند برقرار یا دریافت می شد. شماره تلفن های افرادی که مشتری شرکت نبودند ثبت می شد. این اطلاعات را می توان مورد تجزیه و تحلیل قرار داد و از نظر احتمال تجاری بودن امتیازدهی کرد. این امتیاز به منظور تعیین اینکه کدامیک از خدمات را برای مشتریان بالقوه بایستی ارائه نمود، مورد استفاده قرار می گیرد. هر شماره تلفن هر روز امتیازدهی می شود. این شرکت روزانه چند میلیون تماس را منتقل می کند، به هر یک از این شماره ها، پوشه کوچکی اختصاص یافته که تعداد روزهای طی شده پس از آخرین بار مشاهده شماره، میانگین دقایق استفاده روزانه، میانگین زمان های بین ظاهر شدن شماره روی شبکه وامتیاز داده شده را شامل می شود.
این امتیاز به وسیله یک مدل رگرسیون ایجاد می شود. مدلی که طول مدت مکالمه ایجاد و دریافت شده به وسیله شماره، زمان اوج تماسها در روز و نسبت تماس هایی که از یک شماره با شرکت های شناخته شده برقرار می شود را مدنظر قرار می دهد. داده های جدید هر روزه امتیاز را تغییر می دهند. در عمل، این امتیاز یک میانگین وزنی در طی زمان با احتساب جدیدترین داده ها که بیشترین وزن را دارند می باشد.
امتیاز تخصیص یافته را می توان به منظور شناسایی بخشهای تجاری خاص استفاده نمود. یک بخش خاصی و مطلوب، تجارتهای خانگی است. یک شماره تلفن با امتیاز بالا که در یک آدرس مسکونی در حال استفاده است و یا شماره ای که توسط شرکت تلفن محلی به عنوان محل مسکونی علامت گذاری شده است کاندیدای خوبی برای ارائه خدماتی است که هدف در آن افرادی است که در خانه مشغول به کار هستند.
اتصال قسمتهای تحقیقات در بازار با داده های رفتاری
یکی از چالش های بزرگ تحقیقات در بازار سنتی و بر مبنای پرسشنامه آن است که این نوع مطالعات، اطلاعات زیادی را در باره تعداد محدودی از مشتریان فراهم می کنند. با این وجود استفاده موثر از نتایج تحقیقات در بازار معمولاً نیازمند درک مشخصات تمام مشتریان است. به همین دلیل ممکن است تحقیقات در بازار بخشهای جالبی از مشتریان را پیدا کند. این بخشها باید در مرحله بعدی با استفاده از اطلاعات موجود به تمام مشتریان فعلی تعمیم داده شوند. داده های رفتاری مخصوصاً در این مورد مفیدند. این داده ها، معمولاً از سوابق تعاملات و صورتحساب ها خلاصه می شوند. یکی از نیازهای تحقیقات در بازار، شناسایی مشتریان است تا رفتار شرکت کنندگان در تحقیقات شناخته شود. بسیاری از تکنیک های داده کاوی هدایت شده ای که در این کتاب شرح داده شده است را می توان برای تهیه یک مدل دسته بندی جهت تخصیص افراد به بخشهای تعیین شده براساس داده های موجود به کار برد. آن چه مورد نیاز است، مجموعه آموزشی از مشتریان است که قبلاً دسته بندی شده اند. میزان مفید بودن این مدل به طور وسیعی به میزان حمایت عملی رفتارهای مشتریان از بخش بندی مشتریان بستگی دارد.
کاهش مواجه با خطرات اعتباری
یادگیری نحوه دوری جستن از مشتریان بد و نیز آگاهی از زمانی که مشتریان خوب در حال تبدیل به مشتریان بد هستند به اندازه حفظ مشتریان خوب مهم است. بسیاری از شرکت هایی که در معرض خطرات اعتباری مشتری قرار گیرند عمل بررسی اعتبار مشتریان را به عنوان بخشی از فرآیند جذب مشتری انجام می دهند، اما مدل سازی خطر هنگامی که مشتری جذب شد پایان نمی یابد.
پیش بینی کسی که در پرداخت بدهی خود کوتاهی خواهد کرد
ارزیابی خطرات اعتباری مشتریان فعلی مشکل هر تجارتی است که مشتریانش هزینه استفاده از خدماتش را با تاخیر پرداخت می کنند. همیشه این امکان وجود دارد که برخی از مشتریان خدماتی را دریافت کنند و سپس از عهده پرداخت هزینه آن برنیایند. عدم پرداخت بدهی مثال واضحی است؛ اشتراک روزنامه ها، خدمات تلفن، گاز و برق و خدمات کابل کشی از جمله خدماتی هستد که معمولاً پس از این که مورد استفاده قرار گرفتند هزینه شان پرداخت می شود. البته این خدمات برای مشتریانی که بیش از حد مجاز پرداخت های خود را به تعویق بیاندازند در نهایت قطع خواهد شد. در آن زمان ممکن است این افراد مبالغ زیادی مقروض باشند که بایستی از فهرست بدهی ها حذف شود. یک شرکت به وسیله هشدارهای زود هنگام یک مدل پیشگومی تواند در مسیر حفاظت از خود گام بردارد. این گام ها ممکن است شامل محدودیت دسترسی به خدمات و یا کم کردن طول مدت بین تاخیر در پرداخت و قطع خدمات باشد. از دست دادن ناخواسته مشتری که گاهی به پایان دادن خدمات به علم عدم پرداخت قبض ها اطلاق می شود را می توان به صورتهای مختلفی نشان داد. از دست دادن ناخواسته اغلب به عنوان یک نتیجه دوگانه در زمان های مشخصی تلقی می گردد که در هر مورد تکنیک هایی مثل رگرسیون لجستیکی و درخت های تصمیم مناسب هستند.
تعیین ارزش مشتری
محاسبات ارزش مشتری واقعاً پیچیده است و اگرچه داده کاوی در اینجا نقشی ایفا می کند ولی این محاسبات عمدتاً شامل یافتن تعاریف صحیح مالی می شوند.
یک بیان ساده از ارزش مشتری عبارت است از کل حاصل از وجود مشتری منهای کل هزینه برای حفظ مشتری. اما چه میزان سود را بایستی به یک مشتری نسبت داد؟ آیا این به معنای کل خرجی است که وی تاکنون انجام داده است؟ انتظار داریم که او طی ماه بعد چقدر خرج کند؟ او در سال آینده چه مقدار خرج خواهد کرد؟ سود غیر مستقیم مثل بازده تبلیغات را چگونه بایستی به مشتریان تخصیص داد؟
هزینه ها بسیار مشکل آفرین هستند. تجارتها دارای انواع هزینه هایی هستند که احتمالاً از طرق خاصی به مشتریان اختصاص می یابند. حتی با در نظرنگرفتن هزینه های تخصیص یافته و توجه صرف به هزینه های مستقیم، باز هم مسائل، همچنان گیج کننده خواهد بود. آیا این عادلانه است که مشتریان را به علت هزینه هایی که کنترلی بروی آن ها ندارند ملامت کنیم؟
دو مشتری اینترنتی دقیقاً کالای یکسانیرا سفارش می دهند، به هر دو نفر وعده تحویل رایگان داده شده است، برای مشتری که در مسافت دورتری از انبار کالاهای شرکت قرار دارد احتمالاً هزینه های حمل و نقل بیشتری در بر دارد، اما آیا واقعاً این مشتری دارای ارزش کم تری است؟ چه می شود اگر سفارش بعدی از محل متفاوتی حمل شود؟
ارائه کنندگان خدمات تلفن همراه، با مشکل مشابهی روبه رو هستند. بیشتر آن ها امروزه در کشورهای توسعه یافته، نرخ یکنواختی را در سراسر کشور تبلیغ می کنند. به علت این که ارائه کنندگان این خدمات تمام شبکه را در اختیار خود ندارند، هزینه های ارائه کنندگان خدمات متفاوت خواهد بود. بعضی از تماس ها از شبکه مخصوص خود شرکت عبور می کند. بقیه آن ها از شبکه رقیبان می گذرند که در نتیجه رقیبان هزینه زیادی را مطالبه می نمایند.
هنگامی که تمام این مشکلات بررسی شد و در شرکت بر یک تعریف واحد از ارزش گذشته مشتریان توافق حاصل شد، داده کاوی جهت برآورد ارزش آینده مشتریان وارد عمل می شود. این امر به برآورد سودی که یک مشتری در هر واحد زمان ایجاد خواهد کرد و سپس برآورد بقیه عمر مشتری محدود می شود.
فروش چند بعدی و فروش صعودی و توصیه ها
در مورد مشتریان فعلی، بیشترین تمرکز مدیریت ارتباط با مشتری بر افزایش سوددهی از طریق فروش چند بعدی فروش قرار دارد. از داده کاوی برای تعیین این که چه پیشنهادی را به چه کسی و در چه زمانی عرضه کرد استفاده می شود.
یافتن زمان مناسب برای یک پیشنهاد
یک شرکت سرمایه گذاری متوجه این نکته شد که مشتریان مممولاً حساب هایشان را با موجودی اندک چند ده هزار تومانی افتتاح می کنند، حتی اگر موجودی قابل ملاحظه ای در حساب های سرمایه گذاری و پس اندازشان داشته باشند. طبعاً قرار شد مقادیری از این حساب های قابل توجه جذب شود. با تجریه و تحلیل اطلاعات پیشین، آن ها متوجه شدند که مشتریانی که موجودی زیادی را به حساب های پس اندازشان منتقل می کنند، درماه های ابتدایی افتتاح حسابشان این گونه عمل می کنند. پس از چندماه، علائمی از تلاش جهت سوق دادن مشتریان به افزایش موجودی حسابهایشان حاصل شد.در نتیجه درک این نکته ، شرکت، استراتژی خود را از فرستادن مرتب درخواست ها در تمام مدت چرخه عمر مشتری به تلاش های متمرکز در مدت چند ماه اولیه تغییر داد.
یک روزنامه بزرگ که مشترکین روزانه و ویژه نامه داشت به الگوی مشابهی دست یافت. اگر یک مشترک ویژه نامه ها بخواهد به صورت مشترک روزانه و ویژه نامه در آید، این امر معمولاً در آغاز ارتباط به وجود می آید. یک مشتری که در طول سال ها تنها با ویژه نامه ها سر کرده به احتمال ضعیفی عادت خود را تغییر خواهد داد.
توصیه ها
یکی از روشها در فروش چند بعدی استفاده از قوانین وابستگی است. از قوانین وابستگی به منظور یافتن خوشه هایی از محصولات که معمولاً با هم فروخته می شوند و یا به وسیله فرد یکسانی در طول زمان خریداری می گردند استفاده می شود. مشتریانی که برخی و نه تمام اقلام موجود در یک خوشه را خریداری می کنند، مشتریان بالقوه مناسبی برای اقلام غیر موجود هستند.
این رویکرد برای اجناس خرده فروشی مناسب است که این نوع از خوشه را بسیار می توان در آنجا یافت. اما در فضاهایی چون خدمات مالی، که محصولات کم تری وجود دارد و بسیاری از مشتریان ترکیب مشابهی دارند تاثیر کمتری دارد؛ ترکیبی که معمولاً به وسیله دسته کردن محصول و تلاش های بازاریابی پیشین قابل تعیین است.
حفظ و از دست دادن مشتری
فرسایش مشتری موضوع مهمی برای همه شرکت ها است. این مطلب به خصوص در صنایع قدیمی که دوره اولیه رشد را پشت سر گذاشته اند مهم است. بی شک مقوله از دست دادن مشتری (و یا به بیان مثبت حفظ مشتری) یکی از کاربردهای عمده دانش داده کاوی را نشان میدهد. معمولا در این مقوله از مفهوم "از دست دادن مشتری" و "یا ریزش مشتری" استفاده می گردد.
تشخیص از دست دادن مشتری
یکی از اولین چالش ها در "مدل سازی از دست دادن مشتری" این است که معین کنیم اصلاً از دست دادن مشتری چیست و چه زمانی اتفاق افتاده یا می افتد. تعیین و تشخیص این امر در بعضی از صنایع مشکل تر است. زمانیکه یک مشتری وفادار، خرید معمول قهوه خود را متوقف می کند و به مغازه دیگری مراجعه می کند، فروشنده مغازه قهوه که نوع سفارش وی را از بر کرده است این مسئله را در می یابد ولی این واقعیت در هیچ پایگاه اطلاعاتی ذخیره نمی شود.
حتی در مواردی که مشتریان به نام واقعی شان شناخته می شوند، تشخیص یک مشتری که از دست رفته از کسی که برای مدتی موقت قطع رابطه کرده است مشکل می باشد. اگر یک مشتری وفادار یک شرکت خودروساز که هر 5 سال یک بار یک مدل جدید اتومبیل می خرید در طول 6 سال هیچ خریدی انجام نداده باشد، آیا می توان به این نتیجه رسید که وی جذب شرکت دیگری شده است؟
کشف از دست دادن مشتری زمانی که یک ارتباط پرداختی ماهانه مثل کارت های اعتباری وجود داشته باشد کمی آسان تر است. حتی در این مورد ممکن است از دست دادن مشتری بدون هیچ علائمی باشد. یک مشتری استفاده از کارت اعتباری را متوقف می کند اما واقعاً آن را لغو نمی نماید.
مفهوم از دست دادن مشتری در تجارتهایی که مشتریان، دارای اشتراک بلند مدت هستند راحت تر از سایر موارد تعریف می شود و به همین دلیل مدل سازی از دست دادن مشتری در اینگونه تجارتها معمول تر است. شرکت های تلفن راه دور و خارج از کشور، تلفن همراه، شرکت های بیمه، شرکت های کابل، شرکت های خدمات مالی، تامین کنندگان خدمات اینترنت، روزنامه ها، مجلات و بعضی از خرده فروشان، همه در یک مدل اشتراک سهیم اند که در آن مشتریان یک رابطه رسمی دارند که در صورت از دست دادن مشتری این رابطه بایستی آشکارا خاتمه پذیرد.
چرا از دست دادن مشتری مهم است
از دست دادن مشتری مهم است زیرا مشتریان از دست رفته بایستی با مشتریان جدید جایگزین شوند و جذب مشتریان جدید، هزینه بر بوده و معمولاً سود کمتری در کوتاه مدت نسبت به مشتریان پیشین ایجاد می کند. این امر به خصوص در مورد صنایع قدیمی و بازار نسبتاً اشباع شده بیشتر صدق می کند. هر کسی که درخواست دریافت سرویس یا محصولی داشته باشد احتمالاً تا به حال از جایی دیگر آن را تهیه می کرده است، پس منبع اصلی برای جذب مشتریان جدید کسانی هستند که با یکی از رقبا ترک معامله کرده اند. شکل 6-4 نشان می دهد وقتی بازار اشباع شود و نرخ پاسخگویی به فعالیت های جذب مشتری کاهش یابد، هزینه جذب مشتریان جدید افزایش می یابد.
شکل 6-4: هر چه نرخ پاسخ یک فعالیت جذب کمتر شود، هزینه هر مشتری جذب شده افزایش می یابد.
این نمودار نشان می دهد که هزینه هر مشتری جدید به ازای یک فعالیت جذب از طریق نامه نگاری مستقیم چقدر است، با این فرض که فرستادن نامه ها هزار تومان هزینه دارد و برخی از نامه ها حاوی یک پیشنهاد 20هزار تومانی مثل یک کوپن و یا کاهش نرخ بهره کارت اعتباری است. وقتی نرخ پاسخگویی به فعالیت جذب مشتری بالا است، مثلا %5، هزینه یک مشتری جدید 40 هزار تومان است. مبنای محاسبه باین صورت است که ارسال نامه و دست یابی به 100 نفر، 100 هزار تومان هزینه دارد. حال اگر پنج نفر از آنها پاسخ دادند، هزینه استفاده از کوپن داخل نامه برای هر یک 20 هزار تومان است، در نتیجه جذب پنج مشتری جدید 200 هزار تومان و بازای هر مشتری 40 هزار تومان هزینه دارد. وقتی نرخ پاسخگویی کاهش می یابد، هزینه ها به سرعت افزایش می یابند. زمانی که نرخ پاسخگویی به یک درصد برسد هر مشتری جدید 200 هزار تومان هزینه دارد. در برخی موارد، منطقی به نظر می رسد که این پول را بجای آنکه خرج جذب مشتریان جدید شود جهت حفظ مشتریان فعلی صرف کنیم. فعالیت های حفظ مشتری می تواند بسیار اثرگذار باشد اما در عین حال بسیار هزینه بر نیز هست. یک شرکت سازنده تلفن همراه، یک گوشی تلفن جدید و گران قیمتی را به مشتریانی عرضه می کند که قرارداد تلفن خود را تمدید کنند. در مثالی دیگر یک شرکت کارت های اعتباری بهره خود را کاهش میدهد. مشکل چنین پیشنهاداتی این است که به هر مشتری این پیشنهاد داده شود حتماً آن را می پذیرد. چه کسی گوشی تلفن رایگان و یا نرخ بهره کم تری را نمی خواهد؟ این بدان معناست که بیشتر افرادی که این پیشنهادات را قبول می کنند، کماکان بدون این ها نیز مشتری شرکت باقی می مانند. انگیزه ایجاد مدلهای از دست دادن مشتری فهمیدن این مسئله است که چه کسی در خطر از دست رفتن قرار داد تا به مشتریان با ارزش که بدون محرکهای اضافی، شما را ترک می کنند پیشنهادهای خوبی برای حفظ آنها داده شود.
انواع مختلف از دست دادن مشتری
در موضوع این که چرا از دست دادن مشتری مسئله ساز است فرض بر این می باشد که از دست دادن مشتری اختیاری است. مشتریان براساس تمایل خود و آزادانه تصمیم می گیرند که تجارت و خرید خود را در جای دیگری انجام دهند. این نوع از دست دادن مشتری که به عنوان از دست دادن اختیاری شناخته شده در واقع یکی از سه نوع از دست دادن است. دو نوع دیگر، از دست دادن اجباری و از دست دادن پیش بینی شده هستند. از دست دادن اجباری هنگامی اتفاق می افتد که شرکت و نه مشتری ارتباط را قطع می کند که بیشتر به علت عدم پرداخت صورتحساب ها و بدهی ها توسط مشتریان است. از دست دادن پیش بینی شده زمانی است که مشتری دیگر در بازار هدف یک محصول قرار ندارد. کودکان دندان در می آورند و دیگر به شیر خشک و غذای کودک نیاز نخواهند داشت، کارگران بازنشسته می شوند و دیگر به حساب پس انداز بازنشستگی نیاز ندارند. خانواده ها نقل مکان می کنند و به روزنامه ها محلی سابقشان که جلوی منزل آن ها تحویل می شد نیاز نخواهند داشت. نباید انواع مختلف ازدست دادن را با هم مخلوط کرد بخصوص آنکه تمایز بین آنها ساده است. نباید انواع مختلف از دست دادن را با هم مخلوط کرد بخصوص آنکه تمایز بین آنها ساده است. دو مشتری تلفن همراه را با شرایط مالی یکسان در نظر بگیرید که هیچ یک از آن ها دیگر نمی توانند هزینه خدمات تلفن همراه را پرداخت نمایند. هر دو برای لغو این خدمات با واحد ارتباط با مشتریان تماس می گیرند. یکی از آن ها با کارمند آن واحد صحبت کرده و به عنوان یک مشتری از دست رفته اختیاری ثبت می گردد، دومی به مدت 10 دقیقه پشت خط می ماند و امکان صحبت با واحد فروش را نمی یابد و پس از آن نیز به استفاده از تلفن همراه بدون پرداخت هزینه ادامه می دهد. مشتری دوم به صورت از دست رفته اجباری ثبت می گردد. مشکل اصلی که نداشتن پول است در مورد هر دوی مشتریان یکسان است، در نتیجه این احتمال وجود دارد که هر دوی آنها بصورت یکسانی در واحد فروش ثبت شوند. مدل نمی تواند تفاوتی را که به واسطه پشت خط ماندن مشتری دوم بوجود آمد را تشخیص دهد. شرکت هایی که از دست دادن اختیاری و اجباری را اشتباه می گیرند در دو موقعیت ضرر می کنند، یکی زمانی که پولی را صرف حفظ مشتریانی می کنند که بعدها بد از کار در می آیند و بعدی در هنگامی که بدهیهای سوخته شان را افزایش می یابد.
پیش بینی از دست دادن اجباری نیز می تواند خطرناک باشد. زیرا رفتار با مشتریانی که احتمالاً قادر به پرداخت صورتحساب هایشان نخواهند بود نامناسب می گردد، خدمات تلفن به حالت تعلیق در می آید، هزینه های به تاخیر افتاده زیاد می شوند، نامه های طلب بدهی سریعتر فرستاده می شود. این ممکن است مشتریان خوب را گریزان کند و احتمال از دست دادن اختیای را در مورد آن ها بالا ببرد.
در بسیاری از شرکت ها، از دست دادن اختیاری و اجباری بر عهده گروه های مختلفی است. بازاریابی به نگهداری مشتریان خوب توجه دارد و قسمت مالی متوجه کاهش مواجهه با مشتریان بد است. از نقطه نظر داده کاوی، بهتر است هر دونوع از دست دادن اختیاری و اجباری با هم مورد توجه قرار گیرند، زیرا تمام مشتریان در معرض خطر هر دو نوع از دست دادن را با درجات گوناگون دارند.
انواع مختلف مدل های از دست دادن مشتری
دو رویکرد اساسی در مدل سازی از دست دادن مشتری وجود دارد. رویکرد اول، از دست دادن مشتری را به عنوان یک نتیجه دو گانه می بیند و پیش بینی می کند که کدام مشتری می ماند و کدام می رود. دومی درصدد است که دوره بقای مشتری را پیش بینی کند.
پیش بینی و تعیین مشتریانی که سیستم را ترک می کنند
مدل سازی از دست دادن مشتری به صورت یک نتیجه دوگانه نیازمند در نظر گرفتن یک افق زمانی است. اگر سوال این باشد که "چه کسی فردا خواهد رفت؟" جواب تقریباً "هیچ کس" است. اگر سوال این است که "چه کسی در 100 سال آینده خواهد رفت؟" جواب در بیشتر تجارت ها تقریباً "همه" است. مدل های از دست دادن مشتری با نتایج دوگانه معمولاً افق زمانی کوتاهی در حد 60 یا 90 روز دارند. البته افق زمانی نباید زیاد کوتاه باشد که زمانی برای انجام اقدامات پیشگیرانه براساس پیش بینی های مدل وجود نداشته باشد. مدل های از دست دادن مشتریبا نتایج دو گانه را می توان با ابزارهای معمول دسته بندی مانند رگرسیون لجستیکی، درخت تصمیم و شبکه عصبی تهیه کرد. داده های پیشین که جمعیتی از مشتریان را در یک بازه زمانی توصیف می کند با علامتی که نشان می دهد آیا مشتری در زمان های بعدی فعال بوده یا نه ترکیب می شوند. وظیفه مدل سازی ایجاد تمایز بین مشتریانی است که مانده اند و آنهایی که رفته اند.
نتیجه یک مدل از دست دادن مشتری با نتایج دوگانه معمولاً نمره ای است که میتواند به منظور رتبه بندی مشتریان، به ترتیب احتمال از دست دادنشان به آنها تخصیص یابد. طبیعتی ترین نمره، احتمالی است که طبق آن مشتری در افق زمانی مدل از سیستم خارج شود. آن هایی که در از دست دادن اختیاری نمره ای بالاتر از یک آستانه مشخص دارند بایستی در یک برنامه حفظ مشتری قرار گیرند. آن هایی که در مدل از دست دادن اجباری نمره ای بالاتر از حد مشخصی کسب کرده اند، بایستی در لیست بررسی و مراقبت قرار گیرند. معمولاً پیش بینی کننده های مدل از دست دادن مشتری، ترکیبی از اطلاعاتی هستند که یا در زمان جذب مشتری در باره آن ها کشف شده است (مثل کانال جذب، کلاس اعتباری اولیه) و یا آنچه که در زمان ارتباط با مشتری پیش آمده (مثل مشکلات رخ داده با خدمات، دیرکرد در پرداخت ها ویا صورت حساب های غیر منتظره زیاد یا کم). دسته اول پیشگوئی های از دست دادن مشتری، اطلاعاتی را در مورد چگونگی کم کردن از دست دادن های مشتریان در آینده با جذب نمودن مشتریانی با تمایل کم تر به از دست دادن فراهم می کنند. دسته دوم پیشگوئی های از دست دادن مشتری، بینشی برای کم کردن خطر از دست دادن فراهم می کنند. دسته دوم پیشگوئی های از دست دادن مشتری، بینشی برای کم کردن خطر از دست دادن مشتریانی که هم اکنون وجود دارند فراهم می کنند.
پیش بینی این که مشتریان تا چه مدت باقی خواهند ماند
رویکرد دوم مدل سازی از دست دادن مشتری، کم تر مورد استفاده قرار می گیرد هر چند دارای ویژگیهای جذابی هست. در این رویکرد، هدف درک این مطلب است که مشتری تا چه زمانی احتمال دارد باقی بماند. این رویکرد، اطلاعاتی را بیش از پاسخ به این سئوال فراهم می کند که "آیا مشتری تا 90 روز آینده سیستم را ترک خواهد نمود یا خیر؟" تخمین زمان نگهداری مشتری جزء مهمی از مدل ارزش عمر مشتری است و این تخمین می تواند مبنایی برای امتیاز وفاداری مشتری نیز باشد. یک مشتری وفادار کسی است که برای مدت طولانی در آینده باقی خواهد ماند نه کسی که زمان زیادی تا امروز باقی مانده است.
یکی از رویکردهای مدل سازی طول عمر مشتری برای تخمین مدت زمان حفظ مشتری، داشتن تصاویر لحظه ای از گستره جمعیت مشتریان فعلی و در نظر گرفتن وضعیت آن ها در ابتدای جذب شدن به سیستم می باشد. مشکل این رویکرد این است که هر چه مشتریان با طول عمر طولانی تری وجود داشته باشند، شرایط متفاوت تری در هنگام جذب شدنشان وجود داشته است. قطعاً استفاده از خصوصیات مشتری که در بیست سال پیش مشترک سیستم شده است برای پیش بینی این که کدام یک از مشتریان امروزی، برای مدت طولانی در آینده مشترک خدمات ما خواهند بود راه مطمئنی نخواهد بود.
مطالب آموخته شده در این فصل
تکنیک های داده کاوی که در این کتاب توصیف شده دارای کاربردهای زیادی در زمینه های مختلفی از تحقیقات بیوتکنولوژی گرفته تا کنترل فرآیند تولید می باشند. با این وجود این کتاب برای افرادی نوشته شده است که مانند نویسنده کتاب از این تکنیک ها در حل موضوعات و مشکلات جامعه استفاده خواهند کرد. در بیشتر بخش های این کتاب تمرکز بر کاربردهای دانش داده کاوی در فرآیند مشتری مداری سازمانها است که البته در این فصل این تمرکز آشکارتر است.
داده کاوی در پشتیبانی تبلیغات و بازاریابی مستقیم به منظور تعیین مخاطب مناسب، انتخاب بهترین کانال های ارتباطی و انتخاب مناسب ترین پیام استفاده می شود.
یکی از کاربردهای معمول داده کاوی در مدل سازی مستقیم، مدل سازی پاسخ است. یک مدل پاسخ به مشتریان بالقوه بر حسب ا حتمال پاسخ دادنشان به یک فعالیت مستقیم بازاریابی امتیاز می دهد. از این اطلاعات برای ارتقای نرخ پاسخگویی به یک فعالیت بازاریابی می توان استفاده کرد اما به تنهایی جهت برآورد سودآوری فعالیت بازاریابی کافی نیست.
برآورد سودآوری فعالیت، نیازمند اعتماد به تخمین های اولیه نرخ پاسخ به یک فعالیت آتی، تخمین میانگین اندازه سفارش همراه با پاسخ و تخمین هزینه خود فعالیت می باشد. یک کاربرد مشتری مدارانه تر امتیازهای مدل پاسخ، انتخاب بهترین فعالیت از بین گزینه های مختلف برای هر مشتری است. این رویکرد از مشکلات معمول فعالیت های مستقل و امتیاز محور که منجر به انتخاب فردیکسان در هر نوبت می شوند جلوگیری می کند.
تمایز قائل شدن بین توانایی یک مدل در تشخیص افراد علاقه مند به یک محصول یا خدمات و توانایی آن در تشخیص افرادی که به واسطه پیشنهاد یا فعالیت خاصی اقدام به خرید کرده اند مهم است. تحلیل پاسخ های متفاوت، مسیری را به سمت شناسایی بخش های بازار که یک فعالیت بیشترین تاثیر را در آنجا خواهد داشت ارائه می دهد. مدل های پاسخهای متفاوت به دنبال بیشینه کردن تفاوت در پاسخ ها بین گروه آزمایشی و گروه کنترل است و هدف این مدل ها بیشینه کردن صرف پاسخ ها نیست.
از اطلاعات در باره مشتریان فعلی می توان جهت شناخت مشتریان بالقوه محتمل استفاده نمود و این کار از طریق مدل های پیش بینی و براساس اطلاعات موجود در مورد مشتریان فعلی قبل از این که به مشتریان بالفعل تبدیل شوند به دست می آید. این نوع از تحلیل ها به منظور انتخاب کانال های جذب و راهبردهای ارتباطی و بررسی فهرست مشتریان بالقوه ارزشمند هستند.
شرکت ها می توانند ارزش داده های مشتریانشان را از طریق ردیابی آن ها از اولین پاسخ، حتی پیش از آنکه تبدیل به مشتری گردند و جمع آوری و ذخیره اطلاعات اضافی هنگامی که جذب سیستم شدند افزایش دهند.
هنگامی که مشتری جذب سیستم شد، تمرکز بر مدیریت ارتباط با مشتری قرار می گیرد. داده های موجود از مشتریان فعال، غنی تر از داده های مربوط به مشتریان بالقوه است و از آنجا که این داده ها ماهیتاً رفتاری هستند تا جمعیت شناختی، پس قابلیت پیش بینی بیشتری دارند.
از داده کاوی به منظور شناسایی خدمات و محصولات دیگری که براساس الگوهای مصرف فعلی شان باید به مشتریان عرضه شود استفاده می گردد. داده کاوی می تواند بهترین زمان برای یک پیشنهاد فروش چند بعدی یا صعودی را نیز نشان دهد.
یکی از اهداف برنامه مدیریت ارتباط با مشتری حفظ مشتریان با ارزش است. داده کاوی می تواند در شناسایی با ارزش ترین مشتریان و نیز برآورد خطر از دست دادن اختیاری و اجباری مربوط به هریک از مشتریان ما را یاری دهد. با استفاده از این اطلاعات، شرکت ها می توانند برنامه های حفظ مشتریانی را که هم ارزشمندند و هم در خطر، هدف دار نمایند و همچنین گام هایی را در جهت حمایت از خود در برابر مشتریانی که امکان ترک سیستم را دارند بردارند.
1 – Richard Fairbank
2 – Nigel Morris
3 – Signet
4 – Capital One
5 – Over Fitting
6 – Score Set
7 – Training Set
8 – Validation Set
9 – Test Set
10 – Descriptive Profilling
11 – Directed Profilling
12 – Prediction
13 – Minimum Description Length (MDL)
14 – Prospecting
—————
————————————————————
—————
————————————————————
48