تهیه و تنظیم :
رضا تقی پور گرجی
استاد مربوطه:
……………………………………
آنالیز کسب و کار و داده کاوی
E-Mail: RT.Gorji@Gmail.com
……………………………………………….
آنالیز داده و داده کاوی
* داده کاوی، استخراج اطلاعات مفید از مجموعه داده های بزرگ است.
* داده کاوی، فرآیند کشف دانش از حجم عظیمی از داده هاست.
* داده کاوی، فرآیند بررسی و تجزیه و تحلیل داده های زیاد است که توسط ابزارهای خودکار و یا نیمه خودکار به منظور کشف الگوی معنی دار و قوانین حاکم بر آنها می پردازد.
Data
داده
Model
مدل
Insight
دانش
Business Analytics
Business Analysis
Synthesis
Other Tasks…
چهار ویژگی مهم کلان داده ها
داده های خوب و قابل اعتماد، یک نیاز فراگیر در تمامی بخش های یک سازمان
مدیریت ریسک
مدیریت پروژه
هوش تجاری
مدیریت دانش
ارتباط با
مشتریان
زنجیره تامین
مدیریت مالی
سیستم منابع
انسانی
چالش های حوزه آنالیز داده
2
1
کمبود افراد خبره در این زمینه؛
فرهنگ و عادات کهنه مدیران در حوزه تصمیم گیری؛
توجیه برگشت سرمایه؛
3
امنیت و حریم خصوص؛
روند رو به رشد داده ها و محدودیت های تکنولوژی؛
4
5
Business Analytics
آنالیز حوزه کسب و کار
-چه اتفاقی خواهد افتاد؟
-چرا این اتفاق خواهد افتاد؟
-داده کاوی؛
-متن کاوی، وب کاوی؛
-پیش بینی نسبتا دقیق از اتفاقات آتی؛
Predictive
پیشگویانه
-چه اتفاقی افتاده؟
-چه اتفاقی در حال وقوع است؟
-داشبورد گزارشهای مدیریتی؛
انبارش داده ها؛-
-تعریف دقیق مشکلات کسب و کار و فرصت ها؛
Prescriptive
توصیفی
-چه کاری باید انجام دهیم؟
-چرا باید این کار را انجام دهیم؟
-بهینه سازی مسائل شامل چندین قید؛
-شبیه سازی و مدل سازی؛
انتخاب بهترین تصمیم ممکن؛
Descriptive
تجویزی
سوالات
قابلیت ها
اهداف
Data
داده
Information
اطلاعات
Knowledge
دانش
Wisdom
آگاهی و خرد
دریافت سیگنال های داده ای
سازماندهی و تعیین ساختار داده ها
یادگیری و کشف الگو از داده ها
یادگیری عمیق الگو های استخراج شده از داده ها
اشتراک حوزه های علوم داده
مقایسه روش های آماری و داده کاوی
CRISP-DM الگوریتم
شناخت داده ها
آماده سازی داد ها
مدل سازی
تست و ارزیابی مدل
توسعه و استقرار مدل
شناخت کسب و کار
Data
Cross Industry Standard Process of Data Mining
_شناخت سیستمCRISP-DM
_شناخت داده هاCRISP-DM
_آماده سازی داده هاCRISP-DM
_مدلسازیCRISP-DM
_ارزیابیCRISP-DM
_توسعهCRISP-DM
الگوریتم های داده کاوی
الگوریتم های نظارت شده
الگوریتم های غیر نظارت شده
دسته بندی
سری های زمانی
پیش بینی
رگرسیون
کشف توالی
خوشه بندی
قوانین انجمنی
خلاصه سازی
الگوریتم ها
Classification – دسته بندی
*دسته بندی یا طبقه بندی، ارزشیابی ویژگی های مجموعه ای از داده ها و سپس اختصاص دادن آن ها به مجموعه ای از گروه های از پیش تعریف شده است.
*در دسته بندی، به دنبال مدلی هستیم که با تشخیص دسته ها می تواند دسته ناشناخته اشیاء دیگر را پیش بینی کند.
*دسته بندی جهت پیشگویی مقادیر گسسته و اسمی مورد استفاده قرار می گیرد.
Prediction – پیش بینی
*پیش بینی یکی از تکنیک داده کاوی است که در این تکنیک مقادیر ممکن برای متغیرهای عددی پیوسته پیش بینی می شود.
*از شبکه های عصبی و الگوریتم ژنتیک برای پیش بینی استفاده می شود.
Regression – رگرسیون
*رگرسیون میتواند متغیرهای خروجی را با متغیرهای ورودی متعدد ارتباط دهد.
*از نقطه نظر کلی، دسته بندی و رگرسیون دو نوع اصلی از مسائل پیشگویی هستند که دسته بندی جهت پیشگویی مقادیر گسسته و اسمی مورد استفاده قرار می گیرد، در حالی که رگرسیون جهت پیشگویی مقادیر پیوسته مورد استفاده قرار می گیرد.
Time Series – سری های زمانی
*سری زمانی مجموعه ای از داده های آماری است که در فواصل زمانی مساوی و منظمی جمع آوری شده باشند.
*سری زمانی مجموعه مشاهداتی است که بر اساس زمان مرتب شده باشند.
-سری زمانی در اقتصاد : مانند قیمت سهام در روزهای متوالی، صادرات در ماه های متوالی، متوسط درآمد در ماه های متوالی؛
-سری های زمانی در بازاریابی : تجزیه و تحلیل ارقام فروش در هفته یا ماه ها متوالی؛ روش فصلی یک شرکت طی سه سال گذشته.
Sequence DM_کشف توالی
*کاوش الگوهای متوالی به معنای کشف حوادثی است که مکرراً و پی در پی و یکی پس از دیگری اتفاق می افتند.
*مثال: احتمال خرید پرینتر رنگی توسط کسی که در همان ماه دوربین دیجیتال خریداری کرده است؛
*کاربردها: بازاریابی و حفظ مشتری، پیش بینی هوا، …
Clustering _خوشه بندی
*خوشه بندی، گروه بندی نمونه های مشابه با هم، در یک حجم داده می باشد.
*هدف از خوشه بندی این است که داده های موجود، به چند گروه تقسیم شوند و در این تقسیم بندی داده های گروه های مختلف حداکثر تفاوت ممکن را به هم داشته باشند و داده های موجود در یک گروه باید بسیار به هم شبیه باشند.
Association Rules _قوانین انجمنی
*استخراج قواعد انجمنی، نوعی عملیات داده کاوی است که به جستجو برای یافتن ارتباط بین ویژگی ها در مجموعه داده ها می پردازد. نام دیگر این روش، تحلیل سبد بازار است.
مثال هایی از کاربرد قوانین انجمنی می تواند این گونه باشد: -بررسی اینکه چه اقلامی در یک فروشگاه با هم خریداری می شوند و اینکه چه اقلامی هیچ گاه خریداری نمی شوند. -بررسی ارتباط بین توانایی خواندن کودکان با خواندن داستان توسط والدین برای آن ها.
Visualization _خلاصه سازی یا مصور سازی
*در برگیرنده روش هایی برای یافتن یک توصیف فشرده از زیر مجموعه ای از داده ها است و معمولا در تولید گزارش مورد استفاده قرار می گیرند.
*در این الگوریتم از تحلیل های گرافیکی برای بررسی داده ها استفاده می شود.
-استفاده از هیستوگرام برای متغیرهای عددی؛
-استفاده از نمودارهای میله ای برای متغیر های رده ای؛
-استفاده از نمودار های پراکنش برای بررسی داده های پرت؛
مسائل حوزه کسب و کار
کشف تقلب و تخلف
مسائل حوزه کسب و کار
Business Problems
تضمین در آمد
مدیریت ریسک
آنالیز ریزش مشتری
آنالیز سبد خرید
رتبه بندی اعتباری
بخش بندی مشتریان
Fraud Detection
Revenue Assurance
Risk Management
Churn Analysis
Basket Analysis
Credit Scoring
Customer Segmentation
کشف تقلب و تخلف
Fraud Detection
*تقلب به اقدامات عمدی یک یا چند نفر از مدیران، کارکنان یا اشخاص ثالث اطلاق می شود که به ارائه نادرست یک فعل صحیح منجر می شود.
-70% از سازمان ها حداقل با یک نوع تقلب روبر هستند؛
-49% سازمان ها اصلا متوجه رخ دادن تقلب در سازمان نمی شوند؛
-سازمان هایی که متوجه تقلب در سازمان می شوند، حداقل 18 ماه زمان لازم است تا به این کشف پی ببرند.
-نزدیک به 47% از مدیران معتقدند که کشف تقلب باید به صورت دستی انجام شود.
تضمین درآمد
Revenue Assurance
*مجموعه اقداماتی که به سازمان کمک می کند تا نشتی درآمد را قبل از وقوع شناسایی و اصلاح نماید.
مثال: شرکت همراه اول
بررسی وضعیت پرداختی مشتریان در ماه های مختلف و اطلاعات دموگرافی و میزان مصرف آنها >>> تفکیک مشتریان خوش حساب و بد حساب
تعیین سقف برای مشتریان بد حساب؛
در نظر گرفتن طرح های تشویقی برای مشتریان خوش حساب؛
مثال: موجودی انبار
هدف کنترل بهینه موجودی انبار، جهت کمترین فروش از دست رفته و جلوگیری از خراب شدن محصولات به خاطر دپوی زیاد؛
مدیریت ریسک
Risk Management
*کاربرد سیستماتیک مدیریت سیاست ها، روش ها، تجزیه و تحلیل ها و نظارت بر خطاهای ناخواسته در یک سیستم می باشد.
مثال: بیماران بخش اورژانس بیمارستان
معمولا بیمارانی که به اورژانس مراجعه می کنند، با تشخیص اشتباه پزشک روبرو می باشند. این موضوع به علت ازدیاد بیماران و بی نظمی آن بخش می باشد و به تبع آن کیفیت خدمات به شدت افت می کند.
داده کاوی و پیش بینی تعداد بیماران مراجعه کننده در روزها و ساعات مختلف، جهت تخصیص منابع بیشتر و پزشکان خبره تر در ساعات پیک مراجعه کنندگان؛
آنالیز ریزش مشتری
Churn Analysis
*ریزش مشتری به معنی تعویض سرویس دهنده ها توسط مشتری یا گرایش یک مشتری برای قطع ارتباط با یک شرکت در یک دوره زمانی می باشد.
تحقیقی که در این رابطه در بانک های استرالیا به انجام رسیده است نشان داده که اغلب مشتریانی که ریزش یافته اند:
– یک نوع کالا و یاخدمت را مصرف می کرده اند.
– از یک کانال و یا تنها یک شعبه برای خرید استفاده می کرده اند.
– شامل هیچگونه معافیت و یا تخفیف خاصی نمی شده اند. (جزء مشتریان هدف نبوده اند)
– فقط 3 تا 4 ماه مشتری بوده اند.
همین تحقیق نشان داده است که 65 درصد از عواملی که باعث ریزش مشتریان شده، قابل کنترل بوده و تنها 35درصد از این عوامل غیر قابل کنترل می باشند.
شرکت ها می توانند موانعی را برای مشتریان خود ایجاد کنند تا هزینه و یا ریسک مشتری در صورت جابجایی افزایش یابد . مشکل بکارگیری این موانع آنست که مشتریان جدید به محض اطلاع از این موانع در تصمیم خود تجدید نظر کنند.
آنالیز سبد خرید
Basket Analysis
*تجزیه و تحلیل سبد خرید به مطالعه ساختار اجزای تشکیل دهنده سبد محصولات خریداری شده توسط مشتریان در یک خرید می پردازد.
رتبه بندی اعتباری
Credit Scoring
*رتبه بندی اعتباری مشتریان جهت تصمیم گیری در خصوص تخصیص تسهیلات یا فروش غیر نقدی به مشتریان؛
رتبه بندی اعتباری:
-وضعیت کامل اعتباری مشترک یا مشتری؛
-تشریح کامل روند بازپرداخت ها یا تسویه حساب ها هر مشترک یا مشتری؛
-ترسیم وضعیت تعهدات آتی مشترک یا مشتری؛
-ترسیم وضعیت تعهدات سررسید گذشته و معوق مشترک یا مشتری؛
-ترسیم وضعیت تعهدات غیرمستقیم مشترک یا مشتری؛
اهداف:
1. رضایت متقاضیان تسهیلات؛
2. کاهش مطالبات معوق؛
3. افزایش سود حاصل از اعطای تسهیلات؛
بخش بندی مشتریان
Customer Segmentation
مثال: نمایندگی فروش خودرو
ارسال کاتالوگ خودروهای لوکس جدید برای مشتریان هدف؛
با توجه به در دسترس بودن اطلاعات مالی و دموگرافی مشتریان، با داده کاوی می توان بخش مورد نظر از مشتریان هدف را انتخاب کرد.
*در فضای کسب و کار، بخش بندی مشتریان را جداسازی یک گروه از مشتریان به مجموعه ای که دارای ویژگی های بازاریابی یا دموگرافی مشابه هم هستند گویند.
مراحل مختلف چرخه حیات و تجزیه و تحلیل داده
10 الگوریتم و روش داده کاوی مورد استفاده توسط پژوهشگران این حوزه
پر کاربرد ترین نرم افزار های حوزه داده کاوی
مثال:
یک کتاب فروشی با 4000 مشتری می خواهد کتاب جدید را برای مشتریانی که احتمال خرید این کتاب برایشان بیشتر است ارسال کند.
قیمت روشنایی به مراتب کمتر از هزینه تاریکی است…
Arthur Nielsen
E-Mail: RT.Gorji @ Gmail.com
Call: +98911 – 257 – 5098