موضوع : دیتای داده کاوی
تهیه کننده :
1
2
داده کاوی چیست؟
به مجموعه ای از روش های قابل اعمال بر پایگاه داده های بزرگ و پیچیده به منظور کشف الگوهای پنهان و جالب توجه نهفته در میان داده ها، داده کاوی گفته می شود. روش های داده کاوی تقریبا همیشه به لحاظ محاسباتی پر هزینه هستند. علم میان رشته ای داده کاوی، پیرامون ابزارها، متدولوژی ها و تئوری هایی است که برای آشکارسازی الگوهای موجود در داده ها مورد استفاده قرار می گیرند و گامی اساسی در راستای کشف دانش محسوب می شود. دلایل گوناگونی پیرامون چرایی مبدل شدن داده کاوی به چنین حوزه مهمی از مطالعات وجود دارد. برخی از این موارد در ادامه بیان شده اند.
3
1. رشد انفجاری داده ها در گستره وسیعی از زمینه ها در صنعت و دانشگاه که توسط موارد زیر پشتیبانی می شود:
دستگاه های ذخیره سازی نسبت به گذشته ارزان تر و با ظرفیت نامحدود، مانند فضاهای ذخیره سازی ابری
ارتباطات سریع تر با سرعت اتصال بیشتر
سیستم های مدیریت پایگاه داده و پشتیبانی نرم افزاری بهتر
2. قدرت پردازش کامپیوتری به سرعت در حال افزایش
با چنین حجم بالا و متنوعی از داده های موجود، روش های داده کاوی به استخراج اطلاعات از داده ها کمک می کنند. «ژیاوی هان» دانشمند داده و نویسنده کتاب «داده کاوی، مفاهیم و روش ها» در این رابطه می گوید:
«… در نتیجه، داده های گردآوری شده در مخازن داده به گورهای داده مبدل شده اند، …، شکاف در حال افزایش میان داده و اطلاعات، توسعه سیستماتیک ابزارهای داده کاوی را می طلبد که می توانند گورهای داده را به شمش هایی از طلا مبدل کنند.»
4
چرا داده کاوی؟
با رشد و افزایش توجهات به داده کاوی، پرسش «چرا داده کاوی؟» همواره مطرح می شود. در پاسخ به این پرسش باید گفت، داده کاوی دارای کاربردهای زیادی است. بدین ترتیب، زمینه ای جوان و آینده دار برای نسل کنونی محسوب می شود. این زمینه توانسته توجهات زیادی را به صنایع و جوامع اطلاعاتی جلب کند. با وجود گستره وسیع داده ها، نیاز حتمی به تبدیل چنین داده هایی به اطلاعات و دانش وجود دارد.
بنابراین، بشر از اطلاعات و دانش برای گستره وسیعی از کاربردها، از تحلیل بازار گرفته تا تشخیص بیماری ها، کشف کلاهبرداری و پیش بینی قیمت سهام استفاده می کند. در مجموع باید گفت، ضر ب المثل انگلیسی «نیاز، مادر همه ابداعات بشر است»، پاسخی کوتاه و گویا به پرسش مطرح شده است. در ادامه، برخی از استفاده های داده کاوی مورد بررسی قرار گرفته اند.
6
7
پیش بینی خودکار گرایش ها و رفتارها
از داده کاوی برای خودکارسازی فرآیندها و انجام پیش بینی در پایگاه داده های بزرگ استفاده می شود. پرسش هایی که پاسخگویی به آن ها نیازمند تحلیل های گسترده است، اکنون و با استفاده از تحلیل داده ها قابل پاسخگویی هستند. بازاریابی هدفمند مثالی از بازاریابی پیش بین است. همچنین، از داده کاوی برای ارسال ایمیل های تبلیغاتی هدفمند و بهینه استفاده می شود. در واقع، داده کاوی به منظور بیشینه سازی «بازگشت سرمایه» Return On Investment در ارسال ایمیل های تبلیغاتی مورد استفاده قرار می گیرد. از دیگر مسائل پیش بینی می توان به پیش بینی ورشکستگی، اشاره کرد. شناسایی بخش هایی از جامعه که احتمال دارد به یک رویداد واکنش های مشابهی نشان دهند نیز از دیگر قابلیت های داده کاوی به شمار می آید..
8
کشف خودکار الگوهای پیش تر ناشناخته
از ابزارهای داده کاوی برای بررسی پایگاه های داده استفاده می شود. همچنین، برای شناسایی الگوهای از پیش ناشناخته نیز قابل بهره برداری است. یک مثال خیلی خوب از کاوش الگوها، تحلیل داده های فروش خرده فروشی ها است. این کار با هدف شناسایی محصولات غیر مرتبطی که معمولا با هم خریداری می شوند انجام می شود. همچنین، مسائل کاوش الگوی دیگری نیز وجود دارند که از جمله آن ها می توان به شناسایی تراکنش های کلاهبرداری در کارت های اعتباری اشاره کرد. در چنین مواردی، الگوهای داده ناشناخته و جدید، می توانند خبر از وقوع سرقت اطلاعات کارت اعتباری و دیگر انواع کلاهبرداری بدهند.
9
انواع منابع داده
در این بخش، انواع منابع داده ای که همه روزه حجم انبوهی از داده ها را تولید و یا ذخیره می کنند، مورد بررسی قرار گرفته اند.
تراکنش های کسب و کار
در کسب و کارهای کنونی، اغلب تراکنش ها تا ابد نگهداری می شوند. بسیاری از این تراکنش ها دارای زمان هستند و شامل معاملات درون کسب و کاری مانند خریدها، مبادلات بانکداری، سهام و دیگر موارد هستند.
داده های علمی
در سراسر جهان، جوامع گوناگون در حال گردآوری حجم انبوهی از داده های علمی هستند. این داده های علمی نیاز به تحلیل دارند. این در حالی است که همواره نیاز به ثبت داده های جدید بیشتر با سرعت بالاتری وجود دارد. داده کاوی در زمینه های علمی گوناگون برای کمک به تحلیل داده ها و کشف دانش از آن ها کمک شایان توجهی می کند.
10
11
داده های شخصی و پزشکی
داده ها، از شخصی گرفته تا عمومی و از فردی گرفته تا دولتی را می توان با اهداف گوناگونی گردآوری کرد و مورد تحلیل قرار داد. این داده ها برای افراد و گروه های مختلف مورد نیاز هستند و هنگامی که گردآوری شدند، کشف اطلاعات از آن ها می تواند پرده از مسائل مهمی بردارد
تصاویر و ویدئوهای نظارتی
با کاهش قیمت دوربین های عکاسی و فیلمبرداری و وجود دوربین در گوشی های هوشمند، در هر لحظه حجم زیادی از داده های چندرسانه ای تولید می شود. از سوی دیگر، حجم زیادی از تصاویر و ویدئوها نیز توسط دوربین های نظارتی گردآوری می شوند.
رقابت های ورزشی
حجم زیادی از داده ها و آمارها پیرامون رقابت های ورزشی وجود دارد که قابل گردآوری و تحلیل محسوب می شوند. از جمله این موارد می توان به اطلاعات بازی و بازیکنان اشاره کرد.
12
رسانه های دیجیتال
دلایل زیادی منجر به انفجار مخازن داده های دیجیتال شده است. از جمله این موارد می توان به اسکنرهای ارزان، دوربین های ویدئویی دسکتاپ و دوربین های دیجیتال اشاره کرد. از سوی دیگر، شرکت های بزرگی مانند NHL و NBA در حال حاضر کار تبدیل مجموعه های خود به داده های دیجیتال را آغاز کرده اند.
دنیاهای مجازی
سیستم های «طراحی به کمک کامپیوتر» متعددی برای معماران وجود دارند. این سیستم ها برای تولید حجم انبوهی از داده ها مورد استفاده قرار می گیرند. علاوه بر این، می توان از داده های «مهندسی نرم افزار» Software Engineering به عنوان منبعی از داده ها – همراه با کدهای فراوان برای امور گوناگون – استفاده کرد.
13
جهان های مجازی
امروزه بسیاری از برنامه های کاربردی از فضاهای مجازی سه بُعدی استفاده می کنند. همچنین، این فضاها و اشیایی که در بر می گیرند باید با زبان خاصی مانند «زبان مدل سازی واقعیت مجازی» توصیف شوند.
گزارش ها و اسناد متنی
ارتباطات در بسیاری از شرکت ها بر مبنای گزارش ها و اسناد دارای قالب متنی است. این اسناد برای انجام تحلیل های آتی قابل نگهداری هستند. از سوی دیگر، حجم انبوهی از داده های موجود در وب نیز به صورت داده های متنی ساختار نیافته هستند که هر روز بر حجم آن ها افزوده می شود.
14
فرایند داده کاوی
داده کاوی که با عنوان «کشف دانش از داده» نیز شناخته شده است، فرایند استخراج اطلاعات و دانش از داده های موجود در پایگاه داده یا انبارداده است.
فرآیند داده کاوی شامل چندین گام است. این فرآیند از داده های خام آغاز می شود و تا شکل دهی دانش جدید ادامه دارد. فرآیند بازگشتی داده کاوی شامل گام های زیر است:
«پاک سازی داده» (Data Cleaning)
«یکپارچه سازی داده» (Data Integration)
«انتخاب داده» (Data Selection)
«تبدیل داده» (Data Transformation)
«کاوش داده» (Data Mining)
«ارزیابی الگو» (Pattern Evaluation)
«ارائه دانش» (Knowledge Representation)
15
پایان