بسم الله الرحمن الرحیم
مقدمهای بر Big Data
استاد : دکتر فاطمه شبستری
ارایه کننده:علیرضا بازاری
فهرست مطالب
1
Big Data چیست؟
چرا Big Data؟
چالشهای پیشهروی Big Data
آیندهی Big Data
جنبش NoSQL
انواع NoSQL
MapReduce
Hadoop
Big Data چیست؟
2
معنای لغوی
کلان داده
دادههای حجیم
بزرگ داده
تعریف
تعریف واحدی وجود ندارد!
دو عنصر اصلی در تمامی تعریفها
وجودِ حجم زیادی از دادهها
ناتوانیِ پایگاههای داده سنتی در مدیریت دادهها
Big Data چیست؟
3
ویژگیها
حجم دادهها
Big Data
Big Data چیست؟
4
حجم دادهها(Volume)
تا سال 2003 حجم کل دادههای موجود، حدود 5 اگزابایت بوده است
امروزه در هر دو روز، حدود 5 اگزابایت داده تولید میشود
گزارش IBM
تولید 2.5 اگزابایت داده در روز
تولید 90 درصد کل دادههای موجود در دو سال اخیر
0.8 Zb
35.2 Zb
رشدی 44 برابری
2009
2020
Big Data چیست؟
5
حجم دادهها(Volume)
تا سال 2003 حجم کل دادههای موجود، حدود 5 اگزابایت بوده است
امروزه در هر دو روز، حدود 5 اگزابایت داده تولید میشود
گزارش IBM
تولید 2.5 اگزابایت داده در روز
تولید 90 درصد کل دادههای موجود در دو سال اخیر
EXA
218
PETA
215
TERA
212
ZETTA
221
GIGA
29
2018
2015
2012
2003
Big Data چیست؟
6
حجم داده ها(Volume)
Big Data چیست؟
7
نمونهها
فیسبوک (1392)
بیش از یک میلیارد کاربر
بیش از 300 پتابایت داده
اضافه شدنِ بیش از 50 ترابایت داده در روز
بیش از 35 درصد از کلِ تصاویر دنیای مجازی
گوگل (1390)
بیش از صد پتابایت داده
بیش از 1000 میلیارد صفحه وب
حدود 7.2 میلیارد جستوجو در روز
Big Data چیست؟
8
نمونهها
یوتیوب (1393)
بیش از یک اگزابایت داده
بازدیدِ بیش از یک میلیارد کاربر در ماه
80 درصد ترافیک خارج از آمریکا
اضافه شدن صد ساعت فیلم در دقیقه
توییتر (1393)
حدود یک میلیارد کاربر
بیش از 124 میلیارد توییت در سال
حدود 4500 توییت در ثانیه
271 میلیون کاربر فعال در ماه
Big Data چیست؟
9
نمونهها
شبکههای حسگر
سازمانهای هواشناسی
دستگاههای پزشکی
بیوانفورماتیک
سازمانهای بزرگ
و …
Big Data چیست؟
10
ویژگیها
Big Data
حجم داده ها
تنوع در دادهها
Big Data چیست؟
11
تنوع در دادهها(Variety)
دادههای ساختارمند (Structured)
دادههایی که دارای ساختارِ مشخصی هستند
رشته ها
اعداد
تاریخ
و…
حدود 20 درصد از کل دادههای موجود، ساختارمند هستند
استفاده از پایگاههای دادهی رابطهای
Big Data چیست؟
12
تنوع در دادهها(Variety)
دادههای ساختارمند (Structured)
دادههای نیمه ساختارمند (Semi-Structured)
ساختاری سازگار و مشابه ندارند
XML
Tweets
SGML
Logs
و …
عدم امکان استفاده از پایگاه های داده ی رابطهای
Big Data چیست؟
13
تنوع در دادهها(Variety)
دادههای ساختارمند (Structured)
دادههای نیمه ساختارمند (Semi-Structured)
دادههای فاقد ساختار (Unstructured)
فاقد هرگونه ساختاری هستند
دادههای چند رسانهای (فیلم، صوت و …)
ایمیلها
گزارشات
ارائهها
و ….
حدود 70 تا 90 درصد از کل دادههای موجود
Big Data چیست؟
14
تنوع در داده ها(Variety)
Big Data چیست؟
15
ویژگیها
Big Data
حجم دادهها
تنوع در دادهها
رشد سریع دادهها
Big Data چیست؟
16
رشد سریع دادهها (velocity)
سرعت بالا در تولیدِ دادههای جدید
Big Data چیست؟
17
رشد سریع دادهها (velocity)
سرعت بالا در تولید دادههای جدید
سرعت بالا در ایجاد پرس و جوها
تجهیزات علمی
شبکههای حسگر
Big Data چیست؟
18
پیچیدگی (complexity)
تغییرپذیری (Variability)
و …
Big Data
حجم دادهها
تنوع در دادهها
رشد سریع دادهها
3V’s
ویژگیها
چرا Big Data؟
19
رشد روز افزون ظرفیت ادوات ذخیره سازی
چرا Big Data؟
20
رشد روز افزون ظرفیت ادوات ذخیره سازی
افزایش چشمگیر قدرت پردازشی سیستمها
چرا Big Data؟
21
رشد روز افزون ظرفیت ادوات ذخیره سازی
افزایش چشمگیر قدرت پردازشی سیستمها
افزایش حجم دادههای موجود
چالشهای پیشروی Big Data
22
عدم کارایی روشهای سنتی تحلیل اطلاعات
تحلیل داده
امنیت و حریم شخصی
مشکلات فنی و پردازشی
آیندهی Big Data
23
Big Data در Google Trend
آیندهی Big Data
24
Big Data در Google Trend
آیندهی Big Data
25
جایگاه پژوهشی Big Data از نظر موسسهی گارتنر
چه تکنولوژی برای Big Data وجود دارد ؟
استفاده از یک مدل بدون ساختار و توزیع شده
دلیل استفاده از این مدل
26
جنبش NoSQL
27
تاریخچه
Not Only SQL
NoSQL بیان نمی کند که SQL هیچگاه نباید استفاده شود و یا مرده است
مثال هایی از پایگاه داده های غیر رابطه ای
Company LOGO
28
جنبش NoSQL – Key Value
29
1 – ذخیره سازی Key – Value :
مدل داده ای : مجموعه ای از زوج های کلید – مقدار
مثال : Tokyo , Redis , Voldemort
جنبش NoSQL – Column
30
2 – ذخیره سازی ستون محور:
مدل داده ای : ذخیره سازی ستون ها به جای سطرها
مثال : Cassandra, HyperTable, HBase
جنبش NoSQL – Document
31
3 – ذخیره سازی سندگرا:
مدل داده ای : مجموعه ای از مجموعه ی کلید – مقدارها
مثال : CouchDB , MongoDB
جنبش NoSQL – Graph
32
4 – ذخیره سازی گراف :
مدل داده ای : گره ها، ارتباط ها، کلید – مقدار روی هرکدام
مثال : Sones, AllegroGraph , Neo4j
مثال هایی از پایگاه داده های غیر رابطه ای
Company LOGO
33
مقایسه فریم ورک های NoSQL
34
MySQL
MongoDB یا CouchDB
Neo4j
Map Reduce
Company LOGO
35
Hadoop
36
Hadoop ، همان VMware هست اما در راهی متفاوت
تفاوت Hadoop و ماشین مجازی
Company LOGO
37
Hadoop
1. چند سرور فیزیکی را می گیرد
2. آنها را با هم ترکیب می کند
3. یک سرور بزرگ مجازی ارائه می دهد
Vmware
1. یک سرور فیزیکی می گیرد
2. آن را می شکند
3. چند سرور مجازی ارائه می دهد
نتیجه گیری
38
نمی توان با قاطعیت گفت که یک فریم ورک NoSQL
مختص یک کار است
منابع
Company LOGO
39
1 – http://www.economistinsights.com/sites/default/files/downloads/ EIU_SAS_BigData_4.pdf
2 – http://en.wikipedia.org/wiki/MapReduce
3 – http://en.wikipedia.org/wiki/NoSQL
4 – http://www.ibm.com/big-data/us/en/
5 – Marco Grobelink,Jozef stefan Institute,Big-Data Tutorial, 2013.
پرسش و پاسخ
40