تارا فایل

Datamart-Data Warehouse-Data Lake چیست


Data Lake چیست

دریاچه داده Data Lake ، نوعی مخزن ذخیره سازی است که می تواند حجم زیادی از داده ها از منابع مختلف را به صورت خام نگهداری کند. این داده ها به صورت ساختار یافته، نیمه ساختار یافته و ساختار نیافته هستند. در واقع داده ها می توانند در قالبی انعطاف پذیر، برای استفاده در آینده، نگهداری شوند. یک Data Lake در هنگام ذخیره سازی داده ها، برای بازیابی سریع تر، آن ها را با شناسه ها و برچسب های فراداده، مرتبط می کند.  که از این طریق زمانی که نیاز به اجرای یک Query باشد، این Query مجموعه ی کوچکتری از داده ها با شناسه هایی مشخص را در بر می گیرد و دیگر نیازی به خواندن تمامی داده های موجود در آن نیست.
به بیان دیگر، Data Lake مکانی برای ذخیره سازی هر نوع داده در قالب اصلی و بدون محدودیت است. همچنین، حجم بالایی از داده ها را برای افزایش عملکرد تحلیلی و یکپارچگی آن ها ارائه می دهد.
اصطلاح «Data Lake » برای اولین بار توسط « James Dixon » بیان شد. این اصطلاح، بر خلاف داده های پردازش و ذخیره شده در سیستم Data WareHouse ، به ماهیت موقت داده ها درData Lake اشاره می کند.
Data Lake معمولا بر روی مجموعه ای از سخت افزارهای ارزان قیمت و مقیاس پذیر پیکربندی می شوند. این کار باعث می شود داده ها بدون نگرانی در مورد ظرفیت ذخیره سازی، در دریاچه ریخته شوند.

2

3
همان طور که گفتیم، دریاچه اطلاعات همانند مخزنی است که اطلاعات از منابع مختلف به آن وارد می شود و افراد می توانند از این اطلاعات برای موارد مختلف استفاده کنند. خوب است بدانید یک Data Lake حاوی داده های ساختاری، داده های غیرساختاری، داده های ماشین به ماشین Machine to Machine و ثبت وقایع پیش آمده در زمان حال است.
یک دریاچه داده بر اساس اصول schema-on-read کار می کند. به این معنی که هیچ برنامه از پیش تعیین شده ای وجود ندارد که داده ها قبل از ذخیره سازی در آن نصب شوند. فقط هنگامی که داده ها در حین پردازش خوانده می شوند، در صورت لزوم، بررسی، تحلیل و تنظیم می شوند. این ویژگی، علاوه بر صرفه جویی در زمان، این امکان را فراهم می کند تا داده ها در هر قالبی ذخیره شوند.
متخصصان علم داده با استفاده از Data Lake ، می توانند با سرعت بیشتر و دقت بالاتر به داده ها دسترسی پیدا کرده و آن ها را تجزیه و تحلیل کنند. این مجموعه گسترده از داده ها، برای کارشناسان تجزیه و تحلیل این امکان را فراهم می کند تا اشتباهات و تقلب ها را بررسی کنند.

مزایای Data Lack

4

مفاهیم کلیدی Data Lack

4 مفهوم مهم و کلیدی Data Lack به شرح زیر است :
Ingestion Data
این مفهوم به اتصالات اجازه می دهد تا داده ها را از منابع مختلف داده دریافت کرده و در دریاچه اطلاعات بارگیری کنند. مفهوم Ingestion Data با موارد زیر سر و کار دارد:
انواع مختلف منابع داده مانند Data Base، Web Server، E-mail، LOT و FTP
استفاده از داده ها به دفعات زیاد مانند مصرف دسته ای یا مصرف لحظه ای
انواع داده های ساختار یافته، داده های نیمه ساختار یافته و ساختار نیافته
حاکمیت داده ها
این مفهوم برای کنترل در دسترس بودن، قابلیت استفاده، امنیت و یکپارچگی داده های مورد استفاده در سازمان مورد استفاده قرار می گیرد.
ذخیره اطلاعات
ذخیره داده یک مفهوم مقیاس پذیر است. این مفهوم، با ارائه یک ذخیره سازی به صرفه، دسترسی سریع به اکتشاف داده را امکان پذیر می کند. همچنین مفهوم «ذخیره داده» باید از قالب های مختلف داده پشتیبانی و حمایت کند.
امنیت
توجه داشته باشید که باید در هر لایه از دریاچه داده «امنیت» اجرا شود. این مفهوم از دسترسی کاربران غیرمجاز جلوگیری می کند. این کار با ذخیره سازی، کشف و مصرف آغاز می شود. مفهوم امنیت با ابزارهای مختلف برای دسترسی آسان به داده ها از رابط کاربری گرافیکی ( GUI )و داشبوردها پشتیبانی می کند.

5

چرا Data Lackاهمیت دارد

هدف اصلی ساخت Data Lack ، ارائه داده های تصفیه نشده به دانشمندان داده است . اما چراData Lack اهمیت دارد؟
با استفاده از سیستم Data Lack ، نیازی به مدل سازی داده ها در یک طرح گسترده در سطح سازمان نیست .
از یادگیری ماشین و هوش مصنوعی AI که با Data Lake در ارتباط هستند، می توانید برای پیش بینی سود سازمان استفاده کنید.
Data Lack ، نوعی مزیت رقابتی به سازمان اجرا کننده ارائه می دهد.
با افزایش حجم داده ها ، کیفیت داده ، فراداده و تجزیه و تحلیل آنها نیز افزایش می یابد.
Data Lack یک نگرش کامل و عمیق از مشتری به شما می دهد و تحیلی و بررسی را قوی تر می کند.

Data Warehouse چیست

انبار داده Data warehous مخزن اصلی اطلاعات است و می توان از تحلیل آن برای تصمیم گیری های آگاهانه تر استفاده کرد. داده ها به طور معمول در دوره های منظم از سیستم های تراکنشی Transactional information systems پایگاه های داده رابطه ایRelational databases و دیگر منابع وارد یک انبار داده می شوند . تحلیلگران کسب وکار ، دانشمندان داده و تصمیم گیران سازمانی از طریق ابزارهای هوش تجاری، کلاینت های SQL و دیگر برنامه های تحلیلی به داده ها دسترسی می یابند.
Data warehous با سازمان دهی داده ها در یک schema عمل می کند. این schema طرح کلی و نوع داده ها مانند عدد صحیح integer ، فیلد داده data field یا رشتهstring را تعیین می کند. وقتی داده ها تحلیل شدند در جداول مختلف که توسط schema توصیف شده اند، ذخیره می شوند. ابزارهای کوئری از schema برای تعیین این که باید به کدام جداول دسترسی داشته باشند و تحلیل کنند، استفاده می کنند.
1
2
3
4
5
6
7

Data warehous

معماری Data warehous شامل سه سطح است . در سطح تحتانی معماری، سرور پایگاه داده قرار دارد که داده ها در آن بارگذاری و ذخیره می شوند. سطح میانی شامل موتور تحلیلی است که برای دسترسی و تحلیل داده ها استفاده می شود. سطح فوقانی کلاینت فرانت اند است که نتایج را از طریق ابزارهای گزارش گیری، تحلیلی و داده کاوی ارائه می کند.

8

معماری Data warehous

9

مزایای Data warehous

مزیت های Data warehouse به صورت زیر هستند:
تصمیم گیری بهتر
انسجام داده ها از منابع مختلف
کیفیت، انسجام و دقت داده
هوش تاریخی (سوابق)
جداسازی پردازش تحلیل از پایگاه های داده تراکنشی و بهبود عملکرد هر دو سیستم.

10

Vs Data Base Data warehous

یک انبار داده به طور خاص برای تحلیل داده طراحی شده و در آن مقادیر بالایی از داده ها برای درک روابط و روندهای داده ها بررسی می شود. یک پایگاه داده برای گردآوری و ذخیره سازی دادهایی مانند ثبت جزییات یک تراکنش استفاده می شود.

11

Vs Data Lack Data warehous

Data lake برخلاف یک Data Warehouseیک مخزن متمرکز از همه داده ها است که داده های ساخت یافته و ساخت نیافته را شامل می شود. Data Warehouse از شِماهای از پیش تعریف شده بهره می گیرد که برای روش های تحلیلی بهینه سازی شده اند. در یک Data lake ، شِما تعریف نشده است و امکان انواع دیگری از تحلیل ها مانند تحلیل های کلان داده، جستجوی تمام متن، تحلیل های همزمان و یادگیری ماشین را فراهم می سازد.

Data Mart چیست

13

Data mart
یک Data warehouse است که در جهت رفع نیازهای یک تیم خاص یا واحد کسب وکار مشخص مانند بخش مالی، بازاریابی یا فروش ایجاد شده است. داده گاه، کوچک تر و متمرکز است و ممکن است شامل خلاصه ای از داده هایی باشد که به بهترین وجه نیازهای کاربران خود را رفع می کند.
زیر مجموعه ای از Data warehouse است که در آخرین لایه یعنی presentation قرار دارد. یک Data Mart مجموعه ای خاص از اطلاعات را در خود نگه میدارد که برای گروهی از کاربران Data warehouse  مورد نیاز است. برای مثال اطلاعات فروش می تواند یک Data Mart را تشکیل دهد. Data warehous می تواند چندین Data Mart را در خود جای دهد. رایجترین متد طراحی Data Mart به صورت ستاره ای، Star Schema  می باشد. چندین Data Mart می توانند به صورت مستقل در لایه دسترسی، presentation قرار داشته باشند. بدین ترتیب تغییر در یکData Mart اثری بر روی داده Data Mart های دیگر نخواهد داشت. در بعضی از طراحی های  Data warehouse همه Data Mart ها از یک مجموعه داده مشترک به نام Conformed dimensions استفاده می کنند.

14

Data Mart


تعداد صفحات : 14 | فرمت فایل : pptx

بلافاصله بعد از پرداخت لینک دانلود فعال می شود