مکتب خونه برنامه‌نویسی پایگاه داده بیگ دیتا

آشنایی با تکنولوژی‌های بیگ دیتا (Big Data)

Name: دوره آشنایی با تکنولوژیهای بیگ دیتا (Big Data)
Availability: OnlineOnly
Rating: 3 (2 reviews)

3 (2 امتیاز)

3,539 دانشجو

مقدماتی

نیمبو

رحیم داستار

+ 1 مدرس دیگر

محتوای دوره

درباره دوره

نظرات کاربران

درباره استاد

محتوای دوره

2 فصل 2 جلسه 4 ساعت ویدیو

آشنایی با Hadoop

01:16 ساعت 1 جلسه

آشنایی با HBase و کاربرد‌های آن

02:50 ساعت 1 جلسه

درباره دوره

امروزه دنیای اینترنت موجب به وجود آمدن حجم بسیار بالایی از داده‌ها شده است که ما آن را به‌عنوان کلان داده (big data) می‌شناسیم. این کلان داده‌ها نقش به سزایی در پیشروی صنایع مختلف دارند. دوره آموزش big data مکتب خونه با هدف آشنایی کاربران با این فنّاوری ارائه شده است و از اهمیت بسیار بالایی برخوردار است.

در این دوره آموزش big data دانشجویان قرار است نحوه کار با داده‌های حجیم را بیاموزند و با تکنیک‌ها و آموزش‌های لازم وارد بازار کار شوند.

معرفی دوره آموزش big data

دوره آموزش big data مکتب خونه به هدف آموزش فنّاوری کلان داده و آشنایی کاربران با ابزارهای مهم آن توسط محمدصادق دهقان تهیه و تدوین شده است. در این دوره آموزشی که در پنج ساعت محتوای ویدیویی ارائه خواهد شد، دانشجویان با جزئیات مهمی از big data و نحوه استفاده از آن‌ها با ابزارهایی مانند آپاچی هادوپ و آپاچی اسپارک آشنا خواهند شد.

هدف از دوره آموزش big data

هدف این دوره آموزش مبانی Big Data و آشنایی مقدماتی با ابزارهای این حوزه هست. این ویدیوها بخشی از ارائه‌های دوره کارآموزی نیمبو هست که توسط شرکت سحاب پرداز برگزار شده و سرفصل‌های دوره شامل مباحث زیر است:

آشنایی با SQL ها و NoSQL ها
آشنایی با Hadoop
آشنایی با HBase و کاربردهای آن
آموزش مفاهیم Spark

دوره آموزش big data برای چه کسانی مناسب است؟

دوره آموزش کلان داده مکتب خونه برای تمامی افرادی که به حوزه هوش مصنوعی، یادگیری ماشین و کلان داده علاقه‌مند هستند توصیه می‌شود. با یادگیری مباحث کلان داده دانش کاربران از حوزه‌های مذکور بسیار بالا می‌رود و فرصت ورود به بازار برای آن‌ها فراهم می‌شود. اگر به فکر یادگیری مفاهیم کلان داده هستید این دوره آنلاین داده‌های حجیم را از دست ندهید.

پیش‌نیاز دوره آموزش کلان داده چیست؟

این یک دوره آموزشی از صفرتا صد بیگ دیتا نیست و شما در این دوره big data کار با ابزارهای مختلفی را یاد خواهید گرفت. از همین رو این دوره یک سری پیش‌نیاز دارد که بهتر است کاربر از قبل با آن‌ها آشنا باشد.

برنامه‌نویسی پایتون
sql server

برای یادگیری مفاهیم بالا می‌توانید از دوره‌های آموزش زبان برنامه‌نویسی پایتون مکتب خونه و دوره‌های مربوطه به sql server بهره ببرید.

کلان داده چیست؟

کلان داده (big data) به مجموعه داده‌های عظیم و پیچیده (اعم از ساختاریافته، نیمه ساختاریافته یا بدون ساختار) در علم داده اشاره دارد که به‌سرعت از منابع مختلف تولید و منتقل می‌شوند.

کلان داده‌ها را می‌توان در قالب چالش‌های مدیریت داده توصیف کرد که به دلیل افزایش حجم، سرعت و تنوع داده‌ها با پایگاه‌های داده سنتی قابل‌حل نیستند. در حالی که تعاریف زیادی برای کلان داده وجود دارد، اما کلان داده با سه مفهوم زیر از داده‌های دیگر خودش را متمایز می‌کند.

حجم: از ترابایت تا پتابایت داده متغیر است.
تنوع: شامل داده‌هایی از طیف گسترده‌ای از منابع و قالب‌ها (مانند گزارش‌های وب، تعاملات شبکه‌های اجتماعی، تجارت الکترونیک و تراکنش‌های آنلاین، تراکنش‌های مالی و غیره) است.
سرعت: برای پاسخگویی به خواسته‌ها و چالش‌هایی که در مسیر رشد و توسعه قرار دارند داده‌های بزرگ اغلب در زمان واقعی در دسترس هستند. در مقایسه با داده‌های کوچک، داده‌های بزرگ به‌طور مستمر بیشتر تولید می‌شوند. دو نوع سرعت مربوط به کلان داده عبارت‌اند از: فرکانس تولید و فرکانس پردازش.

مزایای داده‌های بزرگ

اگرچه کار روی داده‌های بزرگ می‌تواند طاقت‌فرسا باشد اما این مقدار داده انبوهی از اطلاعات را در اختیار متخصصان قرار می‌دهد تا از آن‌ها به نفع خود استفاده کنند. مجموعه‌های کلان داده را می‌توان برای استنباط الگوهایی در مورد منابع اصلی آن‌ها استخراج کرد و بینشی برای بهبود کارایی کسب‌وکار یا پیش‌بینی نتایج آینده کسب‌وکار ایجاد کرد.

برخی از زمینه‌های قابل‌توجهی که داده‌های بزرگ مزایایی را ارائه می‌دهند عبارت‌اند از:

بهینه‌سازی هزینه
حفظ مشتری
تصمیم‌گیری
خودکارسازی فرایند

در دوره آموزش big data ما با مزایای این نوع داده‌ها در عمل آشنا خواهیم شد و خواهیم توانست از آن‌ها به نفع خود استفاده کنیم.

تجزیه ‌و تحلیل کلان داده چگونه کار می‌کند؟

تجزیه‌وتحلیل داده‌های بزرگ به جمع‌آوری، پردازش، تمیز کردن و تجزیه‌وتحلیل مجموعه داده‌های بزرگ برای کمک به سازمان‌ها برای عملیاتی کردن کلان داده‌های خود اشاره دارد. در دوره آموزش big data نحوه کار کلان داده‌ها به‌صورت عملی توضیح داده می‌شود اما در اینجا به‌صورت مختصر این فرایند را توضیح می‌دهیم.

1. جمع‌آوری داده‌ها

جمع‌آوری داده‌ها برای هر سازمانی متفاوت به نظر می‌رسد. با فناوری امروزی، سازمان‌ها می‌توانند داده‌های ساختاریافته و بدون ساختار را از منابع مختلف جمع‌آوری کنند. از ذخیره‌سازی ابری گرفته تا برنامه‌های کاربردی تلفن همراه گرفته تا حسگرهای اینترنت اشیا در فروشگاه و سایر موارد دیگری که با دیتا سروکار دارند.

2. پردازش داده‌ها

هنگامی‌که داده‌ها جمع‌آوری و ذخیره می‌شوند، باید به‌درستی سازمان‌دهی شوند تا نتایج دقیقی در پرس‌وجوهای تحلیلی به دست آید، به‌خصوص زمانی که داده بزرگ و بدون ساختار باشد. از آنجاکه داده‌های موجود به‌طور تصاعدی در حال رشد است و پردازش داده‌ها را به چالشی برای سازمان‌ها تبدیل می‌کند نوع پردازش فرق خواهد کرد. یکی از گزینه‌های پردازش، پردازش دسته‌ای است که در طول زمان به بلوک‌های بزرگ داده نگاه می‌کند و معمولاً توسط سیستم‌های توزیع شده انجام می‌شود.

پردازش دسته‌ای زمانی مفید است که بین جمع‌آوری و تجزیه‌وتحلیل داده‌ها زمان بیشتری وجود داشته باشد. پردازش دیگر در کلان داده، از نوع جریانی است. پردازش جریانی به یک‌باره به دسته‌های کوچکی از داده‌ها نگاه کرده و زمان تاخیر بین جمع‌آوری و تجزیه‌وتحلیل را برای تصمیم‌گیری سریع‌تر کوتاه می‌کند. پردازش جریانی پیچیده‌تر و اغلب گران‌تر است.

3. پاک‌سازی داده‌ها

داده‌های بزرگ یا کوچک برای بهبود کیفیت داده‌ها و گرفتن نتایج قوی‌تر نیاز به تمیز کردن دارند. همه داده‌ها باید به‌درستی قالب‌بندی شوند و هر گونه داده تکراری یا نامربوط باید حذف یا حساب شود. داده‌های پرت می‌توانند مبهم و گمراه کننده باشند و بینش‌های ناقصی ایجاد کنند.

4. تجزیه‌وتحلیل داده‌ها

تبدیل کلان داده به حالت قابل‌استفاده زمان‌بر است. پس از آماده شدن، فرآیندهای تجزیه‌وتحلیل پیشرفته می‌توانند داده‌های بزرگ را به بینش‌های بزرگ تبدیل کنند. برخی از این روش‌های تجزیه‌وتحلیل کلان داده عبارت‌اند از:

داده‌کاوی: داده‌کاوی از طریق مجموعه داده‌های بزرگ برای شناسایی الگوها و روابط با شناسایی ناهنجاری‌ها و ایجاد خوشه‌های داده دسته‌بندی می‌کند.
تجزیه‌وتحلیل پیش‌بینی‌کننده: تجزیه‌وتحلیل پیش‌بینی‌کننده از داده‌های تاریخی سازمان ‌برای پیش‌بینی آینده استفاده خواهد کرد.
یادگیری عمیق: یادگیری عمیق الگوهای یادگیری انسان را با استفاده از هوش مصنوعی و یادگیری ماشین برای لایه‌بندی الگوریتم‌ها و یافتن الگوها در پیچیده‌ترین و انتزاعی‌ترین داده‌ها تقلید می‌کند.

نحوه استفاده از بیگ دیتا

تنوع داده‌های بزرگ آن را ذاتاً پیچیده می‌کند و در نتیجه نیاز به دستگاه‌هایی است که قادر به پردازش تفاوت‌های ساختاری و معنایی مختلف آن هستند. داده‌های بزرگ به پایگاه‌ داده‌های تخصصی NoSQL نیاز دارند که می‌توانند داده‌ها را به‌گونه‌ای ذخیره کنند که نیازی به پیروی دقیق از یک مدل خاص نداشته باشد. این انعطاف‌پذیری لازم را برای تجزیه‌وتحلیل منسجم منابع اطلاعاتی به‌ظاهر متفاوت فراهم می‌کند تا دیدی جامع از آنچه اتفاق می‌افتد، نحوه عمل و زمان عمل به دست آورید.

هنگام جمع‌آوری، پردازش و تجزیه‌وتحلیل کلان داده‌ها، اغلب به‌عنوان داده‌های عملیاتی یا تحلیلی طبقه‌بندی می‌شوند و بر این اساس ذخیره می‌شوند. سیستم‌های عملیاتی دسته‌های بزرگی از داده‌ها را در چندین سرور ارائه می‌کنند و شامل ورودی‌هایی مانند موجودی، داده‌های مشتری و خرید می‌شوند.

سیستم‌های تحلیلی پیچیده‌تر از همتایان عملیاتی خود هستند و می‌توانند تجزیه‌وتحلیل داده‌های پیچیده را مدیریت کرده و بینش تصمیم‌گیری را برای کسب‌وکارها فراهم کنند. این سیستم‌ها اغلب در فرآیندها و زیرساخت‌های موجود برای به حداکثر رساندن جمع‌آوری و استفاده از داده‌ها ادغام می‌شوند.

صرف‌نظر از اینکه داده چگونه طبقه‌بندی می‌شود، داده‌ها همه‌جا هستند. تلفن‌ها، کارت‌های اعتباری، برنامه‌های کاربردی نرم‌افزاری، وسایل نقلیه، سوابق، وب‌سایت‌ها و غیره در دنیای ما قادر به انتقال حجم وسیعی از داده‌ها هستند و این اطلاعات فوق‌العاده ارزشمند است.

تجزیه‌وتحلیل داده‌های بزرگ تقریباً در هر صنعتی برای شناسایی الگوها و روندها، پاسخ به سؤالات، به دست آوردن بینش در مورد مشتریان و مقابله با مشکلات پیچیده استفاده می‌شود. شرکت‌ها و سازمان‌ها از اطلاعات به دلایل متعددی مانند رشد کسب‌وکار خود، درک تصمیمات مشتری، افزایش تحقیقات، انجام پیش‌بینی‌ها و هدف قرار دادن مخاطبان کلیدی برای تبلیغات استفاده می‌کنند. در دوره آموزش big data نحوه استفاده از این فن‌آوری در قالب مثال‌های متعدد موردبررسی قرار خواهد گرفت.

در اینجا چند نمونه از صنایعی که انقلاب کلان داده در حال حاضر در حال انجام است آورده شده است:

کلان داده در امور مالی

صنایع مالی و بیمه از داده‌های بزرگ و تجزیه‌وتحلیل پیش‌بینی‌کننده برای کشف تقلب، ارزیابی ریسک، رتبه‌بندی اعتبار، خدمات کارگزاری و غیره استفاده می‌کنند. مؤسسات مالی همچنین از داده‌های بزرگ برای تقویت تلاش‌های امنیت سایبری خود و شخصی‌سازی تصمیمات مالی برای مشتریان استفاده می‌کنند.

کلان داده در بهداشت و درمان

بیمارستان‌ها، محققان و شرکت‌های داروسازی راه‌حل‌های کلان داده را برای بهبود و پیشرفت مراقبت‌های بهداشتی اتخاذ می‌کنند. با دسترسی به حجم وسیعی از داده‌های بیماران و جمعیت، مراقبت‌های بهداشتی درمان‌ها را بهبود می‌بخشد، تحقیقات مؤثرتری در مورد بیماری‌هایی مانند سرطان و آلزایمر انجام می‌دهد، داروهای جدید تولید می‌کند و بینش‌های مهمی در مورد الگوهای سلامت جمعیت به دست می‌آورد.

کلان داده در رسانه و سرگرمی

اگر تا به حال از Netflix ،Hulu یا هر سرویس پخش ویدیوی دیگری استفاده کرده‌اید که توصیه‌هایی را ارائه می‌دهد، شما با کاربرد کلان داده سر سرگرمی روبه‌رو بوده‌اید.

شرکت‌های رسانه‌ای، عادت‌های خواندن، تماشا و گوش دادن کاربران را تجزیه‌وتحلیل می‌کنند تا تجربیات فردی ایجاد کنند. نتفلیکس حتی از مجموعه داده‌های گرافیکی، عناوین و رنگ‌ها برای تصمیم‌گیری در مورد ترجیحات مشتری استفاده می‌کند.

کلان داده در کشاورزی

از بذرهای مهندسی گرفته تا پیش‌بینی عملکرد محصول با دقت شگفت‌انگیز، داده‌های بزرگ و اتوماسیون به‌سرعت صنعت کشاورزی را بهبود می‌بخشد. با هجوم داده‌ها در دو دهه اخیر، اطلاعات در بسیاری از کشورها بیشتر از مواد غذایی است و محققان و دانشمندان را به استفاده از داده‌های بزرگ برای مقابله با گرسنگی و سوءتغذیه سوق داده است.

همراه با حوزه‌های بالا، تجزیه‌وتحلیل داده‌های بزرگ تقریباً در هر صنعتی به‌صورت گسترده استفاده می‌شود تا نحوه عملکرد کسب‌وکارها در مقیاس مدرن را تغییر دهد. همچنین می‌توانید کاربرد داده‌های بزرگ را در زمینه‌های تبلیغات و بازاریابی، تجارت، تجارت الکترونیک و خرده‌فروشی، آموزش، فناوری اینترنت اشیا، سیستم‌های کنترلی، ورزش و سایر موارد پیدا کنید.

ابزارهای کلان داده

درک کلان داده به معنای انجام برخی تحلیل‌های سنگین بوده و اینجا جایی است که ابزارهای کلان داده وارد می‌شوند. ابزارهای کلان داده می‌توانند بر مجموعه‌های کلان داده نظارت کنند و الگوها را در مقیاس توزیع‌شده و در زمان واقعی شناسایی کرده و در زمان، پول و صرفه‌جویی زیادی صرفه‌جویی کنند. در دوره آموزش big data مکتب خونه ما با مهم‌ترین این ابزارهای big data آشنا خواهیم شد و نحوه کار با آن‌ها را خواهیم آموخت.

در اینجا تعداد انگشت‌شماری از ابزارهای کلان داده محبوب آورده شده است که امروزه در صنایع مورداستفاده قرار می‌گیرند.

آپاچی هادوپ

کتابخانه نرم‌افزار Apache Hadoop، یک چارچوب پرکاربرد منبع باز داده‌های بزرگ، امکان پردازش توزیع‌شده مجموعه‌های داده بزرگ را در عملیات‌های تحقیقاتی و تولیدی فراهم می‌کند و از شیوه توابع map reduce بهره می‌برد. Apache Hadoop برای استفاده در هزاران سرور محاسباتی مقیاس‌پذیر است و از معماری‌های Advanced RISC Machine (ARM) و زمان اجرا جاوا 11 پشتیبانی می‌کند. در دوره آموزش big data کار با این ابزار و نحوه استفاده از آن پوشش داده‌شده است.

آپاچی اسپارک

آپاچی Spark یک موتور تجزیه‌وتحلیل منبع باز است که برای پردازش مجموعه داده‌های مقیاس بزرگ در ماشین‌ها یا خوشه‌های تک گره استفاده می‌شود. این نرم‌افزار پردازش مقیاس‌پذیر و یکپارچه را ارائه می‌دهد که قادر به اجرای مهندسی داده، علم داده و عملیات یادگیری ماشین در جاوا، پایتون، R، اسکالا یا sql server است. در دوره آموزش big data نحوه کار با آپاچی اسپارک به‌عنوان یک ابزار مهم کلان داده آموزش داده خواهد شد.

Apache Storm

سیستم محاسباتی منبع باز Apache Storm که قادر به پردازش بیش از یک میلیون تاپل در ثانیه در هر گره است، در پردازش داده‌های توزیع شده و بدون ساختار در زمان واقعی تخصص دارد. Apache Storm قادر به ادغام با فن‌آوری‌های از پیش موجود صف‌بندی و پایگاه داده است و همچنین می‌تواند با هر زبان برنامه‌نویسی استفاده شود.

MongoDB Atlas

مجموعه MongoDB Atlas با طرحی انعطاف‌پذیر و مقیاس‌پذیر، بانک‌های اطلاعاتی چند ابری را فراهم می‌کند که می‌تواند مقادیر زیادی از داده‌های توزیع‌شده را ذخیره، پرس‌وجو و تجزیه‌وتحلیل کند. این نرم‌افزار توزیع داده‌ها را در AWS، Azure و Google Cloud و همچنین رمزگذاری داده‌ها با مدیریت کامل، تجزیه‌وتحلیل پیشرفته و دریاچه‌های داده را ارائه می‌دهد.

آپاچی کاساندرا

آپاچی کاساندرا یک پایگاه داده منبع باز است که برای مدیریت داده‌های توزیع شده در چندین مرکز داده و محیط‌های ابری ترکیبی طراحی‌شده است. Apache Cassandra مقاوم در برابر خطا و مقیاس‌پذیر، قابلیت‌های پارتیشن‌بندی، تکرار و تنظیم سازگاری را برای مجموعه داده‌های ساختاریافته یا بدون ساختار در مقیاس بزرگ فراهم می‌کند.

اگر به فکر یادگیری مفاهیم کلان داده یا بیگ دیتا هستید و دوست دارید در این صنعت به‌روز باشید و به‌روز بمانید، هم‌اکنون با ثبت‌نام در دوره آموزش بیگ دیتا اولین و مهم‌ترین قدم خود را در این زمینه بردارید.

اطلاعات بیشتر