چکیده 

     با توسعه تکنولوژی رایانه، افزایش قابل توجهی در رشد داد ه ها وجود دارد. دانشمندان با توجه به مقدار میزان افزایش نیازهای پردازش داده ها که در حوزه علم ایجاد می شوند همیشه غرق هستند. یک مسئله بزرگ در زمینه های مختلف استفاده از داده های با مقیاس بزرگ وجود دارد و این مسئله همیشه با پشتیبانی تصمیم-گیری مواجه است. داده کاوی تکنیکی است که می تواند الگوهای جدیدی را از مجموعه کلان داده ها پیدا کند. در طی این سال ها تمام زمینه های کاربردی مورد مطالعه و بررسی قرار گرفتند و بسیاری از روش های داده کاوی را توسعه داده اند. اما در سال های مقدار زیادی از داده ها، محاسبات و تجزیه و تحلیل آنها به طور قابل توجهی افزایش یافته اند. در چنین موقعیتی، اکثر روش های داده کاوی در عمل برای دسترسی به چنین کلان داده هایی از دسترس خارج شدند. الگوریتم موازی/همزمان و تکنیک های پیاده سازی به طور موثر کلید ارزیابی مقیاس پذیری و عملکرد مورد نیاز در تجزیه و تحلیل کلان داده ها در مقیاس بزرگ می باشند. تعدادی از الگوریتم های موازی دارای تکنیک های مختلف پیاده سازی هستند و می توانند: از نگاشت کاهش، MPI، بندها، و mash-up یا گردش کار که دارای ویژگی های عملکردی و قابلیت های متفاوتی هستند استفاده کنند. مدل MPI به طور موثر در محاسبه مسئله، به ویژه در شبیه سازی به دست می آید. در حقیقت استفاده از آن کار ساده ای نیست. نگاشت کاهش از یک مدل تجزیه و تحلیل داده ها در زمینه بازیابی داده ها است و به صورت فناوری ابر توسعه پیدا کرده است. تاکنون، چندین معماری نگاشت کاهش برای دست زدن به کلان داده ها توسعه پیدا کرده اند. معروف ترین آنها گوگل است. یکی دیگر از ویژگی های هادوپ این است که محبوب ترین نرم افزارها، نرم افزار منبع باز نگاشت کاهش است و توسط بسیاری از شرکت های فناوری اطلاعات مانند یاهو، فیس بوک، eBay و غیره مورد پذیرش قرار گرفته است. در این مقاله، ما به طور خاص روی هادوپ و اجرای موثر نگاشت کاهش به منظور تحلیل پردازش تمرکز می کنیم. 

1. مقدمه 

      سازمان ها از چندین مقادیر که داده های ساختاری بسیار دشواری دارند و از تکنولوژی DBMS برای پردازش و تجزیه و تحلیل داده ها استفاده می کنند. این نوع مسئله با شرکت های مبتنی بر وب مانند فیس بوک، یاهو، گوگل و لینکدین همیشه مواجه است و نیاز به پردازش داده های با حجم بسیار زیاد و هزینه کافی مستر (ارباب) دارند. تعداد زیادی از این سازمان ها سیستم های غیر  رسمی خود را برای غلبه بر این موضوع توسعه داده اند. به عنوان مثال، گوگل، نگاشت کاهش و سیستم فایل گوگل را توسعه داده است. همچنین یک سیستم DBMS به نام بیگ تیبل (جدول بزرگ) نیز ساخته شده است. امکان جستجو در میلیون ها صفحه نیز وجود دارد و نتایج در آن به صورت میلی ثانیه یا کمتر به منظور کمک به الگوریتم هایی که هر کدام از سرویس های جستجو را در یک چارچوب نگاشت کاهش گوگل به ارمغان می آورند برگردانده می شوند ]1[. این یک مسئله چالش برانگیز در تحلیل داده های بزرگ نیز است. کلان داده ها برای کار کردن بسیار بزرگ هستند و بنابراین یک کار بزرگ برای تجزیه و تحلیل کلان داده ها انجام می شود. تکنولوژی های موجود در تجزیه و تحلیل کلان داده ها به سرعت در حال تکمیل شدن هستند و به طور قابل توجهی علاقه زیادی به رویکردهای تحلیلی مانند هادوپ، نگاشت کاهش و Hive و توسعه نگاشت کاهش در برابر ارتباط DBMS دارند.

      استفاده از چارچوب نگاشت کاهش به طور گسترده در جهت مقابله با کلان داده ها بسیار موثر بوده است. در چند سال گذشته، نگاشت کاهش به عنوان رایج ترین نمونه محاسباتی موازی، تحلیل کلان داده ها به نظر می-رسید.

این مقاله در نشریه الزویر منتشر شده و ترجمه آن با عنوان نگاشت و کاهش در سایت ای ترجمه به صورت رایگان قابل دانلود می باشد. جهت دانلود رایگان مقاله فارسی و انگلیسی روی عنوان فارسی (آبی رنگ) کلیک نمایید.
منبع:

MapReduce: Simplified Data Analysis of Big Data