عنوان فارسی مقاله: |
استخراج کلان داده ها با رایانش موازی: مقایسه روش های توزیعی و MapReduce (نگاشت-کاهش) |
عنوان انگلیسی مقاله: |
Big Data Mining with Parallel Computing: A Comparison of Distributed and MapReduce Methodologies |
نمونه متن ترجمه
چکیده
استخراج با داده های بزرگ یا استخراج داده های عظیم به حوزه ی تحقیقاتی فعالی تبدیل شده است. استفاده از روش های رایج و ابزار نرم افزار داده کاوی برای اینکه یک کامپیوتر شخصی بتواند به طور موثر با پایگاه داده های بسیار بزرگ سر و کار داشته باشد، بسیار دشوار است. سکوهای رایانش موازی و ابری به عنوان راه حل بهتری برای استخراج داده های عظیم در نظر گرفته می شوند. مفهوم رایانش موازی بر مبنای تقسیم کردن یک مشکل بزرگ به قسمت های کوچک است و هر یک از این قسمت ها توسط یک پردازنده به طور مجزا انجام می شود. بعلاوه، این فرایندها به طور همزمان در روشی توزیعی و موازی انجام می شوند. دو روش رایج برای حل کردن این مشکل داده های بزرگ وجود دارد. مورد نخست رویه ی توزیعی بر مبنای الگوی موازی سازی داده هاست که یک مجموعه داده بزرگ می تواند به صورت دستی به n زیرمجموعه تقسیم شود و n الگوریتم برای هر n زیرمجموعه اجرا می گردد. نتیجه نهایی می تواند از ترکیبی از خروجی های تولید شده توسط n الگوریتم بدست آید. مورد دوم روند مبتنی بر نگاشت کاهش (MapReduce) در سکوی رایانش ابری است. این روند از فرایندهای نگاشت و کاهش تشکل شده است که مورد قبلی فیلتر کردن و طبقه بندی را انجام می دهد و مورد بعدی عملیات خلاصه را به منظور ایجاد نتیجه نهایی اجرا می کند. در این مقاله، هدف ما مقایسه ی تفاوت های عملکردی بین روش های توزیعی و نگاشت کاهش در پایگاه داده هایی با مقیاس بزرگ در قالب دقت و کارایی است. آزمایشات بر مبنای چهار پایگاه داده با مقیاس بزرگ است که برای مشکلات طبقه بندی داده ها مورد استفاده قرار می گیرند. نتایج حاکی از آن است که عملکردهای طبقه بندی روند مبتنی بر نگاشت کاهش بسیار پایدار هستند و مهم نیست که چند گره کامپیوتر مورد استفاده قرار می گیرد، و بهتر از ماشین منفرد خط مبنا و روندهای توزیعی جز برای پایگاه داده های عدم تعادل طبقه عمل می کند. بعلاوه، روند نگاشت کاهش نیازمند حداقل هزینه محاسباتی برای پردازش مجموعه داده های بزرگ است.