چکیده
استفاده روز افزون از سیستم های فعال شده اینترنت (IOT) منجر به مقادیر فراوانی از داده ها با ساختارهای مختلف شده است. اکثر راه حل های کلان داده ها در بالای سیستم اکو هادوپ یا از سیستم فایل توزیع شده (HDFS) استفاده می شوند. با این حال، بررسی های ناکارآمدی در این سیستم در هنگام برخورد با داده ها نشان داده شده اند. برخی از تحقیقات این مسائل را برای نوع خاصی از داده های گراف برطرف می کنند، اما امروزه اطلاعات بیشتری از داده ها قابل دسترس هستند. چنین مسائلی مربوط به عملکردهایی می شوند که منجر به مسائل بزرگی از جمله فضای بزرگ تر مورد نیاز در مراکز داده، و از بین رفتن منابع (مانند مصرف انرژی)، و مشکلات زیست محیطی (مانند انتشار بیشتر کربن) نیز می شود. ما یک ماژول اطلاعاتی را برای سیستم اکو هادوپ ارائه می دهیم. ما همچنین یک روش رمزگذاری توزیع شده را برای الگوریتم های ژنتیک ارائه می دهیم. چارچوب ما این امکان را می دهد تا هادوپ بتواند توزیع داده ها و قرار دادن آنها براساس تجزیه و تحلیل داده های خوشه ای را مدیریت کند. ما قادر هستیم طیف گسترده ای از انواع داده ها را مدیریت کنیم و همچنین قادر هستیم زمان استفاده از منابع پرس وجو را بهینه کنیم. ما آزمایش هایی را که در مجموعه داده-های متعدد انجام شده اند را از طریق LUBM ایجاد می کنیم.
1. مقدمه
ایجاد علومی از داده ها با چالش های بسیاری مواجه بوده است. یک مسئله اصلی وجود دارد و آن این است که امروزه کلان داده ها، پویا و ناهمگن هستند، و چندین منابع را که اغلب ساختار استانداردی ندارند را جمع آوری می کنند.
اکثر تجزیه و تحلیل داده های مدرن، ابزارهای مدیریت و سرویس را طراحی می کنند و در سیستم فایل توزیع شده هادوپ (HDFS) به عنوان یک انبار داده ای مورد استفاده قرار می دهند؛ گاهی اوقات هم این ابزار تحلیلی از سرویس هایی که توسط اکوسیستم هادوپ پردازش شده اند استفاده می کند. هادوپ از لحاظ هزینه و عملکرد بسیار خوب است.
این مقاله در نشریه آی تریپل ای منتشر شده و ترجمه آن با عنوان کلان داده ها در سایت ای ترجمه به صورت رایگان قابل دانلود می باشد. جهت دانلود رایگان مقاله فارسی و انگلیسی روی عنوان فارسی (آبی رنگ) کلیک نمایید.
منبع:
Handling Big Data Using a Data-Aware HDFS and Evolutionary Clustering Technique