عنوان فارسی مقاله: |
پلتفرم مبتنی بر هدوپ برای پردازش زبان طبیعی اسناد و صفحات وب |
عنوان انگلیسی مقاله: |
A hadoop based platform for natural language processing of web pages and documents |
چکیده
انتشار گسترده و سریع اطلاعات در وب ، پخش بخش اعظم منابع متنی زبان طبیعی بدون ساختار را بالا برده است. توجه زیادی را در دهه های گذشته برای کشف دسترسی و تقسیم این منبع گسترده از دانش به خود جلب کرده است. به همین خاطر ، پردازش حجم وسیعی از داده ها در قالب زمانی منطقی ، چالشی بزرگ و لازمه ی حوزه های تحقیقاتی و تجاری است. نمونه های محاسبه ی موازی و سیستم های توزیع شده ، خوشه های کامپیوتری و کاربرد فزاینده ای در سال های اخیر داشته چونکه دستاوردهای مهمی برای محاسبه ی عملکرد در متن های فشرده ی داده ای مثل تحلیل و big data mining ماینینگ بیگ دیتا را معرفی کرده است. پردازش زبان طبیعی و خصوصا کارهای تفسیر(حاشیه نویسی) متن و استخراج ویژگی کلیدی ، حوزه ی مطالعاتی با شرایط محاسباتی بالاست ؛ در نتیجه ، این کارها ، فایده ی قابل توجهی برای ساختارهای موازی دارد. در این مقاله ، چارچوب توزیعی اسناد کرالینگ وب و اجرای کارهای پردازش زبان طبیعی به روش موازی ارائه شده است. این سیستم بر مبنای اکوسیستم آپاچی هدوپ و نمونه ی برنامه نویسی موازی به نام مپ ردیوس است. ما انطباق مپ ردیوس را در چارچوب و کاربرد گیت به طور خاص ، اجرا کرده ایم ( ابزار منبع باز با کاربرد گسترده برای مهندسی متن و NLP ). ارزیابی ای نیز در استفاده از راه حل استخراج کلیدواژه ها و عبارت های کلیدی از اسناد وب در خوشه ی هدوپ چند گرهی ارائه شده است. ارزیابی مقیاس پذیری عملکرد در برابر مجموعه ی نوشتاری واقعی صفحات وب و اسناد آن ، انجام شده است.