عنوان فارسی مقاله: |
کرنل معنایی مجموعه ای از نوشته ها و داده ها برای دسته بندی متون از طریق استفاده از ارزش واقعی واژگان |
عنوان انگلیسی مقاله: |
A corpus-based semantic kernel for text classification by using meaning values of terms |
چکیده
دسته بندی متون، نقش بسیار مهمی را در سیستم های آکادمی و تجاری ایفا می کند. چرا که ، نیاز ما به سازمان خودکار اسناد، روز به روز بیشتر می شود. الگوریتم دسته بندی بر مبنای کرنل، همانند SVM (ماشین های پشتیبانی بردار).در متن کاوی، بسیار حائز اهمیت می باشند. علت این امر، دقت دسته بندی به نسبت دقیق ، چندین برنامه کاربردی مختلف و همچنین توانایی به کار بردن داده های فضایی و ابعادی بالا می باشد که ویژگی های بازدارندگی داده های متنی را نشان می دهند. اخیرا توجه بسیار زیادی به پیش زمینه دانش هایی مثل آنتولوژی ها و دانش آماری بر مبنای مجموعه ای از نوشته ها، در جهت دسته بندی متون، شده است. همان طور که می بینید، جایگزین کردن تابع استاندارد کرنل همانند کرنل خطی با تابع کرنل customize شده،مزایایی را در زمینه پیشینه دانش در بردارد. ما با توجه به این مزایا می توانیم، عملکرد SVM را در دامنه دسته بندی متون، بهبود بخشیم. ما با توجه به این مسئله، یک کرنل معنایی جدید برای SVM فرض می کنیم. این رویکرد پیشنهادی بر مبنای مقیاس معنا می باشد که واژگان بی معنا را در زمینه های مختلف، مورد ارزیابی قرار می دهد.. بردارهای اسناد،بر مبنای این ارزش های معنایی در متون و با زمینه های مختلف مورد بررسی قرارمی گیرند. ما از اطلاعات دسته بندی در فرآیند تشخیص راحت معنا استفاده کرده که به عنوان کرنل هموار نظارت شده، مورد توجه قرار می گیرد.ما به طور کارآمد از دسته بندی اطلاعات اطلاعات در فرآیند هموار سازی((smoothing استفاده می کنیم که به عنوان روش کرنل SMOOTHING (هموار) نظارت شده، مدنظر قرار می گیرد.مقیاس معنا، بر مبنای اصل Hemoholmz، برگرفته شده از نظریه Gestalt می باشد که برای ذخیره چندین برنامه ی متنی، مثل خلاصه برداری از اسناد و بیرون کشیدن ویژگی ها، مورد توجه قرار می گیرد. ما در این مقاله ، تلاش می کنیم تا از مقیاس معنا در محیط نظارت شده ، استفاده کنیم تا کرنل معنایی را برای SVM ایجاد کنیم. ما این رویکرد فرضی را از طریق آزمون های شناخته شده مورد ارزیابی قرار می دهیم که بر مبنای مجموعه داده های متنی قرار دارند و نتایج برگرفته شده از آنها، در شرایط مختلف آزمایشی بدست آمدند. ما نتایج تحقیق خود را با نتایج قبلی مقایسه می کنیم که از SVM استفاده کردند. همانند کرنل خطی در موازات با کرنل های معنایی مربوط به چندین مجموعه از متون و نوشته ها. نتایج ما نشان می دهند که عملکرد دسته بندی این رویکرد فرضی، موثر تر از کرنل های دیگر می باشد.