چکیده 

        افزایش دسترس پذیری منابع اطلاعاتی XML ناهمگون تعداد مسائل مرتبط با اینکه چگونه داده‌های نیمه ساختار یافته نشان داده شوند و مدیریت شوند را افزایش داد. اگر چه منابع XML می‌توانند محتوا و ساختار مناسبی را نشان دهند، اسناد XML متفاوت ممکن است در اصل معنا شناسی مربوطه را با تعریف ذهنی از تگ‌های نشانه گذاری رمزگذاری کند. کشف دانش برای استنتاج سازمان معنایی اسناد XML به چالش اصلی در مدیریت داده XML تبدیل شد. در این زمینه، مسئله خوشه بندی داده XML را بر طبق ساختار و به همین ترتیب ویژگی‌های محتوای غنی با دانش هستی شناسی واژگان بررسی می‌کنیم. فریم ورکی را برای خوشه بندی ساختارهای XML منسجم به صورت معنایی بر اساس مدل نمایش تراکنشی پیشنهاد می‌کنیم. ‌آزمایش‌ها بر مجموعه داده واقعی بزرگ شواهدی را ارائه می‌دهند، مبنی بر اینکه رویکرد پیشنهادی در تشخیص گروه داده XML به شدت موثر است و ساختار و یا پیوندهای درونی محتوا را نشان می‌دهد. 

1. مقدمه 

        XML به عنوان نیروی محرکی برای نمایش و تبادل داده در وب معرفی شد. براستی، سیمای خود توصیف و نیمه ساختاریافته XML مدل کردن طیف گسترده‌ای از داده‌ها را به عنوان اسناد XML، به منظور تحقق وعده‌های وب نسل بعد، امکان پذیر ساخت. 

         منابع داده XML ساختارها و محتوای متفاوتی را نشان می‌دهند. تگ نشانه گذاری، که نقش پایه را برای تحمیل ساختار به سند بازی می‌کنند، عوامل ذهنی را که نام نویسنده را در اطلاعات برنامه نویسی هک می‌کند را منعکس می‌کند. در نتیجه، داده XML به صورت متفاوت اعلام شده ممکن است " از لحاظ معنایی" به درجه خاصی مربوط باشد. 

این مقاله در نشریه Siam منتشر شده و ترجمه آن با عنوان خوشه بندی XML در سایت ای ترجمه به صورت رایگان قابل دانلود می باشد. جهت دانلود رایگان مقاله فارسی و انگلیسی روی عنوان فارسی (آبی رنگ) کلیک نمایید.
منبع:

Toward Semantic XML Clustering