خلاصه
زمینه: تعدادی از ابزارهای همترازسازی برای همتراز کردن ریدهای توالی یابی با ژنوم مرجع انسان ایجاد شده اند. مقیاس اطلاعات بدست امده از آزمایشات توالی یابی نسل جدید (NGS)، به سرعت در حال افزایش است. مطالعات اخیر انجام شده بر اساس فناوری NGS به طور مرتب اگزوم ها یا توالی های کامل ژنومی چندصد تا چندهزار نمونه را ایجاد کرده است. برای تامین نیاز روزافزون به آنالیز دیتاست های بسیار بزرگ NGS، لازم است که ابزارهای نقشه برداری سریع تر، حساس تر و دقیق تری ایجاد شود.
نتایج: HIA از دو شاخص جدول درهم سازی و شاخص suffix array استفاده می کند. جدول درهم سازی جستجوی مستقیم q-gram را انجام می دهد و شاخص suffix array جستجوی بسیار سریع رشته های با طول متغییر را با استفاده از جستجوی دودویی اجرا می کند. ما پی بردیم که ترکیب جدول درهم سازی و suffix array بسیار سریعتر از روش suffix array می تواند یک زیر رشته را در توالی مرجع پیدا کند. در اینجا ما منطقه ی تطابق (MR) را تعریف کردیم که طولانی ترین زیر رشته ی مشترک بین یک مرجع و یک رید است. همچنین ما مناطق همترازی کاندید (CARs) را نیز به صورت لیستی از MRs تعریف کردیم که در کنار یکدیگر قرار دارند. شاخص هیبرید برای یافتن مناطق همترازی کاندید (CARs) بین مرجع و رید استفاده شد. ما پی بردیم که همترازی نواحی بدون تطابق در CAR بسیار سریعتر از همترازی کل CAR است. در بررسی-های آزمایشی، HI در مقایسه با سایر ابزارهای همترازی نقشه برداری سریعتر و بدون کاهش چشمگیر در دقت نقشه را از خود نشان داد.
نتیجه گیری: آزمایشات ما نشان می دهد که هیبرید جدول درهم سازی و suffix array از نظر سرعت نقشه برداری ریدهای توالی یابی NGS به توالی مرجع ژنوم انسانی مفید است. در نتیجه، ابزار ما برای همتراز کردن دیتاست های عظیم به دست امده از توالی یابی NGS مناسب است.