خلاصه
زمینه: تعدادی از ابزارهای همترازسازی برای همتراز کردن ریدهای توالی یابی با ژنوم مرجع انسان ایجاد شده اند. مقیاس اطلاعات بدست امده از آزمایشات توالی یابی نسل جدید (NGS)، به سرعت در حال افزایش است. مطالعات اخیر انجام شده بر اساس فناوری NGS به طور مرتب اگزوم ها یا توالی های کامل ژنومی چندصد تا چندهزار نمونه را ایجاد کرده است. برای تامین نیاز روزافزون به آنالیز دیتاست های بسیار بزرگ NGS، لازم است که ابزارهای نقشه برداری سریع تر، حساس تر و دقیق تری ایجاد شود.
نتایج: HIA از دو شاخص جدول درهم سازی و شاخص suffix array استفاده می کند. جدول درهم سازی جستجوی مستقیم q-gram را انجام می دهد و شاخص suffix array جستجوی بسیار سریع رشته های با طول متغییر را با استفاده از جستجوی دودویی اجرا می کند. ما پی بردیم که ترکیب جدول درهم سازی و suffix array بسیار سریعتر از روش suffix array می تواند یک زیر رشته را در توالی مرجع پیدا کند. در اینجا ما منطقه ی تطابق (MR) را تعریف کردیم که طولانی ترین زیر رشته ی مشترک بین یک مرجع و یک رید است. همچنین ما مناطق همترازی کاندید (CARs) را نیز به صورت لیستی از MRs تعریف کردیم که در کنار یکدیگر قرار دارند. شاخص هیبرید برای یافتن مناطق همترازی کاندید (CARs) بین مرجع و رید استفاده شد. ما پی بردیم که همترازی نواحی بدون تطابق در CAR بسیار سریعتر از همترازی کل CAR است. در بررسی-های آزمایشی، HI در مقایسه با سایر ابزارهای همترازی نقشه برداری سریعتر و بدون کاهش چشمگیر در دقت نقشه را از خود نشان داد.
نتیجه گیری: آزمایشات ما نشان می دهد که هیبرید جدول درهم سازی و suffix array از نظر سرعت نقشه برداری ریدهای توالی یابی NGS به توالی مرجع ژنوم انسانی مفید است. در نتیجه، ابزار ما برای همتراز کردن دیتاست های عظیم به دست امده از توالی یابی NGS مناسب است.
زمینه
مطالعات اخیر براساس فناوری توالی یابی نسل جدید (NGS) صدها یا هزاران اگزوم یا توالی کامل ژنومی را با کاهش هزینه های آزمایشات NGS ایجاد کرده است. با تکامل فناوری های NGS، این فناوری ها به تدریج طول رید ها را افزایش داده و از میزان خطاها کاسته اند. برای همگام شدن با فناوری های درحال توسعه ی NGS، ابزارهای همترازسازی زیادی برای ریدهای کوتاه و بلند ایجاد شده است. این ابزارها شامل SSAHA2، BWA ، AGILE، SOAP2، Bowtie2، SeqAlto و غیره هستند. از بین اینها، بسیاری از برنامه های همترازی از راهبرد نقشه برداری مبتنی بر شاخص استفاده می کنند. برای مثال، SSAHA2، AGILE و SeqAlto از یک شاخص جدول درهم سازی (HT) یک ژنوم مرجع استفاده می کنند در حالیکه BWA، SOAP2، و Bowtie2 از یک شاخص ژنومی مبتنی بر تبدیل باروز-ویلر استفاده می کند.
تمام ابزارهای همترازی مبتنی بر HT از استراتژی seed and extended، استفاده می کنند که با جستجوی مناطق همترازی کاندید (CARs) (همترازی هر جایگاه) و گزارش بهترین همترازی ها عمل می کند. شاخص HT از جستجوی سریع جایگاه های کاندید دارای q-gram ها پشتیبانی می کند (رشته های طول q). Q کوچکتر حساسیت و تعداد CARs را افزایش می دهد اما q بزرگتر حساسیت و تعداد CARs را کاهش می دهد. علاوه بر این از آنجایی که q ثابت می شود، زمانیکه q-gram ها برای یک طول جدید نیاز باشند، HT باید مجددا ساخته شود. بیشتر ابزارهای همترازی مبتنی بر BWT از شاخص full-text minute استفاده می کنند که از نظر حافظه کارامد است و شبیه suffix tree است. از نظر زمان تطابق، suffix tree برای تطابق دقیق کارامد است اما برای تطابق غیر دقیق کند است. BWA و Bowtie2 از رویکردهای seed-and-extend مشابهی مانند استفاده از الگوریتم های مبتنی بر HT برای ریدهای طولانی پیروی می کنند.
این مقاله در نشریه BMC منتشر شده و ترجمه آن با عنوان نقشه بردار ژنوم در سایت ای ترجمه به صورت رایگان قابل دانلود می باشد. جهت دانلود رایگان مقاله فارسی و انگلیسی روی عنوان فارسی (آبی رنگ) کلیک نمایید.
منبع:
HIA: a genome mapper using hybrid index-based sequence alignment