عنوان فارسی مقاله: |
الگوریتم CLOSE: روشی داده محور برای تفکیک گفتار |
عنوان انگلیسی مقاله: |
CLOSE—A Data-Driven Approach to Speech Separation |
چکیده
این مقاله تفکیک گفتار تک کانالی را با فرض ساختار های زمانی ناشناخته و اختیاری به منظور تفکیک سیگنال های گفتاری مورد بررسی و مطالعه قرار می دهد. یک روش داده محور توصیف می شود به طوری که هر بخش ترکیب گفتاری را در برابر یک بخش ترکیبی آموزشی برای تفکیک بخش های گفتار مورد نظر مطابقت می دهد. این روش جدید به منظور افزایش دقت جداسازی به دنبال طولانی ترین بخش های ترکیبی گفتار که با بخش های ترکیبی آموزش سازگانی دارند می گردد و آن ها را تفکیک می کند. طولانی کردن بخش های ترکیبی گفتار به منظور سازگاری، عدم قطعیت بخش های تشکیل دهنده آموزشی را کاهش می دهد و در نتیجه خطای جداسازی را کاهش می دهد. برای راحتی کار این روش را ترکیب طولانی ترین بخش ها یا به طور خلاصه CLOSE می نامیم. روش CLOSE شامل یک روش داده محور برای مدل سازی ساختار زمانی دراز مدت سیگنال های گفتار است و همچنین یک روش آماری برای شناسایی طولانی ترین بخش های ترکیبی گفتار سازگار با بخش های ترکیبی آموزش است. آزمایش ها بر روی دیتابیس Wall Street Journal برای تفکیک ترکیب های دو سخن گفتاری لحظه ای و با واژگان گسترده انجام شده است که توسط دو گوینده متفاوت ارائه شده است. نتایج به دست آمده با استفاده از سنجش های هدف و موضوعی مختلف ارزیابی شده است که شامل چالش بازشناسی گفتار پیوسته با دامنه لغات وسیع است. نشان داده شده است که این روش جدید جداسازی منجر به بهبود قابل توجهی در تمامی این سنجش ها شده است.