خلاصه
الگوریتم های بهینه برای ثبت متن و موقعیت یابی آن در سکانس های ویدئویی در بازار چند رسانه ای و استخراج داده امروز بسیار پرطرفدار هستند. به خاطر چالش هایی از قبیل وضوح تصویر پایین، کنتراست پایین، پیش زمینه پیچیده و متنون با استایل، جهت، رنگ و چینش مختلف، استخراج متن از تصویر ویدئویی یک کار چالش بر انگیز است. در این مقاله روشی برای استخراج بهینه و کارآمد فریم های کلیدی از ویدئو بر اساس لحظات رنگی و پس از آن موقعیت یابی متن تنها بر روی همین فریم های کلیدی انجام میشود. به این خاطر که اطلاعات متن با هر فریم تغییر نمیکند، استخراج متن تنها از این فریم های کلیدی میتواند به کاهش هزینه محاسباتی و زمانی الگوریتم کمک شایانی بکند. علاوه بر این، این مقاله یک روش کارآمد هایبرید برای محلی کردن صحنه و متن گرافیکی در فریم های ویدئویی آن هم با استفاده از DWT (تبدیل موج دو بعدی هار) ، لاپلاس فیلتر گاوسی و روش تفاوت حداکثری گرادیان ارائه میکند. DWT یک روش تجزیه سریع تصویر ارائه میکند که تصویر را به سه بخش جزئیات تخمینی میشکند. این سه جزء اطلاعاتی درباره لبه های عمودی، افقی، محوری از تصویر در خود دارند که باعث میشود متن سریعتر تشخیص داده شود. روش تفاوت گرادیان حداکثری نیز برای موقعیت یابی و محلی کردن بیشتر متن در تصویر به کار میرود، دامنه تفاوت گرادیان هم در فرآیند حد نصاب سنجی به کار میرود. یک تکنیک حد نصاب سنجی پویا برای تبدیل نوع تصویر به فرم باینری مورد استفاده قرار گرفته است. از آنجایی که این تکنیک مقادیر متنوعی برای تصاویر مختلف حاصل میکند، میتواند برای موقعیت یابی اتوماتیک متن در تصاویر ویدئویی به کار رود. دو عملگر ماسک هم برای به دست آوردن یک معادله به کار رفته اند و زمانی استفاده میشوند که پیکسل ها مساوی با مقدار حد نصاب تعیین شده باشند. مثبت و منفی ها با استفاده از عملگرهای مورفولوژیکی حذف میشوند و آنالیز اجزای به هم پیوسته صورت میگیرد تا در نهایت جایگاه متن مشخص گردد. معیارهای مقایسه در نتایج نشان میدهند که روش ارائه شده عملکرد مناسبی در نرخ شناسایی، نرخ هشدار نادرست و نرخ شناسایی نادرست ارائه میکند.