خلاصه 

          الگوریتم های بهینه برای ثبت متن و موقعیت یابی آن در سکانس های ویدئویی در بازار چند رسانه ای و استخراج داده امروز بسیار پرطرفدار هستند. به خاطر چالش هایی از قبیل وضوح تصویر پایین، کنتراست پایین، پیش زمینه پیچیده و متنون با استایل، جهت، رنگ و چینش مختلف، استخراج متن از تصویر ویدئویی یک کار چالش بر انگیز است. در این مقاله روشی برای استخراج بهینه و کارآمد فریم های کلیدی از ویدئو بر اساس لحظات رنگی و پس از آن موقعیت یابی متن تنها بر روی همین فریم های کلیدی انجام میشود. به این خاطر که اطلاعات متن با هر فریم تغییر نمیکند، استخراج متن تنها از این فریم های کلیدی میتواند به کاهش هزینه محاسباتی و زمانی الگوریتم کمک شایانی بکند. علاوه بر این، این مقاله یک روش کارآمد هایبرید برای محلی کردن صحنه و متن گرافیکی در فریم های ویدئویی آن هم با استفاده از DWT (تبدیل موج دو بعدی هار)  ، لاپلاس فیلتر گاوسی و روش تفاوت حداکثری گرادیان ارائه میکند. DWT یک روش تجزیه سریع تصویر ارائه میکند که تصویر را به سه بخش جزئیات تخمینی میشکند. این سه جزء اطلاعاتی درباره لبه های عمودی، افقی، محوری از تصویر در خود دارند که باعث میشود متن سریعتر تشخیص داده شود. روش تفاوت گرادیان حداکثری نیز برای موقعیت یابی و محلی کردن بیشتر متن در تصویر به کار میرود، دامنه تفاوت گرادیان هم در فرآیند حد نصاب سنجی  به کار میرود. یک تکنیک حد نصاب سنجی پویا برای تبدیل نوع تصویر به فرم باینری مورد استفاده قرار گرفته است. از آنجایی که این تکنیک مقادیر متنوعی برای تصاویر مختلف حاصل میکند، میتواند برای موقعیت یابی اتوماتیک متن در تصاویر ویدئویی به کار رود. دو عملگر ماسک هم برای به دست آوردن یک معادله به کار رفته اند و زمانی استفاده میشوند که پیکسل ها مساوی با مقدار حد نصاب تعیین شده باشند. مثبت و منفی ها با استفاده از عملگرهای مورفولوژیکی حذف میشوند و آنالیز اجزای به هم پیوسته صورت میگیرد تا در نهایت جایگاه متن مشخص گردد. معیارهای مقایسه در نتایج نشان میدهند که روش ارائه شده عملکرد مناسبی در نرخ شناسایی، نرخ هشدار نادرست و نرخ شناسایی نادرست ارائه میکند.

1. معرفی

           با پیشرفت های اخیر در تکنولوژی چند رسانه ای، افزایش قابل توجهی در پایگاه داده تصاویر و ویدئوهای دیجیتالی بوجود آمده است. در نتیجه آن نیاز به شاخص گذاری چند رسانه ای کارآمد و تکنیک های استخراج حس میشود. برچسب گذاری ویدئو بر اساس محتوا یکی از حوزه های در حال رشد از تحقیقات گذشته است. محتوای ویدئو را میتوان به صورت زیر دسته بندی کرد: الف. محتوای ادراکی، مبتنی بر ویژگی هایی از جمله شکل، شدت، رنگ، بافت و تغییرات موقت و ب. محتوای معنایی – بر اساس اشیا موجود در ویدئو، دسته بندی کرد. متون قرار گرفته در ویدئوها اطلاعات ارزشمندی دارند و به سادگی میتوانند برای منظور برچسب گذاری معنایی ویدئو به کار روند. متاسفانه روشی مستحکم و قوی برای اینکار وجود ندارد تا بتواند متون را از تمامی انواع ویدئوها استخراج کند. متنون ویدئویی را میتوان به دسته های زیر تقسیم کرد: الف. متون صحنه که به صورت طبیعی از ویدئو ثبت میشوند، ب. متن زیرنویس که به صورت مجزا در ویدئو جاسازی شده اند. خصوصیات نامطلوب دیگری هم در ویدئو وجود دارد از جمله: پس زمینه پیچیده، وضوح پایین، شدت پایین، و اندازه ها، استایلها، رنگ ها و جهات متنوع متن در ویدئو چالش هایی هستند که پیش راه محققان این حوزه قرار گرفته اند. در بین متون صحنه و متن زیرنویس، کاملا واضح است که استخراج متون صحنه بسیار دشوارتر است.

           در این مقاله، یک شمای کارآمد برای استخراج اولیه فریم های کلیدی از ویدئو با استفاده از لحظات رنگی و پس از آن تبدیل موج گسسته، تفاوت حداکثر گرادیان و عملگر های مورفولوژیکی برای موقعیت یابی متن در فریم های کلیدی ویدئو استفاده میشوند. باقی مطالب مقاله به صورت زیر تنظیم شده اند، بخش دوم، یک چشم انداز کلی از روش های بکار رفته و کارهای مرتبط با این حوزه ارائه میکند. روش پیشنهادی در بخش سوم نمایش داده شده است. نتایج آزمایشی و معیارهای مقایسه در بخش چهارم ارائه شده اند. در نهایت، نتایج در بخش پنجم مشخص شده اند.

این مقاله در نشریه آی تریپل ای منتشر شده و ترجمه آن با عنوان استخراج فریم کلیدی در سایت ای ترجمه به صورت رایگان قابل دانلود می باشد. جهت دانلود رایگان مقاله فارسی و انگلیسی روی عنوان فارسی (آبی رنگ) کلیک نمایید.
منبع:

An Efficient Hybrid Scheme for Key Frame Extraction and Text Localization in Video