دانلود ترجمه مقاله حذف خودکار حاشیه نویسی دستی از بین نواحی خطوط متن و داخل متن در سند متنی چاپ شده
ترجمه در قالب فایل Word و قابل ویرایش میباشد
سال انتشار:2015
تعداد صفحه ترجمه:10
تعداد صفحه فایل انگلیسی:24
موضوع انگلیسی :Automatic Removal of Handwritten Annotations from Between-
Text-Lines and Inside-Text-Line Regions of a Printed Text
Document
موضوع فارسی:Automatic Removal of Handwritten Annotations from Between-
Text-Lines and Inside-Text-Line Regions of a Printed Text
Document
چکیده انگلیسی:Recovering the original printed text document from handwritten annotations, and making it machine readable is still one of the
challenging problems in document image analysis, especially when the original document is unavailable. Therefore, our overall
aim of this research is to detect and remove any handwritten annotations that may appear in any part of the document, without
causing any loss of original printed information. In this paper, we propose two novel methods to remove handwritten annotations
that are specifically located in between-text-lines and inside-text-line regions. To remove between-text-line annotations, a two
stage algorithm is proposed, which detects the base line of the printed text lines using the analysis of connected components and
removes the annotations with the help of statistically computed distance between the text line regions. On the other hand, to
remove the inside-text-line annotations, a novel idea of distinguishing between handwritten annotations and machine printed text
is proposed, which involves the extraction of three features for the connected components merged at word level from every
detected printed text line. As a first distinguishing feature, we compute the density distribution using vertical projection profile;
then in the subsequent step, we compute the number of large vertical edges and the major vertical edge as the second and third
distinguishing features employing Prewitt edge detection technique. The proposed method is experimented with a dataset of 170
documents having complex handwritten annotations, which results in an overall accuracy of 93.49% in removing handwritten
annotations and an accuracy of 96.22% in recovering the original printed text document.
چکیده فارسی:بازیابی اصلی سند متن چاپ شده از حاشیه نویسی دستی، و قابل خواندن کردن آن توسط ماشین هنوز هم یکی از مشکلات چالش برانگیز در تجزیه و تحلیل تصویر سند می باشد، به ویژه هنگامی که سند اصلی در دسترس نیست. بنابراین، هدف کلی ما از این پژوهش، شناسایی و حذف هر گونه حاشیه نویسی دست نوشته که ممکن است در هر بخش سند ظاهر شود، بدون از دست دادن اطلاعات اصلی چاپ شده می باشد. در این مقاله، ما دو روش جدید برای حذف حاشیه نویسی دست نوشته پیشنهاد می کنیم که به طور خاص در بین خطوط متن و داخل متن واقع شده اند. برای حذف حاشیه نویسی بین خطوط متن ، دو الگوریتم مرحله ای ارائه شده است، که خط پایه خطوط متن چاپ شده با استفاده از تجزیه و تحلیل اجزای متصل شده تشخیص می دهد و با کمک محاسبه آماری فاصله ی بین خطوط متن حاشیه نویسی را حذف می کند. از سوی دیگر، برای حذف حاشیه نویسی در داخل متن ، یک ایده جدیدی از تشخیص حاشیه نویسی دستی و متن چاپ شده ارائه شده است، که شامل استخراج سه ویژگی برای اجزای متصل در سطح کلمه که با هم ادغام شده اند می باشد. به عنوان اولین مشخصه، ما توزیع چگالی را با استفاده از مشخصات تصویر عمودی محاسبه می کنیم. سپس در مرحله بعدی، ما تعداد لبه های بزرگ عمودی و بزرگتین لبه عمودی به عنوان ویژگی های متمایز دوم و سوم با استفاده از روش تشخیص لبه Prewitt محاسبه می کنیم. روش ارائه شده است با مجموعه داده از 170 سند که دارای حاشیه نویسی های پیچیده دست نوشته بودند آزمایش شده است، که در نتیجه دقت کلی 93.49٪ در حذف حاشیه نویسی دست نوشته و دقت 96.22٪ در بازیابی اصلی متن سند چاپ شده به دست آمد.