تارا فایل

پاورپوینت نقش فناوری اُ سی آر در کتابخانه های دیجیتالی


نقش فناوری اُ. سی. آر. در کتابخانه های دیجیتالی
Optical Character Recognition

امروزه با توجه به پیشرفت های حاصل شده در زمینه بازشناسی نوشتار، فناوری بازشناسی خودکار تحت عنوان بازشناسی نوری حروف (OCR) شکل گرفته است.
از لحاظ کاربردی، اُ. سی. آر. برنامه ای است که با استفاده از روش های گوناگون هوش مصنوعی، اسناد و مدارک، کتاب ها و اصولاً هر نوع ماده چاپی، تایپی و یا حتی دست نویس را به متون قابل ویرایش و یا قابل جستجو تبدیل می کند. (C. Liu & K. Nakashima, 2004)

مقدمه

در سال 1929، تاوشچ در آلمان و در سال 1933، هندلی در آمریکا ابداعاتی در زمینه سیستم
بازشناسی حروف ثبت نمودند.
از سال 1951، در آمریکا ایده اُ. سی. آر. به عنوان یک پدیده قابل پیاده سازی پذیرفته شد. از این به بعد تحقیقات گسترده ای بر روی این فناوری انجام گرفته است و در نتیجه سیستم های تجاری عرضه شده اند که دارای قابلیت های خوبی هستند. سیستم های تجاری عرضه شده را می توان به سه نسل زیر تقسیم بندی نمود. ( Gonzalez & Woods, 2002 )
 

تاریخچه سیستم های اُ. سی. آر.

1
سیستم های نسل اول:
در اوایل دهه 1960 به بازار آمدند
فقط قابلیت تشخیص کاراکترهای خاص با اندازه و فونت مشخصی را داشتند.
شاخص ترین سیستم این نسل، NCR 420 بود.(Gonzalez&Woods,2002 )

سیستم های نسل دوم:
در اواسط دهه 1960 به بازار آمدند
بعضی از کاراکترهای دست نویس مانند اعداد را تشخیص می دادند.
RETINA یکی از این سیستم ها بود.(Gonzalez&Woods,2002 )

سیستم های نسل سوم:
مربوط به اواخر دهه 1960هستند.
با هدف تشخیص کاراکترهایی با کییفیت چاپ پایین و همچنین متون دست نویس لاتین ساخته شدند.

هنگامی که یک سند متنی اسکن می شود، رایانه این متن را به صورت یک تصویر گرافیکی تشخیص می دهد. در نتیجه کاربران قادر نخواهند بود که متن موجود در تصویر سند را ویرایش کرده، مطالعه نموده و یا مورد جستجو قرار دهند. اینجاست که محتویات تصاویر قابل شناسایی شده و به صورت یک فایل در رایانه ذخیره می گردد.
 

معرفی باز شناسی نوری حروف

شکل 1- شمای کلی سیستم اُ. سی. آر

شکل 2
تصویر یک صفحه که کج اسکن شده است

کتابخانه دیجیتالی مجموعه ای از اطلاعات سازماندهی شده در قالب الکترونیکی است که در آن:
اطلاعات دیجیتالی باید مبتنی بر اصول مجموعه سازی، گردآوری یا تولید شده باشند.
اطلاعات دیجیتالی باید به صورت منسجم و مناسبی نظیر دیگر منابع اطلاعاتی در کتابخانه ها توسط استفاده کنندگان قابل دسترس و بازیابی باشند.
اطلاعات دیجیتالی باید در مدت زمان طولانی به مثابه منابع اطلاعاتی پایدار قابل دسترس باشند.
 

سیستم های اُ. سی. آر در کتابخانه های دیجیتالی

افزایش چشمگیر سرعت دسترسی به اطلاعات
کاهش فضای ذخیره سازی
امکان استفاده از قابلیتهای پیش پردازشی اطلاعات
امکان ویرایش و تغییر فرمت داده ها
عدم نیاز به مرتب سازی دستی
بهبود سرویس دهی به مراجعین
 

مزایای بکارگیری سیستم های اُ. سی. آر در کتابخانه های دیجیتالی

مدیریت اسناد الکترونیکی
کتابهای الکترونیکی
روزنامه ها و نشریات الکترونیکی
سیستم اتوماسیون اداری

 

جنبه های کاربردی سیستم اُ. سی. آر در نرم افزارهای جامع کتابخانه های الکترونیکی

شکل 3- معروفترین نرم افزارهای تجاری اُ سی آر لاتین
نرم افزارهای تجاری اُ سی آر لاتین و فارسی

دریافت و بازشناسی متن تصاویر اسناد با فرمت های مختلف به صورت تک قاب یا چند قاب
مدیریت و بازشناسی دسته های تصویری بزرگ از اسناد
تقسیم بندی خودکار تصویر سند به ناحیه های متنی، تصویری و جدولی
ویرایشگر متن اسناد با امکانات لازم جهت تطبیق اصل تصویر با متن بازشناسی شده
تولید خروجی های متفاوت با فرمت WORD و یا PDF
 

برخی از مزایای بکارگیری فناوری اُ. سی. آر در سیستم سازماندهی و مدیریت اسناد الکترونیکی

با فناوری اُ. سی. آر تصاویر صفحات کتاب به متن رایانه ای تبدیل شده و امکان ویرایش متن، جست و جوی متن، چاپ مجدد متن با کیفیت بالا و انتقال الکترونیکی سریع آن فراهم می شود.
اُ. سی. آر به ویژه برای دیجیتالی نمودن منابع و نسخ خطی بسیار مفید است.
سیستم اُ. سی. آر کلید اصلی ایجاد یک کتابخانه دیجیتالی می باشد که ورود متون کتابها، مجلات، مقالات و منابع مکتوب را دراین کتابخانه ممکن می سازد.
کتابهای الکترونیکی

استفاده از اُ. سی. آر می تواند نقش عمده ای در کاهش هزینه ها و زمان بری ورود اطلاعات داشته باشد. اُ. سی. آر قادر به ایجاد بی واسطه فایلهای استاندارد از مطبوعات و روزنامه های چاپ شده است.
روزنامه ها و نشریات الکترونیکی

اُ. سی .آر در سیستم اتوماسیون امکان اصلاح، جستجو و یا استفاده دوباره از متن نامه های اسکن شده در بین مجموعه داده ها را به راحتی فراهم می کند و از نیازهای اساسی سیستم اتوماسیون به شمار می رود.
سیستم اتوماسیون اداری

دو گروه اصلی :
الف – سیستمهای بازشناسی متون چاپی
ب – سیستمهای بازشناسی متون دست نویس
انواع سیستم های اُ. سی. آر

الف- پیش پردازش
ب- قطعه بندی
ج- استخراج ویژگیها
د- طبقه بندی و بازشناسی ( با یک یا چند طبقه بندی کننده)
ه- بکارگیری اطلاعات جانبی ( پس پردازش)
مراحل انجام کار سیستم اُ. سی. آر در نرم افزار کتابخانه الکترونیکی

شکل 4- بلوک دیاگرام یک سیستم

شکل 5-
اعمال عملیات قطعه بندی و نازک سازی بر روی یک تصویر متنی نمونه

شکل 6- برخی از ویژگیهای نگارش زبان فارسی ( یگانه، 1383)
تحلیل ویژگیهای متون فارسی از دید گاه پردازش سیستمی در اُ. سی. آر

1- سیستم بازشناسی حروف دست نویس فارسی بر اساس الگوریتم آموزش فعال (خیرخواه،1386)
2- پیاده سازی سیستم اُ. سی. آر فارسی با استفاده از عملگرهای موروفولوژی ( محمد جواد فدایی اسلام، 1385)
3- بازشناسی بر خط حروف مجزای فارسی با شبکه فارسی ( رضوی ؛ کبیر، 1383)
تحقیقات انجام شده در مورد پیاده سازی سیستم های اُ. سی. آر فارسی

منابع 1- نشریه الکترونیکی سازمان کتابخانه ها، موزه ها و مرکز اسناد آستان قدس رضوی . دوره 2، شماره 9، زمستان 1389. 2- نشریه الکترونیکی سازمان کتابخانه ها موزه ها و مرکز اسناد آستان قدس رضوی. دوره یک، شماره 5، بهمن و اسفند 1388.


تعداد صفحات : 22 | فرمت فایل : .ppt

بلافاصله بعد از پرداخت لینک دانلود فعال می شود