تحقیق و بررسی کاربرد های پردازش تصویر

2
به نام خدا

عنوان پروژه : تحقیق و بررسی کاربرد های پردازش تصویر
واحد درسی : درس گرافیک کامپیوتری
استاد مشاور :
استاد راهنما :
تهیه کنندگان :

3
اهداف

مقدمه ای بر پردازش تصویر و تعریف اصطلاحات
معرفی چند کاربرد از پردازش تصویر
پردازش متن ( ORC )

4
مقدمه ای بر پردازش تصویر مقدمه
مقدمه ای بر پردازش تصویر
در هر سیستمی و با هر عملکردی برای تصمیم گیری به داده های ورودی احتیاج داریم. این ورودی ها میتوانند از یک سنسور صوتی, سنسور فاصله سنج , سنسور مادون قرمز , میکروفن و با تصاویر ارسالی از یه دوربین باشد.
امروزه پردازش تصویر بهترین ابزار برای استخراج ویژگی ها و تحلیل موقعیت و در نهایت تصمیم گیری صحیح می باشد. در مورد انسان نیز به همین صورت است, اطلاعات از طریق چشم به مغز ارسال می شوند و مغز با پردازش این اطلاعات تصمیم نهایی را گرفته و فرمان را صادر می کند.
هدف از پردازش تصویر پیاده سازی عملکرد ذهن انسان در قبال داده ها و انجام پردازش های خاصی برای استخراج ویژگی مورد نیاز برای رسیدن به هدف از پیش تعیین شده می باشد.

5
مقدمه ای بر پردازش تصویر اصطلاحات
1 – چند تعریف

پیکسل

کوچکترین جزء PIXEL است . پیکسل مخفف Picture Element به معنی المان تصویر است. یک تصویر متشکل از تعداد زیادی پیکسل است که در کنار هم قرار گرفته اند . در واقع زمانی که با یک دوربین دیجیتال عکس می گیرید اگر رزولوشن دوربین شما 640480x باشد به این معنی است که ماتریس با ابعاد 640480x در اختیار شماست که 640 پیکسل در طول و 480 پیکسل در عرض دارد . به ازای هر پیکسل یک سلول نوری در دوربین وجود دارد. شدت نور این سلول نوری مقدار عددی را برای این پیکسل تعیین می کند. به طور مثال به ازای رنگ سیاه مقدار صفر در پیکسل ذخیره می شود و به ازای رنگ سفید مقدار 255 در آن ذخیره می شود.

6
مقدمه ای بر پردازش تصویر اصطلاحات
همسایگی :

2 نوع همسایگی وجود دارد

همسایگی 8 تایی به صورت :

(i – 1 , -1) , ( i , j – 1) , ( i + 1 , j – 1 ) , ( i – 1 , j ) ,
( i + 1 , j ) , ( i – 1 , j + 1) , ( i , j + 1 ) , ( i + 1 , j + 1)

همسایکی 4 تایی به صورت :

(i – 1 , j ) , ( i + 1 , j ) , ( i , j – 1 ) , ( i , j + 1 )

زمینه
به مجموعه پیکسل هایی که شامل آبجکت نیستند , یا مجموعه پیکسل هایی که شامل S’ هستند گفته می شود .
( S’ پیکسل هایی که شامل آبجکت نمی باشند )

7
مقدمه ای بر پردازش تصویر اصطلاحات

مسیر path ) )

2 پیکسل را در یک تصویر باینری در نظر بگیرید .
اگر راهی بین این 2 پیکسل از طریق پیکسل هایی
که حاوی آبجکت هسنتد وجود داشته باشد, به پیکسل-
های مرتبط مسیر گفته میشود .

اتصال

اگر S مجموع پیکسل هایی باشد که شامل آبجکت هستند پس S’ شامل ییکسل های بک گراند است . 2 پیکسل p و q که هر 2 متعلق به S هستند متصل به یکدیگرند اگر حداقل یک مسیر بین p و q وجود داشته باشد .

8
مقدمه ای بر پردازش تصویر اصطلاحات

مرز تصویر ( Border )

کلیه پیکسل هایی که در اطراف آبجکت قرار گرفته اند .

حفره

مجموعه ای از S’ که حتی یک پیکسل
هم در Border نداشته باشد , حفره
نامیده می شود .

9
مقدمه ای بر پردازش تصویر اصطلاحات
هیستوگرام

هیستوگرام در واقع همان نمودار میله ای افزونی
هر رنگ می باشد, به عنوان مثال تعداد پیکسل
هایی که حاوی رنگ شماره 75 هستند 25 عدد
است . از هسیتوگرام برای آستانه گیری استفاده
می شود.

آستانه گیری ( Threshold )

فرض کنید می خواهید از یک عکس 16 بیتی یک تصویر سیاه و سفید بسازید . برای این کار باید تک تک پیکسل ها را با مقدار مشخصی مقایسه کنید اگر بزرگتر از آن مقدار مشخص بود به جای آن رنگ سفید و اگر کوچکتر بود به جای آن مقدار سیاه قرار می دهیم . به این کار آستانه گیری با Threshold می گویند .

10
مقدمه ای بر پردازش تصویر اصطلاحات
محاسبه مساحت و محیط :

فرض کنید که تصویری از دایره در یک زمینه سفید
رنگ دارید مانند شکل روبرو :

برای بدست آوردن مساحت این دایره فقط کافی است که تعداد پیکسل هایی که مقدار عددی آن صفر است را بشمارید و آن را کالیبره کنید ( به این معنی که با توجه به فاصله دوربین تا آبجکت , نسبتی بین تعداد پیکسل های واقعی آبجکت و تعداد پیکسل های تصویر بدست آورد ) . به این ترتیب به راحتی می توان مساحت هر آبجکتی را بدست آورد حتی اگر منظم نباشد .

برای بدست آوردن محیط دایره می توان ابتدا شعاع دایره را با استفاده از مساحت آن به دست آورد
( R = S / II ) سپس با استفاده از فرمول P = 2 IIR محیط را محاسبه کرد .

11
مقدمه ای بر پردازش تصویر اصطلاحات
نحوه بدست آوردن مرکز تصویر و آبجکت :

برای بدست آوردن مرکز تصویر از روش زیر استفاده می شود :

به این معنی که تعداد پیکسل های ماتریس در سطر و تعداد پیکسل های ماتریس در ستون تقسیم بر 2 دقیقا i , j پیکسل مرکز تصویر خواهد بود .

برای بدست آوردن مرکز آبجکت باید به صورت زیر عمل کرد :

مساحت آبجکت را بدست می آوریم . برای به دست آوردن مساحت تعداد پیکسل های آبجکت را جمع میکنیم . حال برای بدست آوردن I مرکز آبجکت مقدار j ها را با هم جمع مکنیم. حال برای بدست آوردن j مرکز آبجکت مقدار i های پیکسل ها را با هم جمع و تقسیم به مساحت می کنیم .

12
مقدمه ای بر پردازش تصویر اصطلاحات

به عنوان مثال برای بدست آوردن مرکز آبجکت زیر :

همانطور که مشاهده می کنید مرکز آبجکت 3 و 5 است .

13
مقدمه ای بر پردازش تصویر اصطلاحات
تشخیص الگو ( Pattern Recognition )

فرض کنید می خواهید تشخیص دهید که آبجکتی که در تصویر است دایره است یا خیر . به این عمل که توسط مغز کامپیتر انجام میشود تشخیص الگو گفته می شود .
برای این منظور باید به دنبال ویژگی منحصر به فردی در دایره باشیم . به عنوان مثال مثلا در مغز انسان , دایره مکان هندسی نقاطی است که فاصله آنها از یک نقطه مشخص از آن در ذهن دارد .
در دایره ویژگی منحصر به فرد P2/S = 4R است . البته باید به این نکته توجه کرد که منحصر به فرد بودن این ویژگی در اشکال هندسی و در آبجکت های بی شکل صادق نیست .

روند تشخیص الگو در کامپیوتر به شکل زیر است :

14
مقدمه ای بر پردازش تصویر اصطلاحات

شماره گذاری آبجکت های درون تصویر

برای تشخیص اینکه چه تعداد آبجکت در تصویر وجود دارد و هر کدام از پیکسل هل متعلق به کدام آبجکت است از روش های مختلفی استفاده می شود و به این عمل Component Labeling یا شماره گذاری اجزاء گفته می شود .

برای اختصار آخرین و سریع ترین الگوریتم
موجود را برسی می کنیم :

15
مقدمه ای بر پردازش تصویر اصطلاحات
ماتریسی که در صفحه قبل مشاهده می کنید یک تصویر به فرض سیاو و سفید است ( رنگ هایی که در تصویر مشاهده می کنید برای جدا کردن آبجکت ها است ) در خانه هایی که آبجکتی وجود ندارد مقدار صفر و در پیکسل هایی که آبجکت وجود دارد عدد یک وجود دارد .
از سطر اول شروع می کنیم و آنقدر در سطر حرکت می کنیم تا به اولین پیکسلی که حاوی مقدار 1 است برسیم , این پیکسل را به عنوان اولین آبجکت در نظر می گیریم . کار را ادامه می دهیم در سطر بعد اولین مقدار 1 که رسیدیم همسایه های 8 گانه آنرا نگاه می کنیم . اگر بین پیکسلی که قبلا نشانه گذاری کرده بودیم و پیکسلی که الان به آن رسیدیم مسیری وجود داشت , این 2 پیکسل هر دو از یک آبجکت هستند , پس به این پیکسل نیز برچسب همان پیکسل قبلی را می زنیم . کار ادامه پیدا می کند تا جایی که به پیکسلی میرسیم که در شکل مشخص شده است که متعلق به آبجکت یک است ولی در همسایگی آن پیکسل برچسب گذاری نشده است .

16
مقدمه ای بر پردازش تصویر اصطلاحات
بدون در نظر گرفتن این موضوع برچسب جدیدی را به آن می زنیم . کار را به همین صورت ادامه میدهیم ته به پایان برسیم .
نکته قابل توجه اینجاست که آبجکت هایی که با 2 برچسب مشخص شده اند در جایی این 2 پیکسل به هم میرسند . در بار دوم که ماتریس تصویر را رفرش می کنیم به محل تلاقی برچسب ها که رسیدیم مقدار برچسب کوچکتر را در برچسب های بزرگتر قرار می دهیم . حال با 2 بار رفرش کردن تصویر با فرض سیاه و سفید بودن تصویر می توان تمامی آبجکت ها را مشخص و جدا کرد .

17
مقدمه ای بر پردازش تصویر اصطلاحات
فاصله بین 2 آبجکت

مینیمم پیکسل های موجود بین 2 آبجکت .
کاربرد این کار به عنوان مثال سرعت سنج اتومبیل در اتوبان ها است.

تشخیص لبه در یک تصویر

دلیل ایجاد بک لبه در تصویر اختلاف شدت نور در 2 طرف آن محل است که به ان لبه می گوییم .لبه ها قسمتی از تصویر هستند که اشتخوان بندی تصویر را مشخص می کنند.

انواع لبه ها : 1 – لبه عمودی
2 – لبه افقی
3 – لبه مورب

18
مقدمه ای بر پردازش تصویر اصطلاحات

برای یافتن لبه ها به شکل زیر عمل می کنیم :

برای لبه های افقی از ستون اول به صورت عمودی شروع به حرکت می کنیم و هر پیکسل را با پیکسل قبل از خودش مقایسه می کنیم اگر تفاوت آنها از عدد مشخصی بیشتر باشد آنجا لبه است . در غیراین صورت به آن کاری نداریم .
یافتن لبه های عمودی هم به همین صورت است منتها به صورت افقی شروع به حرکت می کنیم .
لبه های مورب میشه گفت ترکیبی از این 2 لبه اند به این صورت که جذر جمع مختصات هر پیکسل باید از عددی مشخص بیشتر باشد در غیر این صورت لبه نیست .

19
مقدمه ای بر پردازش تصویر اصطلاحات

بزرگ نماییZoom ): )

برای بزرگ نمایی یا کوچک نمایی تصویر الگوریتم های مختلفی وجود دارد که ما به ساده ترین آنها اشاره می کنیم .
برای 2 برابر کردن تصویر بین هر سطر و ستون یک سطر و ستون اضافه قرار می دهیم و مقدار آن را میانگین 2 پیکسل کناری آن قرار می دهیم .
برای 1/2 کردن تصویر به صورت یکی در میان سطر و ستون ها را حذف می کنیم .همین روش را برای N برابر و 1/N برابر کردن استفاده می کنیم .

20
معرفی چند کاربرد کاربردهای بازشناسی الگو در پردازش تصویر
شناسایی الگو ( ادامه … )

شناسایی الگو یکی از شاخه های هوش مصنوعی است که با طبقه بندی (کلاسه بندی) و توصیف مشاهدات سروکار دارد. . شناسایی الگو به ما کمک می کند تا داده ها (الگوها) را با تکیه بر دانش قبلی یا اطلاعات آماری استخراج شده از الگوها، طبقه بندی نماییم. الگوهایی که می بایست کلاسه بندی شوند، معمولا گروهی از سنجش ها یا اهداف هستند که مجموعه نقاطی را در یک فضای چند بعدی مناسب تعریف می نمایند.

کاربردهای بازشناسی الگو

بازشناسی الگو در بسیاری از زمینه ها نقش کاربردی دارد . بازشناسی حروف، بازشناسی نویسنده، تصدیق امضاء، طبقه بندی اثر انگشت و بازشناسی گفتار نمونه هایی از این کاربردها هستند. شناسایی الگو برای تحلیل داد ه های پزشکی نیز بکار گرفته شده است.

21
معرفی چند کاربرد کاربردهای بازشناسی الگو در پردازش تصویر
کاربردهای بازشناسی الگو

برای مثال تفسیرالکتروکاردیوگرام، تحلیل تصاویر اشعه X و طبقه بندی کروموزم ها را می توان نام برد.
نمونه های دیگری از این کاربردها شامل طبقه بندی مناطق زراعی، مطالعه آلودگی آب ها، آشکار کردن منابع زیرزمینی و پیش بینی آب و هواست. در این نوع کاربردها ، تصاویر ارسال شده از ماهواره و تصاویر هوایی به کمک روش های بازشناسی الگو تفسیر می شوند. بازرسی تصویری و بازشناسی قطعات ماشینی، از کاربردهای صنعتی شناسایی الگو هستند. تحلیل بافت ، آشکارسازی هدف در سیگنال های برگشتی رادار یا سونار ، طبقه بندی امواج زلزله و تشخیص ذرات شیمیائی کاربردهای دیگری از بازشناسی الگو می باشند.

22
بازشناسی نوری حروف ( OCR ) مقدمه
مقدمه ای بر پردازش متن

افزایش روزافزون تولید اطلاعات که غالباً به صورت مواد چاپی به بازار عرضه می‎گردد و ضرورت دسترسی سریع و آسان به داده های موجود از یک سو، و حضور فراگیر رایانه در عرصه های مختلف زندگی از سوی دیگر، متخصصان فناوری اطلاعات را بر آن داشته که همواره در پی یافتن راهکار مناسب برای گردآوری و پردازش اطلاعات به کمک رایانه باشند. تبدیل اطلاعات متنی با مشخصه های متفاوت به مستندات متنی استاندارد کامپیوتری یکی از راهکارهای افزایش بازدهی فناوری اطلاعات است.
مزیت متن واقعی به سایر اشکال یک مستند بطور خلاصه عبارتند از:

متن، قابل ویرایش و جستجو است و به آسانی می توان آنرا پردازش کرد. امکان جستجوی عبارات در یک متن حجیم، امتیاز بزرگی است.
حجم متن معمولا بسیار کمتر از حجم تصویر مشابه است.
به متن میتوان بسادگی توضیح، فرالینک، و امکانات رسانه مرکب افزود.

23
بازشناسی نوری حروف ( OCR ) مقدمه
(Optical Character Recognition ) OCR

هنگامی که یک سند متنی اسکن می شود، کامپیوتر این متن را بصورت یک تصویر گرافیکی تشخیص میدهد. در نتیجه کاربران قادر نخواهند بود که متن موجود در تصویر سند را ویرایش نمایند و یا آن را مورد جستجو قرار دهند. یک نرم افزار OCR این متن اسکن شده را خوانده و محتویات آنرا شناسایی نموده، و بصورت یک فایل در کامپیوتر ذخیره می سازد. چنین قابلیتی امکان استفاده گسترده از کامپیوتر را در پردازش سریع حجم وسیعی از داده های مکتوب تولید شده توسط شرکتها و موسسات مختلف نظیر بانکها، شرکتهای بیمه، موسسات خدمات عمومی، اداره پست و سایر نهادهایی که سالیانه با میلیونها مورد پرداخت، دریافت و حسابرسی امور مشتریان خود مواجه اند، فراهم میآورد.
کاربردهای دیگر آن شامل تبدیل کتاب ها یا اسناد اسکن شده به فایل های متنی , مرتب کردن چک ها در بانک ها، خواندن آدرس بسته های پستی و مرتب کردن خودکار آدرس ها، کمک به افراد نابینا با خواندن متون برای آنها، ارتباط بین انسان و ماشین با استفاده ازتحریر عادی دستی، و بسیاری کاربردهای دیگر می شود.

24
بازشناسی نوری حروف ( OCR ) تاریخچه
تاریخچه سیستم های OCR

از جنبه تاریخی، سیستم های OCR تا کنون مراحل تکاملی زیادی را پشت سر گذاشته اند :

اولین اقدامات صورت گرفته در زمینه بازشناسی حروف, در سال های اول دهه 1900 انجام گرفته است که دانشمندان روسی می خواستند به افراد مبتلا به نارسایی های بینایی کمک نماید. اولین اختراع های ثبت شده در این زمینه مربوط به سال های 1929 و 1933 میلادی هستند . این سیستم ها حروف چاپی را با روش تطبیق قالب شناسایی می کردند. به این صورت که ماسک های مکانیکی مختلفی از مقابل تصویر حرف عبور می کردند و نور از یک سو به آن تابانده می شد و از سوی دیگر توسط یک آشکارساز نوری دریافت می گردید. وقتی یک انطباق کامل صورت می گرفت، نور به آشکارساز نمی رسید و حرف ورودی بازشناسی می شد . این اختراع به دلیل فناوری پائین مورد استفاده در آن، کاربردی نبود و با ظهور کامپیوترهای دیجیتال به صورت یک رویا باقی ماند .

25
بازشناسی نوری حروف ( OCR ) تاریخچه

اقدامات اولیه در زمینه OCR، بر متون چاپی یا مجموعه کوچکی از حروف و نمادهای دستنویس که براحتی قابل تشخیص بودند متمرکز گردیده بود که عمدتاً از روش تطبیق قالب استفاده می نمودند به این صورت که در آن تصویر ورودی با مجموعه بزرگی از تصاویر حروف مورد مقایسه قرار می گرفت . در این دوره، تحقیقات موفق اما محدود شده (منظور از محدود شده، مفروض دانستن شرایط و پیش فرض های خاص برای کاراکترهای ورودی است)، بیشتر بر روی حروف و اعداد لاتین انجام گرفت. با این حال مطالعات چندی نیز بر روی حروف ژاپنی، چینی، عبری، هندی، سیریلیکی، یونانی و عربی در هر دو زمینه حروف چاپی و دستنویس آغاز گردید . مطالعات صورت گرفته تا قبل از سال 1980 بدلیل فقدان سخت افزارهای قدرتمند و دستگاه های ورودی مناسب با مشکل همراه بودند. اما از دهه 1980 به بعد بواسطه رشد انفجارگونه فناوری اطلاعات، وضعیت بسیار مناسبی برای تحقیقات مختلف از جمله بازشناسی حروف فراهم گردید .

26
بازشناسی نوری حروف ( OCR ) تاریخچه

در این مقطع زمانی بود که با تکوین ابزارها و تکنیک های پردازشی جدید، پیشرفت واقعی در سیستم های OCR محقق گردید. در اوایل دهه 90، روش های پردازش تصویر و بازشناسی الگو با تکنیک های کارآمد هوش مصنوعی ادغام گشتند. محققان، الگوریتم های پیچیده ای را در بازشناسی حروف ابداع نمودند که قادر بودند داده های ورودی با تفکیک پذیری بالا را دریافت کنند و در مرحله پیاده سازی، محاسبات بسیار زیادی را بر روی داده ها انجام دهند. امروزه علاوه بر وجود رایانه های قدرتمندتر و تجهیزات الکترونیکی دقیق تر مانند اسکنرها، دوربین ها و صفحات رقمی کننده، استفاده از تکنیک های پردازشی مدرن و توانمند همچون شبکه های عصبی ، مدل های مارکوف پنهان ، منطق فازی، و مدل های پردازش زبان طبیعی امکان پذیر گشته است .

27
بازشناسی نوری حروف ( OCR ) بررسی اجزا و انواع سیستم OCR

در یک تقسیم بندی کلی میتوان سیستمهای OCR را از لحاظ نوع الگوی ورودی به دو گروه تقسیم کرد :

سیستمهای بازشناسی متون چاپی
سیستمهای بازشناسی متون دستنویس

همچنین از جنبه نحوه ورود اطلاعات، سیستمهای OCR به دو دسته زیر تقسیم بندی می شوند :

سیستمهای بر خط
سیستمهای برون خط

28
بازشناسی نوری حروف ( OCR ) بررسی اجزا و انواع سیستم OCR

در بازشناسی برخط، حروف در همان زمان نگارش توسط سیستم تشخیص داده میشوند. دستگاه ورودی این سیستمها یک قلم نوری است. در این روش علاوه بر اطلاعات مربوط به موقعیت قلم، اطلاعات زمانی مربوط به مسیر قلم نیز در اختیار است. این اطلاعات معمو ً لا توسط یک صفحه رقومی کننده اخذ می شوند. در این روش می توان از اطلاعات زمانی سرعت، شتاب، فشار و زمان برداشتن و گذاشتن قلم روی صفحه در بازشناسی استفاده کرد.
در بازشناسی برون خط، از تصویر دو بعدی متن ورودی استفاده می شود. در این روش به هیچ نوع وسیله نگارش خاصی نیاز نیست و تفسیر داد ه ها مستقل از فرآیند تولید آنها تنها براساس تصویر متن صورت می گیرد. این روش به نحوه بازشناسی توسط انسان شباهت بیشتری دارد.

29
بازشناسی نوری حروف ( OCR ) بررسی اجزا و انواع سیستم OCR
بخشهای مختلف یک سیستم OCR کامل

الف‐ پیش پردازش : شامل کلیه اعمالی که روی سیگنال تصویری خام صورت میگیرند تا موجب تسهیل روند اجرای فازهای بعدی گردند؛ مانند باینری کردن تصویر، حذف نویز، هموارسازی، نازک سازی، تشخیص زبان و فونت کلمات و نظایر اینها.
ب‐ قطعه بندی : عبارت است از روش هایی که بخش های مختلفی همچون پاراگراف ها، جملات یا کلمات، و حروف را از تصویر سند استخراج می نمایند.
ج‐ استخراج ویژگی ها : مجموعه کلیه محاسباتی است که روی الگوهای بدست آمده از مرحله پیش پردازش انجام میشود تا بردار ویژگی های متناظر با هر الگو تعیین گردد.

30
بازشناسی نوری حروف ( OCR ) بررسی اجزا و انواع سیستم OCR

د‐ بازشناسی با یک یا چند طبقه بندی کننده :

شامل روش هایی برای متناظر ساختن هر یک از الگوهای بدست آمده از مرحله استخراج ویژگی ها با یکی از کلاس های فضای الگوهای مورد بحث است که از طریق کمینه ساختن فاصله بردار ویژگی های هر الگو نسبت به یکی از بردارهای مرجع موجود در پایگاه داده های سیستم انجام می گیرد.
ه – بکارگیری اطلاعات جانبی (پس پردازش) :
مانند مجموعه لغات معتبر، اطلاعات آماری مربوط به رخداد حروف، اطلاعات دستوری و معنایی.

31
بازشناسی نوری حروف ( OCR ) بررسی اجزا و انواع سیستم OCR
سیستم های OCR فارسی
مسئله بازشناسی حروف الفبای فارسی سابقهای نه چندان طولانی به همراه دارد. نخستین گزارشهای رسمی منتشر شده از تلاشهای انجام گرفته در این راه، مربوط به سالیان نخست دهه ۱۹۸۰ میلادی است به رغم فراگیری نسبی کاربرد الفبای فارسی در میان ملل مختلف قاره آسیا، بررسیهای انجام شده در خصوص یافتن روشهایی برای بازشناسی حروف این الفبا بسیار محدود بوده است. بواسطه وجود تفاوتهای اساسی بین نحوه نگارش کلمات فارسی و کلمات لاتین نظیر چسبیده بودن حروف سازنده یک کلمه به یکدیگر و تغییر شکل حروف بر اساس موقعیت نسبی قرارگیری آن در یک کلمه فارسی، امکان اعمال مستقیم روشهای متداول در بازشناسی حروف انگلیسی بنظور شناسایی حروف تشکیل دهنده کلمات فارسی وجود ندارد.

32
بازشناسی نوری حروف ( OCR ) بررسی اجزا و انواع سیستم OCR
در حال حاضر یکی از نرم افزار تجاری کارآمد OCR که زبان فارسی را پشتیبانی می کند Automatic Reader محصول شرکت عربی Sakhr است که دارای 2 نخسه Gold و Platinum میباشد . در حال حاضر قیمت نسخه 0.7 آن 4000 و 1400 دلار است .این رقم در مقایسه با قیمت نرم افزار های معروفی همچون Office که حداکثر 600 دلار می باشد واقعًا قابل ملاحظه میباشد .
همچنین شرکت "جیحونافزار” یک نرم افزار OCRفارسی بنام “شناسا” (ShenAsA) داشت که قیمت آن در سال ۱۹۹۶ حدود ۱۰۰۰ دلار بود اما ظاهرًا از کارایی چندان مورد قبولی برخوردار نبود چون متاسفانه حاصل فارسی سازی سطحی نسخه های قبلی و فعلی محصولات صخر هستند که در مواردی تنها به فارسی سازی منوها اکتفا شده است .
نرم افزار دیگری به نام Readiris Pro 11 Middle East به تازگی منتشر شده که زبان فارسی را هم پشتیبانی می کند.

33
بازشناسی نوری حروف ( OCR ) بررسی اجزا و انواع سیستم OCR
در نسخه های پیشین این نرم افزار زبان فارسی وجود نداشت و تنها با استفاده از امکان عربی آن میشد پردازش ناقصی انجام داد . این نرم افزار با قیمت 300.000 دلار به فروش رسید !
به دلایل گفته شده OCR درمرحله کنونی در کشور ما مربوط به «دست نویس های گسسته» یا متن های تایپی پیوسته است، و تا بازشناسی متن های دست نویس پیوسته توسط کامپیوتر راه زیادی در پیش است، چون در دست نویس های گسسته، اگرچه حروف به هم شباهت دارند، حداقل جداجدا نوشته شده اند. در متن های پیوسته تایپی هم مشکل کشیده شدن یک حرف یا شکسته نوشته شدن حروف را نداریم. البته به گفته مسئولان شرکت «پایا» در حال حاضر هم نرم افزارهایی وجود دارد که متن دست نویس پیوسته را تبدیل به حروف جدا ازهم و گسسته می کنند، ولی ضریب خطای این نرم افزارها زیاد است و به شکل صنعتی درنیامده اند. نرم افزار های دیگر : Omni Page Pro 12 – ABBYY FineReader – Text Bridge

34
بازشناسی نوری حروف ( OCR ) بررسی اجزا و انواع سیستم OCR
مشکلات و پیچیدگی های پیش روی OCR های فارسی و عربی
نگارش فارسی، ویژگی های منحصر به فردی دارد که آن را کاملاً از نگارش لاتین متمایز می سازد. به منظور فعالیت در حوزه OCR فارسی، آگاهی از قوانین نگارشی و نحوه چاپ حروف در این زبان، امری ضروری است :

در کلمات فارسی برخی از حروف از یک یا دو طرف به حروف مجاور خود اتصال دارند و برخی نیز به صورت مجزا نوشته می شوند. در نتیجه هر کلمه ممکن است شامل یک یا چند بخش متصل باشد که «زیرکلمه» نامیده می شوند. چسبیده یا سرهم بودن حروف در نگارش فارسی، بازشناسی متون فارسی را برای سیستم های OCR، نسبت به متون لاتین بسیار مشکل تر می سازد.
حروف فارسی ممکن است چهار موقعیت مجزا و در نتیجه چهار شکل متفاوت نگارش داشته باشند: حروف ابتدایی، میانی، انتهایی و مجزا. نهایتا حدود 100 شکل مختلف حرف و عدد در مجموعه تشخیص وجود خواهند داشت.

35
بازشناسی نوری حروف ( OCR ) بررسی اجزا و انواع سیستم OCR
حروف واقع در یک کلمه ممکن است همپوشانی داشته باشند، بدین معنا که نتوان با رسم خطوط عمودی، حروف را به طور کامل از یکدیگر مجزا نمود.
متون فارسی برخلاف متون لاتین از راست به چپ نوشته می شوند.
در برخی از فونت ها بعضی از حروف، از یک سمت در دو محل به یکدیگر اتصال دارند.
برخی از حروف بین یک تا سه نقطه دارند که ممکن است در بالا یا پایین بدنه حرف واقع باشند.
بعضی از حروف بدنه مشابه دارند و تفاوت آن ها تنها در تعداد و محل قرارگیری نقاط یا در وجود یک سرکش است (مانند «ک» و «گ») که در مقایسه با بدنه حروف، اندازه بسیار کوچکی دارند. این موضوع نیز یکی از مواردی است که بر پیچیدگی سیستم های OCR فارسی می افزاید.
حروفی که از طرف چپ قابلیت اتصال به حرف مجاور خود را دارند، ممکن است به صورت کشیده نوشته شوند.

36
بازشناسی نوری حروف ( OCR ) بررسی اجزا و انواع سیستم OCR
حروف فارسی ممکن است در بالا یا پایین بدنه دارای اعراب باشند. سه اعراب -َ -ِ -ُ در زبان فارسی، اعراب های اصلی اند و اعراب -ً در برخی کلمات عربی رایج در زبان فارسی دیده می شود (نظیر کلمات «عمداً» و «احتمالاً»). کلمات عربی دارای اعراب -ٌ و -ٍ در زبان فارسی عمومیت نیافته اند. هر چند کاربرد اعراب در زبان فارسی نسبت به زبان عربی بسیار محدودتر است، اما اگر کلمه ای نامتداول باشد یا به دلیل تشابه نگارشی آن با کلمه دیگر، تاکید بر تلفظ صحیح آن باشد، از نشانه های اعراب استفاده می شود. ضمنا در بالای بدنه یک حرف ممکن است علامت تشدید وجود داشته باشد و برخی از حروف دارای علامت همزه هستند.
درباره اعداد فارسی هم این مشکل وجود دارد: صفر ما تنها یک نقطه کوچک است که می تواند سیستم را به اشتباه بیندازد؛ اعداد 4، 3، 2، 1 هم بسیار به هم شبیه هستند و تنها تفاوتشان در دندانه ها است.
در متون دستنویس فارسی، تنوع تحریر بسیار زیاد است. انواع شکلها برای حروفی مانند س ، ی ، ها و غیره متصور است. در تحریر دستنویس از سوی دیگر مشخصه های حرکت قلم نیز قابل تحلیل هستند.

37
بازشناسی نوری حروف ( OCR ) بررسی اجزا و انواع سیستم OCR
بیشتر حروف فارسی (مخصوصاً حروف چسبیده) دندانه دار هستند. در مواردی که کیفیت سند اصلی یا دستگاه اسکنر پایین باشد، ارتفاع دندانه ها نسبت به خط زمینه کوتاه می شود و این امر، شناسایی صحیح این حروف در مرحله قطعه بندی یا بازشناسی را با مشکل مواجه می سازد.

38
بازشناسی نوری حروف ( OCR ) تحلیل بخشهای مختلف سیستمهایOCR
تحلیل بخشهای مختلف سیستمهای OCR

پیش پردازش

این مرحله شامل کلیه پردازشهایی است که بر روی سیگنال های تصویری خام انجام می شوند تا موجب تسهیل یا افزایش دقت روند اجرای فازهای بعدی گردند. از مجموعه این پردازشها هدفهای زیر دنبال می شود :

۱‐ کاهش نویز.
۲‐ نرمالیزه نمودن داده ها.
۳‐ فشرده سازی میزان اطلاعاتی که می بایست محفوظ بماند.

39
بازشناسی نوری حروف ( OCR ) تحلیل بخشهای مختلف سیستمهایOCR

کاهش نویز

نویز ایجاد شده بواسطه دستگاه های اسکنر نوری یا ابزارهای نگارشی منجر به ایجاد قطعه خط های گسسته، اتصال بین خطوط، فضاهای خالی در خطوط متن، پر شدن حفره های موجود در تصویر برخی حروف و غیره می گردد. همچنین اعوجاج های مختلف شامل تغییرات محلی، منحنی شدن گوشه های حروف، تغییر شکل و یا خوردگی حروف را نیز بایستی مد نظر قرار داد. قبل از مرحله بازشناسی حروف لازم است که این نقایص برطرف شوند. تکنیک های مختلف کاهش نویز را می توان به سه گروه اصلی دسته بندی نمود :

الف‐ فیلتر کردن
ب‐ عملگرهای مورفولوژی
ج‐ مدلسازی نویز

40
بازشناسی نوری حروف ( OCR ) تحلیل بخشهای مختلف سیستمهایOCR

کاهش نویز

41
بازشناسی نوری حروف ( OCR ) تحلیل بخشهای مختلف سیستمهایOCR

نرمالیزه کردن داده ها

روش های نرمالیزه کردن داده ها به حذف تغییرات نگارشی کمک نموده، داده های استاندارد شده ای را نتیجه می دهد. روش های پایه نرمالیزه کردن عبارتند از:

الف‐ نرمالیزه کردن کجی متن و استخراج خطوط زمینه
ب‐ نرمالیزه کردن اریب شدگی
ج‐ نرمالیزه کردن (تغییر مقیاس دادن) اندازه
د‐ هموارسازی کانتور
هر کدام از این مباحث به تنهایی قابل بحث و شرح می باشند که ما در این بحث به خلاصه ای از هر کدام از این موارد می پردازیم .

42
بازشناسی نوری حروف ( OCR ) تحلیل بخشهای مختلف سیستمهایOCR

الف – نرمالیزه کردن کجی متن و استخراج خطوط زمینه

بدیل عدم دقت در مرحله اسکن و یا بی دقتی نویسنده در هنگام نگارش متن دستنویس، ممکن است خطوط متن نسبت به تصویر اندکی انحراف یا چرخش داشته باشند , این مسئله می تواند کارایی الگوریتم های بکار رفته در طبقات بعدی سیستم OCR را تاثیر قرار دهد, چرا که یکی از مفروضات بیشتر روشهای قطعه بندی، عدم کج بودن تصویر متن ورودی است و در نتیجه لازم است که این نقیصه آشکار و تصحیح گردد. آشکارسازی خط زمینه در بسیاری از تکنیکهای قطعه بندی و بازشناسی متون فارسی، عربی و لاتین نقش اساسی دارد. علاوه بر این، برخی از کاراکترها را میتوان بواسطه موقعیت نسبیشان نسبت به خط زمینه آشکار ساخت.

43
بازشناسی نوری حروف ( OCR ) تحلیل بخشهای مختلف سیستمهایOCR
روش های بکار رفته جهت تصحیح کجی خطوط زمینه در متون لاتین عبارتند از :

۱‐ بکارگیری هیستوگرام ( پروفایل تصویرنمایی ) تصویر
۲‐ استفاده از روش خوشه بندی نزدیکترین همسایه ها
۳‐ روش همبستگی متقابل بین حروف
۴‐ تبدیل هاف

44
بازشناسی نوری حروف ( OCR ) تحلیل بخشهای مختلف سیستمهایOCR

ب‐ نرمالیزه کردن اریب شدگی

در متون چاپی فارسی و لاتین ، کاراکترهای دارای فرمت ایتالیک از راستای عمود انحراف دارند. همچنین در متون دستنویس برخی از نویسنده ها حروف را بصورت زاویه دار می نویسند. این شناخته می شود و می تواند دقت برخی از الگوریتم های قطعه بندی « اریب شدگی » پدیده تحت عنوان یا بازشناسی را تحت تاثیر قرار دهد و لذا در این سیستم ها لازم است که در مرحله پیش پردازش ، میزان اریب بودن کاراکترها شناسایی و تصحیح گردد.
اریبشدگی بصورت زاویه شیب بین طویل ترین زیرحرف در یک کلمه و جهت عمودی تعریف می شود. نرمالیزه کردن اریب، بنظور نرمالیزه نمودن کلیه کاراکترها به یک فرم استاندارد بکار می رود. معمول ترین روش در تخمین میزان اریب شدگی، محاسبه زاویه متوسط اجزاء نزدیک به خط عمود است . استخراج خطوط عمودی از کاراکترها بوسیله یک جفت فیلتر یک بعدی انجام می پذیرد. مختصات شروع و پایان هر خط، زاویه اریب را بدست می دهد.

45
بازشناسی نوری حروف ( OCR ) تحلیل بخشهای مختلف سیستمهایOCR

ج‐ نرمالیزه کردن (تغییر مقیاس دادن) اندازه

در سیستم های OCR اغلب تصاویر کلمات خیلی کوچک یا خیلی بزرگ، به یک اندازه استاندارد نرمالیزه می شوند. این عمل معمو لا با نمونه برداری مجدد ٢ تصویر انجام میگیرد. روش هایی نظیر Bilinear یا Bicubic بر روی تصاویر سطح خاکستری بنحو مناسبی عمل میکنند , اما عملیات نمونه برداری موجود در آنها ، کاراکترهای دوسطحی را دچار اعوجاج می سازند. یک راهکار استاندارد ، اعمال یک روال دو مرحله ای است که در آن ابتدا کانتور هموار اصلی مربوط به کاراکتر نمونه برداری شده، توسط یک فیلتر کانولوشن وزندار ١ و کوانتیزاسیون دوسطحی دامنه ٢ تقریب زده می شود و پس از آن عمل نمونه برداری مجدد انجام می گیرد . روش های بازشناسی حروف ممکن است نرمالیزه کردن اندازه را در هر دو جهت افقی و
عمودی انجام دهند. در هر کاراکتر به تعدادی ناحیه تقسیم میشود و هر یک از این نواحی ، بصورت جداگانه تغییر مقیاس داده می شوند.

46
بازشناسی نوری حروف ( OCR ) تحلیل بخشهای مختلف سیستمهایOCR

د‐ هموارسازی کانتور

در متون دستنویس، بواسطه لرزش یا حرکات ناخواسته دست نویسنده هنگام نگارش، ممکن است که کانتور حروف شکل ناصاف پیدا کند. همچنین این مسئله میتواند در سیستمهای بازشناسی متون چاپی و دستنویس بدلیل تغییر مقیاس حروف و یا وجود نویز در مرحله اسکن تصاویر نیز ظاهر گردد. روشهای هموارسازی کانتور بمنظور جبران این نقیصه مورد استفاده قرار میگیرند. بطور کلی هموارسازی کانتور تعداد نقاط نمونه مورد نیاز برای بازنمایی کاراکتر را کاهش میدهد و در نتیجه کارایی مراحل پردازشی باقیمانده را بهبود می بخشد. در مقدار هر پیکسل از تصویر متن با مقدار میانگین وزنی پیکسل های همسایه آن جایگزین میشود که با دو بار تکرار این عمل، تصویر هموارتری از متن دستنویس بدست میآید و در نتیجه اثر لرزش دست نویسنده کاهش پیدا میکند .

47
بازشناسی نوری حروف ( OCR ) تحلیل بخشهای مختلف سیستمهایOCR

فشرده سازی

این مسئله پذیرفته شده است که تکنیکهای کلاسیک فشرده سازی تصاویر که تصویر را از حوزه مکانی به حوزه های دیگر منتقل می کنند، برای بازشناسی حروف مناسب نمی باشند. در بازشناسی حروف، عمل فشرده سازی نیازمند آن دسته از تکنیک های حوزه مکانی است که اطلاعات شکلی را حفظ می نمایند. دو تکنیک متعارف فشرده سازی، یکی تکنیک اعمال سطح آستانه بمنظور باینری کردن تصاویر سطح خاکستری متون و دیگری نازک سازی می باشد .
الف‐ باینری (دوسطحی) کردن تصویر متن :

بمنظور کاهش حجم ذخیره سازی مورد نیاز و افزایش سرعت پردازش، اغلب مطلوب است که با انتخاب یک سطح آستانه، تصاویر سطح خاکستری یا رنگی را به تصاویر باینری تبدیل نمود.

48
بازشناسی نوری حروف ( OCR ) تحلیل بخشهای مختلف سیستمهایOCR

ب‐ نازک سازی

این عمل درحالیکه کاهش قابل ملاحظه ای در حجم داده ها ایجاد میکند، اطلاعات شکلی کاراکتر را نیز استخراج می نماید. دو روش پایه برای نازکسازی عبارتند از « نازکسازی از طریق پیکسل » , « نازکسازی غیر از طریق پیکسل » .
نازکسازی از طریق پیکسل بصورت محلی و تکراری تصویر را مورد پردازش قرار می دهد تا وقتی که از تصویر کاراکتر تنها اسکلت آن به عرض یک پیکسل باقی بماند. این روش نسبت به نویز بسیار حساس بوده، ممکن است تصویر کاراکتر را مخدوش سازد. از سوی دیگر ، روش های نازک سازی غیر از طریق پیکسل ، طی فرایند نازک سازی مقداری از اطلاعات سراسری درباره کاراکتر را مورد استفاده قرار می دهند.

49
بازشناسی نوری حروف ( OCR ) تحلیل بخشهای مختلف سیستمهایOCR

ب‐ نازک سازی

50
بازشناسی نوری حروف ( OCR ) تحلیل بخشهای مختلف سیستمهایOCR

قطعه بندی

مرحله پیش پردازش یک تصویر اصلاح شده از سند را نتیجه می دهد بگونه ای که مقدار کافی از اطلاعات شکلی، فشرده سازی بالا و نویز نویز پایین، از تصویر نرمالیزه شده سند قابل حصول یک مرحله بسیار با اهمیت در بازشناسی حروف مخصوصًا حروف است. قطعه بندی فارسی و عربی که بصورت پیوسته نوشته می شوند می باشد , چرا که نتیجه بدست آمده از جداسازی کلمات ، خطوط یا کاراکترها مستقیمٌا بر روی نرخ بازشناسی سیستم تاثیر می گذارد.
قطعه بندی غلط کاراکترها ، عامل بسیاری از خطاهای OCR است میزان دقت یک الگوریتم قطعه بندی به سبک نگارش حروف ، کیفیت دستگاه پرینت و نیز نسبت اندازه فونت به رزولوشن دستگاه اسکنر بستگی دارد .

دو نوع قطعه بندی وجود دارد :

الف) قطعه بندی بیرونی ب) قطعه بندی درونی

51
بازشناسی نوری حروف ( OCR ) تحلیل بخشهای مختلف سیستمهایOCR

الف – قطعه بندی بیرونی :

قطعه بندی بیرونی که عبارت است از جداسازی بخش های مختلف نگارش مانند پاراگراف ها ، جملات یا کلمات .
این مرحله بحرانی ترین و حساس ترین قسمت در زمینه آنالیز اسناد میباشد و یک مرحله ضروری برای سیستم های بازشناسی حروف برونخط محسوب میشود. گر چه مبحث آنالیز اسناد با روش ها و تکنیک های خاص خود یک حوزه تحقیقاتی تا حدی متفاوت نسبت به OCR است , لیکن تقسیم بندی تصویر سند به نواحی متنی و غیر متنی، یک بخش لاینفک نرمافزارهای OCR به حساب میآید.

52
بازشناسی نوری حروف ( OCR ) تحلیل بخشهای مختلف سیستمهایOCR

ب – قطعه بندی درونی :

قطعه بندی درونی که منظور از آن ، جداسازی حروف کلمات مخصوصٌا در مورد کلمات سر هم نوشته شده در متون لاتین و
یا رسمالخط های پیوسته نظیر فارسی و عربی است . علیرغم فعالیت های چشمگیر دهه گذشته و تنوع تکنیک های
معرفی شده ، قطعه بندی متون پیوسته ( بخصوص متون دستنویس پیوسته ) به حروف هنوز هم بصورت یک مسئله باقی
مانده است. روشه ای قطعه بندی حروف به سه دسته تقسیم می شوند:

الف‐ قطعه بندی صریح
ب‐ قطعه بندی ضمنی
ج) تکنیک های ادغام شده

53
بازشناسی نوری حروف ( OCR ) تحلیل بخشهای مختلف سیستمهایOCR

الف‐ قطعه بندی صریح

در این روش قطعات بر مبنای خاصیت حرفسان بودنشان (شباهت داشتن به یک حرف) . تشخیص داده می شوند. فرآیند قطعه بندی تصویر به اجزاء بامعنی یک نام خاص دارد : تشریح .
تشریح فرایندی است که یک تصویر را بدون بکارگیری یک کلاس بخصوص از اطلاعات شکلی تحلیل مینماید. معیار سنجش خوب بودن قطعه بندی، هم خوان بودن خواص عمومی قطعات با خصوصیات مورد انتظار برای کاراکترهای معتبر است. تکنیکهای موجود مبتنی بر تشریح یک تصویر عبارتند از :
استفاده از فضاهای خالی و نقاط اوج، آنالیز تصویرنمایی عمودی، آنالیز اجزاءپیوسته و علائم مشخصه . علاوه بر این، میتوان با بکارگیری قراین زبانشناختی، قطعه بندی صریح را در معرض ارزشیابی قرار داد.

54
بازشناسی نوری حروف ( OCR ) تحلیل بخشهای مختلف سیستمهایOCR

ب‐ قطعه بندی ضمنی

این روش قطعه بندی بر پایه بازشناسی است و تصویر سند را برای یافتن اجزایی که با کلاس های از قبل تعریف شدهای مطابقت داشته باشند، مورد جستجو قرار میدهد. قطعه بندی، بر مبنای میزان صحت نحوی یا معنایی نتایج کلی حاصله از بازیابی انجام می گیرد. در این رویکرد، دو ( گروه از روش ها قابل بکارگیری می باشند ) روش هایی که چندین روال جستجو را انجام می دهند و روش هایی که بردار ویژگی تصویر را قطعه بندی مینمایند.
کلاس نخست سعی در قطعه بندی کلمات به حروف یا سایر اجزاء بدون استفاده از الگوریتم های تشریح مبتنی بر ویژگی دارد. به عبارت دقیقتر، در این روش بدون در نظر گرفتن محتوا، تصویر بطور اصولی به قسمتهای همپوشان تقسیم می شود. از دیدگاه مفهومی، این دسته روش ها از تکنیک هایی که برای بازشناسی کلمات چاپی توسعه داده شده اند، نشات می گیرند.

55
بازشناسی نوری حروف ( OCR ) تحلیل بخشهای مختلف سیستمهایOCR

ب‐ قطعه بندی ضمنی ( ادامه .. )

کلاس دوم از روش های قطعه بندی ضمنی، تصویر را با کلاسه بندی زیرمجموعه هایی از ویژگی های مکانی (استخراج شده از کل تصویر) بطور ضمنی قطعه بندی می نماید. این خانواده از روش های مبتنی بر بازشناسی، از تکنیک های ملایم سازی احتمالاتی، مفهوم نقاط منتظم و نقاط تکین، و تطابق بازگشتی استفاده می نمایند.
ج – تکنیکهای ادغام شده
این تکنیک ها، روش های قطعه بندی صریح و ضمنی را در هم میآمیزند. یک الگوریتم تشریح با هدف قطعه بندی اضافی به تصویر اعمال می شود , بدین معنی که تصویر آنقدر به نواحی مختلف برش داده می شود تا اطمینان حاصل گردد که مرزهای قطعه بندی صحیح نیز در میان قطعات ایجاد شده موجود می باشند. پس از حصول اطمینان، قطعات ایجاد شده توسط تکنیک های کلاسه بندی مورد ارزیابی قرار می گیرند تا از میان آنها قطعه بندی بهینه استخراج گردد.

تعداد صفحات : 55 | فرمت فایل : Powerpoint

بلافاصله بعد از پرداخت لینک دانلود فعال می شود