برچسب گذاری اجزای کلام زبان فارسی
اردیبهشت 92
یادآوری
هدف
/PRPمن /JDترجیح /VBمیدهم /TOتا /INدر /DTیک /NNکتابخانه /JJدانشگاهی /JDمطالعه /VBکنم
روشها
ارزیابی
2
فهرست مطالب
3
مشکلات برچسب گذاری
ساختواژه فارسی و کلمات
وندها مانند نشانه جمع، ضمایر ملکی، کسره اضافه و …
کتابــهــایـــم
ساختواژه افعال
ابهام در ساختواژه
مردی: نکره ، شناسه دوم شخص
تشخیص کران کلمات
«کتابها»، «کتاب ها»، «کتاب ها»
4
تحلیلگر ساختواژی
ابهام زدایی از هم نگاره
تشخیص برچسب کلمه ناشناخته
برچسب گذاری
مدلی از پیاده سازی
5
کارهای انجام شده
اولین کار برای برچسب گذاری زبان فارسی
آسی و حاجی عبدالحسینی 2000
Megerdoomian 2004
Raja et al 2007
ارومچیان 2006 و 2007
(مرادزاده، 1383 )
(بی جن خان و مرادزاده، 1383 )
6
پیکره متنی زبان فارسی
چند نمونه پیکره
پیکره موازی زبان فارسی
همشهری
پیکره بی جن خان*
2.6 میلیون تگ دستی
4300 موضوع: حقوقی، سیاسی، حسابداری، اقتصادی و …
76706 واژه
7
برچسب های پیکره
دو نسخه
حدود 500 تا 600 برچسب
برچسبها در سه دسته
1 برچسب های نحوی –ساختواژی
اسم، فعل، صفت، قید، حرف ربط، حرف اضافه، حرف
2 برچسب های خاص
ادات شرط، کیفیت نما، کلمه پرسشی، جمله واره، حرف ندا، منادی،
3 برچسب های متفرقه
جداکننده، علامت ریاضی.
8
نمونه برچسبها
9
بخشی از پیکره
10
تحلیلگر ساختواژی
وجود انواع تکواژها در زبانهای خاص مثل فارسی
تکواژهای تصریفی
معمولا برای ساخت کلماتی استفاده می شوند که حامل مفاهیم دستوری در جمله باشند
تکواژهای اشتقاقی
کلمات جدید را می سازند که بار مفهومی خاصی را منتقل می کنند.
تکواژهای ترکیبی
11
تحلیلگر ساختواژی (ادامه)
مشکل
تعداد برچسب های متمایز پیکره زیاد و فراوانی کم
تفسیرهای متفاوت کلمات با بن واژه یکسان
دخترم N,COM,SIM,1
دختر N,COM خوبم ADJ,CMPR,SIM,1
راه حل تکواژهای تصریفی
سیستم برچسب گذاری را به یک تحلیل گر ساختواژی مجهز کرد.
12
تحلیلگر ساختواژی (ادامه)
ابتدا بعضی از برچسبهای خاص را حذف میکنیم
برچسبهای تکواژ تصریفی و تکواژهای منتسب
13
تحلیلگر ساختواژی (ادامه)
حال با توجه به جدول بخش قبل کلمه و برچسب آن هر دو تجزیه می شوند
مثال
کتابها (N,COM,PL)
کتاب + ها (N,COM) + (PL)
انجام برچسب گذاری
14
کلمات ناشناخته
اطلاعات واژگانی راجع به آنها و نیز توزیع احتمالی وجود ندارد
راههای مقابله
15
غلبه بر کلمات ناشناخته
روش ساده: بر چسب با بیشترین وقوع
16
غلبه بر کلمات ناشناخته (ادامه)
توزیع احتمالی کلمات ناشناخته
مقادیر احتمالی توزیع می تواند در برچسب گذارهای آماری به طور مستقیم استفاده شود
روشهای پیدا کردن توزیع:
پیکره دو بخشی
کلمات ناشناخته = کلماتی که در مجموعه آموزش نیستند
نیاز به پیکره بزرگ
کلمات کم تکرار
کلماتی که یک در کل پیکره ظاهر شدند
17
غلبه بر کلمات ناشناخته (ادامه)
توجه به وندها
الگوی نمونه
کلمه بیگانگان= ناشناخته
بیگانه N,COM,SING
بیگانگان N COM PL
استخراج قوانین، امتیاز دهی قوانین و …
18
هم نگاره ها
نوشتاری یکسان و گفتاری متفاوت
علل هم نگارگی در زبان فارسی
عدم بازنمایی واکه های کوتاه در خط فارسی: مرد
عدم تناظر یک به یک میان واج ها و حروف فارسی
19
هم نگاره ها (ادامه)
یکسانی تظاهر واجی و نوشتاری تکواژها:
/ja'vaani/ . یاء نکره: جوانی را دیدم
/javaa'ni/ . یاء اسم ساز: جوانی نعمتی است
/ja'vaani / . یاء شناسه: تو هنوز جوانی
/ javaa'ni / …. یاء نسبت: مشکلات جوانی
رابطه بین وزن کلمات عربی و بعضی پسوندهای فارسی
منزلت
20
هم نگاره ها (ادامه)
راه حل : لیست تصمیم گیری
جمع آوری و برچسب گذاری مجموعه آموزشی
به دست آوردن توزیع های باهم آیی
کلمات قبل و بعد
محاسبه نرخ درست نمایی
21
هم نگاره ها (ادامه)
مرتب سازی بر اساس نرخ درست نمایی
استفاده از لیست تصمیم گیری
با فرض حضور یک هم نگاره در یک زمینه جدید بالاترین پیشامد
22
سپاس از صبر و توجه شما
23