واژگان بیرون از واژه نامه
مقدمه
واژگان بیرون از واژه نامه
تشخیص واژگان بیرون از واژه نامه
استفاده از معیار اطمینان
مدل های افزوده
مدل آشغال عمومی
مدل آشغال حاوی ریزواژه
مدل مکمل
کلمات خارج از واژگان
سیستم های بازشناسی محدود به انتخاب واژه از داخل واژه نامه خود هستند
سیستم به هنگام برخورد با یک واژه خارج از واژه نامه به اشتباه یکی از کلمات داخل واژه نامه را تشخیص می دهد
کلمات خارج از واژگان بیشتر نام های خاص هستند و تشخیص درست آنها بسیار کلیدی است
کلمات خارج از واژگان عامل مهمی در افزایش خطا در سیستم های بازشناسی گفتار هستند
تشخیص نادرست یک واژه باعث انتقال خطا به واژگان بعدی خود می شوند
راه حل ابتدایی
اگر تابع احتمال روبرو از
یک آستانه کمتر بود واژه
خارج از واژه نامه است
در تئوری خوب به نظر می رسد
در عمل با مشکلات فراوانی همراه است
حذف مخرج نرمال سار در رابطه بیز و ساده سازی های فراوان باعث کاهش دقت و عدم کارایی می شود
معیار اطمینان
”معیار اطمینان“ عددی است بین 0 و 1 که به خروجی سیستم بازشناسی گفتار تعلق می گیرد و بیان کننده میزان اطمینان سیستم از خروجی است
معیار اطمینان در سطوح مختلف
سطح ادراک
سطح جمله
سطح واژه
سطح واج
تابع ویژگی های مختلف
امتیاز کلی جذب مدل
میانگین حسابی یا هندسی امتیاز واج ها
…
مدل های افزوده
در کاربردهای واقعی هر اندازه که مجموعه واژگان را بزرگ در نظر بگیریم وقوع کلمات جدید یا ناقص ادا شده و حتی نویزهای غیر گفتار اجتناب ناپذیر است
یکی از راههای مواجه با این مشکل افزودن مدل یا مدل هایی به مجموعه مدل های سیستم است که برای شناسایی کلمات خارج از واژه نامه به کار میروند
کلمات داخل واژه نامه توسط مدل های اصلی سیستم بازشناسی می شوند و کلمات خارج از واژه نامه توسط مدلهای افزوده شده به سیستم جذب می گردند
مدل های افزوده
کلمات داخل واژه نامه توسط مدل های پایینی شناسایی می شوند
کلمات بیرون از واژه نامه توسط مدل های اضافه شده شناسایی می شوند
مدل آشغال (پر کننده)
این مدلها به شیوه ای خاص طراحی می شوند و آموزش می بینند که بتوانند به ازای هر کلمه جدید امتیاز بیشتری نسبت به مدلهای اصلی سیستم تولید نمایند
در حالت کلی به دو دسته تقسیم می شوند
مدل آشغال عمومی
مدل آشغال حاوی ریزواژه ها
مدل آشغال عمومی
در این مدل از یک HMM استفاده می شود
سیگنال گفتاری که حاوی کلمات شناخته شده برای سیستم بازشناسی گفتار نیست برای آموزش این مدل به کار برده می شود
مدل آشغال حاوی ریزواژه ها
در این روش مدل آشغال حاوی شبکه ای از مدل های آموزش دیده برای واحدهای ریزواژه است
با وجود محدود بودن تعداد این واحدها، شبکه قادر به پوشش دادن هر کلمه ورودی جدید خواهد بود
مدل آشغال حاوی ریزواژه ها
سیستم به گونه ای طراحی می شود که دو بخش خارج از واژه نامه و داخل واژه نامه رقیب یکدیگر باشند
تشخیص یک کلمه به عنوان خارج از واژه نامه با جریمه همراه خواهد بود
مدل آشغال حاوی ریزواژه ها
P(A|U)P(U |OOV)P(OOV)
خروجی بخش داخل واژه نامه
خروجی بخش خارج از واژه نامه
هر کدام که مقدار بیشتری داشت به عنوان خروجی سیستم انتخاب می شود
این روش توانایی افزایش بیشمار واژگان به واژه نامه خود را دارد
مدل مکمل
ترکیبی از دو روش قبلی است
انعطاف بالای مدل ریزواژه ها
پیچیدگی محاسباتی مدل عمومی
با ترکیب نزدیک ترین جفت گوسین ها و جایگزاری نتیجه حاصل در مجموعه تعداد گوسین ها در هر مرحله یکی کم می شود
با این روش مدل ریزواژه ها را به مدل عمومی شبیه می کنیم
ادعا شده است با کاهش 99/5% تعداد تلفیق ها دقت در حدود 5% کاهش می یابد
کارهای آتی
تغییر آستانه معیار اطمینان در حین فرایند بازشناسی
استفاده از معیار زبانی در معیار اطمینان
استخراج برخط معیار اطمینان
…
؟