عنوان درس :
استاد مربوطه :
دانشجو :
عنوان مقاله
بررسی روش های پردازش زبان طبیعی در خلاصه سازی متن
چکیده
امروزه افزایش بیش از پیش حجم اطلاعات موجود در وب باعث پیچیده شدن دسترسی به داده ها شده است. یکی از راه حل های کاهش این پیچیدگی استفاده از الگوریتم های خلاصه سازی و طبقه بندی اطلاعات می باشد. بطور کلی خلاصه سازی متن عبارت است از خلاصه سازی متن اصلی به شکل کوتاهتر با حفظ محتوای اطلاعاتی و مفهوم کلی آن. از آنجا که انجام این امر بصورت دستی امری غیر ممکن می باشد، لزوم ایجاد الگوریتم های دسته بندی خودکار بسیار نمایان می باشد. در این تحقیق به روش های خلاصه سازی متن که می توانند به خلاصه سازی استخراجی و چکیده طبقه بندی شوند اشاره شده است. همچنین در این مقاله به بررسی چالش های پیشرو در خلاصه سازی خودکار شامل انتخاب جملات مهم ، پاراگراف های مهم و غیره از اسناد اصلی و الحاق آنها در شکل کوتاهتر پرداخته می شود. اهمیت جملات مبتنی بر شکل های آماری و زبان شناسی جملات تصمیم گیری می شود.
یک روش خلاصه سازی چکیده شامل درکی از متن اصلی و ذکر چکیده آن در چند کلمه است که از روش های زبان شناسی برای آزمایش و تفسیر متن و سپس یافتن مفاهیم جدید و اصطلاحات جدید برای توصیف بهتر آن با ایجاد متن جدید کوتاهتر استفاده می کند که مهم ترین اطلاعات را از سند متن اصلی نقل می کند.
بزرگترین ایراد برای خلاصه سازی متن خلاصه سازی محتوا از یک سری منابع متنی و نیمه سازماندهی شده است که شامل مبنای داده ها و متون وب در روش صحیح است. نرم افزار خلاصه سازی متن باید خلاصه موثر را در زمان کمتر و با کمترین فراوانی فراهم کند.
مقدمه
یکی از شاخه های مرتبط به خلاصه سازی متون، متن کاوی است که به معنای کشف اطلاعات جدید به وسیله استخراج اطلاعات به صورت اتوماتیک و بر اساس منابع مختلف می باشد. در متن کاوی تعداد زیادی متن تحلیل شده و الگوهای با ارزشی که در متن مخفی است یافته می شود. بخش متن کاوی در سالهای اخیر شامل کشف ارتباط بین کلمات، طبقه بندی اسناد و خلاصه سازی شده است که در این مقاله به مقوله خلاصه سازی پرداخته می شود ، خلاصه سازی یکی از کاربردهای پردازش متن است.
فرآیند جمع آوری و کوتاه کردن یک یا چند سند توسط ماشین، به طوری که مفاهیم و نکات اصلی آنها حفظ شود، خلاصه سازی نام دارد.خلاصه سازی را می توان یک فرآیند تصمیم گیری در نظر گرفت زیرا ارزش جملات بر اساس یک سری معیار سنجیده می شود و باید تعدادی از جملات انتخاب شوند. متن خلاصه شده باید مختصر، روان، پیوسته، آموزنده، خوانا و حاوی نکات اصلی اسناد و همچنین فاقد ایرادهای دستور زبانی، حشو و… باشد. خلاصه سازی خودکار متون بخشی از دانش یادگیری ماشین و پردازش زبان طبیعی است و ایده اصلی آن یافتن زیر مجموعه ایی از داده هایی است که اطلاعات کلی را در بر دارند. این علم در پردازش زبان طبیعی بسیار محبوب می باشد، زیرا از قابلیت های آن می توان در سیستم های پرسش و پاسخ، موتورهای توصیه شخصی، خلاصه سازی محتوای صفحات وب استفاده کرد. هدف تمامی سیستم های خلاصه ساز خودکار گردآوری خلاصه ایی از اطلاعات مطابق با نیاز کاربر می باشد، به طوری که خلاصه تولیدی از نظر کیفیت به خلاصه های انسانی شبیه باشد.
نرخ تولید اطلاعات بر روی شبکه گسترده وب به صورت روز افزون در حال افزایش می باشد بنا به گفته مرکز صنعت اطلاعات جهانی، هر ساله 30 درصد به حجم اطلاعات وب اضافه می گردد. افزایش روز افزون منابع اطلاعاتی در بستر اینترنت، جستجو و یافتن اطلاعات مورد نیاز را مشکل کرده است. از طرفی مشکل محققان در عصر حاضر دسترسی دقیق به اطلاعات مورد نیازشان در کوتاه ترین زمان ممکن از میان حجم انبوهی از اطلاعات سطح وب می باشد.
رشد اطلاعات و محدودیت زمان باعث شده تا خلاصه سازی متن برای محققان به یک موضوع جذاب تبدیل شود. برای حل این سری مشکلات به سراغ خلاصه سازها می رویم. ولی خلاصه سازی اسناد بزرگ توسط انسان امری دشوار و به شدت زمان بر می باشد. پس برای خلاصه سازی به سراغ روش های ماشینی و خودکار می رویم که سرعت کار را چند برابر کرده و در زمان کمی انجام می شود. سپس وقتی خلاصه سازهای ماشینی و خودکار به خوبی راه اندازی شدند کاربر می تواند خلاصه ایی از مطالب مهم را در اختیار داشته باشد. این موضوع باعث کاهش زمان خواندن متن توسط او می شود. در واقع مشکل یافتن منابع اطلاعاتی در مورد یک موضوع خاص از میان انبوه اطلاعات موجود در وب و همچنین گزینش مطالب مهم از میان این منابع توسط سیستم خلاصه سازی خودکار قابل حل است.
عملیات خلاصه سازی از جنبه های مختلف قابل بررسی است اما نمی توان دسته بندی دقیقی برای آن تعریف کرد. برای پیشبرد بحث خلاصه سازها را از زوایای مختلف بررسی می کنیم.
ابتدا به سراغ داده های ورودی رفته و پنج ویژگی برای داده های ورودی تعریف می کنیم :
تعداد اسناد ورودی :
براساس نوع منبع ورودی عملیات خلاصه سازی می تواند بر روی یک یا چند سند صورت گیرد. خلاصه سازی تک سندی بر روی یک سند و خلاصه سازی چند سندی بر روی چند سند انجام می شود. برای مثال اگر یک خبر ورزشی را خلاصه کنیم پس خلاصه سازی تک سندی انجام داده ایم ولی اگر 5 خبر ورزشی را به عنوان ورودی دریافت کرده و همه آنها را باهم خلاصه سازی کنیم پس خلاصه سازی چند سندی انجام داده ایم.
در خلاصه سازی چندسندی با چالش های بیشتری رو به رو هستیم. یکی از این چالش ها هم پوشانی اطلاعات داخل اسناد در مورد یک موضوع است به صورتی که ممکن است دو سند ، حاوی یک جمله با موضوع مشابه ولی با ادبیات متفاوت باشند مثل "زیدان سرمربی رئال مادرید شد" و "زیدان دوباره به رئال برگشت". هر دوی این جملات درباره ی یک موضوع صحبت کرده ولی کلمات متفاوتی را به کار برده اند. اگر خلاصه ساز، هر دو این جملات را مهم تشخیص دهد پس دچار افزونگی می شویم. پس خلاصه ساز باید اطلاعات را به صورت کارآمد از این اسناد دریافت و افزونگی های موجود را حذف نماید. چالش دیگر این است که نویسندگان اسناد، افراد مختلفی هستند که ممکن است در مورد یک موضوع نظرات مختلفی داشته باشند پس احتمال وجود مفاهیم ضد و نقیض زیاد است مثل "اشتباهات مکرر داور، باخت دیگری را برای منچستر به همراه داشت" و "داورهای بازی منچستر، سربلند از زمین خارج شدند" که دو دیدگاه متفاوت و متضاد را نسبت به عملکرد داور دارند و چون این دو جمله در دو خبر(سند) متفاوت است پس خلاصه سازی دچار مشکل می شود.
زبان :
ورودی ممکن است شامل یک زبان یا بیشتر باشد در چنین شرایطی خلاصه سازی دچار چالش می شود. آیا باید یک زبان مرجع انتخاب شود و مابقی جملات حذف شوند؟ یا نتیجه ی خلاصه باید ترکیبی از جملات به زبان های مختلف باشد؟ یا در نهایت باید خلاصه به یک زبان مرجع ترجمه شود؟
میزان عمومیت :
اسناد ورودی می توانند از نوع اسناد عمومی بوده و یا در مورد یک موضوع مشخص باشند. خلاصه سازی اسناد با یک موضوع مشخص طبیعتا آسان تر است و کیفیت کار بیشتر می شود. ولی هرچقدر موضوعات عمومی تر باشند درنتیجه دامنه معنایی جملات وسیع تر شده و حفظ یکپارچگی سخت تر می شود. برای مثال اگر صد سند با موضوع گرمایش جهانی داشته باشیم، فرآیند خلاصه سازی آسان تر است نسبت به زمانی که صد سند با موضوع جغرافیا داشته باشیم زیرا جغرافیا شامل طیف وسیعی از موضوعات بوده و اگر از هر موضوع یک جمله انتخاب شود خروجی خلاصه ساز یکپارچه و یک دست نخواهد بود.
اندازه منبع :
طول اسناد می تواند از یک پاراگراف تا یک کتاب کامل را شامل شود. حالت ایده آل برای خلاصه سازی، یکسانی اندازه ی اسناد است زیرا در برخی از روش های خلاصه سازی، اسناد بزرگتر سهم بیشتری را در خروجی نهایی ایفا می کنند که همیشه مناسب نیست.
سبک :
نوع سبک نوشتاری سند در انتخاب روش پردازش متن تاثیر دارد مانند محاوره ای، علمی و خبری. اگر برخی اسناد به زبان عامیانه باشند و برخی رسمی، خلاصه ساز به مشکل بر می خورد زیرا جملات و کلمات هر سبک، انحصاری بوده و در نتیجه مطالعه ی خروجی که هم شامل جملات رسمی و هم جملات عامیانه باشد برای مخاطب خوش آیند نیست.
در ادامه خلاصه سازها را براساس جنبه های دیگر بررسی می کنیم.
ویژگی خلاصه :
خلاصه می تواند اخباری و یا آگاهی دهنده باشد
خلاصه ی خبری فقط سرفصل های اصلی متن را پوشش می دهد و با محتوا کاری ندارد. این نوع خلاصه برای بیان اهداف مشترک مقالات استفاده می شود. مثل فردی که هر روز صبح به سرخط خبرها گوش داده و از کلیات وقایع اتفاق افتاده آگاه می شود.
اما در خلاصه ی آگاهی دهنده، کاربر به جای خواندن متن اصلی، خلاصه آن را می خواند. پس محتویات و جزئیات متن باید در داخل خلاصه قرار گیرد. اگر جزئیات یک سند مثل خبر را به دو دسته جزئیات مهم و جزئیات غیر مهم تقسیم کنیم، کاربر تلاش دارد علاوه بر آگاهی از کلیات وقایع، همچنین از جزئیات مهم آن اتفاق نیز باخبر شود برای مثال کاربر در مواجه با خبر حمله به یک پایگاه نظامی، نسبت به تعداد تلفات کنجکاو می شود ولی نسبت به این موضوع که سلاح به کار برده شده ساخت کدام کشور بوده احتمالا کنجکاوی کمتری کند. پس تعداد تلفات، از جزئیات مهم بوده و کشور سازنده سلاح جز اطلاعات کم اهمیت است.
پردازش متن شامل چهار سطح است :
پردازش لغوی
پردازش ساختواژی
پردازش نحوی
پردازش معنایی
هر یک از کاربردهای فراوان پردازش متن، از جمله بازیابی اطلاعات، خلاصه سازی، درک، تولید، ترجمه، پرسش و پاسخ، استخراج دانش از متون و موارد دیگر با توجه به گستردگی و پیچیدگی، در یک یا چند سطح فوق به انجام میرسد.
خلاصه سازی متن یک وسیله مهم و به موقع برای ارزیابی و تفسیر اطلاعات متن در عصر اطلاعات امروزی با رشد سریع می باشد. برای انسانها بسیار سخت است تا به صورت دستی اسناد بزرگ متن را خلاصه سازی کنند. فراوانی موضوع متن موجود در اینترنت وجود دارد ، به هر حال معمولا اینترنت اطلاعات بیشتری نسبت به حد لازم در اختیار قرار می دهد. از این رو ، مسئله با دو چیز مواجه می شود :
1- جستجو برای اسناد مربوطه از طریق افزایش تعداد اسناد موجود
2- جذب مقدار بیشتر اطلاعات موجود
هدف خلاصه سازی اتوماتیک آن است که مراحلی که توسط فرد انجام می شود ، در خلاصه سازی اتوماتیک انجام شود . بدین صورت که تمام متن خوانده و فهمیده شود و سپس خلاصه تولید شود. فهمیدن متن شامل تشخیص قسمتهای مهم و غیر مهم متن است. مرحله تبدیل متن ورودی به متن خلاصه شامل مشخص کردن کلمات کلیدی، مفهوم اصلی، کلمه های مهم و جمله های مهم می باشد. در این مقاله ابتدا به مزایا و کاربردهای خلاصه سازی پرداخته و پس از آن انواع خلاصه ، چالش های خلاصه سازی بیان می شود و سپس به توصیف خلاصه سازی های نام برده پرداخته و نهایتا نتیجه گیری از این تحقیق آورده شده است.
مزایا و کاربردهای خلاصه سازی
از کابردهای خلاصه سازی می توان به خلاصه سازی اتوماتیک اخبار و ارسال آنها از طریق پست الکترونیکی با پیامک اشاره نمود.از دیگر کاربردهای آن خلاصه سازی تحقیقاتی، تجاری و خلاصه سازی صفحات وب برای آنکه در صفحه موبایل قابل نمایش باشد، است.
خلاصه می تواند در یک روش اخباری به عنوان اشاره گر به بعضی بخش های سند اصلی یا در یک روش آموزنده برای تحت پوشش قرار دادن تمامی اطلاعات مربوطه متن به کار برده شود. در هر دو موارد مهم ترین فایده استفاده از خلاصه سازی ، زمان خواندن کاهش یافته آن است. یک سیستم خلاصه سازی خوب باید موضوعات متنوع سند را در حال حفظ فراوانی آن به حداقل مقدار نشان دهد. ابزار های خلاصه سازی همچنین ممکن است به جستجوی سرفصل ها و شاخص های دیگر موضوعات فرعی به منظور تشخیص لغات کلیدی سند باشند. تابع مایکروسافت Microsoft Word ' s Autosummarize مثال ساده ای از خلاصه سازی متن است. کار اصلی سیستم خلاصه ساز کمک به کاربر برای پیدا کردن اطلاعات مورد نیازش است.
عوامل تاثیرگذار در خلاصه سازی
1- عوامل ورودی؛ که شامل فرم ورودی (طول متن ورودی ، ساختار متن ، زبان متن ، نوع متن) و موضوع متن (عادی ، خاص ، محدود شده ) می باشد
2- عوامل خروجی؛ که شامل عامل محتواء فرمت و شیوه می باشد
3- فاکتورهای هدف؛ که شامل موارد استفاده متن و علت خلاصه سازی که به عوامل شنوندگان، شرایط ونحوه استفاده بستگی دارد
چالش های خلاصه سازی
پیچیدگی درک زبان طبیعی
برای درک زبان طبیعی به اشکال مختلفی از دانش نیاز است که در زیر به آنها اشاره می شود :
1- دانش صوت شناسی؛ ارتباط لغات با اصوات را نشان می دهد
2- دانش مورفولوژی ؛ روش ساخت عبارات متنوع و مختلف از روی ریشه کلمات را بیان می دارد
3- دانش نحوی؛ نحوه ساخت جملات را با استفاده از ترکیب کلمات مختلف نشان میدهد ، دانش ساختاری هر کلمه موجود در جمله را تعیین می نماید
4- دانش معنایی؛ معنی هر لغت چه می باشد و چطور این معانی ترکیب می شوند تا معنی هر جمله تشکیل شود . این دانش، مطالعه معنی جملات را بدون توجه به متن شرح می دهد
5- دانش عملی؛ جملات چگونه در شرایط مختلف استفاده می شوند و هر نوع استفاده از جمله چه تاثیری در تفسیر جمله دارد
عدم موفقیت در درک متن
مسائل عمده در عدم موفقیت در درک متن به قرار زیر می باشد :
1- عدم موفقیت در تعریف
2- عدم موفقیت در پیاده سازی توسط قوانین
3- تجزیه درست متن به جملات
4- نفود و تاثیر زمینه متن
5- ابهام
انواع خلاصه
خلاصه چکیده
یک خلاصه سازی چکیده سعی می کند تا درکی از مفاهیم اصلی را در یک سند توسعه دهد و سپس این مفاهیم را در زبان طبیعی واضح بیان کند. این روش از روشهای وابسته به زبان شناسی برای آزمایش و تفسیر متن و سپس یافتن مفاهیم جدید و اصطلاحات برای توصیف بهتر آن با ایجاد متن کوتاه تر جدید استفاده می کند که مهم ترین اطلاعات را از متن اصلی سند نقل می کند. این متن بر روی روش های خلاصه سازی استخراجی متن تمرکز می کند.
خلاصه استخراجی
روش خلاصه سازی استخراجی شامل انتخاب جملات و پاراگراف های مهم از سند اصلی و الحاق آن ها در شکل کوتاه تر است. اهمیت جملات ، مبتنی بر شکلهای آماری و زبان شناسی جملات تصمیم گیری می شود. خلاصه های استخراجی با استخراج بخش های کلیدی متن (جملات یا عبارات منتخبه) از متن فرمول بندی می شوند ، که مبتنی بر تحلیل آماری شکل های انفرادی یا سطحی مختلط از جمله تکرار کلمه / عبارات ، محل یا عبارات راهنما برای تعیین جملات برای استخراج هستند . مهم ترین محتوا به صورت بسیار مکرر یا مساعدترین موقعیت به کار برده می شوند. چنین روشی از این رو از هر تلاشی در یک متن عمیق اجتناب می کند. متن آنها از لحاظ مفهوم ساده و برای استفاده آسان هستند.
پیش پردازش متن
مرحله پیش پردازش معمولا با ارائه متن اصلی سازماندهی می شود و شامل شناسایی مرز جملات ، حذف جملات بی معنی و بدست آوردن ریشه هر کلمه می باشد.
در مرحله پردازش شکل های تاثیرگذار بر رابطه جملات تصمیم گیری و محاسبه می شوند، سپس ارزشها به این شکل ها با استفاده از روش یادگیری ارزش تعیین می شوند. نمره نهایی هر جمله با استفاده از معادله شکل- وزن تعیین می شود ، و در نهایت جملات درجه بندی شده برای خلاصه نهایی انتخاب می شوند.
مشکلات مرتبط با خلاصه استخراجی
1- جملات استخراج شده معمولا طویل تر از حد میانگین هستند
2- اطلاعات مهم یا مربوطه معمولا در سرتاسر جملات گسترش می یابند و خلاصه های چکیده نمی توانند این را بدست آورند
3- اطلاعات ضد و نقیض ممکن است به طور صحیح مطرح نشوند
4- استخراج خالص اغلب به مسائل در پیروی کلی از خلاصه سازی منجر می شود و یک مسئله مکرر تکرار مکرر یک یا چند عبارت آویخته بررسی می شود
مشکلات مرتبط با خلاصه چکیده
بزرگترین ایراد برای خلاصه چکیده مسئله ارائه است. توانایی های سیستمها با افزایش نمایش آنها و توانایی آنها برای ایجاد چنین ساختارهایی محدود می شوند. سیستم ها نمی توانند چیزی را خلاصه کنند که با ارائه آنها درک کنند. در نواحی محدود ممکن است تا ساختارهای مناسب را اختصاصی کنیم ، اما راه حل با هدف کلی وابسته به تحلیل بیانی ناحیه باز است. سیستم هایی که می توانند به طور صحیح زبان طبیعی را درک کنند خارج از قابلیتهای تکنولوژی امروزی هستند.
روش های خلاصه سازی استخراجی
روش تکرار متن با تکرار معکوس اصطلاح (TD-IDF) :
مدلی از کلمات در سطح جمله به وجود می آید که تکرار اصطلاح معمولی و نمونه تکرار جمله معکوس ارزیابی می شود که در آن تکرار جمله یک سری جملات در متن است که محتوی آن اصطلاح است.
روش مبتنی بر خوشه :
متون معمولا طوری نوشته می شوند که موضوعات مختلف را یکی پس از دیگری در روش سازماندهی شده ارزیابی می کنند. آنها معمولا به وضوح یا ضمنی در بخشها تقسیم می شوند. وضعیت را از طریق خوشه بندی ترکیب می کنند. اگر مجموعه متن با تولید خلاصه سازی کاملا موضوع متفاوتی باشد ، خوشه بندی متن برای ایجاد خلاصه با ارزش لازم می شود.
روش فرضی خطی
همان طور که در روشهای قبل مشاهده می شود، مرحله اول موجود در فرآیند خلاصه سازی یک یا چند متن تشخیص مسائل یا موضوعات ارزیابی شده در متن است. نمایش خطی متن روشی از شناسایی این موضوعات را فراهم می کند. بعد از مراحل پیش پردازش ، از جمله حذف کلمه و ریشه بندی ، جملات در متن به صورت بخشهایی در مسیر غیر مستقیم نشان داده می شوند. یک بخش برای هر جمله وجود دارد. دو جمله با یک حاشیه در ارتباط هستند به شرطی که دو جمله همان کلمه رایج را داشته باشند.
روشی برای خلاصه سازی متن با محتوا
ایده این روش به دست آوردن مفاهیم کلمات مبتنی بر HowNeT است و از مفهوم به عنوان شکل به جای کلمه استفاده می کند. این روش از مدل فضای ناقل زمینه برای تشکیل خلاصه سازی دقیق استفاده می کند و سپس درجه تشابه معنی جمله را برای کاهش فراوانی آن محاسبه می کند ، یک سیستم خلاصه خوب باید موضوعات متنوعی را از متن استخراج کند در حالی که فراوانی آن را در حداقل نگه دارد.
این روش شامل سه مرحله اصلی زیر است :
مرحله ۱ ) استفاده ازHowNet به عنوان ابزاری برای بدست آوردن مفهوم متن و تعیین مدل فضای بردار محتوا
مرحله 2 ) محاسبه اهمیت مفهوم مبتنی بر مدل فضای بردار مفهوم
مرحله 3 ) ایجاد خلاصه نهایی با محاسبه اهمیت جمله و کاهش فراوانی خلاصه سازی
شکل هایی برای خلاصه سازی متن استخراجی
بعضی شکل ها برای بررسی در خلاصه سازی نهایی به صورت زیر هستند :
روش استخراج کلید واژه
این شکل ها مهم هستند ، چون یک سری از روش های خلاصه سازی متن از آنها استفاده می کنند و این شکلها ویژگی های آماری و زبان شناسی زبان را تحت پوشش قرار می دهند.
خلاصه سازی استخراجی چند متنی
خلاصه سازی استخراجی چند متن با استخراج اطلاعات خلاصه شده از چند متن نوشته شده در بالای همان موضوع سرو کار دارد. گزارش خلاصه ناشی به مصرف کنندگان انفرادی اجازه می دهد تا به سرعت خودشان را با اطلاعات موجود در خوشه بزرگی از متون آشنا کنند. خلاصه سازی چند متن گزارشی از اطلاعات ایجاد می کند که هر دو آگاهانه و جامع هستند. هر موضوع و طرح ارائه شده با عقاید مختلف در یکجا از جنبه های متعدد در متن انفرادی توصیف می شود.
سیستم های خلاصه ساز
سیستم خلاصه ساز FARSISUM
Farsisum یک خلاصه ساز مبتنی بر وب است که Swesum را برای زبان فارسی مدل می کند. این سیستم قادر به خلاصه کردن متن روزنامه های فارسی با قالب HTML و متن کد شده با فرمت یونیکد می باشد.
این سیستم تحت ویندوز و به زبان PERL نوشته شده است.
از ساختاری مشابه Swesum استفاده می کند با این تفاوت که چند ماژول آن برای کار با محتوای یونیکد و رمزگذاری UTF_8 تغییر داده شده است.
نتیجه گیری
این متن تحقیقی بر روی روشهای خلاصه سازی استخراجی تمرکز می کند. خلاصه استخراجی ، انتخاب جملات مهم از متن اصلی است. اهمیت جملات ، مبتنی بر شکل های آماری و زبانی تصمیم گیری می شود. بیشترین تغییرات روش استخراجی در ده سال آخر انجام شده اند. به هر حال، سخت است تا بگوییم چگونه تعریف تفسیری بیشتری در سطح جمله یا در عملکرد متن نقش دارد.
بدون استفاده از NLP ، خلاصه به وجود آمده ممکن است از کمبود پیوستگی و معنا رنج ببرد. اگر متن ها محتوی موضوعات متعدد باشد ، خلاصه به وجود آمده ممکن است تعدیل شود. تصمیم گیری بر وزن های صحیح شکل های انفرادی به عنوان کیفیت خلاصه نهایی وابسته به آن مهم است. ما باید زمان بیشتری را در تصمیم گیری وزن های مرتبط با شکل اختصاص دهیم. بزرگترین ایراد برای خلاصه سازی متن خلاصه سازی محتوا از یک سری منابع متنی و نیمه سازماندهی شده است که شامل مبنای داده ها و متون وب در روش صحیح است. نرم افزار خلاصه سازی متن باید خلاصه موثر را در زمان کمتر و با کمترین فراوانی فراهم کند ، در حالیکه روشهای ذاتی سعی می کنند تا کیفیت خلاصه را با استفاده از ارزیابی انسانی و روشهای خارجی از طریق معیار عملکرد مبتنی بر کار از جمله کار در جهت کسب اطلاعات بسنجد.
منابع :
[1] Visser W.T., Wieling M.B., "Sentence- Based Summarization of Scientific Documents", M.S. Project, University of Groningen. 2004.
[2] Karel Jezek and Josef Steinberger, "Automatic Text summarization", Vaclav Snasel (Ed.): Znalosti 2008, pp.1- 12, ISBN 978-80-227-2827-0, FIIT STU Brarislava, Ustav Informatiky a softveroveho inzinierstva, 2008.
[3] D. Miller, “WordNet: An On-Line Lexical Database," International Journal of Lexicography, vol. 3, 1990.
[4] K. Spark-Jones, “Automatic Summarizing: Factors and Direction," 1999.
[5] G Erkan and Dragomir R. Radev, “LexRank: Graph-based Centrality as Salience in Text Summarization”, Journal of Artificial Intelligence Research, Re-search, Vol. 22, pp. 457-479 2004.
[6] Farshad Kyoomarsi, Hamid Khosravi, Esfandiar Eslami and Pooya Khosravyan Dehkordy, “Optimizing Text Summarization Based on Fuzzy Logic”, In proceedings of Seventh IEEE/ACIS International Conference on Computer and Information Science, IEEE, University of Shahid Bahonar Kerman, UK, 347-352, 2008.
[7] Jimmy Lin., “Summarization.", Encyclopedia of Database Systems. Heidelberg, Germany: Springer Verlag, 2009.
[8] Joel larocca Neto, Alex A. Freitas and Celso A.A.Kaestner, "Automatic Text Summarization using a Machine Learning Approach”, Book: Advances in Artificial Intelligence: Lecture Notes in computer science, Springer Berlin / Heidelberg, Vol 2507/2002, 205-215, 2002.
[9] Meng Wang, Xiaorong Wang and Chao Xu, "An Approach to Concept Oriented Text Summarization", I Proceedings of ISCIT’05, IEEE international conference, China, 1290-1293, 2005.
[10] Azadeh Zamanifar, Behrouz minaei-Bidgoli and Mohsen Sharifi," A New Hybrid Farsi Text Summarization Technique Based on Term Co Occurrence and Conceptual Property of Text ", In Proceedings of Ninth ACIS International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel/
با تشکر از توجه شما
بهار 1400