تارا فایل

پاورپوینت ارائه روشی ترکیبی برای بهبود


به نام خداوند بخشنده و مهربان
1
Amirkabir University of TechnologyComputer Engineering Faculty

ارائه روشی ترکیبی برای بهبود خلاصه سازی متن
Hybrid method to improve text summarization

عناوین مورد بحث
تعریف خلاصه سازی
کاربردهای خلاصه سازی
انواع خلاصه سازی
دیدگاه های موجود در خلاصه سازی
شمای کلی یک سیستم خلاصه سازی
شباهت لغوی در WordNet (استفاده شده در خلاصه سازی برپایه محوریت جمله)
استفاده از WordNet در خلاصه سازی متن برپایه محوریت جمله
روشی جدید برای امتیازدهی جمله در خلاصه سازی متن
مقایسه روش های انجام شده
نتیجه گیری
مراجع
3

تعریف خلاصه سازی
خلاصه سازی متن عبارت است از فرایند تولید عصاره ای از اطلاعات مهم یک منبع یا منابع به منظور تولید نسخه خلاصه شده برای یک کاربر یا کاربران خاص و وظیفه یا وظایفی خاص (Mani 99)
بخش با اهمیت متن
منبع یا منابع
کاربر یا کاربر خاص
وظیفه یا وظایفی خاص
4

کاربردهای خلاصه سازی متن
5
Amirkabir University of TechnologyComputer Engineering Faculty
تولید عناوین و سرمطلب ها
تولید سرفصل مطالب برای دانش آموزان
تهیه صورت جلسه
مرور بر روی کتاب، سی دی و فیلم و …
راهنمای برنامه های تلویزیونی برای ارائه توضیح مختصری از برنامه ها
نوشتن زندگی نامه ها و رزومه و….
بریدن بخش کوتاهی از سخنرانی برای پخش در برنامه های خبری تلویزیونی
شرح وقایع تاریخی به ترتیب زمانی و مختصر

تقسیم بندی خلاصه سازی
6
Amirkabir University of TechnologyComputer Engineering Faculty

استخراجی

خلاصه سازی

انتزاعی

خلاصه اخباری خلاصه آگاهی بخش

خلاصه پرسش گرا خلاصه عمومی

اطلاعات پس زمینه اطلاعات و اخبار جدید
Abstraction
Extraction
Indicative
Informative
Query-based
Generic
Just-the-news
Background

تقسیم بندی خلاصه سازی (مثال برای آگاهی بخش و اخباری)
7
Amirkabir University of TechnologyComputer Engineering Faculty
اخباری
آگاهی بخش

دیدگاه های موجود در خلاصه سازی
8
Amirkabir University of TechnologyComputer Engineering Faculty
دیدگاه ها
زبانشناسی ذهن (Psycholinguistics)
زبانشناسی محاسباتی (Computational linguistic)

الگوها: متودولوژی مورد استفاده مانند آماری، بر پایه قانون، بازیابی اطلاعات، روش های مختلف هوش مصنوعی و غیره …

متدها و تکنیک ها: بسامد واژگانی، موقعیت جمله، عمومیت محتوا و …

دیدگاه های محاسباتی
9
Amirkabir University of TechnologyComputer Engineering Faculty
بالا به پایین:
نیاز کاربران: اطلاعات خاص
نیاز سیستم: یک معیار خاص جهت جستجو
(استخراج اطلاعات، دریافت یک درخواست و پیدا کردن بهترین الگو و پرکردن الگوی یافت شده و در نهایت تولید محتوای خلاصه با استفاده از اطلاعات الگو)
پایین به بالا:
نیاز کاربران: هر نوع اطلاعات مهم
نیاز سیستم: یک معیار عمومی برای اولویت دهی به قسمت های مختلف متن
(استفاده از متدهای بازیابی اطلاعات، پیدا کردن عبارت یا عبارات مرتبط از یک یا چندسند)

دیدگاه های محاسباتی (ادامه)
10
Amirkabir University of TechnologyComputer Engineering Faculty

شمای کلی یک سیستم خلاصه سازی
11
Amirkabir University of TechnologyComputer Engineering Faculty

شباهت لغوی در WordNet (استفاده شده در خلاصه سازی برپایه محوریت جمله)
12
Amirkabir University of TechnologyComputer Engineering Faculty

شباهت لغوی در WordNet(2)
13
Amirkabir University of TechnologyComputer Engineering Faculty
محتوای اطلاعاتی (Information Content)
میزان خاص بودن یک مفهوم را در دامنه موضوعی خود نشان می دهد
یک مفهوم با محتوای اطلاعاتی بالا، بسیار خاص می باشد
مفاهیمی با محتوای اطلاعاتی پایین دارای معانی عمومی و کلی و درجه خاص بودن کمتری برخوردارند
مفهومcarving fork به معنی کندن محل انشعاب دارای محتوای اطلاعاتی بالا
مفهوم entity دارای محتوای اطلاعاتی پایینی است.

شباهت لغوی در WordNet (3)
14
Amirkabir University of TechnologyComputer Engineering Faculty
محتوای اطلاعاتی (Information Content)
مثال: در یک پیکره کلمه bank 20 بار ظاهر شده
دو معنی: river bank و financial bank
مسئله شمارش Sense های مختلف
تقسیم بر تعداد sense ها

شباهت لغوی در WordNet (4)
15
Amirkabir University of TechnologyComputer Engineering Faculty
محتوای اطلاعاتی (Information Content)
مثال از محاسبه IC
فرض کنید بخواهیم محتوای اطلاعاتی vehicle را محاسبه کنیم
شمارش به چه معناست؟
تعداد کلمات پیکره 10000

IC(vehicle) = -log(75/10000) = 2.12
IC(caboose) = -log(10/10000) = 3
IC(freight car) = -log(1/10000) = 4
IC(coupe) = -log(14/10000) = 2.85
IC(sedan) = -log(16/10000) = 2.82
IC(taxi) = -log(34/10000) = 2.46

شباهت لغوی در WordNet (5)
16
Amirkabir University of TechnologyComputer Engineering Faculty
Resnik: میزان شباهت دو مفهوم عبارتست از مقدار اطلاعات یا محتوای اطلاعاتی که آن دو مفهوم به اشتراک گذاشته اند
محتوای اطلاعاتی نزدیکترین مفهومی در ساختار سلسله مراتبی که دو مفهوم، در زیر آن قرار گرفته باشند.
نزدیکترین رده بند مشترک
Lowest Common Subsumer (LCS)
Simres(c1, c2)=IC(lcs(c1, c2))

شباهت لغوی در WordNet (6)
17
Amirkabir University of TechnologyComputer Engineering Faculty
Jiang-Conrath :
distjcn(c1, c2)= IC(c1)+ IC(c2)-2*IC(lcs(c1, c2))

Lin:

شباهت لغوی در WordNet (7)
18
Amirkabir University of TechnologyComputer Engineering Faculty
Hirst-St.Onge :
چهار نوع ارتباط
فوق قوی ، قوی ، نسبتا قوی ، ضعیف
روابط موجود در WordNet
افقی، روبه بالا و رو به پایین

شباهت لغوی در WordNet (8)
19
Amirkabir University of TechnologyComputer Engineering Faculty
معیار جدید برای محاسبه IC
مفاهیمی که در این ساختار سلسله مراتبی در عمق بیشتر و دارای مفاهیم هم والد بیشتری هستند دارای محتوای اطلاعاتی بیشتر و در نتیجه دارای مقدار IC بیشتری هستند

شباهت لغوی در WordNet(9)
20
Amirkabir University of TechnologyComputer Engineering Faculty

شباهت لغوی در WordNet (10)
21
Amirkabir University of TechnologyComputer Engineering Faculty

شباهت لغوی در WordNet (11)
22
Amirkabir University of TechnologyComputer Engineering Faculty

شباهت لغوی در WordNet (12)
23
Amirkabir University of TechnologyComputer Engineering Faculty

شباهت لغوی در WordNet (13)
24
Amirkabir University of TechnologyComputer Engineering Faculty

شباهت لغوی در WordNet (14)
25
Amirkabir University of TechnologyComputer Engineering Faculty

شباهت لغوی در WordNet (15)
26
Amirkabir University of TechnologyComputer Engineering Faculty
مقایسه با معیارهای دیگر

استفاده از WordNet در خلاصه سازی متن برپایه گراف شباهت (محوریت جمله)
27
Amirkabir University of TechnologyComputer Engineering Faculty
در خلاصه سازی متن بر پایه نظریه گراف ها، ابتدا برای جملات موجود در متن یک گراف شباهت تشکیل می شود.
در این گراف رئوس نشان دهنده جملات هستند.
وزن یال ها میزان شباهت دو جمله را نشان می دهند.

استفاده از WordNet در خلاصه سازی متن برپایه گراف شباهت (2)
بنابراین اولین و مهمترین مسئله در این روش تعیین معیار شباهت می باشد.
تعریف idf:
مقدار idf برای یک کلمه در مجموعه ای از متون برابر است با:
idf(term)= -log(n/N)
که در آن n برابر است با تعداد متن هایی که term مورد نظر در آنها تکرار شده و N تعداد کل متون را تشکیل می دهد (برای مثال کلمه the که در کلیه متون آمده است دارای مقدار idf صفر می باشد که میزان اهمیتی برای term مورد نظر تلقی می شد)

28
Amirkabir University of TechnologyComputer Engineering Faculty

استفاده از WordNet در خلاصه سازی متن برپایه گراف شباهت (3)
برای نشان دادن شباهت دو جمله ما با استفاده مدل کردن جمله در فضای برداری، برای هر جمله یک بردار در نظر می گیریم
برداری که هر یک از مولفه های آن معادل یک کلمه از کل متون ما می باشد. که طبعا ابعاد بردار بسیار زیاد می باشد.
بردار مربوط به هر جمله برابر است با برداری با ابعاد بردار پیشین و مولفه های آن برابر است با تعداد وقوع کلمه متناظر با آن مولفه در جمله مورد نظر ضرب در مقدار idf آن کلمه.
مثال:

(ac,ad,fg,de,yy,…)
جمله فرضی:
(ac fg yy ac)
بردار متناظر:
(2*10 , 0 , 1*7 , 0 , 1*4)

29
Amirkabir University of TechnologyComputer Engineering Faculty

استفاده از WordNet در خلاصه سازی متن برپایه گراف شباهت (4)
بعد از اینکه یک جمله بصورت بردار مدل شد می توان شباهت دو جمله را از شباهت کسینوسی دو بردار بدست آورد که بصورت اصلاح شده زیر ارائه گردیده است:

که در آن طول بردار یک جمله را به اندازه طول کلمات همان جمله در نظر گرفته (چون مولفه های دیگر صفر بوده که در فرمول اثرگذار نمی باشد)

مثال (نقطه ضعف)
……. Information …..

….. data ……………

30
Amirkabir University of TechnologyComputer Engineering Faculty
WNsim(information,data)=0.95

استفاده از WordNet در خلاصه سازی متن برپایه گراف شباهت (5)
اصلاحی که در فرمول پیشین برای محاسبه شباهت دو جمله صورت گرفته با استفاده از شباهت دو کلمه در WordNet می باشد
متن های ورودی با استفاده از WordNet ، Stem می شوند.
برداری با طول مجموع طول دو جمله تشکیل و بجای محاسبه تعداد تکرار یک کلمه در جمله، میزان شباهت بر پایه WordNet آن کلمه با کلیه کلمات دیگر محاسبه و مجموع به عنوان تعداد تکرار قرار داده می شود.
برای سادگی تنها از اسامی و کلماتی که دارای میزان idf بالاتری از یک حد آستانه است استفاده شده است.

31
Amirkabir University of TechnologyComputer Engineering Faculty

استفاده از WordNet در خلاصه سازی متن برپایه گراف شباهت (6)
32
Amirkabir University of TechnologyComputer Engineering Faculty

روشی جدید برای امتیازدهی جمله در خلاصه سازی متن
در روش Centroid-base ابتدا idf کل کلمات محاسبه و سپس برای تعیین امتیاز یک جمله از مجموع idf کلمات آن جمله به عنوان میزان اهمیت جمله استفاده می شود.
همانطور که قبلا گفتیم اگر n/N را احتمال وقوع یک کلمه بنامیم، کلمه با احتمال وقوع کمتر از اهمیت بیشتری برخوردار است
در روش پیشنهادی ما سعی کردیم از تعمیم این ایده استفاده کنیم:
جمله ای با احتمال وقوع کمتر از اهمیت بیشتری برخوردار است
در حالت عادی اگر تعداد وقوع یک جمله را شمارش کنیم طبعا در کلیه موارد هر جمله فقط در یک متن وقوع می یابد. که مقدار n/N آن برابر 1/N می شود

33
Amirkabir University of TechnologyComputer Engineering Faculty

روشی جدید برای امتیازدهی جمله در خلاصه سازی متن (2)

اگر بی نهایت متن در دامنه مذکور در دسترس بود این روش خوب بود چون حتما وقوع عینا یک جمله ممکن می شد.

بنابراین با استفاده از یک قانون معروف ریاضات این روش را اصلاح می کنیم
34
Amirkabir University of TechnologyComputer Engineering Faculty

روشی جدید برای امتیازدهی جمله در خلاصه سازی متن (3)
تعریف ویژگی
هم وقوعی دوتایی
هم وقوعی سه تایی
هم وقوعی چهارتایی
مثال:
Systematic recovery of data from the memory bank of a computer.

هم وقوعی 2 تایی
(Systematic, recovery)
(Recovery, computer)
(Data, bank)

هم وقوعی دوتایی کلمات یک جمله عبارتست از انتخاب های دوتایی از جمله و بررسی اینکه در چند متن دو کلمه مذکور با هم واقع شده‎اند.
35
Amirkabir University of TechnologyComputer Engineering Faculty
هم وقوعی 3 تایی
(systematic, data, computer)
هم وقوعی 4 تایی
(recovery, memory, bank, computer)

روشی جدید برای امتیازدهی جمله در خلاصه سازی متن (4)
اصل شمول و عدم شمول:
در حالت دوتایی

حالت تعمیم یافته

36
Amirkabir University of TechnologyComputer Engineering Faculty

روشی جدید برای امتیازدهی جمله در خلاصه سازی متن (5)
مثال: فرض کنید در جمله ای سه کلمه memory و data و computer وجود داشته باشد و توزیع آنها در متن ها در نمودار ون زیر آمده باشد

37
Amirkabir University of TechnologyComputer Engineering Faculty

روشی جدید برای امتیازدهی جمله در خلاصه سازی متن (6)
با جابجایی دو طرف رابطه داریم:

بنابراین احتمال وقوع یک جمله، بوسیله رابطه بالا قابل محاسبه می باشد. نکته این است که اگر رابطه را تا انتها ادامه دهیم به احمتمال 1/N خواهیم رسید که مطلوب ما نیست. در نتیجه این فرمول را تا نقطه ای محاسبه و متوقف می کنیم که در واقع گویی بی نهایت جمله در دسترس داریم که در آن جمله مورد نظر ما بصورت قابل ملاحظه ای عینا تکرار گردیده

38
Amirkabir University of TechnologyComputer Engineering Faculty

روشی جدید برای امتیازدهی جمله در خلاصه سازی متن (7)
ساختمان داده استفاده شده با استفاده از یک hashtable می باشد

سرعت بالای دستیابی

هم وقوعی با استفاده از لیست روبری هر کلمه بدست می آید
39
Amirkabir University of TechnologyComputer Engineering Faculty

روشی جدید برای امتیازدهی جمله در خلاصه سازی متن (8)
نقطه اتمام محاسبات با انجام آزمایشات و بررسی کارایی خلاصه سازی هم وقوعی 4 تایی انتخاب گردیده که از لحاظ محاسباتی نیز معقول می باشد.
نمودار دقت خلاصه سازی به جهت انتخاب این نقطه بصورت زیر است:
40
Amirkabir University of TechnologyComputer Engineering Faculty

مقایسه روش های انجام شده
41
Amirkabir University of TechnologyComputer Engineering Faculty
داده های SUMMAC که شامل 187 مقاله در زمینه زبانشناسی
برای ارزیابی از بسته نرم افزاری ROUGE استفاده شده است

نتیجه گیری
تعاریفی در خصوص خلاصه سازی
شباهت لغوی در WordNet
تعریف شباهت لغوی جدید
استفاده از شباهت لغوی تعریف شده در خلاصه سازی برپایه محوریت جمله با استفاده از بازنمایی گرافی
تعریف ویژگی های هم وقوعی از مراتب مختلف
ترکیب این ویژگی ها با استفاده از اصل شمول و عدم شمول
تعریف معیار idf برای جمله
مقایسه روش های ارائه شده و روش های پیشین
42
Amirkabir University of TechnologyComputer Engineering Faculty

مراجع
Mani, I. and M. Maybury. 1999. Advances in Automatic Text Summarization. The MIT Press.
Luhn, H.P. 1958. The Automatic Creation of Literature Abstracts. IBM Journal of Research and Development, 159–165.
Edmundson, H.P. 1968. New Methods in Automatic Extraction. Journal of the ACM 16(2), 264–285.
Kupiec, J., J. Pedersen, and F. Chen. 1995. A Trainable Document Summarizer. In Proceedings of the Eighteentha Annual International ACM Conference on Research and Development in Information Retrieval (SIGIR), 68–73. Seattle, WA.
Mani, I., E. Bloedorn, and B. Gates. 1998. Using Cohesion and Coherence Models for Text Summarization. In Working Notes of the AAAI’98 Spring Symposium on Intelligent Text Summarization, 69–76. Stanford, CA.
Hovy, E. and D. Marcu. 1998. Automated Text summarization Tutorial, COLING/ACL, Institute University of Southern California, CA 90292.
Fellbaum, C. 1998. “WordNet: An Electronic Lexical Database”. MIT Press, Cambridge, USA.
Sebti, A. and A.A. Barfroush. 2008. A new word sense similarity measure in wordnet, International Multiconference on Computer Science and Information Technology, IEEE , Poland. 369-373.
Garside, R. 1987. The CLAWS Tagging System. The Computational Analysis of English: A Corpus-based Approch, London: Longman.
DeRose, S. 1988. Grammatical category disambiguation by statistical optimization. Computational Linguistics, 14:31-39.
Lovins, J.B. 1968. Development of a stemming algorithm. Mechanical Translation and Computational Linguistics 11:22–31.
Porter, M.F. 1980. An algorithm for suffix stripping, Program, Vol. 14 No.3, pp. 130-137.
Baxendale, P.B. 1958. Machine-Made Index for Technical Literature—An Experiment. IBM Journal (October) 354–361.
Kupiec, J., J. Pedersen, and F. Chen. 1995. A Trainable Document Summarizer. In Proceedings of the Eighteenth Annual International ACM Conference on Research and Development in Information Retrieval (SIGIR), 68–73. Seattle, WA.
Teufel, S. and M. Moens. 1997. Sentence Extraction as a Classification Task. In Proceedings of the Workshop on Intelligent Scalable Summarization. ACL/EACL Conference, 58–65. Madrid, Spain.
Lin, C-Y. and E.H. Hovy. 1997. Identifying Topics by Position. In Proceedings of the Applied Natural Language Processing Conference (ANLP-97), 283–290. Washington.
Luhn, H.P. 1958. The Automatic Creation of Literature Abstracts. IBM Journal of Research and Development, 159–165.
Benbrahim, M. and K. Ahmad. 1994. Computer-aided lexical cohesion analysis and text abridgement. Technical Report CS-94-11, School of ECM, University of Surrey.
43
Amirkabir University of TechnologyComputer Engineering Faculty

مراجع
Mitra M., A. Singhal, and C. Buckley. 1997. Automatic Text Summarization by Paragraph Extraction. In Proceedings of the Workshop on Intelligent Scalable Summarization at the ACL/EACL Conference, 39–46. Madrid, Spain.
Barzilay, R. and M. Elhadad. 1997. Using Lexical Chains for Text Summarization. In Proceedings of the Workshop on Intelligent Scalable Text Summarization at the ACL/EACL Conference, 10–17. Madrid, Spain.
Kruengkrai, C., C. Jaruskulchai. 2003. Generic Text Summarization Using Local and Global Properties of Sentences. Web Intelligence. 201-206.
Marcu, D. 1997. The Rhetorical Parsing, Summarization, and Generation of Natural Language Texts. Ph.D. diss. University of Toronto.
Paice, C. 1990. Constructing literature abstracts by computer: techniques and prospects. Information Processing and Management, 26 (1), 171-186.
Arun Kumar, P. , K. Praveen Kumar. T. Someswara Rao, P. Krishna Reddy. 2005. An Improved Approach to Extract Document Summaries Based on Popularity. DNIS 2005: 310-318.
Kiani, A., M.R. Akbarzadeh. 2006. Intelligent Extractive Text Summarization Using Fuzzy Inference Systems, Proceeding of the Second IEEE Conference on Intelligent Engineering, pp.149-153, April 15.
Kiani-B, A. M.R. Akbarzadeh-T. 2006. Automatic Text Summarization Using: Hybrid Fuzzy GA-GP. In Gary G. Yen and Lipo Wang and Piero Bonissone and Simon M. Lucas editors, Proceedings of the 2006 IEEE Congress on Evolutionary Computation, pages 5465-5471, Vancouver.
Lin, CY. 1999. Training a Selection Function for Extraction. In the 8th International Conference on Information and Knowledge Management (CIKM 99), Kansa City, Missouri.
Saggion H., D. Radev, S. Teufel, and W. Lam. 2002. Meta-Evaluation of Summaries in a Cross-Lingual Environment Using Content-Based Metrics. In Proceedings of COLING-2002, Taipei,Taiwan.
Papineni, K., S. Roukos, T. Ward, and W.-J. Zhu. 2001. BLEU: a Method for Automatic Evaluation of Machine Translation. IBM Research Report RC22176 (W0109-022).
Lin, C.Y. and E.H. Hovy. 2003. Automatic Evaluation of Summaries Using N-gram Co-occurrence Statistics. In Proceedings of 2003 Language Technology Conference (HLT-NAACL 2003), Edmonton.
Radev, D.R., H. Jing, and M. Budzikowska. 2000. Centroid-based summarization of multiple documents: sentence extraction, utility-based evaluation, and user studies. In ANLP/NAACL Workshop on Summarization Seattle, WA.
Page, L., S. Brin, R. Motwani, and T. Winograd. 1998. The pagerank citation ranking: Bringing order to the web. Technical report, Stanford University, Stanford, CA.
44
Amirkabir University of TechnologyComputer Engineering Faculty

مراجع
Brin, S., L. Page. 1998. The anatomy of a large-scale hypertextual Web search engine. Computer Networks and ISDN Systems, 30(1–7), 107–117.
Erkan, G., D.R. Radev. 2004. LexRank: Graph-based Centrality as Salience in Text Summarization, Journal of Artificial Intelligence Research 22.
Resnik, P. 1999. Semantic Similarity in a Taxonomy: An Information-Based Measure and Its Application to Problems of Ambiguity in Natural Language. J. Artificial Intelligence Research, vol. 11, pp. 95-130.
Buckley, C., J. Salton, J. Allen and A. Singhal. 1995. Automatic query expansion using Smart: TREC 3. In The third Text Retrieval Conference, Gaithersburg, MD.
Vechtomova, O. and S. Robertson. 2000. Integration of collocation statistics into the probabilistic retrieval model. In 22nd Annual Colloquium on Information Retrieval Research, Cambridge, England.
Xu, J., and B. Croft. 2000. Improving the effectiveness of information retrieval. ACM Transactions on Information Systems, 18(1):79-112.
Budanitsky, A. and G. Hirst. 2001. Semantic Distance in WordNet: An Experimental, Application-Oriented Evaluation of Five Measures. Proc. Workshop WordNet and Other Lexical Resources, Second Meeting North Am. Chapter Assoc. for Computational Linguistics.
Kozima, H. 1994. Computing Lexical Cohesion as a Tool for Text Analysis. doctoral thesis, Computer Science and Information Math, Graduate School of Electro-Comm., Univ. of Electro-Comm.
Srihari, R.K., Z.F. Zhang, and A.B. Rao. 2000. Intelligent Indexing and Semantic Retrieval of Multimodal Documents. Information Retrieval, vol. 2, pp. 245-275.
Hindle, D. 1990. Noun Classification from Predicate-Argument Structures. Proceedings of the 28th Annual Meeting of the Association for Computational Linguistics, ACL28’90, 268-275.
Grefenstette, G. 1992. Use of Syntactic Context to Produce Term Association Lists for Text Retrieval. Proceedings of the 15th Annual International Conference on Research and Development in Information Retrieval, SIGIR’92.
Lesk, M. 1986. Automatic sense disambiguation using machine readable dictionaries: How to tell a pine cone from an ice cream cone. In Proceedings of the SIGDOC Conference, Toronto, 1986.
Banerjee, S. and T. Pedersen. 2003. Extended gloss overlaps as a measure of semantic relatedness. In Proceedings of the Eighteenth International Joint Conference on Artificial Intelligence, pages 805–810, Acapulco, Mexico.
Quilian, M.R. 1968 Semantic memory. Semantic Information Processing. pages 216–270.
Wu, Z. and M. Palmer. 1994. Verb semantics and lexical selection. In 32nd. Annual Meeting of the Association for Computational Linguistics. pages 133 –138, New Mexico State University, Las Cruces, New Mexico.
45
Amirkabir University of TechnologyComputer Engineering Faculty

مراجع
Leacock, C. and M. Chodorow. 1998. Combining local context and WordNet similarity for word sense identification. In Fellbaum, pp. 265–283.
Resnik, P. 1995. Using information content to evaluate semantic similarity. In Proceedings of the 14th International Joint Conference on Artificial Intelligence, pages 448–453, Montreal.
Jiang, J. and D. Conrath. 1997. Semantic similarity based on corpus statistics and lexical taxonomy. In Proceedings of International Conference on Research in Computational Linguistics, Taiwan.
Lin, D. 1998. An information-theoretic definition of similarity. In Proceedings of the 15th International Conference on Machine Learning,Madison, WI.
Hirst, G. and D. St-Onge. 1998. Lexical chains as representations of context for the detection and correction of malapropisms. In Fellbaum, pp. 305–332.
Resnik P. 1998. WordNet and class-based probabilities. In C. Fellbaum, editor, Word-Net: An electronic lexical database, pages 239-263. MIT Press.
Miller, G. and W. Charles. 1991. Contextual correlates of semantic Similarity. Language and Cognitive Processes, 1–28.
wn-similarity.sourceforge.net
www.nltk.org
opennlp.sourceforge.net
46
Amirkabir University of TechnologyComputer Engineering Faculty

پایان
47
Amirkabir University of TechnologyComputer Engineering Faculty


تعداد صفحات : 47 | فرمت فایل : .ppt

بلافاصله بعد از پرداخت لینک دانلود فعال می شود