تارا فایل

ساپورت بازاریابی اطلاعات در مورد استفاده و ساخت آنتولوژی


به نام خدا
ساپورت بازیابی اطلاعات در مورد استفاده وساخت آنتولوژی (antology)
چکیده:
بازیابی اطلاعات می تواند به ساخت آنتولوژیها و کاربرد موثر و مفید آنها، کمک کند. ما از استخراج واژه اصلی مبتنی بر ترکیب و تجانس (Collocation)، جهت ارائه مفاهیم جدید، استفاده و در مورد ارائه ارتباط وسیع جهت اتوماتیک سازی جمعیت آنتولوژی با مثال، مطالعه می کنیم. ما، متدهای خود را در تنظیم پروژه کتابخانه دیجیتال، با استفاده از متدولوژی ارزیابی اطلاعات، ارزیابی می کنیم. در یک تنظیم مشابه، در مورد متدهای بازیابی مطالعه می کنیم که ساپورت جهت یابی ارائه شده توسط روابط معنایی و لغوی موجود در اغلب آنتولوژیها را جهت کمک به کاربران در بررسی آنتولوژی تکمیل می کنند.
مقدمه:
متدهای جستجو، جهت یابی و سازماندهی اطلاعات اینترنت رایج امروز، دهه های تحقیق دوره بازیابی اطلاعات را پایه و مبنا قرار می دهند. این متدها مبنی بر قوانین آماری کنترل کننده استفاده انسان از زبان، نه تنها در بازیابی سند و مدرک، بلکه در امورغنی تر به لحاظ معنایی مثل پاسخگویی به پرسش، مورد استفاده قرار می گیرند. یک شکل Semantic Web این است که بسیار شبیه به Web است که ما امروزه می شناسیم و انتظار داریم که اسناد مدارک، سرشار از منافع قابل فهم باشند. این تفسیرها را در مورد اسناد وعبارات قابل توجیهی که در جستجوی معانی مضمون اسناد ومدارک هستند، ارائه خواهند داد. ما توضیح می دهیم که صورتهای صرفی IR چگونه می توانند در این امر، با کمک آرشیتکت های آنتولوژی غیرمعمولی، موثر باشند. تکنیکهای IR می توانند به تعریف، تشخیص و بررسی ثبات و تداوم آنتولوژی کمک کنند. هشت مرحله می توانند در پروسه ایجاد آنتولوژی متمایز شوند.
1- تعیین محدوده آنتولوژی
2- توجه به استفاده مجدد از قسمتهای مربوط به آنتولوژی موجود
3- بر شماری و ذکر کلیه مفاهیمی که می خواهید
4- تعریف و تشخیص تاکونومی این مفاهیم
5- تعریف و تشخیص ویژگیهای مفاهیم
6- تعریف و تشخیص جنبه هایی از مفاهیم مثل اصول و ارزش های مورد نیاز وغیره
7- تعریف و تشخیص نمونه ها
8- بررسی ثبات و تداوم آنتولوژی
ما، از میان این مراحل، مراحل 3 و7 را با تکنیکهای مبتنی بر IR بررسی کرده و معتقدیم که این مراحل می توانند به طور مفیدی با استفاده از تکنولوژی بازیابی قابل دسترس امروزی، انجام شوند. مرحله 4 برای اتوماتیک سازی، مناسب است، در عین حال، مسئله حل شده ای به شمار نمی رود و مرحله 8 در مورد متدهای استدلال سمبولیک به گونه ای که مثلاً در PACER و FACT اجرا می شوند، بهترین گزینه است. تکنیکهای IR ، علاوه بر اینکه جهت کمک به سازندگان آنتولوژی مورد استفاده قرار می گیرند، می توانند در جستجو، مرورگری و ارائه موارد غیرمترقبه نیز به کاربران کمک کنند. مردم تمایل دارند که از Semantic Web شرکتها جهت جستجوی اسناد و مدارک، بلکه جهت جستجوی اطلاعاتی در مورد روابط معنایی خاص، مثلاً در تنظیم کتابخانه های دیجیتال، استفاده کنند. بنابراین، روش هایی را جهت "بازیابی در یک سلسله مراتب مفهومی" ارائه می دهیم، که در آن ها به جستجوی واقعی هماهنگی به نحوییکه توسط اغلب ابزارهای جهت یابی و ویراستارهای آنتولوژی ارائه می شود. ممکن است مناسب و کافی نباشد. پیشرفتهای گذشته، با ایجاد آلگوریتم های بازیابی سند و مدرک مفید امروزی جهت ایجاد و به کارگیری زیرساختار Semantic web، مستقیماً منجر به ایجاد پیشرفتهایی در آینده می شوند. اما دلیل متدولوژیکی بیشتری برای نزدیک تر که من اقدامات Semantic web در IR به هم داریم، جامعه IR بر اهمیت ارزیابی، تاکید کرده است. با ظهور کنفرانس های بازیافت متن (IRC)، ارزیابی آزمایشی امور مربوطه به بازیابی، به پیشرفت چشمگیری رسیده که منجر به پیشرفت سریع در امور ارزیابی شده، شده است. منافع مشابهی با اقدامات ارزیابی مربوط به بازیایب و اقدامات مربوط به امور پردازش زبان غنی تر به لحاظ معنایی، وجود دارند. جامعه Semantic web، از تاکید شدیدتر بر ارزیابی و اموری که می توانند ارزیابی شوند، سود می برد. با خوردن غذای سگ خود، ارزیابی تجربی در مورد کلیه امور مورد بررسی در این مقاله انجام می دهیم.
بخش 2، تنظیمی را بررسی می کند که کلیه امور در آن رخ می دهند. پروژه Language Links و (Lolali )Logic ، به هدف فراهم آوری امکان دستیابی مبتنی بر آنتولوژی به یک کتاب راهنمای الکترونیکی در فصل مشترک و واسط زبانشناسی و منطق. در بخش 3، اتوماتیک سازی مرحله 3 و ارزیابی آنرا، توصیف می کنیم. در بخش 4، در مورد اتوماتیک سازی مرحله 7 و ارزیابی آن، صحبت می کنیم در بخش 5، جستجو در سلسله مراتب مفهوم LaLaLi را ارزیابی می کنیم. در بخش 6، نتیجه گیری می کنیم.
2- LoLaLi:
کارما، و آزمایشات مربوط به آن، در تنظیم پرونده کتابخانه دیجیتال، انجام شدند. پروژه LoLaLi ، متدهایی را جهت گسترش مزمت قدیمی کتابهای راهنمایی علمی با ابزارهای الکترونیکی ، ارائه می دهد. این ابزارها به خوانندگان کمک می کنند که به مضمون و محتوای کتاب راهنما دست یابند و این ابزارها، یافتن اطلاعات مربوطه را آسانتر می سازند.
طبق این مطالعه ، پروژه Handbook of Logic and Language در فصل 20 ص 1200 تمرکز دارد، مانند آزمایشات از منابع Latex استفاده کردیم. پروژه LoLaLi، از سلسله مراتب مهم word net جهت فراهم آوری امکان دستیابی به کتاب راهنما استفاده می کند. سلسله مراتب مفهوم، غالباً جهت جهت یابی از طریق ترکیب ها و تجانس ها اسناد در مدارک، مورد استفاده قرار می گیرند. آنها برای سازماندهی، نمایش دهی و ارائه اطلاعات متعدد،مفید واقع می شوند، و کاربرانی در جستجوی یک hypertext هستند و دارای الگوهای مرورگری سلسله مراتبی هستند، بهتر از کاربران دارای مسیرهای مرورگری متوالی، این کار را انجام می دهند. از اینرو، معماریهای مربوط به کتاب های راهنمای الکترونیکی باید الگوهای سلسله مراتبی را توجیه کننده یک سلسله مراتب مفهومی، روش مناسبی برای انجام این کار باشد. سلسله مراتب مهم LoLaLi با دست و توسط متخصصین این رشته که اخیراً حدود 600 مفهوم را جمع آوری، سازماندهی و مرتبط ساخته اند، ایجاد می شود و یک سرویس دهنده مبتنی بر secame ، اطلاعات سلسله مراتبی را ذخیره می کند که از طریق یک مجموعه از نوشته جات و Protégé هدفمند، ویرایش و به روز رسانی می شود. ما در بخش 3، توضیح می دهیم که تکنیکهای اصلی IR، چگونه می توانند به نویسندگان در تعیین و انتخاب مفاهیمی جهت تحول در سلسله مراتب، کمک کنند.
هر مفهوم در سلسله مراتب LoLaLi، با یک توضیح و تفسیر، حاشیه نویسی می شود که به طور خلاصه، آنرا توصیف می کنند. بعلاوه، مفاهیم دارای توصیفات طولانی تری هستند و آنها هم توسط نویسندگان، ارائه می شوند. سلسله مراتب، از یک مفهوم TOP با چهار شعبه اصلی در زیر آن تشکیل می شود : علم کامپیوتر، ریاضیات، زبانشناسی و فلسفه که توسط روابط زیر موضوع، فوق موضوع (Subtopic-supertopic) ، سازماندهی و تنظیم می شوند. این روابط، تایپ می شوند و تایپها عبارتند از "per-of","is-a" هستند. سلسله مراتب در LoLaLi، بیشتر یک نمودار است یا یک قالب دقیق و واضح شکل 1 . روابط غیرسلسله مراتبی نیز در نظر گرفته شده و به منظور اهداف جهت یابی مورد استفاده قرار می گیرند؛ این روابط مشتمل بر Sibing(همشیره و خواهر)، "معانی دیگر" و "مفاهیم مربوطه" می باشند. مفاهیم موجود در سلسله مراتب LoLaLi نیز به منابع خارجی ارتباط دارند. مورد اصلی در میان این روابطHand book of Logicians lenguage می باشد، مثال های دیگر مشتمل بر روابط با ابزارهای مستقیم (on line) مربوطه می باشند روابط با Handbook ، مفهومی را در سلسله مراتب، به عنوان منبع وبخش های مربوطه موجود در Hand bookرا به عنوان هدف، اتخاذ می کنند. در بخش 4، ما توضیح می دهیم که چگونه تکنیکهای IR به بررسی این امر کمک می کنند.
در حال حاضر ، کابران می توانند به شکل "آسانی"سلسله مراتب دست یابند از نتایج مطالعه یک کاربر، جهت یابی در راستای روابط معنایی فوق اینکه، با تسهیلات جستجوی کامل شده است که کاربران را مجاز می سازد مفاهیم موجود در سلسله مراتب را به شیوه ای اختیاری، بیابند. دربخش 5، ما تکنیکهای اصلی IR را ارزیابی و توصیف
می کنیم.
3- کمک به سازندگان آنتولوژی
طبق پروژه LoLaLi، درزمان ساختن یک آنتولوژی برای یک رشته علمی خاص، آثار ادبی ارزشمندی وجود دارند که محتوا و معانیشان باید تحت پوشش آنتولوژی قرار گیرند. ما در مورد ساپورت IR جهت بررسی سوال زیر، گزارش می دهیم: کدام مفاهیم باید در آنتولوژی قرارگیرند؟ ما به جای اینکه به صورت دستی و غیراتوماتیک به جستجوی آثار ادبی بپردازیم، متدهای شناسائی مفاهیم مورد نظر را از یک متن خاص، با استفاده از استخراج واژه توضیح می دهیم. اسامی مفاهیم، معمولاً عبارات اسمی (noun phrase) هستند. از اینرو، تشخیص عبارات اسمی، احتمالاً اولین مرحله برای تشخیص مفاهیم مورد نظر به شمار می رود. ما دو مورد را در عین به کارگیری تکنیکهای مختلف، متمایز می کنیم: کاندیداهای تک واژه ای و کاندیداهای چندواژه ای.
1-3- مفاهیم یک اسمی
با جهت یافتن اسامی جالب، ابتدا ‍POS را به دنبال متن Hand book اضافه کرده و سپس کلیه اسم ها را انتخاب می کنیم. ما از دو روش برای طبقه بندی آنها استفاده می کنیم. توسط تواتر و تعداد خام و توسط تواتر یا تعدد نسبی، یعنی توسط تعداد وقایع تقسیم بر تعداد وقایع در مجموعه اسناد ومدارک با هدف کلی. لیستهای حاصله، توسط سه ارزیابی، ارزیابی شدند که از آنها در مورد هر اسم در فهرستهای حاصله پرسیده می شد که آیا آنها در فهرست جامعی از نظریات مفید یا مهم که به مبتدیان و متخصصین کمک می کند، قرار دارند یا خیر. در مورد "استاندارد طلائی" ما، یک اسم در صورتی در نظر گرفته می شد که اکثر ارزیاب ها، آنرا وابسته به آن فهرست بدانند.
ما، با این استاندارد طلایی، امتیازات دقیق a(n) را جهت افزایش ارزش های n ، محاسبه کردیم در جدول1، دومین ردیف، فهرست حاصله تنظیم شده توسط تواتر و تعدد خام و سومین فهرست تنظیمی توسط تعدد وتواتر نسبی را نشان می دهد. نمایانگر کننده است که حتی فهرست حاصله تعدد خام از کیفیت بالایی برخوردار بوده ودارای اسم های نامربوط به تعدد و تواتر و تکرار زیاد در راس، می باشد و با احتساب ویژگیهای این حیطه خاص، امتیازات دقیق بسیار بالا می توانند حاصل شوند. در مورد یادآوری چطور؟ گردآوری وت دوین فهرست کاملی از اسم های مفید یا مهم محدوده Hand book، کار مشکلی است، البته اگر غیرممکن نباشد، در عوض، ما تصمیم داریم که با استفاده از یادآوری مفهوم به یادآوری تقریبی بپردازیم(CK): چه تعدادی از مفاهیم تک اسمی در سلسله مراتب LoLaLi را ما شناسایی کرده ایم، و آنها کدام قسمت فهرستهای حاصله قرار دارند؟ از 522 مفهوم در سلسله مراتب مفهومی، 158مفهوم، تک اسمی هستند؛ از اینرو، CR در برابر آن 158 مفهوم ، ارزیابی شد. آلگوریتم استخراج اسم، 77% از مفاهیم تک اسمی موجوددر سلسله مراتب LoLaLi را شناسایی کرد؛ و 70% این مفاهیم در 750 مورد از 1 به بعد قرار دارند. در حالیکه این، امتیاز یادآوری کاملی نیست، سازندگان آنتولوژی ما، به موارد بسیار مهمی در ارائه سلسله مراتب پی برده و به ما می گویند که این موارد غالباً آنها را به تفکر در مورد مفاهیم دیگر و بررسی غیرمستقیم مسئله یادآوری وا می دارند.
2-3- عبارات اسمی چند واژه ای
بیائید به استخراج عبارات اسمی چند واژه ای بپردازیم، ما متد مفیدی را ارائه می دهیم که مبتنی بر ترکیبها و تجانس ها بوده و می تواند به مرحله تقسیم شود. Parsel سطحی متن، 2 ارائه توالی های واژه ای با الگوهای جالب pos-tag برای ارزیابی و بررسی دقیق تر،3/ تصمیم گیری در مورد اینکه هر توالی واژه، یک تجانس یا ترکیب اسمی هست یا خیر. مرحله 1/ با Schmid Tree-Tagger pos-tagger انجام می شود. مرحله 2، با متدی که توسط Katz,Justeson ارائه شده، انجام می شود و از الگوهای pos-tag جدول 2 استفاده می کند. ما متن ضمیمه شده یا اضافه شده را بررسی کرده و هر چیزی را که بایکی از الگوهای pos-tag فهرستی، هماهنگ نیست، کنار می گذاریم. مرحله 3 ، با آزمایش اینکه آیا واژه های موجود در توالی، بیشتر از موقعی ایجاد می شوند که کلیه واژه های موجود در متن به صورت تصادفی، تنظیم شده باشند. طبق نظریه Krenn , Evert که آشکارسازی ترکیبها و تجانس های pp-Verb را بررسی کرده اند، از t-test جهت بررسی مرحله 3 استفاده می کنیم. فرضیه بی اعتبار ما این است که در متن، واژه هایی که توالی را می سازند، کاملاً مستقل از یکدیگر هستند.
زمانیکه از متد چند واژه ای خود در مورد Handbook of logic and lansuage استفاده می کنیم، به نتایج امیدوار کننده ای می رسیم. مثلاً ، 10 ترکیب یا تجانس اسمی با بالاترین امتیازات t در جدول 3 نشان داده می شوند. در واقع، ما چگونه این کار را انجام می دهیم؟ مثل عبارات تک اسمی، ما از یادآوری مفهوم (CR) و دقت (P) جهت پاسخگویی به این سوال، استفاده می کنیم از 522 مفهوم موجود در این شکل سلسله مراتب مفهومی مورد استفاده، 364 مفهوم، چند واژه ای هستند؛ از اینرو، CR در برابر آن 364 مفهووم، ارزیابی شد. آلگوریتم ما با کار در مورد Hand book،3896 ترکیب و تجانس را ارائه داد، 99 مورد، مفاهیم مربوط به سلسله مراتب هستند. مثلا، با 28% از مفاهیم چند واژه ای را یافتیم؛ 73% آنها در 750 هستند. با توجه به P، ما از سه ارزیاب جهت ارزیابی مفاهیم کاندیدای مورد نظر، استفاده کردیم. جدول 3، نمونه ای از نتایج را بهمراه ارزیابی های انسانی، ارائه می دهد. جدول 4، دارای امتیازات دقت حاصله در درجات مختلف می باشد؛ دقت با حرکت به سمت پائین فهرست، کاهش می یابد.
در حالیکه وقت در سطح قابل قبولی است، یادآوری مفهووم، در حد مطلوبی باقی ماند. چند راه برای افزایش یادآوری وجود دارد: توسعه الگوهای استخراج بیشتر، واضح سازی کمتر الگوها، یا افزایش اطلاعات و داده هایی که بر روی آنها کار می شود. ممکن است در بین گزینه به دقت لطمه بزند، و اولین گزینه الگوهای بسیار خاصی را ایجاد کرده و هیچ تفاوتی در دوره های یادآوری مفهوم ایجاد نکند. به سومین گزینه می پردازیم. عبارت اسمی جالب بسیاری، تنها در اhand book ایجاد می شوند؟ زمانیکه متد تشخیص ما، از طریق افزونگی عمل می کند، تا در به یافتن آن واژه ها نخواهیم برد.
جهت ایجاد یک مجموعه اطلاعاتی وسیع تر باید به شرح زیر عمل کنیم. هر یک از 522 مفهوم موجود در سلسله مراتب LoLaLi به موتور تحقیق وب دارد شدند.که در عین حال، خروجی فایل های PDF را محدود کردند. 20 نتیجه بالایی، حفظ شدند؛ متن، با استفاده از pstotext، استخراج شد و MB385 از متن قابل استفاده ایجاد کرد. ما 475/206 ترکیب و تجانس را استخراج کردیم،کل 197 مفهوم یافت شده و مهمتر اینکه 44% آنها در میان 750 نتیجه بالایی بودند. بنابراین، CR مشخصاً در زمان مقایسه با نتایج اجرا کننده آلگوریتم ما در برابر متن Handbook، ایجاد شده است. در جدول 5، اعداد دقیق مربوط به مجموعه Web را در رابطه با مجموعه CLEF فهرست می کنیم. تخصیص و تصریح این امر، به خلاص شدن از دست عباراتی مثل "other hand" کمک می کند، اما عباراتی مثل "next section" (بخش بد) را به درجات بالا می برد و امتیاز p@10 پائین را در ردیف 3، توجیه می کند.
جهت بررسی تعامل دقت و یادآوری، به دقت مفهوم ، توجه کرده و طرح هایی را برای دقت مفهوم و یادآوری مفهوم، تدوین کردیم، در شکل 2 ، یادآوری مفهوم(چپ) و وقت مفهوم (راست) ترکیبات موجود در Hand book، در مجموعه Web و در رابطه با مجموعه CLEF ارائه کرده ایم؛ درجه یا رتبه ( که در محور X نشان داده شده ) با دسته بندی توسط امتیاز t-test حاصل می شود. همانطور که انتظار می رود در رابطه با مجموعه بزرگتر Web، یادآوری مفهوم، دارای بالاترین رتبه است، پس از آن، مجموعه Web مربوط به CLEF و پس از آن، Hand book قرار دارد. در مورد دقت مفهوم، ترتیب مربوطه نشان داده می شود.
3-3- نتیجه گیری ها و مراحل دیگر
یک متد تک اسمی ساده و یک متد مبتنی بر ترکیب و تجانس ساده می توانند اظهارات ارزشمندی در مورد مفاهیم موجود در سلسله مراتب یک مفهوم ارائه داده و بنابراین. مرحله 3 فهرست Van Harmelen و Antonok را بررسی کنند. در مورد استخراج عبارات چند واژه ای، اطلاعات و داده های بیشتر جهت ارتقای یادآوری، مفید واقع می ِوند. نتایج ما، با جداسازی عبارات انگلیسی کلی و عمومی، افزایش می یابند. امتیازات ما به هیچ وجه کامل نسیتند، اما سازندگان هستی شناسی ما، به عنوان منبع اطلاعات ، نتیجه متدهای ما را بسیار با ارزش یافتند. ممکن است این امر در تمرکز بیشتر بر مجموعه Web، ما را یاری کند؛ اگر برخی مفاهیم، قبل از تشخیص ترکیب بر تجانس در دسترس باشند؛ می توانند جهت محدودسازی متن مورد استفاده قرار گیرند: مفاهیم جدید و جالب می توانند در نزدیکی و مجاورت مفاهیم قدیمی ایجاد شوند.
4- تعریف وتشخیص اتوماتیک مثال ها و نمونه ها
هستی شناسی ها به ندرت بخاطر خودشان بوجود می آیند، و کاربرد آنها تعیین می کند که هستی شناسی ها چگونه باید مکان یابی شوند. در تنظیماتی که ساختارهای شبه هستی شناسی به عنوان موارد کمکی در جهت یابی مورد استفاده قرار می گیرند، مثال ها و نمونه های حائز اهمیتی، روابط چشمگیری با اسناد ومدارک برقرار می کنند. ما ، در این بخش ، متدهای مربوط به تعریف و تشخیص اتوماتیک و در این مثال ها را در تنظیم پروژه LoLaLi، توصیف و ارزیابی می کنیم. کاری که باید انجام دهیم، مرتبط سازی مفاهیم موجود در سلسله مراتب LoLaLi با قسمتهایی از متن مربوطه در Handbook می باشد. ما، این امر را بازیافت اطلاعات با دقت با تلقی هر مفهوم به عنوان یک موضوع و تلقی هر بخش از متن به عنوان یک سند (مدرک) می نامیم. برای اینکه نمونه ها و مثال های مورد نیاز را تعریف و مشخص می کنیم، به شناسائی بخش هایی از متن مربوطه در مورد هر مفهوم در سلسله مراتب LoLaLi، نیاز داریم. چه مقدار از کتابخانه دیجیتال و سطوح هستی شناسی که ما به آنها دستیابی داریم، می توانند در بررسی این امر، به کار روند. استراتژی ما ، یک استراتژی فزاینده است. تا با آغاز کار از یک خط پایه و مبنای ساده، تاثیر به کارگیری ساختار سند و مدرک ، نشان های متن و ترکیبات را تعیین می کنیم.

1-4- زیر یک سرپوش و پوشش (under the Hand)
مجموعه اسناد و مدارکی که ما باید در آنها ،اهداف ارتباطی را شناسائی کنیم، متشکل از اسناد و مدارک LATEX می باشد. داده های نیمه ساختار یافته با قسمتهای مشخص: فصل/ بخش / زیربخش وغیره. این موارد، بخشی از کل Handbook را دارای ارتباط منطقی با قسمتهای مختلف متن می دانند به عنوان اهداف و دارای ارتباط وسیع، ما هر بخش را در هر سطحی از فصل گرفته تا پاراگراف، مورد توجه قرار می دهیم. اما در این امر، مشکلی مطرح می شود. اگر یک زیربخش، دارای قسمتی مربوط به متن باشد، پس آن بخش و هر قسمت بزرگتر نیز به متن تعلق دارند. شما چگونه در مورد بزرگ یا کوچک بودن واحد بازیافتی، تصمیم گیری می کنید؟ ما با داشتن تجربه در مورد بازیابی XML، قسمتهای متداخل متن را در نظر نمی گیریم، در مواردیکه باید بین دو واحد متداخل بازیابی، انتخابی انجام دهیم، یک واحد دارای رتبه بالاتر را توسط سیستم بازیابی انتخاب می کنیم. این امر در شکل 3 نشان داده می شود: اگر تصمیم بگیریم به بخش (Section) برگردیم، پس مجاز نیستیم که به هر چیزی که در آن بخش وجود دارد و یا هر چیزیکه در بخش دیگری وجود دارد، برگردیم.
جهت ارزیابی امر ایجاد رابطه، از ورودیهای از شاخص یا فهرست Handbook استفاده می کنیم، ما از کلیه ورودیها در فهرست پشت کتاب که آنها هم در سلسله مراتب LoLaLi ایجاد می شوند، استفاده کردیم؛ 141 ورودی وجود دارد. هر ورودی، شخصاً در منبع LATEX Handbook ، علامت گذاری می شود، به طور میانگین، یک ورودی دارای سه بار تکرار مطابق با lindex {….} می باشد. "استاندارد طلایی" مورد استفاده ما جهت ارزیابی، متشکل از 141 مفهوم به عنوان "موضوع" می باشد. یک بخش متن، در صورتی که به یک موضوع، مرتبط است که با فرمان lindex {…} مشخص شده باشد. بدیهی است که کیفیت نتایج ما به کیفیت فهرست کتاب بستگی دارد.
ما از Incremental R-Precision به عنوان ابزار سنجش استفاده می کنیم؛ زمانیکه هیچ یک از اسناد مربوطه در یک موضوع معین، موجود نباشند. این ابزار صفر را نشان می دهد و زمانیکه کلیه اسناد در مدارک موجود باشند، یک را نشان می دهد. ارزش و عدد بالاتر در زمانی ارائه می شود که یک مدرک در درجه بندی بالاتری قرار داشته باشد، ارائه
می شود در مورد یک موضوع معین P@ n عبارت است از :

که Relevant ، مجموعه اسناد مربوطه در مورد موضوع می باشد. امتیاز مربوط به یک آزمایش، توسط میانگین گیری کلیه موضوع ها، حاصل می شود. اگر توزیع تفاوتهای عملکرد ، منحرف نشود، و اگر چند انحراف معدود موجود باشد، پس استفاده از t-test جفتی برای ارزیابی اطلاعاتی، مناسب به نظر می رسد. این دو شرط می توانند با طرح های quantile آزمایش شوند. فرض بر این است نقاط موجود در یک چنین طرحی، در اطراف identity (اتحاد)، متعادل باشند. ما این امر را در رابطه با داده ها و اطلاعات خود بررسی می کنیم؛ مثالی در شکل 4 ارائه می شود. از اینرو ما میزان اهمیت تفاوتهای این دو متد را با مقایسه نتایج هر تحقیق با t-test جفتی، آزمایش می کنیم. تفاوتهای حائز اهمیت با و تفاوتهای جزئی با نشان داده می شوند.
2-4- آزمایشات
خط مبنای ما، از طرح ارزش یابی tf-idf استاندارد استفاده می کند، و با کلیه لغات وواژه های را با استفاده از Lemmatizer Tree Tagger به بن و ریشه شان تبدیل می کنیم. ما این آزمایش را با نشانه های طراحی دیگر و با ترکیبات تجانس ها انجام داده ایم ابتدا واژه هایی که داخل عناوین واحدها قرار دارند، احتمالاً شاخص های مناسب موضوع اصلی هستند که تحت پوشش آن واحدها قراردارند. توالی های واژه ای که مورد تاکید قرار می گیرند، احتمالاً از بقیه ، مهمترند. ما واژه های دارای تفسیر در توضیح مشخص، یا واژه هایی را که در شرایط معینی ایجاد شده اند را با افزایش امتیاز آن بخش از متن ، ترجیح می دهیم. اگر یک قسمت ، با عنوان آغاز شود و آن عنوان دارای واژه های پرسشی باشد، امتیاز آن قسمت را دو برابر می کنیم.اگر عنوان آن قسمت دارای چیزدیگری باشد، باز هم امتیاز را دو برابر می کنیم. اگر یک سند و مدرک دارای /emph,/em باشد که به لحاظ ادبی مهم و پرسش می باشند، امتیاز را دو برابر می کنیم؛ اگر تاکید بر چیزی بجز پرسش نباشد نیز، امتیاز را دو برابر می کنیم. نتایج آزمایش درج دول 6 ارائه می شوند. تفاوت جزئی در موارد ارجحیت عناوین وجود دارد، اما تفاوت مهمی بین مواردیکه متن در آنها ارجحیت دارد و مواردیکه متن درآنها ارجحیت ندارد، وجود ندارد. هر چند که تاکید، مکرراً بر عبارات کلیدی می باشد اما به نظر می رسد که در زمانیکه تاکید بر واژه های بی اهمیت می باشد، این موارد بیشتر وجود دارند.
با منابع ارائه شده در بخش قبل، سعی کردیم که عملکرد متد ایجاد ارتباط خود را افزایش دهیم. با استفاده از ترکیبات حاصل از مجموعهweb، امتیاز یک بخش را در مورد موضوع ودر زمانیکه دارای ترکیب یا تجانسی از موضوع بود، افزایش دادیم. با استفاده از مکانیسم امتیازبندی مشابه با مکانیسم قبلی، هر زمانیکه یک قسمت دارای یک یا چند ترکیب و تجانس باشد، امتیازش را دو برابر می کنیم. اعتقاد برارائه ترتیب واژه و پروسه هماهنگ سازی وتنظیم بخش موضوع می باشد، که باید در هر زمانیکه می فهمیم ترتیب واژه ممکن است حائزا هیمت باشد. دقت را افزایش دهد. جدول 6، نتایج آزمایشات را با مزایای ترکیب و تجانس، نشان می دهد. هیچ تفاوت مهمی بین خط پایه و مواردیکه تنها ترکیبها وتجانس ها را به کار می برد وجود ندارد، اما زمانیکه ارجحیت ترکیب و تجانس و عنوان را ترکیب می کنیم، تفاوت جزئی موجود خط پایه و حتی در مورد ارجحیت عنوان، بوجود می آید. تکرار لفظی پرسش در یک بخش یا متن، چیز زیادی در مورد احتمال ارتباط داشتن یک بخش با پرسش نمی گوید. بنابراین ،تکرار لفظی واژه ها و عبارات پرشی، نشاندهنده وجود ارتباط می باشد.
3-4- نتیجه گیریها در مراحل دیگر
ما نشان دادیم که به کارگیری عنوان و ترکیب و تجانس می تواند عملکرد ایجاد ارتباط اتوماتیک را افزایش دهد. متدهایی که مورد استفاده قرار می دهیم، کاملاً خام و بی تجربه هستند و این احتمال وجود دارد که پیشرفتهای بیشتر بتوانند با بهینه سازی حاصل شوند. یک متد دقیق برای ترکیب مدارک که توسط tf,idf، نشانه گذاری عنوان و ترکیبها و تجانس ها ارائه شده ، می توانند در مورد نتایج، مفید واقع شده و ما را درتوجه بیشتر به برنامه های ارزشیابی، یاری دهد.
5- جستجو در آنتولوژی
پس از بخش 3 و4 ، که هدفشان، ساپورت IR در مورد ساخت آنتولوژی بود، مسیر را عوض کرده وبه بررسی ساپورت کاربران نهایی می پردازیم که به منظور اهداف جهت یابی به آنتولوژی ها دستیابی دارند. پروسه مرورگری از طریق آنتولوژی جهت یافتن یک مفهوم ، می تواند تصور مناسبی در مورد چگونگی سازماندهی آنتولوژی و چگونگی ارتباط مفاهیم، به کاربر ارائه دهد، اما این پروسه همچنین می تواند پروسه مشکل و سختی باشد. مثال های مربوط به عدم موفقیت مرورگری در پروسه دستیابی به اطلاعات، مشخص هستند. و مشتمل بر مواردی می باشند که ممکن است در سلسله مراتب موجود نباشند. در چنین مواردی، تکنیکهای IR می توانند این نیاز به اطلاعات را بررسی کنند. IR به جای تبعیت زا روابط معنایی در یک آنتولوژی به دستیابی تصادفی بر یک آنتولوژی و تفسیر انعطاف پذیر نیاز اطلاعاتی کاربر اشاره می کند.
امری که ما در این بخش بررسی می کنیم به شرح زیر است، یافتن مفاهیم مربوط به یک پرسش معین در سلسله مراتب مفهومی، به عبارت دیگر، نیازهای اطلاعاتی کاربران، با استفاده از واژه های اصلی اختیاری و انتخابی تنظیم می شوند، در حالیکه "اسناد و مدارک" ،مفاهیم موجود در سلسله مراتب LoLaLi می باشند.
1-5- تحت یک سرپوش (Under the Hand)
ما در زمان سعی جهت بازیافت مفاهیم مربوط از یک آنتولوژی ، باید با چند مسئله سروکار داشته باشیم، از پرسش های تمایل دارند که بسیار کوتاه باشند. تعداد واژه های اصلی درهر موضوع ، می توانند برابر با تعداد پرسش های محرک جستجوی وب، به طور میانگین دو واژه اصلی در هر موضوع، باشند.2/ اسناد ومدارک نیز بسیار کوتاه هستند. حتی اگر توصیف وسیعی در مورد مفاهیم داشته باشیم، اسناد و مدارک بازیافت شده، در مقایسه با مجموعه های آزمایش استاندارد، کوتاه هستند. 3/ مجموعه اسناد و مدارک کوچک می باشد. این امر، بدین معناست که ممکن است یادآوری ،مسئله مهمی باشد. بازیابی در برابر سلسله مراتب LoLaLi ، یک کار بسیار دقیق است اما دارای شرایط و نیازهای یادآوری می باشد.
موضوعات ما که 26 عدد هستند، توسط چهار نویسنده مختلف ارائه شده و مبتنی بر کاری هستند که دانشجویان سال اول هوش مصنوعی دانشگاه آمستردام درتحقیق اولیه در مورد ›آمایش واسط یا رابط کاربر LoLaLi، انجام داده اند. "استاندارد طلایی" با استفاده از سه ارزیاب، به شیوه ای مشابه با ایجاد رابطه در بخش 4، ارائه شد. واحد سنجش مورد استفاده نیز مشابه با فصل 4 می باشد. R-Precision فزاینده کلیه اسناد و موضوعات عاری از ویژگیهای غیر واژه ای هستند به استثنای خط تیره ها. هر موضوع، با اسناد موجود در فهرست، مقایسه می شود و فهرست درجه بندی شده اسناد تولیدی می گردد که دراختیار کاربر قرار می گیرد.
2-5- آزمایشات
ما ، به عنوان یک خط مبنا، یک مدل بازیابی مبتنی بر tf.idf ساده را انتخاب می کنیم. مثل بخش قبلی، می خواهیم بفهمیم که ساختار مفاهیم و سلسله مراتب مفهومی تا چه حد می توانند به ارتقای تاثیر بازیافت، کمک کنند. ما عقاید زیر را در مورد خط مبنا ارائه می دهیم هدف همه آنها ،داشتن دقت بالا بردن صدمه زدن به یادآوری می باشد؛ 1/ مفاهیمی را که ارائه دهید که در واقع، موضوع را تنظیم کرده و مزیتی بر مفاهیم دیگر دارند، مثلا اگر کاربر در "منطق (logic)" تایپ کند، پس "منطق" مفهوم بر "منطق model" ارجحیت دارد. 2/ مفاهیمی را ارائه می دهید که یک ترکیب یا تجانس را با موضوعی تقسیم می کنند که بر مفاهیم دیگری که مولفه های موجود در ترتیبات دیگر را تقسیم می کنند، ارجحیت دارند. 3/ مفاهیمی را ارائه دهید که با یکدیگر در ارتباطند، مفاهیمی که با مفاهیم دیگر موجود در درجات بالاتر، در ارتباطند.
اولین چیزی که باید سعی کنیم ، آنرا افزایش دهیم، به کارگیری ویژگیهای نحوی اسناد و مدارک می باشد. نتایج اصل از آزمایشات مرتبط سازی اتوماتیک ما نشان می دهند که ما باید واژه های موجود در عناوین را بر واژه های موجود در یک بخش، ترجیح دهیم. متشابهاً ، واژه های پرسش موجود در نام مفهوم را بر واژه های موجود در توصیف و تشریح آن، ترجیح دهیم. امتشابهاً ، واژه های پرسشی موجود در نام مفهوم را بر واژه های موجود در توصیف و تشریح آن، ترجیح می دهیم؛ در مورد قبلی، امتیازات دو برابر می شوند . زماینکه سلسله مراتب مفهومی، پر از واژه های بسیار خاص باشد، تاثیر ترتیب واچه می تواند حتی در این آزمایش، بیشتر از مرتبط سازی اتوماتیک باشد. بنابراین، ما سعی می کنیم که متد مشابهی مانند آزمایش را به کار بریم. زماینکه یک مفهوم دارای ترکیب و تجانس است که در پرسش نیز مطرح می شودامتیاز آنها را دو برابر می کنیم زمانیکه نام مفهومی در واقع برابر و معادل با موضوع می باشد، احتمال اینکه کاربر به مفهوم دیگری را توجه کند، وجود ندارد. بنابراین، با تکنیکی مشابه، با تکنیک قبل را به کار می بریم. امتیاز مفهوم را دو برابر می کنیم.
نتایج این تکنیکها در جدول 7 نشان داده می شوند. با ارائه تعدادی از موضوعات ، نمی توانیم استنتاج کنیم که پیشرفت چشمگیری حاصل شده است.
تنها می توانیم با حدود 90% اطمینان بگوییم که تفاوتی وجود ندارد./
حالا به پیشرفتهای بیشتری در خط پایه می پردازیم، پیشرفتهایی که سعی دارند از معناهایی استفاده کننده که توسط روابط موجود در سلسله مراتب مفهوم کدگذاری میشوند. ما ، تنها در مورد استفاده از روابط Subclass-for, is-a صحبت می کنیم. مفاهیم، اطلاعات را از والدهای خود به ارث برده و آنها را به چند طریق، مشخص می کنند؛ پرسش ها باید تا حد امکان، دقیق پاسخگویی شوند: نه خیلی کلی و نه خیلی خاص، غالباً، مفاهیمی که بیشترین امتیاز را از یک طرح ارزشیابی می گیرند، مفاهیم درستی هستند. اما گاهی، طبق شکل 5، پیچیدگیهای بیشتری بوجود می آید. در اینجا پرسش "رابطه معنایی" و مفهوم مورد نظر "رابطه مفهومی" می باشد، اما تنها مفاهیمی که دارای "رابطه معنایی هستند، فرزندان ""رابطه مفهومی" می باشندجهت بررسی این مسئله ، فهرست مفاهیم ارائه شده توسط طرح ارزشیابی را مجددا به روشی درجه بندی می کنیم که مفاهیم مربوط به یکدیگر ، نزدیکتر باشند. این امر، مفاهیمی را ایجاد می سازد که با مفهوم دارای امتیاز بالا جهت نفع بردن از این رابطه، تولید بوده و به درجات بالاتر می روند. قوانین مورد استفاده ما در گروه بندی مفاهیم مربوطه به شرح زیر هستند:
1/ هر مفهومی باید زیر والدینش قرار گیرد، این مفهوم والد، نشان دهنده موقعیت مفهوم می باشد.
2/ مفاهیم تنظیم کننده با والد مشابه باید زیرآن را در مشترک قرار گرفته و با امتیاز مربوط خودشان، مرتب شوند.
3/ هر زنجیره والد- فرزند مربوط به مفاهیم تنظیم کننده باید در یک مفهوم تنظیم کننده به پایان برسند که نشاندهنده وضعیت و موقعیت زنجیره است.
4/ دسته ها و گروههای نامربوط ، به شکل یک توده بهم ملحق می شوند، توسط ماکزیمم امتیاز گروه، مرتب می شوند.
5/ زمانیکه والدین دارای فرزندان مشابهی باشند/ بهم ملحق شده و به بیشترین امتیاز می رسند.
این قوانین ، والدین را مجاز می سازند که از فرزندانشان سود ببرند و بالعکس، و آنها خواهران و برادران خود را مجاز می سازند که از خواهران و برادران دارای امتیاز بالاتر ، سود ببرند.
جهات محدودسازی سایز گروهها و جهت مجاسازی یک گروه برای رفتن به درجات بالاتر، هر چیزی را که پس از یک نقطه برش معینی قرار دارد، برکنار کرده و مفاهیم باقیمانده را گروه بندی می کنیم. پس ازچند آزمایش ، عدد 10 را به عنوان نقطه برش انتخاب کردیم، البته مبتنی بر تعداد میانگین اسناد و مدارک مربوط به هر موضوع، بررسی پروسه بازیافت بعلاوه درجه بندی مجدد، در شکل 6 نشان داده می شود. نتایج قوانین گروه بندی نزی در جدول 7 نشان داده می شود. حتی با تعداد اندک پرسش ها ، می توانیم استنتاج کنیم که پیشرفت جزئی در امتیازات وجود دراد، البته زمانیکه از روابط مفهومی استفاده می کنیم و ترکیب کلیه تکنیکها، پیشرفتها را توجیه می کند، نشان می دهد که تکنیکهای مجزا دارای مزایا و اثرات مجزایی هستند
3-5- نتیجه گیریها و مراحل دیگر
در حالیکه درجستجو یک سلسله مراتب مفهومی دارای ویژگیهای خاصی است که ممکن است به روش های IR خاصی نیاز داشته باشد ، متوجه می شویم که تکنیکهای بازیافت استاندارد، سطوح عملکرد قابل قبولی را ارائه می دهند، اما پیشرفتهای جزئی می توانند با استفاده از ساختار سلسله مراتب مفهومی حاصل شوند ما معتقدیم که این امر، ترکیب بسیار جالبی از تکنیکهای Semantic web و IR می باشد. مراحل دیگر جهت ارتقای جستجوی آنتولوژی ، مشتمل بر استفاده از روابط دیگر سلسله مراتب و استفاده از مدل های بازیافت شده مختلف می باشند.
6- نتیجه گیری
ما از استخراج واژه اصلی مبتنی بر ترکیب و تجانس جهت ارائه مفاهیم جدید استفاده و در مورد ایجاد اتوماتیک روابط جهت اتوماتیک سازی پرسازی آنتولوژیها با مثال ها و نمونه ها مطالعه کردیم. مانندهای تنظیم و پروژه کتابخانه دیجیتال مبتنی بر آنتولوژی را ارزیابی کردیم. درهمان تنظیم، متدهای بازیافتی را به هدف کمک به کاربران درجستجوی آنتولوژی به کار برده وفهمیدیم که ترکیب تکنیکهای IR و درجه بندی مجدد حاصله مبتنی بر سلسله مراتب اصلی مفهوم ،موثرترین و مفیدترین متد می باشد.
باید بگوئیم که به استثنای متدهای گروه بندی به کار رفته در بخش قبل، متدهای IR مورد استفاده ما، عمدتاً متدهای استانداردی هستند؛ بنابراین، کاربرد آنها در Semanic web، جدید می باشد. متدها و نتایج ارائه شده در این مقاله باید به عنوان متدها و نتایج فراهم آوری خطوط پایه برای امور مربوط به خود، تفسیر شوند. اعتقاد ما بر این است که متدهای IR وجود دارند که می توانند کمکهای بیشتری به ساخت آنتولوژیها و استفاده موثر از آنها ، ارائه دهند.

فهرست مطالب
به نام خدا 1
چکیده: 1
مقدمه: 1
2- LoLaLi: 4
3- کمک به سازندگان آنتولوژی 6
1-3- مفاهیم یک اسمی 7
2-3- عبارات اسمی چند واژه ای 8
3-3- نتیجه گیری ها و مراحل دیگر 11
4- تعریف وتشخیص اتوماتیک مثال ها و نمونه ها 12
1-4- زیر یک سرپوش و پوشش (under the Hand) 13
2-4- آزمایشات 15
3-4- نتیجه گیریها در مراحل دیگر 16
5- جستجو در آنتولوژی 17
1-5- تحت یک سرپوش (Under the Hand) 18
2-5- آزمایشات 19
3-5- نتیجه گیریها و مراحل دیگر 22
6- نتیجه گیری 23

1


تعداد صفحات : 24 | فرمت فایل : word

بلافاصله بعد از پرداخت لینک دانلود فعال می شود