پاورپوینت کاوشگر های وب معنایی

کاوشگر های وب معنایی

کاوشگر وب
وب معنایی
چالش های کاوشگر های سنتی برای وب معنایی
کاوشگر های وب معنایی
کاوشگر های متمرکز برای وب معنایی
نتیجه گیری
فهرست مطالب
2

برنامه ای است که به صورت خودکار، وب را از طریق دانلود کردن صفحات و دنبال کردن پیوند ها، از صفحه ای به صفحه ای دیگر، پیمایش می کند.
جمع آوری داده
اولین مولفه مورد نیاز برای ایجاد شاخص گذاری و بازیابی اسناد وب
crawler، spider، robot، …

چرخه کاوش [Mae2006]
کاوشگر وب
3

چه صفحاتی باید دانلود شوند؟ (سیاست انتخاب صفحه)
محبوبیت محور
علاقه محور
چگونه صفحات باید به روز شوند؟ (سیاست به روز رسانی)
بررسی به روز بودن صفحه
اولویت به روز رسانی
چگونه باید سربار کاوش را بر روی سایت ها به حداقل رساند؟ (سیاست politeness)
مجوز کاوش سایت: فایل robot.txt
رعایت یک میزان تاخیر، بین ارسال درخواست های متوالی به یک سایت
چگونه باید فرآیند کاوش را موازی کرد؟ (سیاست موازی سازی)
یک صفحه یکسان چندین بار توسط کاوشگر های مختلف کاوش نشود.

رفتار کاوشگر
4

وب معنایی

rdfs:seeAlso ، rdfs:isDefinedBy ، owl:sameAs ، owl:import
پیوند های موجود در اسناد html که اشاره به یک سند با پسوند .rdf می کنند.
دنبال کردن پیوند های A-Box و T-Box
استدلال بر روی سه گانه ها (subject, predicate, object)
T-Box: کلاس ها و خصیصه ها (شمای یک سند)
URI هر predicate
URI مربوط به هر obejct، در صورتی که در سه گانه مورد نظر، predicate آن از نوع type باشد..
A-Box: نمونه های تعریف شده
URI مربوط به هر Subject و یا Object

روش ها ی پیوند اسناد در وب معنایی
6

حجم کمتر وب معنایی نسبت به وب سنتی : عدم نیاز به کاوش جامع و کامل وب
عدم اتصال کافی بین منابع
تفاوت فرمت داده ها: عدم توجه به محتوای معنایی اسناد
شیوه متفاوت پیوند بین منابع
به روز رسانی اسناد

چالش های کاوشگر های سنتی برای وب معنایی
7

کاوشگر های وب معنایی
8

کاوش وب معنایی
9

جمع آوری URI های اولیه
وارد کردن URI توسط کاربر
استفاده از خروجی موتور های جستجو و بعضی از سایت ها
فیلتر های معنایی
جلوگیری از واکشی و ذخیره داده های غیر معنایی
انواع فیلتر ها: پروتکل – پسوند فایل – عبارات منظم – دامنه – پیشوند URI – نوع رسانه/محتوا
پارسرهای معنایی
Jena – Any23 – NxParser
استخراج سه گانه ها از اسناد و تبدیل آنها به چهار گانه ها
چهارگانه = (subject, predicate, object, context)

کاوش وب معنایی
10

روش کاوش کران دار [Din2005]
در اطراف یک سند معنایی ممکن است اسناد معنایی دیگری نیز وجود داشته باشد.
کاوش تمام صفحات متعلق به یک سایت
یافتن منابع منزوی
کشف اسناد معنایی بیشتر
روش های کاوش
روش اول-سطح
کاوش زودتر صفحات مرتبط
تنوع بیشتر در دیتاست های کاوش شده
روش اول-عمق
مسیر های عمیق تر در داخل یک سایت
11

صف های کاوش
Top-Level Domain (TLD)
.com , .net , .uk
cc-TLD : co.uk , edu.au
Pay level domain (PLD)
amazon.com , det.wa.edu.au
مزایای صف های مبتنی بر دامنه [Lee2008]
کنترل کردن سایت ها با حجم بالا
رعایت عدالت میان دامنه ها
جلوگیری از تاثیر سایت های اسپم

صف های کاوش
13

نسبت مفید اعتبار [Hog2011]
14

BioCrawler : یک کاوشگر هوشمند
مجموعه ای از کاوشگر ها با ویژگی های زیر:
قابلیت حرکت – بردار دید – قابلیت ارتباط – مدل دانش – انرژی
هدف
افزایش انرژی = کاوش بیشتر سایت های معنایی (OWL یا RDF)
الگوریتم پایه: کاوش اول-عمق
مدل دانش: مجموعه قوانین
IF < vision_vector > THEN < select_domain >
امکان تبادل قوانین میان کاوشگر ها
روش مبتنی بر یادگیری [Bat 2012]
15

رعایت حداقل زمان تاخیر بین در خواست متوالی به یک دامنه (PLD – سایت)
تعیین حداکثر تعداد URI های کاوش شده به ازای هر دامنه
در روش مبتنی بر یادگیری: کاهش قدرت قانون به ازای هر بار استفاده
مشکل قحطی PLD ها
عدم داشتن PLD فعال به تعداد کافی [Hog2011]
دلایل
واکشی سایت ها با فاکتور انشعاب داخلی بالا
عدم اتصال خوب اسناد در وب معنایی
راه حل
بازگشت از دور
سیاست های Politeness
16

بازه به روز رسانی
بر حسب تقاضا
خودکار
بررسی به روز بودن
بررسی فیلد (last-modified-since) در هدر HTTP صفحه
هش محتوای صفحه
استفاده از سرویس "Pingthesemanticweb.com"
استفاده از نقشه سایت
اولویت به روز رسانی
میزان غنی بودن دامنه از نظر معنایی
اولویت بالا برای کاربر

به روز رسانی داده ها
17

مدل های طراحی
18

چارچوب توزیع شده
افزایش مقیاس پذیری
مدل Master-Slave [Hog2011]
پراکنده کردن URI های seed توسط Master بین Slave ها
اجرای یک دور از فرآیند کاوش توسط Slave ها
پراکنده کردن URI ها توسط Slave ها بین یکدیگر در پایان هر دور
مدل خط لوله [Har2006]
جدا کردن مولفه واکشی از مولفه پردازش
اجرای هر یک از مولفه های کاوش به صورت چند نخی
افزایش مقیاس پذیری و توان عملیاتی

مدل های طراحی
19

جدا کردن مولفه واکشی (کنترل کننده-کارگر) از مولفه پردازش (تولید کننده-مصرف کننده)

معماری کاوشگر SLUG
20
مدل ترکیبی کنترل کننده-کارگر
و تولید کننده-مصرف کننده [Dod2006]

دلایل
رشد روز افزون و تغییر سریع محتوای وب
نیاز به اسناد با کیفیت و ارتباط بالا
به روز رسانی صفحات بر اساس محبوبیت نه ارتباط
محدود کردن مرزهای کاوش و تمرکز بر روی نقاط مرتبط با موضوع
مزایا
حفظ قابل توجه منابع سخت افزاری و شبکه
حجم کمتر، به روز رسانی و نگهداری آسان تر شاخص

23
کاوش متمرکز

محاسبه فرکانس ترم ها در اسناد
امتیاز دادن به روابط در آنتالوژی
نگاشت بین آنتالوژی موضوع و آنتالوژی سند
محاسبه فاصله بین ترم های سند بر اساس ساختار آنتالوژی
انتخاب موضوع از روی سلسله مراتب موضوعی
پرس جوی کلمه کلیدی
دادن آنتالوژی نمونه
دادن اسناد هدف
سلسله مراتب موضوعی با مجموعه ای از اسناد نمونه
آنتالوژی
ایجاد گراف زمینه برای اسناد هدف
24
مراحل کاوش متمرکز

25
محاسبه ارتباط در کاوش متمرکز

26
کاوشگر های متمرکز

چالش ها
تعریف یک هدف کاوش رضایت بخش
یک سند مرتبط ممکن است به یک سند نامرتبط پیوند دهد
یک سند نامرتبط ممکن است به یک سند مرتبط پیوند دهد
شناسایی نقاطی که به تعداد زیادی اسناد مرتبط پیوند می دهند
معیار های ارزیابی
میانگین تعداد اسناد مرتبط (harvest)
تعداد اسناد مرتبط / تعداد کل اسناد بازیابی شده
میانگین ارتباط اسناد
توانایی کاوشگر برای حفظ تمرکز بر روی اسناد مرتبط
مجموع ارتباط اسناد / تعداد کل اسناد بازایابی شده
27
کاوشگر های متمرکز

کاوش هر چه بیشتر اسناد معنایی
اجتناب از بازیابی اسناد غیر معنایی
صرفه جویی در مصرف منابع محاسباتی و شبکه
کم تر شدن حجم شاخص
پشتیبانی از انواع داده ها ی معنایی
استخراج فراداده های معنایی از اسناد غیر معنایی
جدا کردن مولفه تبدیل از مولفه واکشی
کاوش اول-سطح مبتنی بر دامنه
کاهش سربار ناشی از کاوش بر روی دامنه ها
قطحی PLD ها

29
نتیجه گیری
عدم اتصال خوب اسناد در وب معنایی
کشف منابع اولیه اسناد معنایی
کاوش کران دار
انتخاب و به روز رسانی منابع معنایی تر
نسبت مفید اعتبار
استفاده از روش های مبتنی بر یادگیری
استفاده از روش های کاوش متمرکز
توزیع شدگی
توزیع بار بر اساس میزان معنایی بودن URI ها

[Bat2012] A. Batzios, P. A. Mitkas, “WebOWL: A Semantic Web search engine development experiment.” Journal of Expert Systems with Applications, vol. 39, pp. 5052–5060, 2012.
[Kum2012] R. K. Rana, N. Tyagi, “A Novel Architecture of Ontology-based Semantic Web Crawler.” International Journal of Computer Applications, vol. 44, Apr. 2012.
[Hog2011] A. Hogan, A. Harth, J. Umbrich, S. Kinsella, A. Polleres, S. Decker, “Searching and Browsing Linked Data with SWSE: the SemanticWeb Search Engine.” Journal web semantics, vol. 9, pp. 365-401, 2011.
[Cyg2011] R. Cyganiak, D1.1 Deployment of Crawler and Indexer Module, Linking Open Data Around The Clock (LATC) Project, 2011.
[Jal2011] O. Jaliian, H. Khotanlou, “A New fuzzy-Based Method to Weigh the Related Concepts in Semantic Focused Web Crawlers,” IEEE Conference, 2011.
[Dhe2011] S. S. Dhenakaran, K. T. Sambanthan, “WEB CRAWLER – AN OVERVIEW.” International Journal of Computer Science and Communication, vol. 2, pp. 265-267, Jun 2011.
[Ise2010] R. Isele, J. Umbrich, C. Bizer, A. Harth, “LDSpider: An open-source crawling framework for the Web of Linked Data,” In Poster. ISWC2010, Shanghai, Chinam, 2010.
[Del2010] R. Delbru, “Searching Web Data: an Entity Retrieval Model.” Ph.D thesis, at Digital Enterprise Research Institute, National University of Ireland, Sep. 2010.

30
مراجع

[Che2009] G. Cheng, Y. Qu, “Searching Linked Objects with Falcons: Approach, Implementation and Evaluation.” International Journal on Semantic Web and Information Systems, vol. 5, pp. 50-71, Sep. 2009.
[Ore2008] E. Oren, R. Delbru, M. Catasta, R. Cyganiak, H. Stenzhorn, G. Tummarello, “Sindice.com: A document-oriented lookup index for open linked data.” International Journal Metadata Semant and Ontologies, vol. 3, pp. 37-52, 2008.
[Umb2008] J. Umbrich, A. Harth, A. Hogan, S. Decker, “Four heuristics to guide structured content crawling,” in Proc. of the 2008 Eighth International Conference on Web Engineering-Volume 00, IEEE Computer Society, Jul. 2008, pp.196-202.
[Cyg2008] R. Cyganiak, H. Stenzhorn, R.Delbru, S. Decker, G. Tummarello, “Semantic Sitemaps: Efficient and Flexible Access to Datasets on the Semantic Web,” in Proc. of the 5th European semantic web conference on The semantic web: research and applications, 2008, pp. 690-704.
[Lee2008] H. T. Lee, D. Leonard, X. Wang, D. Loguinov, “Irlbot: scaling to 6 billion pages and beyond.” in Proc. of the 17th international conference on World Wide Web, 2008, pp. 427-436.
[Don2008] H. Dong, F. K. Hussain, E. Chang, “State of the art in metadata abstraction crawlers,” IEEE International Conference on Industrial Technology, Chengdu, 2008.
31
مراجع

[Sab2007] M. Sabou, C. Baldassarre, L. Gridinoc, S. Angeletou, E. Motta, M. d'Aquin, M. Dzbor, “WATSON: A Gateway for the Semantic Web,” in ESWC poster session, 2007.
[Bat2007] A. Batzios, C. Dimou, A. L. Symeonidis, P. A. Mitkas, “BioCrawler: An intelligent crawler for the Semantic Web.” Journal of Expert Systems with Applications, vol. 35, pp. 524-530, 2007.
[Dod2006] L. Dodds, Slug: A Semantic Web Crawler, 2006.
[Han2006] L. Han, L. Ding, R. Pan, T. Finin, Swoogle's Metadata about the Semantic Web, 2006.
[Har2006] A. Harth, J. Umbrich, S. Decker, “Multicrawler: A pipelined architecture for crawling and indexing semantic web data,” In 5th International Semantic Web Conference, 2006, pp. 258–271.
[Mae2006] F. V. D. Maele. “Ontology-based Crawler for the Semantic.” M.A. thesis, Department of Applied Computer Science, Brussel, 2006.
[Yuv2006] M. Yuvarani, N. Ch. S. N. Iyengar, A. Kannan, “LSCrawler: A Framework for an Enhanced Focused Web Crawler based on Link Semantics,” in Proc. of the 2006 IEEE/WIC/ACM International Conference on Web Intelligence, 2006.
[Din2005] L. Ding, T. Finin, A. Joshi, R. Pan, P. Reddivari, “Search on the semantic web.” Journal IEEE Computer, vol. 10, pp. 62-69, Oct. 2005.
32
مراجع

[Din2004] T. Finin, Y. Peng, R. S. Cost, J. Sachs, R. Pan, A. Joshi, P. Reddivari, R. Pan, V. Doshi, L. Ding,“Swoogle: A Search and Metadata Engine for the Semantic Web,” in Proc. of the Thirteenth ACM Conference on Information and Knowledge Management, 2004.
[Ehr2003] M. Ehrig, A. Maedche, “Ontology-focused crawling of Web documents,” in Proc. of the 2003 ACM Symposium on Applied Computing, 2003, pp. 1174-1178.
[Ara2001] A. Arasu, J. Cho, H. G. Molina, A. Paepcke, S. Raghavan, “Searching the Web.” ACM Transactions on Internet Technology, vol. 1, pp. 2–43, Aug. 2001.
[Ber2001] T. Berners-Lee, J. Hendler, O. Lassila, “The Semantic Web.” Journal of Scientiﬁc American, vol. 284, pp.35-43, May 2001.
[Dil2000] M. Diligenti, F. Coetzee, S. Lawrence, C. L. Giles, M. Gori, “Focused crawling using context graphs,” in Proc. of 26th International Conference on Very Large Databases, 2000, pp. 527–534.
[Cha1999] S. Chakrabarti, M. V. D. Berg, B. Dom, “Focused crawling: a new approach to topic-specific web resource discovery.” Journal of Computer Networks, vol. 31, pp. 1623-1640, 1999.
[Kle1998] J. Kleinberg, “Authoritative sources in a hyperlinked environment,” in Proc. ACM-SIAM Symposium on Discrete Algorithms, 1998.

33
مراجع

با تشکر از توجه شما

تعداد صفحات : 34 | فرمت فایل : .ppt

بلافاصله بعد از پرداخت لینک دانلود فعال می شود