وب نامرئی و وب عمیق
مقدمه
مرور نوشتارها حاکی از آن است که به احتمال قریب به یقین عبارت «وب نامرئی» نخستین بار درسال 1994 توسط «ژیل السورث»ابداع شده است. البته معدودی از منابع نیز شخص دیگری به نام «متیوکل» را به عنوان مبدع این اصطلاح معرفی می کنند.
در خصوص وب نامرئی کلماتی نظیر وب پنهان، وب عمیق، وب تاریک، به طور مترادف در متون مختلف به کار برده شده اند. اما این ها در حقیقت معادل یکدیگر نیستند و هر یک به جنبه ای از نامرئی بودن اشاره می کنند.
وب نامرئی
یکی از اصطلاحاتی که اخیرا از آن یاد میشود وب نامرئی یا invisible web است که البته اسم دیگرش deep وب هست. صفحات اینترنتی ای که ما به طور عادی می بینیم، وب سطحی نام دارند. افراد قبل از هر مرجع دیگری از وب برای جستجوی تحقیقاتشان استفاده می کنند. اما موتورهای جستجو لزوما بهترین نتایج را نمایش نمی دهند. آنها اطلاعات مخفی یا عمیق موجود در اینترنت را نمایش نمی دهند.
اصطلاح وب نامرئی یا وب “ژرف” به مخزن عظیمی از اطلاعات اطلاق می شود که موتورهای جستجو به آنها دسترسی مستقیم ندارند به طور مثال پایگاه داده کتابخانه های دانشگاهها، سایتهایی که برای مشاهده آنها نیاز به رمز عبور داریم و سایتهایی که به هر دلیل، موتورهای جستجو از فهرست بندی آنها، منع شده اند. بر خلاف صفحات قابل مشاهده (یعنی همین وبی که می توانید توسط موتورهای جستجو ببینید) اطلاعاتی در پایگاههای داده موجود است که اسپایدرها و رباتهای خزنده بدانها دسترسی ندارند. بعنوان نمونه، اغلب مردم گوگل را بعنوان دارنده بزرگترین پایگاه داده جستجو تصور می کنند که حدودا ۸ بیلیون صفحه را فهرست بندی کرده است. این رقم بزرگ است ولی اگر وب مخفی را در نظر بگیریم این رقم را بایستی در ۵۰۰ ضرب کنیم. بعلاوه گوگل فقط صفحات قابل جستجو را که حدودا ۲۵۰ بیلیون است ذخیره کرده است ولی از رقم دقیق صفحات غیر قابل جستجو خبری نیست.
وب ژرف چیست؟
آمارهای جالب:
– اطلاعات موجود در وب ژرف، بین ۴۰۰ تا ۵۵۰ برابر وب عمومی هستند که ما می بینیم
– وب ژرف حاوی ۷۵۰۰ ترابایت اطلاعات است، در مقابل وب سطحی ۱۹ ترابایت ذخیره کرده است
– وب ژرف دارای نزدیک به ۵۵۰ بیلیون مستند می باشد در حالیکه این رقم برای وب سطحی ۱ بیلیون است
– بیش از ۲۰۰ هزار وب سایت ژرف وجود دارند
– جالب است بدانید که بیش از نیمی از محتوای وب عمیق در عنوان سایتهایشان از کلمه Database استفاده کرده اند و اگر این کلمه را در جستجوهایتان بکار برید، امکان دسترسی تان را به این سایتها افزایش می دهید.
دسترسی به وب عمیق
دسترسی به آنچه که در لایه های پایین وب می گذرد زیاد ساده نیست. چرا که بیشتر ارتباط ها و خرید و فروش های اصلی توسط لینک ارتباطی امن بین طرفین برقرار می شود. ارتباطی که از نظرگاه همه موتورهای جستجوگر فرسنگ ها فاصله دارد. ولی وب سایت هایی هم هستند که عموم مردم را مورد هدف قرار می دهند. این وب سایت ها بر روی سرورهای TOR راه اندازی شده اند و از طریق مرورگرهای معمولی قابل دستیابی نیستند. root name این وب سایت ها اغلب onion. است که در DNS های root ثبت نشده و فقط بر روی سرورهای TOR تعریف شده است. همچنین URL آنها، بسادگی به یاد سپردنی نیست و هرچند وقت یکبار به کل تغییر می کند. اغلب این وبسایتها دارای صفحات سیاه رنگی حاوی چند متن مختصر هستند. یکی از مراجعی که اطلاعات دسته بندی شده این وب سایت ها را در اختیار کاربران میگذارد HiddenWiki است.
همه چیز درباره وب عمیق یا پنهان
منظور از وب عمیق یا وب پنهان بخشی از شبکه جهان گستر وب است که منابع موجود در آن، خارج از حوزه جستجو و بازیابی مقدماتی موتورهای جستجوی عمومی قراردارد و بازیابی اطلاعات موجود در این بخش از محیط وب، با استفاده و جستجوی مستقیم از این موتورها میسر نیست. به عبارت دیگر امکان بازیابی منابع اطلاعاتی وب پنهان یا از نظر فنی برای موتورهای جستجو مقدور نیست و یا آنها به دلیل محدودیت های دیگر از دسترسی و ایندکس گذاری این منابع بازمانده اند.
برخی از دلایل عدم دسترسی به وب عمیق یا پنهان
۱- نقاطی از وب هستند که به خاطر احتیاج به نام کاربری و رمز عبور امکان دسترسی به آنها وجود ندارد.
۲- برخی اطلاعات در صورتی قابل مشاهده می گردند که خریداری شوند، این بخش که به وب ملکی شهرت دارد نیز از دید موتورهای جستجوگر پنهان است.
۳- بخش دیگری از وب نامرئی، به مجموعه ای از اطلاعات الکترونیکی پیوسته اطلاق میشود که آنها معمولا خارج از حوزه جستجوی موتورهای جستجوگر قرار دارند هریک از این پایگاه ها صفحه جستجوی مبتنی بر وب دارند، که امکان جستجو در آنها برای کاربران را فراهم می کند، اما خزنده های موتورهای جستجو توان ورود به آن ها را ندارند و در نتیجه حجم انبوهی از اطلاعات، نمایه نشده باقی می ماند.
۴- منابع اطلاعاتی غیرمتنی نیز جزء وب پنهان بشمار میروند چون موتورهای جستجوگر برای ایندکس گذاری منابع ابرمتن Hypertext طراحی شده اند درحالیکه بسیاری از منابع موجود در وب در قالب های دیگر و معمولا غیرمتنی (تصویر، منابع دیداری شنیداری و …) ظاهر می شوند و امکان ایندکس گذاری آنها در موتورهای جستجوگر وجود ندارد.
۵- با توجه به استفاده اغلب موتورهای جستجوگر از الگوریتم عنکبوتی، در صورتی که صفحه وبی به هیچ جا متصل نشده باشد، دسترسی به آن از طریق موتورهای جستجو غیرممکن است.
اهمیت وب عمیق
به دو دلیل می توان گفت که وب پنهان اهمیت دارد. نخست از نظر کمی باید گفت که حجم اطلاعات موجود در این بخش خیلی بیشتر از سطح آشکار است.
بهترین موتورهای جستجو فقط قادر هستند که حدود ۱۶ درصد از اطلاعات موجود در وب را بازیابی کنند و بنابراین ۸۴ درصد آنها جزء وب پنهان به حساب میآیند.
اندازه وب نامرئی تقریباً ۵۰۰ برابر وب مرئی است. وب نامرئی ۵۵۰ میلیون سند و وب مرئی تقریباً یک میلیون سند را دارا می باشد. هر چند مطالعات انجام شده در این باره با یکدیگر متفاوتند اما بر اساس همه آنها دیپ وب از نظر داده ها بسیار غنی تر از وب معمولی یا وبی است که ما میشناسیم. میتوان گفت که کل وب یک کوه یخی است که دیپ وب قسمتی از آن است که در زیر آبها پنهان و قسمت دیگر که در سطح آب نمایان است همان وبی است که ایندکس شده است.
و از منظر کیفی باید گفت:
اطلاعات بخشهای مختلف این مجموعه به ویژه منابع اطلاعاتی موجود در وب عمیق، معمولاً منابع ارزشمند و مفیدی هستند و در بسیاری از موارد ﭘﺎسخگوی نیاز کاربران می باشند. تقریباً بیش از نیمی از وب نامرئی را ﭘﺎیگاه های اطلاعاتی موضوعی تشکیل میدهند.
نمونه ای از اعمال غیرقانونی در وب عمیق
از آنجایی که وب عمیق از دید بسیاری پنهان است، مکان خوبی برای کارهای مشکوک به حساب می آید و بسیاری از مجرمان اینترنتی در فوروم هایی با دسترسی محدود گرد هم می آیند.
شاید وقتی صحبت از بخش تاریک اینترنت به میان بیاید، چیزهایی از قبیل خرید سی دی های غیر مجاز، خرید دارو بدون نسخه و چیزهایی از این قبیل به ذهن ما بیایند اما وب عمیق بسیار بسیار فراتر از این هاست.
پورنوگرافی کودک، تجارت اسلحه، خرید و فروش مواد مخدر، قاتلین اجاره ای و تروریسم بخشی از محتوای ناخوشایند وب عمیق محسوب می شوند که آنرا به بزرگترین بازار سیاه موجود تبدیل کرده اند. در وب عمیق می توانید سایت هایی را ببینید که در آنها کارت های اعتباری دزدی و مواد مخدر براحتی بفروش می رسند.
بخش های مختلف وب نامرئی
1- وب مات یا تاریک Opaque Web ))
بخشی از فضای وب نامرئی به وب مات موسوم گردیده که می توانسته مورد استفاده کاربران قرار گیرد، اما به دلایل زیر این اطلاعات در خارج از دسترس کاربران قرار گرفته و موتورهای کاوش نمی توانند آن ها را بازیابی کنند:
– از آنجا که اولاً محیط وب دائماً در تغییر است و هر روز منابع و اطلاعات جدید به آن افزوده می گردد و ثانیاً صفحاتی در وب وجود دارند که هیچ پیوندی بین آن ها با منابع دیگر برقرار نشده، خزنده های موتورهای جستجو قادر به یافتن این صفحات و همگام نمودن خود با این حجم عظیم اطلاعات نیستند.
– به دلیل محدودیت توانایی، نرم افزارهای خزنده فرصت کافی برای روزآمدسازی صفحات جدید وب را ندارند. موتورهای کاوش نیز امکان روزآمدسازی حجم عظیمی از اطلاعات و منابع جدید را ندارند و به همین دلیل بسیاری از این اطلاعات از حوزه موتورهای کاوش دور می مانند .
– محدودیت توان مالی بسیاری از موتورهای کاوش سبب گردیده که موتورهای کاوش نتوانند تمام صفحات وب سایت ها را نمایه سازی کنند، چرا که برای آن ها هزینه های زیادی دارد و بنابراین موتورهای کاوش بنا بر سیاست های خودشان، تنها بخشی از وب سایت ها یا لایه های بیرونی آن ها را نمایه سازی می کنند. بنابراین همیشه بخش عظیم لایه های درونی وب سایت ها پنهان می مانند.
2- وب عمیق
بخش دیگری از وب نامرئی، به مجموعه ای از اطلاعات الکترونیکی پیوسته اطلاق می شود که بسیاری از پایگاه های اطلاع رسانی، آن ها را از طریق شبکه جهان گستر وب در دسترس عموم قرار داده اند. برخی این اطلاعات را به رایگان، و برخی دیگر را با دریافت هزینه در دسترس عموم قرار می دهند. مندرجات این پایگاه ها معمولاً خارج از حوزه جستجوی موتورهای کاوش قرار دارند هریک از این پایگاه ها صفحه جستجوی مبتنی بر وب دارند. که امکان جستجو در آن ها برای کاربران را فراهم می کند، اما خزنده های موتورهای جستجو توان ورود به آن ها را ندارند و در نتیجه حجم انبوهی از اطلاعات، نمایه نشده باقی می ماند. به عنوان نمونه اگر یک متخصص موضوعی (مثلاً یک دانشجوی رشته پزشکی) بخواهد خود را به موتورهای کاوش معمولی محدود کند و نتواند به پایگاه های اطلاعاتی تخصصی مراجعه نماید یا از وجود آن ها آگاه نباشد، از دسترسی به حجم انبوهی از اطلاعات محروم خواهد ماند. بنابراین کاربر باید در این موارد از طریق موتورهای جستجو، پایگاه های مرتبط با موضوع خود را شناسایی کند و سپس، جداگانه به جستجو در آن ها بپردازد تا از دسترسی به وب عمیق باز نماند.
3 – وب خصوصی Private Web )) و وب ملکی Proprietary Web))
بخشی دیگر از وب نامرئی وجود دارد که چون اطلاعات موجود در آن جزو دارایی های شخصی یا خصوصی سازمان ها یا افراد می باشد، از حوزه دسترسی موتورهای جستجو پنهان است. مثلاً در برخی از سازمان ها و موسسات خصوصی یا دولتی، به دلایل امنیتی از اطلاعات مربوط به مسائل کاری و سازمانی و پرسنلی خود حفاظت می کنند اجازه دسترسی به آن ها را به دیگران نمی دهند و فقط کسانی که دارای اسم کاربر و گذرواژه هستند می توانند از آن ها استفاده کنند؛ این بخش، وب خصوصی محسوب می گردد . بخش دیگر، منابع اطلاعاتی از قبیل نشریات الکترونیکی مبتنی بر وب می باشند که دسترسی به آن ها از طریق پرداخت حق اشتراک و خرید محصولات اطلاعاتی شرکت های مختلف صورت می گیرد «وب ملکی» نامیده می شود.
4 – وب واقعا پنهان Truly Invisible Web))
بخش دیگری از وب پنهان وجود دارد که بنا به مسائل فنی و ناکارآمدی ابزارهای جستجو، از دسترسی کاربران دورمانده است. بسیاری از موتورهای جستجو قادر به بازیابی اطلاعات متنی اچ تی ام ال هستند، ولی توانایی بازیابی فایل های پی دی اف را ندارند، یا به دلیل کمبود منابع مالی و فنی از جستجوی فایل های غیرمتنی صرف نظر کرده اند. بنابراین منابع اطلاعاتی متنوعی نیز در وب وجود دارند که تنها به دلیل محدودیت های فناورانه یا مالی موتورهای جست وجو، از حوزه کاوش آن ها و در نتیجه از دسترس کاربران دور مانده اند .
شیوه های کسب اطلاعات در وب نامرئی
در حال حاضر ابزارهایی به وجود آمده اند که منابع وب نامرئی را شناسایی، و کاربران را به سایت های مناسب راهنمایی می کنند. این رویکرد توسط بزرگراه های اطلاعاتی و کتابخانه های مجازی پذیرفته شده است؛ بطوری که فقط توصیفی از پایگاه های اطلاعاتی و مجلات نامرئی را ارائه می کنند؛ مثل سایت« Invisible web» که فهرستی از منابع نامرئی و سایت Complete plaset که فهرستی از تقریباً 40000 پایگاه اطلاعاتی وب نامرئی را ارائه می دهند. برخی دیگر از ابزارهای اطلاع یابی نیز وجود دارند که با یک جستجو در اینترنت می توانید به آنها دسترسی داشته باشید.
خلاصه و نتیجه گیری
افزایش روز افزون منابع اطلاعاتی در اینترنت و مشکلات فنی و غیرفنی موتورهای کاوش باعث گردیده که حجم زیادی از این اطلاعات از دید کاربران پنهان بماند و به عنوان وب نامرئی مورد بحث بسیاری از متخصصان اطلاع رسانی قرار گیرد. همانطوری که می دانیم امروزه گرایش بسیاری از کتابخانه ها و مراکز اطلاع رسانی و محققان به سوی دیجیتالی کردن منابع و قراردادن آن ها در محیط اینترنت می باشد. چنانچه دسترسی مطلوب به منابع ذخیره شده در اینترنت وجود نداشته باشد بسیاری از میراث های علمی، پژوهشی، فکری و فرهنگی بشر به هیچ وجه مورد استفاده حال و آینده قرار نخواهد گرفت. در این میان کتابداران و اطلاع رسانان نیز با آگاه کردن کاربران از وجود وب نامرئی و شیوه های دستیابی و اطلاع یابی کاربران از این اطلاعات می توانند نقش مهمی را در کاستن سطح نامرئی اطلاعات بر عهده بگیرند.
البته باید یادآور شد که به دلیل پژوهش ها و پیشرفت های اخیر در حوزه بازیابی اطلاعات چه در بعد فنی و چه از نظر رویکرد کاربرمدار، آینده روشن تری در بازیابی اطلاعات در محیط وب پیش بینی می شود . به طورکلی پیش بینی می شود که با پیشرفت ابزارهای بازیابی اطلاعات در وب و بهبود سواد اطلاعاتی کاربران، به تدریج از سطح ناپیدایی اطلاعات در محیط وب کاسته شود.
در پایان
اما لازم به توضیح است که دیپ وب مقدار محتوای بسیاری نیز دارد که به هیچ وجه جالب توجه نیست و یک دلیل ایندکس نشدن این محتواها نیز همین امر است. اما محتوایی که عمدا روی دیپ وب قرار داده شده می تواند فوق العاده جالب توجه باشد. مثلا محتوای کامل ویکی لیکس روی دیپ وب است. فرومهای انفورماتیک بسیار پیشرفته و همینطور سایتهای مشتاقان دستکاری ها و ساخت و ساز از هر نوع نظیر امواج رادیوئی و اسناد بسیار حساس بعضی دولتها روی دیپ وب هستند. اما لازم است توضیح داده شود که با اینهمه باید محتاط بود و هر محتوائی را که روی دیپ وب یافت می شود نباید دانلود کرد چراکه می توانند بسیار دروغین و خطرناک باشند. دیپ وب خیلی مورد توجه انونیموس نیز هست. روی وب عمیق همانقدر که میتوان محتوای فوق العاده جالب یافت همانقدر هم محتوای غیر قانونی وجود دارد که دسترسی به انها میتواند تولید دردسر کند. علاوه بر این دیپ وب خالی از خطر انواع ویروس و الودگی نیست.
پایان