تحقیق موتورجستجوی معنایی

ضرورت موتورهای جستجو یک واقعیت انکارناپذیر است زیرا موتورهای جستجو دروازههای ورود به وب هستند و برای قابل استفاده کردن اطلاعات انبوه روی وب ضروری هستند. از دیدگاه کاربر، یک موتور جستجوی ایدهآل برای وب، باید قادر باشد تا جواب مستقیم یک پرسش را بیابد. موتور جستجوی گوگل با ارائه یک واسط خیلی ساده و مدل تراکنش ساده بر اساس کلمه کلیدی، زمان پاسخ بسیار کوتاه و مرتبسازی ماهرانه نتایج، معیار سنجش هاروش ی جستجوی وب است و %64/6از پرسشهای وب
را روی میلیاردها سند وب سرویسدهی میکند. اما در نهایت نتایج گوگل یک لیست مرتب از صفحات توصیه شده وب است و کاربر انسانی با مشاهده صفحات وب و پیمایش آنها جواب مورد انتظار خود را بازیابی میکند. اما این نتایج برای عامل نرمافزاری قابل فهم نیست.

تعریف مسئله
امروزه پروژه “LOD”حجم وسیعی از دادههای RDFرا (که محتوا صادر شده از پایگاه داده های wikiPediaو BBCو New York Timesو Flickerو LastFMو… است) قابل دسترس ساخته است.
با ظهور “وب دادهها” و ایجاد قابلیت تعامل وب و ماشین(عاملهای نرمافزاری و وبسرویسها،) عدم قابلیت پردازش نتایج جستجو در موتورهای جستجوی فعلی توسط ماشین، ضرورت موتور جستجوی معنایی را آشکارتر میسازد. نتایج مثلا بازیابی ش توسط ده گوگل تعدادی صفحه مرتبط است که به کاربر توصیه میشود. کاربر باید این نتایج را پردازش کرده و خودش هاداده ی مرتبط را از صفحه استخراج کند. در این میان تبلیغات صفحه و سایر اطلاعات نامربوط صفحه توسط انسان فیلتر میشود.
مسلما ا یک عامل افزارنرم ی یا یک وب سرویس هوش کافی برای شناسایی قطعه اطلاعاتی مورد نظر را از میان اطلاعات گوناگون صفحات ارائه شده در گوگل ندارد. محدودیتهای گوگل از آنجا ناشی شودمی که اسناد HTMLساختار قابل پردازش توسط ماشین را ندارند. بنابراین اطلاعات بازیابی شده برای ماشین باید حاوی اطلاعات قابل پردازش توسط ماشین باشد.
مشکل بعدی یکپارچه سازی و امکان استفاده مجدد اطلاعات در ،وب است. از آنجا که اطلاعات هاسازمان بصورت هایداده ساخت یافته در اهپایگ هایداده محلی نگهداری میشوند و این پایگاه هاداده بندرت به هم متصل هستند، امکان استفاده مجدد اطلاعات بین هاسایت ی مختلف خیلی محدود است.هر چند استانداردهای وب معنایی سطح بالایی از تعامل را ممکن ساختهاند ولی تنوع هنوز مهمترین مانع برای استفاده از این اطلاعات است. منتشر مثلا ا کنندگان داده اطلاعات یکسان را با واژگان متنوع منتشر میکنند و یا شناسههای مختلف را برای یک منبع انتساب میدهند. حل مشکل تنوع در ( Hog)به تفصیل بررسی شده است و راه حلهایی برای آن ارائه شده است. مشکل اصلی که این پایان نامه به آن پرداخته است جلوگیری از گمراه سازی الگوریتم رتبهبندی موتورهای جستجوی معنایی توسط تولیدکنندگان اسپم میباشد. بدین منظور الگوریتم رتبه بندی طوری طراحی شده است که با شناسایی اعضای ارتباط گروهی، هاآن را در قعر نتایج بندیرتبه قرار میدهد.
موتورجستجوی معنایی
یک موتور جستجوی معنایی همانند سایر موتورهای جستجو باید فازهای پیمایش ، یکپارچه سازی ، رتبه بندی مستقل از پرسش ، استنتاج ، شاخص گذاری ، پردازش پرسش ، رتبه بندی وابسته به پرسش ، نمایش نتایج به کاربر در قالب اجزای واسط و ارائه ارزیابیهای مناسب ، را داشته باشد. تنها تفاوت روی نوع دادههای پردازش شده و چگونگی پیاده سازی هر فاز است. در موتورهای جستجوی وب اسناد، واحد اطلاعاتی یک صفحه وب است که صفحات با لینکهای بدون نوع و اصالت به هم متصل شدهاند. در حالیکه در وب دادهها، واحد اطلاعاتی قابل جستجو موجودیتها هستند که اعضای تشکیل دهنده سایت ها ی RDFمیباشند و هر عبارت RDFدر واقع با لینکهایی از انواع و اصالتهای مختلف، این موجودیتها را به هم مرتبط میسازد. الگوریتمهای فازهای مختلف موتور جستجو باید بر روی نوع داده RDFقابلیت عملکرد بهینه را داشته باشند. در بعضی فازها اعمال اینگونه تغییرات نیاز به بازبینی کلی الگوریتم دارد چون مفهوم ابرلینک وب اسناد در وب داده ها، کاملا ا تغییر کرده و واحد جستجو نیز به جای صفحه، موجودیت است