گزارش سمینار بازیابی اطلاعات برای وب معنایی Information retieval for Semantic web

تعداد صفحات: 122 فرمت فایل: word کد فایل: 10002046
سال: مشخص نشده مقطع: مشخص نشده دسته بندی: پایان نامه مهندسی کامپیوتر
قیمت قدیم:۱۸,۸۰۰ تومان
قیمت: ۱۶,۷۰۰ تومان
دانلود فایل
  • خلاصه
  • فهرست و منابع
  • خلاصه گزارش سمینار بازیابی اطلاعات برای وب معنایی Information retieval for Semantic web

    گزارش سمینار کارشناسی ارشد  

    چکیده 

    با ظهور وب، داده ها و اطلاعات زیادی در موضوعات مختلف در اختیار همگان قرار گرفت ه است . اینداده ها که اکثرا در قالب فایل های HTML ارائه شده اند، فرصت مناسبی را در اختیار کاربران وب قرارداده تا بتوانند با جستجوی کلمات کلیدی مناسب به داده های مورد نیاز خود دست یابند. اما امروزه باوجود انبوهی از اطلاعات گوناگون در وب، جستجو بر اساس کلمات کلیدی، ما را به تعداد زیادی صفحه وب می رساند  که یافتن اطلاعات مورد نیاز در آن دشوار و زمانبر است. وب معنایی جهت رفع مشکلاتی از این قبیل به عنوان نسل جدید وب جاری، توسط آقای تیم برنرز لی [1] معرفی شد. 

    وب معنایی به عنوان شاخه جدیدی از وب جاری لازم دارد تا به اطلاعات موجود در وب دسترسیداشته باشد . اما اطلاعات موجود در وب جهت نمایش آن به انسان ها سازماندهی شده اند. لذا برای استخراج اقلام اطلاعاتی از ابزاری بنام Wrapper  استفاده می شود . در این نوشته بر استخراج از منابع اطلاعاتی[1] تمرکز می کنیم و استخراج اطلاعات مبتنی بر یک Crawler که با استفاده از یک آنتالوژی دامنه به شناسایی اقلام اطلاعاتی می پردازد را پیشنهاد می کنیم. 

    کلمات کلیدی : وب معنایی، حاشیه گذاری معنایی، آنتالوژی، RDF، بازیابی اطلاعات، Wrapper. 

    1 – مقدمه 

    در این بخش به بررسی مشکل وب جاری پرداخته و وب معنایی را به عنوان یک راه حل معرفی میکنیم. سپس یکی از چالش های موجود در وب معنایی را تشریح کرده و محدوده بحث خود را مشخص میکنیم. 

     

    مشکل وب کنونی 

    با توجه به رشد روز افزون وب و با وجود 400 میلیون وب سایت [16] و چندین میلیارد منابعاطلاعاتی (شامل صفحاتHTML ، فایل های صوتی و ویدئویی، تصاویر فایل هایRSS ،XML  و غیره )، عملا وب جاری به یک کتابخانه بزرگ از منابع و اطلاعات مختلف تبدیل شده است.   

    (نمودار و تصاویر در فایل اصلی موجود است)

    موتور های جستجوگر مانند گوگل و یاهو و غیره، به کاربران خود امکان جستجو بر اساس کلماتکلیدی مشخص را می دهند. اما بزرگترین مشکل در ارتباط با این شیوه جستجو، که به آن جستجوی کورهم گفته می شود، یافتن کلمات کلیدی مناسب می باشد. البته نباید فراموش کنیم که وب ب ا همینوضعیت موجود نیز یک موفقیت بزرگ به حساب می آید . تا ده سال پیش، هرگز کسی فکر آن را نمی کردکه روزی اینترنت بتواند تا این حد در شیوه زندگی انسان ها، اخبار و اطلاع رسانی، ارتباطات و غیره تاثیربگذارد.  

    اما از طرفی دیگر، وب موجود، دارای یک مشکل اساسی می باشد. می توان گفت که چالش اساسی در ارتباط با وب آن است که منابع موجود تنها برای انسان ها قبل فهم و استفاده می باشد. بنابراین ماشین هادر جستجو، اشتراک و یکپارچه سازی انبوهی از اطلاعات، محدودیت های زیادی دارند. در حال حاضرماشین ها جهت شناخت محتوی و اطلاعات موجود در وب، نیاز به دانش انسانی دارند و بدون آن تنها میتوانند کورکورانه، وجود یا عدم وجود یک کلمه کلیدی را مشخص نمایند. 

    وب معنایی 

    ایده توسعه وب جاری با تزریق مقداری اطلاعات تکمیلی ، بگونه ای که اطلاعات موجود قابل فهم برایماشین ها باشد، برای اولین بار توسط آقای تیم برنرز لی[1] مطرح گردید [1و2]. ایشان نسل جدیدی از وبجاری را با نام وب معنایی معرفی کردند و هدف از وب معنایی را قابل فهم کردن اطلاعات موجود در وب ونیز افزایش قابلیت همکاری3 بین افراد و عوامل درگیر با داده های مشترک عنوان نمودند . بنابراین وبمعنایی قصد ندارد تا وب موجود را ازبین ببرد یا جایگزین آن شود، بلکه می خواهد آن را توسعه دهد و درکنار آن (بصورت یک لایه بر روی وب جاری) قرار گیرد.  

    در حوزه وب معنایی، منظور از قابل فهم نمودن اطلاعات برای ماشین ها آن است که ماشین هابتوانند، از اطلاعات موجود استنتاج کرده و اطلاعات جدیدی را تولید نمایند. این اطلاعات جدید می تواننددر پاسخگویی به پرس و جوی های کاربران مورد استفاده قرار گیرند. از این رو یکی از اجزای مهم در وبمعنایی موتور استنتاج می باشد که باید مبتنی بر یک منطق باشد؛ مانند منطق مرتبه اول/ دوم، منطقتشریحی و غیره. 

    در وب معنایی تمرکز بر روی داده ها است و سعی می شود تا از وابستگی داده ها به برنامه یا برنامههای خاص بکاهد. بدین منظور لازم است تا سمانتیک و ساختار نیز به درون داده ها تزریق گردد [3]. در این صورت یک داده هوشمند خواهیم داشت که می تواند در یکی از چارچوب های وب معنایی، بدون نیازبه برنامه ای خاص، استفاده شده و در فرایند استنتاج منطقی شرکت نماید. 

     

    جایگاه آنتالوژی در وب معنایی  

    هر چند بهبود در جستجوی اطلاعات یکی از مهمترین اهداف وب معنایی می باشد ولی وب معناییکاربرد های دیگری نیز دارد، مانند؛ اشتراک اطلاعات و یکپارچه سازی اطلاعات. برای رسیدن به این اهداف باید یک مدل معنایی از دامنه مورد بحث خود تعریف نماییم. در وب معنایی از آنتالوژی ها جهت مدل سازی معنایی استفاده می شود. در واقع، آنتالوژی ها ابزاری جهت توصیف مفاهیم ذهنی بشر می باشد ونقشی کلیدی را در وب معنایی و مدیریت دانش ایفا می کند. آنتالوژی ها را می توان با زبان های منطقی مانند منطق مرتبه اول و دوم، منطق تشریحی،OWL ،RDF  و یا حتی با یک مدل گرافیکی مانندUML  نمایش داد. 

       وب معنایی، هوش مصنوعی نیست 

    همانطور که گفته شد، وب معنایی سعی دارد تا اطلاعات موجود در وب را برای ماشین ها قابل درککند. ولی هرگز قصد آن را ندارد تا به ماشین ها قابلیت های جادویی ببخشد تا با انسان ها رقابت کنند.

    بلکه تنها سعی دارد از سرعت و قدرت ماشین ها در پردازش اطلاعات موجود، جهت حل برخی مشکلاتانسان ها استفاده نماید.  

    وب معنایی سعی دارد، تعامل بین انسان ها و ماشین ها، در سطح انسان ها صورت گیرد [3]. یعنیبجای آنکه انسان ها اطلاعات، دستورات و یا نیازمندی های خود را به زبانی که به زبان سطح ماشیننزدیک تر است اعلام نمایند، آن ها را در سطحی نزدیک تر به سطح زبان مادری و ادراکات ذهنی خود وارد نمایند، بطوریکه ماشین آن موارد را درک کرده و اطلاعات داده شده را پردازش نموده و نتایج را در همانسطح، به انسان ها منتقل نماید. از این رو وب معنایی، هوش مصنوعی نیست ولی از روش ها و تکنیک های مطرح شده در هوش مصنوعی (مانند پردازش زبان طبیعی[2]) استفاده می کند

    بازیابی و استخراج اطلاعات برای وب معنایی 

    در وب معنایی ، اطلاعات باید با فرمتی سازگار با زبان منطقی مورد استفاده، ثبت و نگهداری گردد. از این رو اطلاعات موجود را باید بگونه ای خاص استخراج کرده و به شکل قابل استفاده در وب معنایی تبدیلنمود. ایده کلی آن است که یک نرم افزار واسط، بنامWrapper ، نوش ته شود ت ا با اجرای آن داده هایموجود را به زبان قابل فهم برای وب معنایی تبدیل نماید (شکل زیر). تا کنونWrapper  ها و چارچوبهای مختلفی برای بازیابی اطلاعات موجود تهیه شده است که از نظر میزان مکانیزه بودن (عدم نیاز بهدخالت انسان ) و دقت در بازبابی اطلاعات و نیز انعطاف پذیری نسبت به تغییرات ساختار نمایش در منبعاطلاعاتی اولیه، با هم متفاوت می باشند.  

  • فهرست و منابع گزارش سمینار بازیابی اطلاعات برای وب معنایی Information retieval for Semantic web

    فهرست:

    فهرست مطالب 

    – مقدمه .......................................................................................................................................4 

    - معرفی وب معنایی....................................................................................................................8 

    2 – 1 - مشکلات وب موجود ........................................................................................................................................9 

    2 -  2 - نیاز به بازنمایی دانش .................................................................................................................................... 10 

    2 – 3 – آشنایی با اجزای اساسی وب معنایی ...........................................................................................................12 

    2 – 4 - معماری وب معنایی .......................................................................................................................................14 

    2 – 5 – آشنایی با خانواده استاندارد های XML..................................................................................................... 17 

      21............................................................................. (Resource Description Framework) RDF آشنایی با – 6 – 2

      24...............................................................................................................RDF Schema (RDFS) آشنایی با – 7 – 2

      26.................................................................................................................................. ها Taxonomy معرفی – 8 – 2

    2 – 9 – معرفی طیف آنتالوژی...................................................................................................................................30 

    2 – 10 – معرفی آنتالوژی ...........................................................................................................................................34 

    2 – 11 – توصیف منطقی آنتالوژی ها .......................................................................................................................35 

    2 – 12 – سطوح بازنمایی دانش................................................................................................................................ 37 

    2 – 13 – مشکل نگاشت معنایی ..............................................................................................................................38 

    – 14 – خلاصه مطالب .............................................................................................................................................39 

    – مدیریت دانش و بازیابی اطلاعات.......................................................................................... 41 

    3 – 1 – بررسی مشکل................................................................................................................................................41 

    3 – 2 – نقش آنتالوژی ها ..........................................................................................................................................42 

    3 – 3 – معرفی معماری Sesame...............................................................................................................................43  3 – 4 – بازیابی اطلاعات برای وب معنایی................................................................................................................45 

    – 5 – جمع بندی مطالب........................................................................................................................................48 

    – بررسی فعالیت های انجام شده در زمینه استخراج اطلاعات................................................ 49 

      50 ....................................................................................................................................................WEBOQL – 1 – 4

      52......................................................................................... (World Wide Web Wrapper Factory) W4F – 2 – 4

      53........................................................................................................................................OntoKnowledge – 3 – 4

      56....................................................................................................................................................OntoPrise – 4 – 4

      57............................................................................................................................................................. KIM – 5 – 4

      59.................................................................................................................................................OntoGather – 6 – 4

      60..................................................................................................................................................BYU-Ontos – 7 – 4

    – 8 – جمع بندی مطالب .........................................................................................................................................61 

    – ارائه یک چارچوب جهت بازیابی اطلاعات ............................................................................62 

    5 – 1 – تحلیل مساله بازیابی اطلاعات......................................................................................................................62 

    5 – 2 – استخراج اطلاعات صریح و اطلاعات ضمنی ...............................................................................................64 

    5 – 3 – مقاومت در برابر تغییرات منابع...................................................................................................................65 

    5 – 4 – معرفی چارچوب پیشنهادی.........................................................................................................................66 

    5 – 5 – فعالیت های بعدی ........................................................................................................................................70 

    مراجع ...........................................................................................................................................72 

      72..............................................................................................................................[Intoduction to Semantic Web]

      72...............................................................................................................[Semantic Web Languages References]

      73........................................................................................[Knowledge Management & Information Retrieval]

      72......................................................................................................................................................................[Others]

    منبع:

     

    [Intoduction to Semantic Web]

     

    [1]         Tim           Berners-Lee,    CERN, 1989. "Information     Management: A          Proposal", http://www.w3.org/History/1989/proposal.html. 

    [2]         Berners-Lee, T, Hendler, J & Lassila, O, 2001. "The semantic web", Scientific American.

    [3]         Michael C. Daconta, Leo J. Obrst, Kevin T. Smith, 2003. "The Semantic Web: A Guide to the Future of XML, Web Services  and Knowledge Management", Wiley publishing.

    [4]         Semantic Web Resources in W3C, Last Visited: 05/05/2007,  http://www.w3.org/2001/sw/. 

     

     [Semantic Web Languages References]

     

    [5]         N. Walsh. "A Technical Introduction to XML". O'Reilly XML.com, October 3, 1998. At: http://www.xml.com/pub/a/98/10/guide0.html

    [6]         New Architecure for Semantic Web, 2003, http://www.w3.org/2003/Talks/0922-rsoc-tbl/  

    [7]         New Architecure for Semantic Web, 2005,  http://www.w3.org/2005/Talks/0511-keynote-tbl/  

    [8]         Extensible             Markup            Language        (XML),             Last      Visited:      05/05/2007,  http://www.w3.org/XML  

    [9]         XML Schema , Last Visited: 05/05/2007,  http://www.w3.org/XML/Schema   

    [10]     XSL Transformations (XSLT) Reference, W3C Technical Reports, Last Visited:

    05/05/2007,  http://www.w3.org/TR/xslt

    [11]     XML Path Language (XPath) Version 1.0, W3C Technical Reports, Last Visited:

    05/05/2007, http://www.w3.org/TR/xpath

    [12]     Extensible Stylesheet Language (XSL) Version 1.1, W3C Technical Reports, Last Visited: 05/05/2007,  http://www.w3.org/TR/xsl

    [13]     Resource Description Framework (RDF), Last Visited: 05/05/2007,  http://www.w3.org/RDF

    [14]     RDF Validation Service, Last Visited: 05/05/2007,  http://www.w3.org/RDF/Validator

    [15]     OWL Web Ontology Language Reference, W3C Technical Reports, Last Visited:

    05/05/2007,  http://www.w3.org/TR/owl-ref/   

     

    [Miscellaneous]

    [16]     Internet Software Consortium, Last Visited: 05/05/2007, www.isc.org, Jannuary 2006 [Knowledge Management & Information Retrieval]

     

    [17]     John Davies, Dieter Fensel, and Frank van Harmelen, editors. "Towards the Semantic Web: Ontology-Driven Knowledge Management". John Wiley & Sons, 2003.

    [18]     Broekstra, J. and Kampman, A., 2001. "Sesame: A generic Architecture for Storing and Querying RDF and RDF Schema". Deliverable 10, On-To-Knowledge project, October. http://www.ontoknowledge.org/downl/del10.pdf

    [19]     Wessman, A., Liddle, S.W., Embley, D.W., “A generalized framework for an ontologybased data-extraction system”. In Proc. 4th Int. Conference on Information Systems Technology and its Applications, 239-253, 2005.

    [20]     Shah, U., T. Finin, J. Mayfield. “Information retrieval on the Semantic Web” In Proceedings of the Eleventh International Conference on Information and Knowledge Management, McLean, Virginia, 4-9 November 2002, pp. 461-468.

    [21]     Simon, K., and Lausen, G. 2005. "ViPER: augmenting automatic information extraction with visual perceptions". In Proc. CIKM'05, 381--388. ACM.

    [22]     Snoussi, H., Magnin, L. and Nie, J.-Y, "Toward an Ontology-based Web Data Extraction", The AI-2002 Workshop on Business Agents and the Semantic Web (BASeWEB) held at the AI 2002 Conference (AI-2002), Calgary, Alberta, Canada, May 26, 2002.

    [23]     Bartlett W., "A Comparison of Techniques for Exposing Legacy Data to Semantic Web Technologies", In Proc. 21st Annual Computer Science Conference, 2005.

    [24]     Robert Engels, 2002. "CORPORUM-OntoExtract: Extraction of structured information from web based resources", OnToKnowledge Project Report, Delivery 6.

    [25]     Robert Engels, 2002. "CORPORUM-OntoWrapper: Extraction of structured information from web based resources", OnToKnowledge Project Report, Delivery 7.

    [26]     The Onto-Knowledge Toolset, Last Visited: 05/05/2007, http://www.ontoknowledge.org/tools/toolrep.shtml. 

    [27]     The Ontoprise homepage, Last Visited: 05/05/2007, http://www.ontoprise.com. 

    [28]     Best known annotation Tools and Frameworks, Last Visited: 05/05/2007, http://annotation.semanticweb.org/tools/. 

    [29]     KIM Online reference, Last Visited: 05/05/2007, http://www.ontotext.com

    [30]     Laender, A., Ribeiro-Neto, B., Silva, A. and Teixeira, J. "A Brief Survey of Web Data Extraction Tools", in: SIGMOD Record, Volume 31, Number 2, June 2002.

    [31]     SESAME Online Open Source, Last Visited: 05/05/2007, http://www.openrdf.org/documentation.jsp.

    [32]     B. Popov, A. Kiryakov, D. Ognyanoff, D. Manov, A. Kirilov, M. Goranov, "Towards Semantic Web Information Extraction", Human Language Technologies Workshop at the 2nd International Semantic Web Conference (ISWC2003), Florida, USA, 2003. 

    [33]     Cunningham H., Maynard D., Bontcheva K. and Tablan V., "GATE: A Framework, Graphical Development Environment for Robust NLP Tools and Applications". In Proc. of the 40th Anniversary Meeting of the Association for Computational Linguistics, 2002.

    [34]     Lucene - high performance full text search engine, Last Visited: 05/05/2007.

    http://jakarta.apache.org/lucene.

    [35]     Frohn, J., Himmer¨oder, R., Kandzia, P.T., Lausen, G., Schlepphorst, C., "FLORID: A Prototype for F-Logic", In: ICDE’97, IEEE Computer Society (1997) 583.

    [36]     “How to Write F-Logic Programs,” Online. Internet. Last Visited: 05/05/2007, http://ontoprise.de/documents/tutorial_flogic.pdf

    [37]     Arocena, G., Mendelzon, A., "WebOQL: Restructuring Documents, Databases and Webs", Proceedings of International Conference on Data Eengineering, 1998.

    [38]     A. Sahuguet and F. Azavant. "Building Intelligent Web Applications Using Lightweight Wrappers". to appear in: Data and Knowledge Engineering, 2000.

    [39]     Thomas Hornung, Kai Simon, Georg Lausen, "Information Gathering in a Dynamic World". PPSWR 2006: 237-241

    Principles and Practice of Semantic Web Reasoning, 4th International Workshop, PPSWR 2006, Budva, Montenegro, June 10-11, 2006, Revised Selected Papers. 

ثبت سفارش
عنوان محصول
قیمت