پایان نامه استخراج اتوماتیک اطلاعات بر اساس آنتالوژی

تعداد صفحات: 162 فرمت فایل: word کد فایل: 10001989
سال: 1386 مقطع: مشخص نشده دسته بندی: پایان نامه مهندسی کامپیوتر
قیمت قدیم:۲۲,۸۰۰ تومان
قیمت: ۲۰,۷۰۰ تومان
دانلود فایل
  • خلاصه
  • فهرست و منابع
  • خلاصه پایان نامه استخراج اتوماتیک اطلاعات بر اساس آنتالوژی

    پایان نامه کارشناسی ارشد 

    رشته مهندسی کامپیوتر – نرم افزار  

    چکیده 

    لازمه توسعه و گسترش وب معنایی ، ازدیاد هر چه بیشتر آنتالوژی ها می باشد. آنتالوژی ها با ایجاد فهم مشترکاز مفاه یم موجود در دامنه دانش، امکان همکاری و تبادل اطلاعات بین ماشین ها را بوجود می آورند. اما ایجاد دستیآنتالوژی ها سخت و طاقت فرسا بوده و احتمال بروز خطای انسانی نیز بسیار زیاد می باشد. از این رو ، استخراجاطلاعات از منابع وب بصورت نیمه اتوماتیک و یا تمام اتوماتیک مورد توجه بسیاری از محققان قرار گرفته است. اولین ایده در استخراج اطلاعات، تهیه برنامه ای بنامWrapper  است که اطلاعات موجود در صفحات وب را در یک قالبساختیافته، استخراج می کند. ابزار های متنوعی جهت تولیدWrapper  ها بصورت دستی، نیمه اتوماتیک و اتوماتیکمورد پژوهش قرار گرفته اند. برخی از این ابزار ها ابتدا قواعد استخراج را آماده کرده و در هنگام استخراج اطلاعات با آگاهی از محل داده ها، به سرعت اطلاعات مورد نیاز را استخراج می نمایند. برخی دیگر نیز با استفاده از آنتالوژیاستخراج، داده های موجود در صفحه وب را پردازش کرده و مفهوم مرتبط با هر مقدار متنی را از آنتالوژی دامنه یافتهو در نهایت با توجه به الگوهای موجود، اطلاعات را استخراج می نمایند.  

    در این تحقیق، روش پیشنهادی ما که منجر به تولید یک سیستم نرم افزاری نیز خواهد شد، توصیفWrapper  با استفاده از زبان نشان گذاریWDML  می باشد. این زبان با ترکیب مکانیزم های استخراج مبتنی بر مکان و مبتنی برآنتالوژی، از مزایای هر دو روش بهره می برد. قواعد استخراج توصیف شده در فایل هایWDML  بصورت درختیتعریف شده و به آن الگوی استخراج گفته می شود از این رو نسبت به سایر روش ها دا رای انعطاف پذیری بسیاربالایی می باشد . همچنین در این تحقیق روشی را جهت تولید اتوماتیک فایل هایWDML  با استفاده از یک آنتالوژیاستخراج ارائه خواهیم کرد.  

     

    کلمات کلیدی: وب معنایی، آنتالوژی، استخراج اتوماتیک اطلاعات، Wrapper ،WDML 

    ۱- مقدمه

    تا ده سال پیش کسی هرگز فکر آن را نمی کرد که روزی اینترنت بتواند تا این حد در زندگی انسانها رسوخ نموده و در شیوه زندگی، اخبار، اطلاع رسانی، ارتباطات وغیره تاثیر گذار باشد. امروزه با رشدروز افزون وب و با وجود ۴۰۰ میلیون وب سایت [ISC06] و چندین میلیارد منابع اطلاعاتی (شا مل صفحاتHTML ، فایل های صوتی، ویدئویی، تصاویر ، RSS ،XML و غیره)، عملا وب جاری به یککتابخانه بزرگ از منابع و اطلاعات مختلف تبدیل شده است.  

    (تصاویر و نمودار در فایل اصلی موجود است)

    موتور های جستجوگر مانندAltaVista ،Yahoo ،Google  و غیره، کمک شایانی در یافتن صفحاتمورد نظر به کاربران اینترنت نموده اند. این موتور های جستجوگر به کاربران خود امکان آن را می دهند تا تنها با ورود چند کلمه کلیدی منظور خود را از آنچه که بدنبال آن هستند، مشخص نمایند. سپس موتورهای جستجو گر این کلمات کلیدی را در محتوای صفحاتی که از قبل در بانک های اطلاعاتی خود ذخیرهنموده اند، جستجو کرده و صفحات یافت شده را با استفاده از الگوریتم های موجود امتیاز  دهی ١ مینمایند. در نهایت صفحات یافت شده، به ترتیب امتیاز به کاربر نشان داده می شود.                                                

    یکی از بزرگترین مشکلا ت در ارتباط با این شیوه سنتی جستجو، که به آن جستجوی کور هم گفتهمی شود، یافتن کلمات کلیدی مناسب می باشد. هرچه کلمات کلیدی مورد جستجو متناسب با موضوعمورد نظر باشد، پاسخ ها نیز به احتمال قویتر، مرتبط با موضوع خواهد بو د. اما متاسفانه یافتن کلماتکلیدی مناسب در اکثر جستجو ها مشکل می باشد. لذا کاربر مجبور است با وارد کردن مجموعه ای ازکلمات کلیدی اولیه، ابتدا صفحات یافت شده را خوانده تا کلمات کلیدی جدیدتری را  بیابد . کاربر اینشیوه را آنقدر ادامه خواهد داد تا به پاسخ مورد نظر خود برسد. 

    در صورتی که ماشین ها از مفاهیم٢ و اطلاعات موجود در صفحات وب آگاهی داشتند، آنگاه میتوانستیم، بجای جستجوی کورکو رانه ی کلمات کلیدی، صفحات وب را بصورت مفهومی جستجو کنیم. اما مشکل اساسی در ارتباط با وب جاری آن است که اطلاعات موجود در آن برای استفاده انسان ها آراستهشده است . مانند تصاویر، صدا، فیلم و حتی صفحات وب. بنابراین برای جستجوی معنایی، نیاز است تاابتدا معنی و مفهوم اطلاعات موجود، به طریقی برای کامپیوتر ها قابل فهم گردد. 

    ۱- ۱-  وب معنایی 

    برای مقابله با مشکلات فوق، آقای تیم برنرز لی٣، مبدع وب، برای اولین بار ایده وب معنایی را بهعنوان نسل جدید وب جاری مطرح نمود. از نظر ایشان، وب معنایی دارای دو هدف اساسی و مهم می :[Lee01] باشد

    ۱. قابل فهم کردن اطلاعات موجود در وب جاری برای ماشین ها

    ۲. افزایش قابلیت همکاری٤ بین افراد و عامل های درگیر با داده های مشترک 

    باید به این نکته توجه داشت که وب معنایی هرگز قصد ندارد تا جایگرین وب جاری گردد. بلکههمانند یک لایه بر روی وب جاری قرار می گیرد و کاربران همچنان از طریق اینترفیس ها و مرورگر هایجاری، صفحات وب را مشاهده می کنند. در مقابل، وب معنایی تکنولوژی هایی را ارائه می کند که وبسایت ها و عامل های ماشینی می توانند با استفاده از آنها در سطح انسان ها، با کاربران ارتباط برقرار کنند  [Dac03]. به عنوان مثال هنگام جستجوی یک موضوع، کاربران می توانند بجای ورود مجموعه ای ازکلمات کلیدی، جمله پرسشی خود را به زبان طبیعی مطرح کنند. سپس سیستم با پردازش متن سوال، معنی و مفهوم مورد جستجو را یافته و آن را در بین مفاهیم بازیابی شده از صفحات وب جستجو می کند.                                                

    بدین ترتیب کلید اصلی موفقیت وب معنایی دسترسی کاملتر به مفاهیم موجود در صفحات وب میباشد. در وب معنایی جهت توصیف اطلاعات و مفاهیم یک دامنه به صورتی که برای ماشینها قابل فهمباشد، از آنتالوژی ها استفاده می گردد. در واقع آنتالوژی ابزار و روشی جهت رسمی سازی توصیف مفاهیمدامنه می باشد و باعث ایجاد یک فهم مشترک از مفاهیم و اطلاعات موجود می گردد. ایجاد دستیآنتالوژی ها عملی سخت و طاقت فرسا بوده و احتمال خطا های انسانی نیز در آن بسیار زیاد می باشد . از طرفی دیگر با توجه به تنوع اطلاعات در دامنه های گوناگون، جهت ایجاد دستی آنتالوژی ها، نیاز بهچندین فرد متخصص در هر یک از دامنه های مورد بحث می باشد. جمع کردن چنین افراد متخصصی درکنار هم و رسیدن به یک توافق در توصیف تما می مفاهیم، تقریبا امری غیر ممکن است. لذا ایجاد اتوماتیک آنتالوژی ها یکی از چالش ها و مشکلات موجود در وب معنایی می باشد. 

    ۱- ۲-  بازیابی و استخراج اطلاعات 

    دسترسی آسان به منابع وب و حجم کثیر اطلاعات و مفاهیم موجود در صفحه وب، آن را به یکگنجینه ارزشمند از آنتالوژی های غیر رسمی تبدیل کرده است. از این رو استخراج آنتالوژی های رسمیسازی شده و یا حتی اطلاعات ساختیافته و یکپارچه از صفحات وب یکی از موضوعات مورد تحقیقپژوهشگران می باشد. 

    همانطور که گفته شد، صفحات وب برای نمایش و استفاده انسان ها طراحی شده اند و براحتی برایماشین ها قابل فهم نمی باشند. لذا برای استخراج اطلاعات از صفحات وب لازم است تا ابتدا با استفاده ازروش های داده کاوی، آماری و غیره، قواعد استخراج را یافته سپس با اعمال این قواعد بر روی صفحاتمشابه، اطلاعات مورد نظر را استخراج نمود. عملیات مربوط به اعمال قواعد استخراج بر روی صفحاتوب و بازیابی اطلاعات مورد نظر توسط نرم افزاری بنام Wrapper انجام می گیرد.  

     

  • فهرست و منابع پایان نامه استخراج اتوماتیک اطلاعات بر اساس آنتالوژی

    فهرست:

    فهرست لیست ها............................................................................................................................... و  ۱-  مقدمه ..........................................................................................................................................١ 

    ۱-۱-  وب معنایی......................................................................................................................................

    ۱-۲-  بازیابی و استخراج اطلاعات............................................................................................................

    ۱-۳-  محدوده بحث و دستاورد تحقیق ..................................................................................................... ٥ 

    ۱-۴-  طرح کلی بحث ............................................................................................................................... ٧ 

    ۲-  مفاهیم و کلیات ...........................................................................................................................٩ 

    ۲-۱-  معرفی آنتالوژی............................................................................................................................... ٩ 

    ۲–۱–۱– سطوح بازنمایی آنتالوژی.......................................................................................................................١١ 

    ۲–۱–۲– زبان های تعریف آنتالوژی.....................................................................................................................١٢ 

    ۲-۲-  استخراج اطلاعات و وب معنایی...................................................................................................١٤ 

    ۲-۳-  استخراج اطلاعات از انوع مختلف منابع متنی وب ........................................................................١٦ 

    ۲-۴-  بازیابی اطلاعات و استخراج اطلاعات...........................................................................................١٧ 

    ۲- ۴-۱-  "بازیابی داده" در مقابل "بازیابی اطلاعات"...............................................................................................١٩ 

    ۲- ۴-۲-  "بازیابی اطلاعات برای وب معنایی" در مقابل "بازیابی اطلاعات مبتنی بر آنتالوژی"...................................٢٠ 

    ۲-۵-  ایجاد آنتالوژی برای وب معنایی....................................................................................................٢٠ 

    ۲- ۵-۱-  ایجاد دستی آنتالوژی ها..........................................................................................................................٢٠ 

    ۲- ۵-۲-  ایجاد اتوماتیک آنتالوژی ها.....................................................................................................................٢٢ 

    ۲-۶-  خلاصه مطالب و نتیجه گیری........................................................................................................٢٤ 

    ۳-  بررسی سوابق مرتبط با تحقیق .................................................................................................. ٢٥ 

    ۳-۱-  مقدمه ............................................................................................................................................٢٥ 

    ۳-۲-  روش های مبتنی بر زبان های پرس و جو .....................................................................................٢٦ 

    ۳-۳-  روش های مبتنی بر پردازش زبان طبیعی.......................................................................................٢٩ 

    أ

    ۳-۴-  روش های آگاه از HTML............................................................................................................٣٥ 

    ۳-۵-  روش های استنتاج WRAPPER.....................................................................................................٣٨ 

    ۳-۶-  روش های مبتنی بر آنتالوژی .........................................................................................................٤٢ 

    ۳-۷-  خلاصه مطالب و نتیجه گیری........................................................................................................٤٦ 

      ٤٨ ............................................................................................ONTOBYONTO معرفی سیستم  -۴

    ۴-۱-  مقدمه ............................................................................................................................................٤٨ 

    ۴-۲-  معماری سیستم ONTOBYONTO.................................................................................................٥٠ 

      ٥٢...............................................................................................WRAPPER زبان تعریف :WDML  -۳-۴

    ۴- ۳-۱-  معرفی مستندات ورودی.........................................................................................................................٥٣ 

    ۴- ۳-۲-  معرفی قالب خروجی.............................................................................................................................٥٤ 

    ۴- ۳-۳-  معرفی الگوی استخراج...........................................................................................................................٥٥ 

    ۴-۴-  استخراج با استفاده از WDML.....................................................................................................٦٢ 

    ۴- ۴-۱-  الگوریتم استخراج..................................................................................................................................٦٢ 

    ۴- ۴-۲-  اجرای یک مثال......................................................................................................................................٦٦ 

    ۴-۵-  خلاصه مطالب و نتیجه گیری........................................................................................................٦٨ 

    ۵-  تولید اتوماتیک فایل های WDML........................................................................................... ٧٠ 

    ۵-۱-  مقدمه ............................................................................................................................................٧٠ 

    ۵-۲-  آنتالوژی استخراج .........................................................................................................................٧١ 

    ۵- ۲-۱-  انتخاب زبان...........................................................................................................................................٧٢ 

    ۵- ۲-۲-  تعریف کلاس ها....................................................................................................................................٧٣ 

    ۵- ۲-۳-  تعریف خصوصیات................................................................................................................................٧٤ 

    ۵- ۲-۴-  تعریف الگو ها.......................................................................................................................................٧٧ 

    ۵- ۲-۵-  تعریف فهرست واژگان آنتالوژی.............................................................................................................٨١ 

    ۵- ۲-۵-  آنتالوژی استخراج برای یک صفحه وب نمونه.........................................................................................٨٢ 

    ۵-۳-  الگوریتم ایجاد اتوماتیک WDML................................................................................................٨٤ 

    ۵- ۳-۱-  تولید WDML........................................................................................................................................٨٥ 

      ٨٧.......................................................................................................................................Wapper ایجاد  -۲-۳ -۵

    ۵- ۳-۳-  یافتن الگو ها..........................................................................................................................................٨٩ 

    ۵- ۳-۴-  روتین های اولیه مورد نیاز در پردازش الگو ها........................................................................................٩٣ 

    ۵-۴-  اجرای الگوریتم در یک صفحه نمونه ..........................................................................................١٠٢ 

    ۵-۵-  خلاصه مطالب و نتیجه گیری......................................................................................................١٠٦ 

    ب 

    ۶-  ارزیابی و جمع بندی مطالب ................................................................................................... ١٠٧ 

    ۶-۱-  مقدمه ..........................................................................................................................................١٠٧ 

    ۶-۲-  شاخص های ارزیابی...................................................................................................................١٠٨ 

    ۶-۳-  روش و نتایج ارزیابی ..................................................................................................................١١٠ 

    ۶-۴-  نقاط گسترش تحقیق...................................................................................................................١١٢ 

    ۷-  منابع ....................................................................................................................................... ١١٣ 

    ۸-  ضمائم .................................................................................................................................... ١١٦ 

    ۸-۱-  آنتالوژی استخراج نمونه برای گوش های تلفن همراه .................................................................١١٦

    منبع:

     

    [ISC06] Internet Software Consortium, Last Visited: 05/05/2007, www.isc.org, Jannuary 2006

     [Lee01] Berners-Lee, T, Hendler, J & Lassila, O, 2001. "The semantic web", Scientific American.

    [Dac03] Michael C. Daconta, Leo J. Obrst, Kevin T. Smith, 2003. "The Semantic Web: A Guide to the Future of XML, Web Services  and Knowledge Management", Wiley publishing.

    [Dav03] John Davies, Dieter Fensel, and Frank van Harmelen, editors. "Towards the Semantic Web: Ontology-Driven Knowledge Management". John Wiley & Sons, 2003.

    [Bro01] Broekstra, J. and Kampman, A., 2001. "Sesame: A generic Architecture for Storing and Querying RDF and RDF Schema". Deliverable 10, On-To-Knowledge project, October. http://www.ontoknowledge.org/downl/del10.pdf

    [Wes05] Wessman, A., Liddle, S.W., Embley, D.W., “A generalized framework for an ontology-based data-extraction system”. In Proc. 4th Int. Conference on Information Systems Technology and its Applications, 239-253, 2005.

    [Sha01] Shah, U., T. Finin, J. Mayfield. “Information retrieval on the Semantic Web” In Proceedings of the Eleventh International Conference on Information and Knowledge Management, McLean, Virginia, 4-9 November 2002, pp. 461-468.

    [Sim05] Simon, K., and Lausen, G. 2005. "ViPER: augmenting automatic information extraction with visual perceptions". In Proc. CIKM'05, 381--388. ACM.

    [Sno02] Snoussi H., Magnin L. and Nie J.-Y, "Toward an Ontology-based Web Data Extraction", The AI-2002 Workshop on Business Agents and the Semantic Web (BASeWEB) held at the AI 2002 Conference (AI-2002), Calgary, Alberta, Canada, May 26, 2002.

     [Eng02-6] Robert Engels, 2002. "CORPORUM-OntoExtract: Extraction of structured information from web based resources", OnToKnowledge Project Report, Delivery

    6.

    [Eng02-7] Robert Engels, 2002. "CORPORUM-OntoWrapper: Extraction of structured information from web based resources", OnToKnowledge Project Report, Delivery

    7.

    [Onto07] The Onto-Knowledge Toolset, Last Visited: 05/05/2007, http://www.ontoknowledge.org/tools/toolrep.shtml. 

     [KIM07] KIM Online reference, Last Visited: 05/05/2007, http://www.ontotext.com

    [Lae02] Laender, A., Ribeiro-Neto, B., Silva, A. and Teixeira, J. "A Brief Survey of Web Data Extraction Tools", in: SIGMOD Record, Volume 31, Number 2, June 2002.

    [Bar05] Bartlett W., "A Comparison of Techniques for Exposing Legacy Data to Semantic Web Technologies", In Proc. 21st Annual Computer Science Conference, 2005.

     [SEA07] SESAME Online Open Source, Last Visited: 05/05/2007, http://www.openrdf.org/documentation.jsp.

    ۱۱۳

    [Pop03] B. Popov, A. Kiryakov, D. Ognyanoff, D. Manov, A. Kirilov, M. Goranov, "Towards Semantic Web Information Extraction", Human Language Technologies Workshop at the 2nd International Semantic Web Conference (ISWC2003), Florida, USA, 2003.

    [Cun02] Cunningham H., Maynard D., Bontcheva K. and Tablan V., "GATE: A Framework,

    Graphical Development Environment for Robust NLP Tools and Applications". In Proc. of the 40th Anniversary Meeting of the Association for Computational Linguistics, 2002.

    [Luc07] Lucene - high performance full text search engine, Last Visited: 05/05/2007.

    http://jakarta.apache.org/lucene.

    [Fro97] Frohn, J., Himmer¨oder, R., Kandzia, P.T., Lausen, G., Schlepphorst, C., "FLORID: A Prototype for F-Logic", In: ICDE’97, IEEE Computer Society (1997) 583.

    [FL07] “How to Write F-Logic Programs,” Online. Internet. Last Visited: 05/05/2007, http://ontoprise.de/documents/tutorial_flogic.pdf

    [Aro98] Arocena, G., Mendelzon, A., "WebOQL: Restructuring Documents, Databases and Webs", Proceedings of International Conference on Data Eengineering, 1998.

    [Sah00] A. Sahuguet and F. Azavant. "Building Intelligent Web Applications Using Lightweight Wrappers". to appear in: Data and Knowledge Engineering, 2000.

    [Hmn06] Thomas Hornung, Kai Simon, Georg Lausen, "Information Gathering in a Dynamic World". PPSWR 2006: 237-241, Principles and Practice of Semantic Web Reasoning, 4th International Workshop, PPSWR 2006, Budva, Montenegro, June 1011, 2006, Revised Selected Papers.

     [Chr07] Christopher D. Manning, P. Raghavan, H. Schütze."An Introduction to Information to Information Retrieval", Cambridge University Press, 2007.

    [Wtn00] Ian H. Witten, Eibe Frank, “Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations”, Morgan Kaufman Publishers, 1-55860552-5, 2000.

    [Ksl00] Kosala R., Blockeel H. “Web Mining Research: A Survey”, SIGKDD Explorations, July 2000.

    [Baz99] Baeza-Yates, R. & Ribeiro-Neto, B. "Modern Information Retrieval", Addison Wesley, 1999.

    [Arp03] Arpirez J. C., Corcho O., Fernandez-Lopez M., and Gomez-Perez A. "Webode in a nutshell". AI Magazine, 24(3):37-47, 2003

    [Ksh00] Kushmerick, N. 2000. "Wrapper induction: Efficiency and expressiveness". Artificial Intelligence J. 118(1-2):15-68 (special issue on Intelligent Internet Systems).

    [Crs05] M. Cristani, R. Cuel, “A Survey on Ontology Creation Methodologies”,

    International Journal on Semantic Web and Information Systems, Vol. 1, No. 2, 49 – 69, 2005

    [Emb98] D.W. Embley. "Toward semantic understanding - an approach based on information extraction ontologies". In Proceedings of the the Fifteenth Australasian Database Conference, Dunedin, New Zealand, January 2004.

    [Eik99] Line Eikvil. "Information Extraction from World Wide Web - A Survey". Technical Report 945, Norweigan Computing Center, 1999.

    ۱۱۴

    [Hau03] Y. Qi, A. Hauptmann, and T. Liu: “Supervised classification for video shot segmentation” in Proc. IEEE Conf. Multimedia Expo (ICME03) vol. 2, 2003, pp. 689-692. 

ثبت سفارش
عنوان محصول
قیمت