آنی پیپر
دانلود فایل‌های آموزشی دانش‌آموزی و دانشجویی

پروژه الگوریتم genetic fuzzy k-Modes برای خوشه بندی داده های گروهی

تعداد صفحات: 42 فرمت فایل: word کد فایل: 10001583
سال: 1387 مقطع: کارشناسی ارشد دسته بندی: پایان نامه مهندسی کامپیوتر

قیمت قدیم:۷,۰۰۰ تومان

قیمت: ۴,۳۰۰ تومان

دانلود فایل

کلمات کلیدی: genetic fuzzy k-Modes - الگوریتم - الگوریتمk-means Hard - خوشه بندی - خوشه بندی داده - خوشه بندی داده های گروهی

خلاصه
فهرست و منابع

خلاصه پروژه الگوریتم genetic fuzzy k-Modes برای خوشه بندی داده های گروهی

چکیده

خوشه بندی روشی است که داده های یک مجموعه داده را به گروه یا خوشه تقسیم می کند . از مرسوم ترین روش های خوشه بندی،الگوریتم های خوشه بندی k-Means وfuzzy k-Means می باشند.این دو الگوریتم فقط روی داده های عددی عمل می کنند و به منظور رفع این محدودیت، الگوریتم های k-Modes و fuzzy k-Modes ارائه شدند که مجموعه داده های گروهی (دسته ای) را نیز خوشه بندی می کنند. . با این وجود، این الگوریتم ها ،شبیه همه روال های بهینه سازی دیگر که برای مینیمم عمومی یک تابع جستجو می کنند، احتمال گیر افتادن در یک مینیمم محلی وجود دارد. به منظوردستیابی به جوبب بهینه عمومی ، الگوریتم های تکاملی مانند ژنتیک و جدول جستجو با الگوریتم های مذکور ترکیب می شوند. در این پژوهش،   الگوریتم ژنتیک ، GA، را با الگوریتم fuzzy k-Modes ترکیب شده ،بطوریکه عملگر ادغام به عنوان یک مرحله از الگوریتم fuzzy k-Modes تعریف می شود. آزمایش ها روی دو مجموعه داده واقعی انجام شده است تا همراه با مثال کارایی الگوریتم پیشنهادی را روشن نماید.

1.مقدمه

به عنوان یک ابزار اولیه در داده کاوی[1] ،تجزیه و تحلیل خوشه ، که تجزیه و تحلیل سگمنت نیز نامیده می شود،روشی است که داده ها را به گروه هایی همگن تحت عنوان خوشه تقسیم می کند.در چنین روشی داده های موجود در یک کلاستر یا خوشه خیلی شبیه به هم و داده ها ی کلاستر های مختلف خیلی متفاوت نسبت به هم هستند.اغلب، شباهت بر مبنای معیار فاصله می باشد.

آنالیز خوشه،خوشه بندی، تکنیک عمومی برای آنالیز داده های آماری می باشد که در بسیاری زمینه ها مانند یادگیری ماشین ، داده کاوی ، شناسایی الگو و آنالیز تصویر کاربرد دارد.در کنار اصطلاح خوشه بندی داده (یا فقط خوشه بندی)،بعضی اصطلاحات دیگرنیزهمانند کلاس بندی اتوماتیک[2] ،طبقه بندی عددی[3]، آنالیز نوع شناسی[4] ، با معنای مشابه استفاده می شود[1].

به طور کلی ،یک الگوریتم خوشه بندی خوب معمولا برای طراحی شامل چهار فاز ذیل را شامل می شود:1- نمایش داده[5]2- مدل کردن[6].3- بهینه سازی[7].4- اعتبار سنجی[2][8] ..

فاز نمایش داده، تعیین می کند که چه نوعی از ساختارهای خوشه می تواند داده ها را شناسایی کند.سپس فاز مدلینگ ضوابط و معیار ها را برروی ساختار تعریف می کند بطوریکه که ساختارها ی گروه های مطلوب را از موارد نامطلوب مجزا می کند.در فاز مدلینگ ، در طول جستجو برای ساختار های مخفی در داده ،یک معیار کیفیت مانند معیار بهینه سازی یا معیار تقریب تولید می شود. بعبارتی دیگرفاز بهینه سازش،ساختار های موثرتر و بهینه تر را انتخاب میکند. از آنجا که فرآیند خوشه بندی ،یک فرایند بدون سرپرستی است فاز اعتبار سنجی خیلی ضروری است تا نتایج تولید شده به وسیله الگوریتم خوشه بندی ارزیابی شوند.

به طور کلی ،الگوریتم های خوشه بندی به دو دسته تقسیم بندی می شوند[3,4] : الگوریتم های خوشه بندی سخت[9] و الگوریتم های خوشه بندی فازی[10].

در چهارچوب خوشه بندی سخت ،هر شی ء به یک و فقط یک خوشه تعلق دارد و برعکس در چهار چوب خوشه بندی فازی به هر شی ء اجازه داده می شود که توابع تعلقی به همه خوشه ها داشته باشد.هر دو روش الگوریتم خوشه بندی سخت و فازی ،مرکز های خوشه (نمونه های اولیه) را تعیین می کنند و مجموع مربع فاصله بین این مرکز ها و خوشه ها را مینیمم می کنند.

بسیاری از الگوریتم ها به منظور دستیابی به خوشه بندی سخت در یک مجموعه داده پیشرفت داده شده اند.در بین آنها الگوریتم k-meansو روش های خوشه بندی IsoData به طور گسترده ای مورد استفاده گرفته اند.این دو الگوریتم بر پایه تکرار می باشند. کاربرد مجموعه های فازی در توابع کلاس بندی موجب می شود هر داده در یک زمان به چندین کلاس با درجه های متفاوت تعلق داشته باشد[3].

معروف ترین و پرکاربردترین الگوریتم خوشه بندی فازی ،الگوریتم fuzzy C-Means [7] است. الگوریتم fuzzy C-Means با یک مقدار اولیه از Wشروع می شود و مکررا بین تخمین مراکز خوشه Z داده شده درZ و تخمین ماتریس تعلق داده شده درW تکرار می شود تا هنگامیکه دو مقدار متوالی از Z یا W مساوی شوند.

از نظر ریاضی ،یک مسئله خوشه بندی فازی را می توان به صورت یک مسئله بهینه سازی به صورت ذیل نمایش داد.[5,6](فرمول ها در فایل اصلی قابل مشاهده است)

که n تعداد اشیاء در مجموعه داده مورد بررسی وk تعداد خوشه ها است .مجموعه از n شی ء است که هر یک با d ویژگی توصیف می شوند.   Z یک مجموعه با k مرکز کلاستر ، W یک ماتریس تعلق فازی و توان وزن و d معیار فاصله معین بین مرکز خوشه و شی ء می باشد.

از آنجا که الگوریتم fuzzy c-Means فقط روی داده های عددی کار می کند،یک الگوریتم fuzzy k-Modes   را به منظور خوشه بندی مجموعه داده های گروهی پیشنهاد می دهیم [6-9] . با این وجود،این الگوریتم ها ،شبیه همه روال های بهینه سازی دیگر که برای مینیمم عمومی یک تابع جستجو می کنند، احتمال گیر افتادن در یک مینیمم محلی وجود دارد.

برای مسئله بهینه سازی ،یک مسئله شناخته شده وابسته به هر دو الگوریتم fuzzy C-Means و fuzzy k-Modes این است که آنها ممکن است روی بهینه محلی متوقف شوند[5] .برای رفع این مشکل و رسیدن به یک راه حل عمومی،تکنیک های بر پایه الگوریتم های ژنتیک و تابو سرچ[1] به کار برده شده اند. برای مثال ،الگوریتم genetic k-Means،الگوریتم genetic و الگوریتمk-Means   را ترکیب می کند بدین منظورکه راه حل عمومی و بهینه را پیدا کند[10].به منظور پیدا کردن راه حل بهینه عمومی برای الگوریتم   fuzzy k-Modes،Ng و Wong تابو سرچ را بر پایه الگوریتم fuzzy k-Modes معرفی کردند[11].

هدف اصلی در این پروژه این است که الگوریتم genetic fuzzy k-Modes را بکار ببریم تا الگوریتم های fuzzy k-Modes و genetic را به منظور پیدا کردن راه حل بهینه در مسئله بهینه سازی ترکیب کند[5].

طرح کلی پروژه به صورت ذیل است که در قسمت 2، مروری برکارهای قبل و دیگر روش ها خواهیم داشت .بدین صورت که ابتدا الگوریتم های k-means, fuzzy C-means,k-modes,fuzzy k-modes با جزییات شرح می دهیم که مقدمه ای از روال کلی رسیدن به الگوریتم مورد بررسی در این مقاله هستند. سپس در قسمت 3 ،روش پیشنهادی مان،الگوریتم ترکیبی genetic fuzzy k-Modes را تشریح می کنیم. نتایج پیاده سازی الگوریتم برروی دو مجموعه داد ه واقعی از UCI را در قسمت 4 نشان می دهیم ودر نهایت در قسمت 5 بعضی نتایج را عنوان می کنیم.

2- مروری بر روش های قبل

1.2- الگوریتمk-means Hard

الگوریتم   k-means،الگوریتمی است که n نمونه داده را بر پایه ویژگی هایشان به c قسمت (c
فهرست و منابع پروژه الگوریتم genetic fuzzy k-Modes برای خوشه بندی داده های گروهی

فهرست:

چکیده

مقدمه (3)

مروری بر روش های قبل (7)

1.2 - الگوریتمk-Means Hard (7)

1.1.2            - مثالی عددی از الگوریتم k-Means (9)

2.2- الگوریتم Fuzzy c-Means (13)

3.2- الگوریتم Hard k-Modes (15)

4.2- الگوریتم fuzzy k-Modes   (18)

      3- الگوریتم پیشنهادی : genetic fuzzy k-Modes (21)

نتایج آزمایش (25)

نتیجه گیری (32)

      پیوست – کد برنامه

      مراجع

.

.

منبع:

[1] Ludmila I. Kuncheva (2008), Fuzzy classifiers. School of Computer Science, Bangor University, UK. Scholarpedia, 3(1):2925

[2] Buhmann,J.(2003).Data clustering and learning.In M.Arbib (Ed.),The handbook of brain theory and neural networks (pp.308 .312).Cambridge,Massachusetts:The MIT Press.

[3] S. B. Kotsiantis. (2007). Supervised Machine Learning: A Review of Classification Techniques. Department of Computer Science and Technology. Informatica 31 . 249-268

[4] Berks, G., Graf, D., Keyserlingk.& Jantzen, J.& Dotoli M., Axer H. (2005). Fuzzy Clustering - A Versatile Mean to Explore Medical Databases. Department of Anatomy I, 30, D-52057 Aachen, Germany.

[5] Gan,G.,Wu, J.& Yang, Z.(2009). A genetic fuzzy k -Modes algorithm for clustering categorical data. Expert Systems with Applications 36. 1615 .1620

[6] Michael, K. Ng., Mark, Junjie Liy., Joshua, Z., Huangz, Z. H.(2006). On the Impact of Dissimilarity Measure in k-modes Clustering Algorithm. Data Mining and Knowledge Discovery, vol. 2, no. 3, pp. 283,304.

[7] Edward.,(2008). Cluster analysis. Wikipedia.

[8] Zengyou, H., Shengchun, D., Xiaofei, X.(2004). Improving K-Modes Algorithm Considering Frequencies of Attribute Values in Mode. Department of Computer Science and Engineering, Harbin Institute of Technology, P.O Box 315, P. R. China, 150001.

[9] Hariz, B. S., Elouedi, Z., Mellouli Kh.(2006)Selection Initial modes for Belief K-modes Method. International Journal of Applied Science, Engineering and Technology Volume 4 Number 4.

[10] Krishna,K.,&Narasimha,M.(1999).Genetic k -means algorithm.IEEE Transactions on Systems,Man and Cybernetics,Part B,29 (3),433 .439.

[11] Ng,M.,&Wong,J.(2002).Clustering categorical data sets using tabu search techniques.Pattern Recognition,35 (12),2783 .2790.

[12] Zlatan Aki Mur.(2006).Numerical Example of K-Means Clustering. Kardi Teknomo.

[13] Blake,C.,&Merz,C.(1998).UCI repository of machine learning

databases.http://www.ics.uci.edu/mlearn/MLRepository.html.

.

مطالب مرتبط با این موضوع:

پایان نامه ارائه یک الگوریتم خوشه بندی برای توزیع مناسب کار و ارزیابی کارایی آن

تعداد صفحه: ۱۳۵ دسته بندی: پایان نامه مهندسی کامپیوتر

پایان نامه کارشناسی ارشد کامپیوتر گرایش نرم افزار چکیده با توجه به تحولات اخیر در تکنولوژی ارتباطات و نیاز روز افزون به توان پردازشی زیاد ، امروزه تصور مجموعه ای از کامپیوتر ها که به صورت یک کامپیوتر یکپارچه ،اما با قدرت بسیار بیشتر در حال کار هستند چندان بعید نیست. یک برنامه توزیع شده می تواند به صورت مجموعه ای از پردازه های در حال اجرا که با تبادل پیام از طریق شبکه ارتباطی با ...

پایان نامه مسیریابی مبتنی بر ناحیه بندی در شبکه های Ad Hoc

تعداد صفحه: ۹۲ دسته بندی: پایان نامه مهندسی فناوری اطلاعات IT

پیشگفتار امروزه شبکه‌های بی‌سیم به دلیل کاربردهایی که دارد و همچنین سرویسهایی که ارائه می‌دهد، رشد چشمگیری داشته است. این شبکه‌ها در حال توسعه سریعی هستند و سرویسهای ارائه شده هم مرتباً بیشتر و بهتر می‌شود، در آینده‌ای نه چندان دور، تکنولوژی اطلاعات بر پایه مخابرات بی‌سیم خواهد بود. از آنجاییکه ایجاد شبکه با زیرساخت باعث محدودیت در شبکه‌های موبایل و سلولی معمولی خواهد کرد؛ لذا ...

پایان نامه تعیین سیلاب طراحی سازه های هیدرولیکی با استفاده از شبکه های عصبی مصنوعی

تعداد صفحه: ۱۷۳ دسته بندی: پایان نامه مهندسی عمران

پایان نامه کارشناسی ارشد عمران سازه های هیدرولیکی چکیده سیل ‌یکی‌از‌مهمترین ‌بلایای‌طبیعی‌است ‌که ‌زندگی‌انسان ‌را‌تحت ‌تاثیر‌قرار‌داده و‌خسارتهای‌اقتصادی‌قابل ‌توجهی‌ را‌در‌تمام ‌دنیا‌ایجاد‌می‌کند.‌براساس ‌مطالعه ‌ای‌که ‌انجام ‌شده ،‌٥٨%‌از‌کل ‌تلفات ‌ناشی‌از‌بلایای‌طبیعی‌و‌٣٣%‌از‌ خسارتهای‌اقتصادی‌مربوط ‌به ‌سیل ‌بوده ‌است .‌بخش ‌اصلی‌این ‌تلفات ‌و‌خسارتها‌در‌کشورهای‌در‌حال ...

طرح توجیه فنی، مالی، اقتصادی طرح توسعه خوشه صنعتی سازندگان ادوات شالیکوبی استان گیلان

تعداد صفحه: ۱۰ دسته بندی: طرح توجیهی کارآفرینی صنایع کشاورزی

کشت برنج در استان گیلان قدرت دیرینه دارد . تبدیل شلتوک به برنج سفید در حال حاضر در کارخانجات شالیکوبی انجام می شود .حدود 1800 کارخانه شالیکوبی در سطح استان با روش ماشینی نسبت به تبدیل شلتوک به برنج سفید اقدام می کنند . صاحبان کارخانجات عمده تجهیزات خود را از 28 واحد تولیدی بزرگ و حدود 70 واحد تولیدی کوچک که در سطح استان پراکنده و بخصوص اکثر آن در شهرستان رشت تمرکز یافته اند ...

پایان نامه بررسی ومطالعه ی کامل داده کاوی و داده کاوی با SQL SERVER2005 پیاده سازی آن روی بانک اطلاعاتی دانشگاه آزاد قوچان

تعداد صفحه: ۲۱۸ دسته بندی: پایان نامه مهندسی کامپیوتر

پایان نامه دوره کارشناسی کامپیوتر گرایش نرم افزار چکیده بررسی ومطالعه ی کامل داده کاوی و داده کاوی با SQL SERVER2005 پیاده سازی آن روی بانک اطلاعاتی دانشگاه آزاد قوچان امروزه با گسترش سیستم های پایگاهی و حجم بالای داده ها ی ذخیره شده در این سیستم ها ، نیاز به ابزاری است تا بتوان داده های ذخیره شده را پردازش کرد و اطلاعات حاصل از این پردازش را در اختیار کاربران قرار داد. داده ...

تحقیق مقاله تکنیک ها و روش های افزایش خلاقیت

تعداد صفحه: ۲۶ دسته بندی: تحقیق مقاله روانشناسی

تکنیک های خلاقیت به عنوان ابزاری برای رشد خلاقیت و افزایش توان حل خلاق مسئله کمک شایانی به توان فرد در تمام مراحل خلاقیت و فرآیند حل خلاق مسئله می نماید . بعبارت دیگر هریک از تکنیک های خلاقیت ، مرحله یا مراحلی از فرآیند خلاقیت را تقویت می کنند . این تکنیک ها فردی و گروهی می باشند که تکنیکهای فردی شامل: توهم خلاق و تکنیک چرا؟ تکنیکهای گروهی شامل : طوفان فکری ، دلفی ، سینکتیکس و ...

تحقیق مقاله تکنیک ها و روش های افزایش خلاقیت

تعداد صفحه: ۳۳ دسته بندی: تحقیق مقاله سایر موضوعات

پایان نامه تعیین اثربخشی آموزش مهارت های زندگی و شیوه های فرزندپروری بر عزت نفس و سازگاری رفتاری کودکان دوره پیش دبستانی شهر اردبیل

تعداد صفحه: ۱۱۶ دسته بندی: پایان نامه روانشناسی

چکیده طرح پژوهشی حاضر یک مطالعه کاربردی بوده که با هدف تعیین اثربخشی آموزش مهارتهای زندگی و شیوه های فرزندپروری بر عزت نفس و سازگاری رفتاری کودکان دوره پیش دبستانی شهر اردبیل است. این پژوهش تجربی براساس تحلیل عاملی بلوکی است که جامعه آماری این پژوهش را کلیه کودکان دختر دوره پیش دبستانی شهر اردبیل و نمونه آن را 120 نفر از این کودکان، که به روش نمونه گیری تصادفی خوشه ای انتخاب شده ...

پایان نامه رابطه بین شیوه های فرزند پروری ، با مکان کنترل در دانش آموزان پسر پایه سوم راهنمایی منطقه انگوت در استان اردبیل

تعداد صفحه: ۹۶ دسته بندی: پایان نامه علوم تربیتی

علوم انسانی – گروه روانشناسی چکیده پژوهش حاضر به بررسی رابطه بین شیوه های فرزندپروری با مکان کنترل در دانش آموزان پسر پایه سوم راهنمایی می پردازد . به این منظور 180 نفر از دانش آموزان پسر پایه سوم راهنمایی منطقه انگوت در استان اردبیل مورد مطالعه قرار گرفتند. گروه نمونه به صورت تصادفی خوشه ای انتخاب شده و در ابتدا پرسشنامه مکان کنترل نوویکی – استریکلند را پر کردند و سپس پرسشنامه ...

پایان نامه دستیابی به کیفیت سرویس در شبکه های حسگر بیسیم با استفاده از آتوماتا های یادگیر سلولی

تعداد صفحه: ۱۸۷ دسته بندی: پایان نامه مهندسی کامپیوتر

پایان‌نامه کارشناسی ارشد رشته کامپیوتر گرایش نرم افزار (M.Sc) چکیده یک شبکه حسگر بی سیم از تعداد زیادی از نود های حسگر در یک ناحیه خاص تشکیل شده است که هر یک از آنها توانایی جمع آوری اطلاعات ازمحیط را دارا می باشد و داده های جمع آوری شده را به نود سینک ارسال می کند. هر چند که به طور کلی راجع به شبکه های حسگر بی سیم تحقیقات زیادی صورت گرفته است، در مورد کیفیت سرویس در این شبکه ها ...

ثبت سفارش

عنوان محصول

قیمت

پروژه الگوریتم genetic fuzzy k-Modes برای خوشه بندی داده های گروهی

خلاصه پروژه الگوریتم genetic fuzzy k-Modes برای خوشه بندی داده های گروهی

فهرست و منابع پروژه الگوریتم genetic fuzzy k-Modes برای خوشه بندی داده های گروهی