اطلاعیه

**ellisa** · 2010-04-28T01:01:14

پاسخ : داده کاوی و نرم افزار داده کاوی Weka

نرم افزار داده کاوی Weka

1-مقدمه

تا به امروز نرم افزار های تجاری و آموزشی فراوانی برای داده کاوی در حوزه های مختلف داده ها به دنیای علم و فناوری عرضه شدهاند. هریک از آنها با توجه به نوع اصلی داده هایی که مورد کاوش قرار میدهند، روی الگوریتمهای خاصی متمرکز شدهاند. مقایسه دقیق و علمی این ابزارها باید از جنبه های متفاوت و متعددی مانند تنوع انواع و فرمت داده های ورودی، حجم ممکن برای پردازش داده ها، الگوریتمها پیاده سازی شده، روشهای ارزیابی نتایج، روشهای مصور سازی ، روشهای پیش پردازش داده ها، واسطهای کاربر پسند ، پلت فرم های سازگار برای اجرا،آ‌ قیمت و در دسترس بودن نرم افزار صورت گیرد. از آن میان، آ‌نرم افزار Weka با داشتن امکانات بسیار گسترده،آ‌ امکان مقایسه خروجی روشهای مختلف با هم، راهنمای خوب، واسط گرافیگی کارآ، سازگاری با سایر برنامههای ویندوزی، و از همه مهمتر وجود کتابی بسیار جامع و مرتبط با آن [ Data Mining, witten et Al. 2005 ] ، معرفی میشود.

میزکار Weka ، مجموعهای از الگوریتم‏های روز یادگیری ماشینی و ابزارهای پیش پردازش داده‏ها می‏باشد. این نرمافزار به گونهای طراحی شده است که می‏توان به سرعت، روش‏های موجود را به صورت انعطافپذیری روی مجموعه‏های جدید داده، آزمایش نمود. این نرمافزار، پشتیبانی‏‏های ارزشمندی را برای کل فرآیند داده کاوی ‏های تجربی فراهم می‏کند. این پشتیبانی‏ها، آماده سازی داده‏های ورودی، ارزیابی آماری چارچوب‏های یادگیری و نمایش گرافیکی داده‏های ورودی و نتایج یادگیری را در بر میگیرند. همچنین، هماهنگ با دامنه وسیع الگوریتم‏های یادگیری، این نرمافزار شامل ابزارهای متنوع پیش پردازش دادههاست. این جعبه ابزار متنوع و جامع، از طریق یک واسط متداول در دسترس است، به نحوی که کاربر می‏تواند روش‏های متفاوت را در آن با یکدیگر مقایسه کند و روش‏هایی را که برای مسایل مدنظر مناسبتر هستند، تشخیص دهد.

نرمافزار Weka در دانشگاه Waikato واقع در نیوزلند توسعه یافته است و اسم آن از عبارت "Waikato Environment for knowledge Analysis" استخراج گشته است. همچنین Weka ، نام پرندهای با طبیعت جستجوگر است که پرواز نمی‏کند و در نیوزلند، یافت می‏شود. این سیستم به زبان جاوا نوشته شده و بر اساس لیسانس عمومی و فراگیر GNU انتشار یافته است. Weka تقریباً روی هر پلت فرمی اجرا می‏شود و نیز تحت سیستم عامل‏های لینوکس، ویندوز، و مکینتاش، و حتی روی یک منشی دیجیتالی شخصی ، آزمایش شده است.

این نرمافزار، یک واسط همگون برای بسیاری از الگوریتم‏های یادگیری متفاوت، فراهم کرده است که از طریق آن روش‏های پیش پردازش، پس از پردازش و ارزیابی نتایج طرح های یادگیری روی همه مجموعه های داده‏ موجود، قابل اعمال است.

نرم افزار Weka ، پیاده سازی الگوریتم‏های مختلف یادگیری را فراهم می‏کند و به آسانی می‏توان آنها را به مجموعه های داده خود اعمال کرد.

همچنین، این نرمافزار شامل مجموعه متنوعی از ابزارهای تبدیل مجموعه‏ های داده‏ها، همانند الگوریتم‏های گسسته سازی می‏باشد. در این محیط می‏توان یک مجموعه داده را پیش پردازش کرد، آن را به یک طرح یادگیری وارد نمود، و دستهبندی حاصله و کارآییاش را مورد تحلیل قرار داد. (همه این کارها، بدون نیاز به نوشتن هیچ قطعه برنامهای میسر است.)

این محیط، شامل روش‏هایی برای همه مسایل استاندارد داده کاوی مانند رگرسیون، رده‏بندی، خوشهبندی، کاوش قواعد انجمنی و انتخاب ویژگی می‏باشد. با در نظر گرفتن اینکه، داده‏ها بخش مکمل کار هستند، بسیاری از ابزارهای پیش پردازش داده‏ها و مصورسازی آنها فراهم گشته است. همه الگوریتم‏ها، ورودی‏های خود را به صورت یک جدول رابطهای به فرمت ARFF دریافت می‏کنند. این فرمت داده‏ها، می‏تواند از یک فایل خوانده شده یا به وسیله یک درخواست از پایگاه دادهای تولید گردد.

یکی از راه‏های به کارگیری Weka ، اعمال یک روش یادگیری به یک مجموعه داده و تحلیل خروجی آن برای شناخت چیزهای بیشتری راجع به آن اطلاعات می‏باشد. راه دیگر استفاده از مدل یادگیری شده برای تولید پیش‏بینی‏هایی در مورد نمونه‏های جدید است. سومین راه، اعمال یادگیرنده‏های مختلف و مقایسه کارآیی آنها به منظور انتخاب یکی از آنها برای تخمین می‏باشد. روش‏های یادگیری Classifier نامیده می‏شوند و در واسط تعاملی Weka ، می‏توان هر یک از آنها را از منو انتخاب نمود. بسیاری از classifier ‏ها پارامترهای قابل تنظیم دارند که می‏توان از طریق صفحه ویژگی‏‏ها یا object editor به آنها دسترسی داشت. یک واحد ارزیابی مشترک، برای اندازه‏گیری کارآیی همه classifier به کار می‏رود.

پیاده سازی‏های چارچوب‏های یادگیری واقعی، منابع بسیار ارزشمندی هستند که Weka فراهم می‏کند. ابزارهایی که برای پیش پردازش داده‏ها استفاده می‏شوند. filter نامیده می‏شوند. همانند classifier ‏ها، می‏توان filter ‏ها را از منوی مربوطه انتخاب کرده و آنها را با نیازمندی‏های خود، سازگار نمود. در ادامه، به روش به کارگیری فیلترها اشاره می‏شود.

علاوه بر موارد فوق، Weka شامل پیاده سازی الگوریتم‏هایی برای یادگیری قواعد انجمنی، خوشهبندی داده‏ها در جایی که هیچ دستهای تعریف نشده است، و انتخاب ویژگی‏های مرتبط در داده‏ها می‏شود.

2- روش استفاده از Weka

شکل 1،آ‌ راههای انتخاب واسطهای مختلف Weka را نشان میدهد.

آسانترین راه استفاده از Weka ، از طریق واسطی گرافیکی است که Explorer خوانده می‏شود. این واسط گرافیکی، به وسیله انتخاب منوها و پر کردن فرم‏های مربوطه، دسترسی به همه امکانات را فراهم کرده است. برای مثال، می‏توان به سرعت یک مجموعه داده را از یک فایل ARFF خواند و درخت تصمیم‏گیری آن را تولید نمود. امادرخت‏های تصمیم‏گیری یادگیرنده صرفاً ابتدای کار هستند. الگوریتم‏های بسیار دیگری برای جستجو وجود دارند. واسط Explorer کمک می‏کند تا الگوریتم‏های دیگر نیز آزمایش شوند.

شکل 1. Weka در وضعیت انتخاب واسط

این واسط با در اختیار گذاشتن گزینه‏ها به صورت منو، با وادار کردن کاربر به اجرای کارها با ترتیب صحیح، به وسیله خاکستری نمودن گزینه‏ها تا زمان صحیح به کارگیری آنها، و با در اختیار گذاشتن گزینه‏هایی به صورت فرم‏های پرشدنی، کاربر را هدایت می‏کند. راهنمای ابزار مفیدی، حین عبور ماوس از روی گزینه‏ها، ظاهر شده و اعمال لازم مربوطه را شرح می‏دهد. پیشفرض‏های معقول قرار داده شده، کاربر را قادر می‏سازند تا با کمترین تلاشی، به نتیجه برسد. اما کاربر باید برای درک معنی نتایج حاصله، راجع به کارهایی که انجام می‏دهد، بیندیشد.

Weka دو واسط گرافیکی دیگر نیز دارد. واسط knowledge flow به کاربر امکان می‏دهد تا چنیش‏هایی برای پردازش داده‏های در جریان، طراحی کند. یک عیب پایهای Explorer . نگهداری هر چیزی در حافظه اصلی آن است. (زمانی که یک مجموعه داده را باز می‏کنیم، Explorer ، کل آن را، در حافظ باز می‏کند) نشان می‏دهد که Explorer ، صرفاً برای مسایل با اندازه‏های کوچک تا متوسط، قابل اعمال است. با وجود بر این Weka شامل تعدادی الگوریتم‏های افزایشی است که می‏تواند برای پردازش مجموعه های داده بسیار بزرگ مورد استفاده قرار گیرد. واسط knowledge flow امکان می‏دهد تا جعبه ‏های نمایانگر الگوریتم‏های یادگیری و منابع داده‏ها را به درون صفحه بکشیم و با اتصال آنها به یکدیگر، ترکیب و چینش دلخواه خود را بسازیم. این واسط اجازه می‏دهد تا جریان دادهای از مولفه‏های به هم متصل که بیانگر منابع داده، ابزارهای پیش پردازش، روش‏های ارزیابی و واحدهای مصوّر سازی هستند تعریف شود. اگر فیلترها و الگوریتمهای یادگیری، قابلیت یادگیری افزایشی را داشته باشند، داده‏ها به صورت افزایشی بار شده و پردازش خواهند شد.

سومین واسط Weka ، که Experimenter خوانده می‏شود، کمک می‏کند تا به این سوال عملی و پایهای کاربر حین استفاده از تکنیک‏های رده‏بندی و رگرسیون، پاسخ دهد: "چه روش‏ها و پارامترهایی برای مسأله داده شده، بهتر عمل می‏کنند؟"

عموماً راهی برای پاسخگویی مقدماتی به این سوال وجود ندارد و یکی از دلایل توسعه Weka ، فراهم نمودن محیطی است که کاربران Weka را قادر به مقایسه تکنیک‏های گوناگون یادگیری بنماید. این کار، می‏تواند به صورت تعاملی در Explorer انجام شود. با این وجود، Experimenter با ساده کردن اجرای رده‏بندی کننده‏ها و فیلترها با پارامترهای گوناگون روی تعدادی از مجموعه‏های داده، جمعآوری آمار کارآیی و انجام آزمایش‏های معنا، پردازش را خودکار می‏کند. کاربرهای پیشرفته، می‏توانند از Experimenter برای توزیع بار محاسباتی بین چندین ماشین، استفاده کنند. در این روش، می‏توان آزمایش‏های آماری بزرگی را راهاندازی نموده و آنها را برای اجرا، رها نمود.

ورای این واسط‏های تعاملی، عملکرد پایهای Weka قرار دارد. توابع پایهای Weka ، از طریق خط فرمان ‏های متنی قابل دسترسی هستند. زمانی که Weka ، فعال می‏شود، امکان انتخاب بین چهار واسط کاربری وجود دارد: Explorer ، knowledge ، Experimenter و واسط خط فرمان.

اکثر کاربران، حداقل در ابتدای کار Explorer را به عنوان واسط کاربری انتخاب می‏کنند.

3. قابلیتهای Weka

مستندسازی در لحظه، که به صورت خودکار از کد اصلی تولید می‏شود و دقیقاً ساختار آن را بیان می‏کند، قابلیت مهمی است که حین استفاده از Weka وجوددارد.

نحوه استفاده از این مستندات و چگونگی تعیین پایه‏های ساختمانی اصلی Weka ، مشخص کردن بخش‏هایی که از روش‏های یادگیری با سرپرست استفاده می‏کند، ابزاری برای پیش پردازش داده‏ها بکار می‏رود و اینکه چه روش‏هایی برای سایر برنامه‏های یادگیری وجود دارد، در ادامه تشریح خواهد شد. تنها به لیست کاملی از الگوریتم‏های موجود اکتفا می‏شود زیرا Weka به طور پیوسته تکمیل می‏شود و به طور خودکار از کد اصلی تولید می‏شود. مستندات در لحظه همیشه به هنگام شده می‏باشد. اگر ادامه دادن به مراحل بعدی و دسترسی به کتابخانه از برنامه جاوا شخصی یا نوشتن و آزمایش کردن برنامه‏های یادگیری شخصی مورد نیاز باشد، این ویژگی بسیار حیاتی خواهد بود.

در اغلب برنامه‏های کاربردی داده کاوی، جزء یادگیری ماشینی، بخش کوچکی از سیستم نرمافزاری نسبتاً بزرگی را شامل می‏شود. در صورتی که نوشتن برنامه کاربردی داده کاوی مد نظر باشد، می‏توان با برنامهنویسی اندکی به برنامه‏های Weka از داخل کد شخصی دسترسی داشت. اگر پیدا کردن مهارت در الگوریتم‏های یادگیری ماشینی مدنظر باشد، اجرای الگوریتم‏های شخصی بدون درگیر جزییات دست و پا گیر شدن مثل خواندن اطلاعات از یک فایل، اجرای الگوریتم‏های فیلترینگ یا تهیه کد برای ارزیابی نتایج یکی از خواسته‏ها می‏باشد. Weka دارای همه این مزیت‏ها است. برای استفاده کامل از این ویژگی، باید با ساختارهای پایهای داده‏ها آشنا شد.

4. دریافت Weka

نرم افزار Weka ، در آدرس http://www.cs.waikato.ac.nz/me/weka ، در دسترس است. از این طریق می‏توان نصب کننده متناسب با یک پلت فرم معین، یا یک فایل Java jar را که در صورت نصب بودن جاوا به راحتی قابل اجرا است، دانلود نمود.

5. مروری بر Explorer

واسط گرافیکی اصلی برای کاربران،آ‌ Explorer است که امکان دسترسی به همه امکانات Weka را از طریق انتخاب منوها و پر کردن فرمها فراهم میآورد. شکل 2،آ‌ نمای Explorer آ‌ را نشان میدهد. در این واسط، شش پانل مختلف وجود دارد که از طریق نوار بالای صفحه قابل انتخاب هستند و با وظایف داده کاوی پشتیبانی شده توسط Weka آ‌ متناظر میباشند.

دو گزینه از شش گزینه بالای پنجره Explorer در شکل های 3 و 4 به طور خلاصه تشریح شده است.

به طور خلاصه، کارکرد تمام گزینه‏ها به شرح ذیل است.

Preprocess : انتخاب مجموعه داده و اصلاح آن از راه‏های گوناگون

Classify : آموزش برنامه‏های یادگیری که رده‏بندی یا رگرسیون انجام می‏دهند و ارزیابی آنها.

Cluster : یادگیری خوشه‏ها برای مجموعه های داده

Associate : یادگیری قواعد انجمنی برای داده‏ها و ارزیابی آنها

Select attributes : انتخاب مرتبطترین جنبه ها در مجموعه های داده

Visualize : مشاهده نمودارهای مختلف دوبعدی داده ‏ها و تعامل با آنها

شکل 3. خواندن فایل داده های آب و هوا

Weka Exphorer امکان رده بندی دارد، چنانچه به کاربران اجازه می‏دهد به صورت تعاملی اقدام به ساخت درخت تصمیم‏گیری کنند. Weka نمودار پراکندگی داده‏ها را نسبت به دو ویژگی انتخاب شده، فراهم می‏آورد. وقتی زوج ویژگیای که رده‏ها را به خوبی جدا می‏کند، پیدا شد، امکان ایجاد دو شاخه با کشیدن چند ضلعی اطراف نقاط داده‏ها بر نمودار پراکندگی وجود دارد.

شکل 4. نوار Classify

هر نوار، دسترسی به دامنه کاملی از امکانات را فراهم میکند. در پایین هر پانل، جعبه status و دکمه log قرار دارد. جعبه status پیغام‏هایی است که نشان می‏دهد چه عملیاتی در حال انجام داده شدن است. مثلاً اگر Explores مشغول خواندن یک فایل باشد، جعبه status آن را گزارش می‏دهد. کلیک راست در هر جا داخل این جعبه یک منو کوچک با دو گزینه می‏آورد، نمایش میزان حافظه در دسترس Weka و اجرای Java garbage collector ..

لازم است توجه شود که garbage collector به طور ثابت به عنوان یک عمل پیش زمینه در هر حال اجرا می‏شود کلیک دکمه log ، گزارش عملکرد متنی کارهایی که Weka تاکنون در این بخش انجام داده است با برچسب زمانی ارایه می‏کند.

زمانیکه Weka در حال عملیات است، پرنده کوچکی که در پایین سمت راست پنجره است، بالا و پایین می‏پرد. عدد پشت × نشان می‏دهد که به طور همزمان چند عملیات در حال انجام است. اگر پرنده بایستد در حالیکه حرکت نمی‏کند، او مریض است! اشتباه رخ داده است و باید Explorer از نو اجرا شود.

1. خواندن و فیلتر کردن فایل‏ها

در بالای پانل Preprocess در شکل 3، دکمه‏هایی برای باز کردن فایل، URL ‏ها و پایگاه های داده‏ وجود دارد. در ابتدا تنها فایل‏های با پسوند arff . در browser فایل نمایش داده می‏شود. برای دیدن سایر فایل‏ها یاید گزینه Format در جعبه انتخاب فایل تغییر داده شود.

منبع: دانشکده مهندسی راه آهن ؛دانشگاه علم صنعت ایران http://www.iust.ac.ir/index.php?&slc...mp;slc_lang=fa

**ellisa** · 2010-04-28T01:09:38

پاسخ : داده کاوی و نرم افزار داده کاوی Weka

2. تبدیل فایل‏ها به فرمت ARFF

نرم افزار Weka دارای سه مبدل فرمت فایل می‏باشد، برای فایل‏های صفحه گسترده با پسوند CSV ، با فرمت فایل C4.5 با پسوند names . و data و برای نمونه‏های سری با پسوند bsi .

اگر Weka قادر به خواندن داده‏ها نباشد، سعی می‏کند آن را به صورت ARFF تفسیر کند. اگر نتواند جعبه نشان داده شده در شکل 5 (الف) ظاهر می‏شود.

(الف)

(ب)

(ج)

شکل 5. ویرایشگر عمومی اشیاء (الف) ویرایشگر (ب) اطلاعات بیشتر (فشردن دگمه More ) (ج) انتخاب یک مبدل

این، یک ویرایشگر عمومی اشیاء است که در Weka برای انتخاب و تنظیم اشیا بکار می‏رود. به عنوان مثال وقتی پارامتری برای Classifier تنظیم می‏شود، جعبهای با نوع مشابه بکار برده می‏شود. CSV Loader برای فایل‏های با پسوند CSV . به طور پیش فرض انتخاب می‏شود. دکمه More اطلاعات بیشتری در مورد آن می‏دهد که در شکل 5 (ب) نشان داده شده است.

همیشه مطالعه مستندات ارزشمنداست! در این حالت نشان می‏دهد که ردیف نخست صفحه گسترده، نام ویژگی را تعیین می‏کند. برای استفاده از این مبدل باید بر Ok کلیک شود. برای مورد مختلف لازم است بر choose کلیک شود تا از لیست شکل 5 (ج) انتخاب انجام شود.

گزینه اول، Arffloader است و فقط به دلیل ناموفق بودن به این نقطه می‏رسیم. CSVLoader پیش فرض است و در صورت نیاز به فرض دیگر، choose کلیک می‏شود. سومین گزینه، مربوط به فرمت C4.5 است که دو فایل برای مجموعه داده وجود دارد یکی اسم‏ها و دیگـری داده‏های واقعـی می‏باشد. چهارمین برای نمونه‏های سریالی ، برای بازخوانی مجموعه دادهای است که به صورت شیئ سریالی شده جاوا ذخیره شده است. هر شیء در جاوا می‏تواند در این شکل ذخیره و بازخوانی شود. به عنوان یک فرمت بومی جاوا ، سریعتر از فایل ARFF خوانده می‏شود چرا که فایل ARFF باید تجزیه و کنترل شود. وقتی یک مجموعه داده بزرگ مکررا بازخوانی می‏شود، ذخیره آن در این شکل سودمند است.

ویژگی‏های دیگر ویرایشگر عمومی اشیا در شکل 5 (الف)، save و open است که به ترتیب برای ذخیره اشیای تنظیم شده و بازکردن شیئی که پیش از این ذخیره شده است، به کار میرود. اینها برای این نوع خاص شیئ مفید نیستند. لکن پانل‏های دیگر ویرایشگر عمومی اشیاء، خواص قابل ویرایش زیادی دارند. به دلیل مشکلاتی که ممکن است حین تنظیم مجدد آنها رخ دهد، می‏توان ترکیب اشیاء ایجاد شده را برای استفاده‏های بعدی، ذخیره کرد.

تنها منبع مجموعه‏های داده برای Weka ، فایل‏های موجود روی کامپیوتر نیستند. می‏توان یک URL را باز کرد تا Weka از پروتکل HTTP برای دانلود کردن یک فایل Arff از شبکه استفاده کند. همچنین می‏توان یک پایگاه داده‏ها را باز نمود ( open DB ـ هر پایگاه دادهای که درایور اتصال به مجموعه های داده به زبان جاوا JDBC را دارد.) و به وسیله دستور select زبان SQL ، نمونه‏‏ها را بازیابی نمود. داده‏ها می‏توانند به کمک دگمه save به همه فرمت‏های ذکر شده، ذخیره شوند. جدای از بحث بارگذاری و ذخیره مجموعه‏های داده، پانل preprocess به کاربر اجازه فیلتر کردن داده‏ها را می‏دهد. فیلترها، اجزای مهم Weka هستند.

3. بکارگیری فیلترها

با کلیک دگمه choose (گوشه بالا و سمت چپ) در شکل 3 می‏توان به لیستی از فیلترها دست یافت. می‏توان از فیلترها برای حذف ویژگی‏های مورد نظری از یک مجموعه داده و انتخاب دستی ویژگی‏‏ها استفاده نمود. مشابه این نتیجه را می‏توان به کمک انتخاب ویژگی‏های مورد نظر با تیک زدن آنها و فشار دادن کلیه Remove به دست آورد.

4. الگوریتم‏های یادگیری

زمانی که یک الگوریتم یادگیری با استفاده از دگمه choose در پانل classify انتخاب می‏شود، نسخه خط فرمانی رده بند در سطری نزدیک به دگمه ظاهر می‏گردد. این خط فرمان شامل پارامترهای الگوریتم است که با خط تیره مشخص می‏شوند. برای تغییر آنها می‏توان روی آن خط کلیک نمود تا ویرایشگر مناسب شیء، باز شود. جدول شکل 6، لیست اسامی رده بندهای Weka را نمایش می‏دهد. این الگوریتم‏ها به رده بندهای Bayesian ، trees ، functions rules ، lazy و دسته نهایی شامل روش‏های متفرقه تقسیم شدهاند.

4-1. Trees

Decision stump که برای استفاده توسط روش‏های boosting طراحی شده است، برای مجموعه‏های داده عددی یا ردهای، درخت تصمیم‏گیری یک سطحی می‏سازد. این الگوریتم، با مقادیر از دست رفته، به صورت مقادیر مجزا برخورد کرده و شاخه سومی از درخت توسعه می‏دهد.

4-2. Rules

Decision Table یک رده بند بر اساس اکثریت جدول تصمیم‏گیری می‏سازد. این الگوریتم، با استفاده از جستجوی اولین بهترین، زیر دسته‏های ویژگی‏‏ها را ارزیابی می‏کند و می‏تواند از اعتبارسنجی تقاطعی برای ارزیابی بهره ببرد (1995، Kohavi ).

یک امکان این است که به جای استفاده از اکثریت جدول تصمیم‏گیری که بر اساس دسته ویژگی‏های مشابه عمل می‏کند، از روش نزدیکترین همسایه برای تعیین رده هر یک از نمونه‏ها که توسط مدخل جدول تصمیم‏گیری پوشش داده نشدهاند، استفاده شود.

Conjunctive Rule قاعدهای را یاد می‏گیرد که مقادیر رده‏های عددی را ردهای را پیش‏بینی می‏کند. نمونه‏های آزمایشی به مقادیر پیش فرض رده نمونه‏های آموزشی، منسوب می‏شوند. سپس تقویت اطلاعات (برای رده‏های رسمی)، یا کاهش واریانس (برای ردههای عددی) مربوط به هر والد محاسبه شده و به روش هرس کردن با خطای کاهش یافته ، قواعد هرس می‏شوند.

ZeroR برای رده‏های اسمی، اکثریت داده‏های مورد آزمایش و برای رده‏های عددی، میانگین آنها را پیش‏بینی می‏کند. این الگوریتم بسیار ساده است.

M5Rules ، به کمک M5 از روی درخت‏های مدل، قواعد رگرسیون استخراج می‏کند.

شکل 6.الف. الگوریتمهای رده بندی در Weka

در این بخش به شرح مختصری برخی از این الگوریتمها و پارامترهایشان که قابلیت کار با ویژگی های عددی را دارند، پرداخته می‏شود.

4-3. Functions

Simple Linear Regresion مدل رگرسیون خطی یک ویژگی مشخص را یاد می‏گیرد. آنگاه مدل با کمترین خطای مربعات را انتخاب می‏کند. در این الگوریتم، مقادیر از دست رفته و مقادیر غیرعددی مجاز نیستند .

Linear Regression رگرسیون خطی استاندارد کمترین خطای مربعات را انجام می‏دهد می‏تواند به طور اختیاری به انتخاب ویژگی بپردازد، این کار می‏تواند به صورت حریصانه با حذف عقب رونده انجام شود، یا با ساختن یک مدل کامل از همه ویژگی‏‏ها و حذف یکی یکی جمله‏ها با ترتیب نزولی ضرایب استاندارد شده آنها، تا رسیدن به شرط توقف مطلوب انجام گیرد.

Least Med sq یک روش رگرسیون خطی مقاوم است که میانه (به جای میانگین ) مربعات انحراف از خط رگرسیون را کمینه می‏کند. این روش به طور مکرر رگرسیون خطی استاندارد را به زیرمجموعه‏هایی از نمونه‏ها اعمال می‏کند و نتایجی را بیرون می‏دهد که کمترین خطای مربع میانه را دارند.

SMO teg الگوریتم بهینه سازی حداقل ترتیبی را روی مسایل رگرسیون اعمال می‏کند. ( Scholkopf, 1998 ، Smola )

Pace Regression ، با استفاده از تکنیک رگرسیون pace ، مدل‏های رگرسیون خطی تولید می‏کند (2002 ، Wang و Witten ). رگرسیون pace ، زمانی که تعداد ویژگی‏‏ها خیلی زیاد است، به طور ویژهای در تعیین ویژگی‏‏هایی که باید صرف‏نظر شوند، خوب عمل می‏کند. در واقع در صورت وجود نظم و ترتیب خاصی، ثابت می‏شود که با بینهایت شدن تعداد ویژگی‏‏ها، الگوریتم بهینه عمل می‏کند.

RBF Network ، یک شبکه با تابع پایهای گوسی شعاعی را پیاده سازی می‏کند. مراکز و عرض‏های واحدهای مخفی به وسیله روش میانگین K تعیین می‏شود. سپس خروجی‏های فراهم شده از لایه‏های مخفی ، با استفاده از رگرسیون منطقی در مورد رده‏های اسمی و رگرسیون خطی در مورد رده‏های عددی، با یکدیگر ترکیب می‏شوند. فعال سازی‏های توابع پایه پیش از ورود به مدل‏های خطی، با جمع شدن با عدد یک، نرمالیزه می‏شوند. در این الگوریتم می‏توان، K تعداد خوشه‏ها، بیشترین تعداد تکرارهای رگرسیون‏های منطقی برای مسأله‏های رده‏های رسمی، حداقل انحراف معیار خوشه‏ها، و مقدار بیشینه رگرسیون را تعیین نمود. اگر رده‏ها رسمی باشد، میانگین K به طور جداگانه به هر رده اعمال می‏شود تا K خوشه مورد نظر برای هر رده استخراج گردد.

4-4. رده بندهای Lazy

یادیگرنده‏های lazy نمونه‏های آموزشی را ذخیره می‏کنند و تا زمان رده بندی هیچ کار واقعی انجام نمی‏دهند.

IB1 یک یادگیرنده ابتدایی بر پایه نمونه است که نزدیکترین نمونه‏های آموزشی به نمونه‏های آزمایشی داده شده را از نظر فاصله اقلیدسی پیدا کرده و نزدیکترین ردهای مشابه رده همان نمونه‏های آموزشی را تخمین می‏زند.

IBK یک رده بند با K همسایه نزدیک است که معیار فاصله ذکر شده را استفاده می‏کند. تعداد نزدیکترین فاصله‏ها (پیش فرض 1= K ) می‏تواند به طور صریح در ویرایشگر شیء تعیف شود. پیش‏بینی‏های متعلق به پیش از یک همسایه می‏تواند بر اساس فاصله آنها تا نمونه‏های آزمایشی، وزندار گردد.

دو فرمول متفاوت برای تبدیل فاصله به وزن، پیاده سازی شدهاند. تعداد نمونههای آموزشی که به وسیله رده بند نگهداری می‏شود، می‏تواند با تنظیم گزینه اندازه پنجره محدود گردد. زمانی که نمونه‏های جدید اضافه می‏شوند، نمونه‏های قدیمی حذف شده تا تعداد کل نمونه‏های آموزشی در اندازه تعیین شده باقی بماند.

Kstar ، یک روش نزدیکترین همسایه است که از تابع فاصلهای عمومی شده بر اساس تبدیلات استفاده می‏کند.

LWL یک الگوریتم کلی برای یادگیری وزن دار شده به صورت محلی است. این الگوریتم با استفاده از یک روش بر پایه نمونه، وزن‏ها را نسبت می‏دهد و از روی نمونه‏های وزندار شده، رده بند را می‏سازد. رده بند در ویرایشگر شیء LWL انتخاب می‏شود. Nave Bayes برای مسایل رده بندی و رگرسیون خطی برای مسایل رگرسیون، انتخاب‏های خوبی هستند. می‏توان در این الگوریتم، تعداد همسایه‏های مورد استفاده را که پهنای باند هسته و شکل هسته مورد استفاده برای وزن دار کردن را (خطی، معکوس، یا گوسی) مشخص می‏کند، تعیین نمود. نرمال سازی ویژگی‏‏ها به طور پیش فرض فعال است[ Data Mining, witten et Al. 2005 ].

منبع: دانشکده مهندسی راه آهن ؛دانشگاه علم صنعت ایران http://www.iust.ac.ir/index.php?&slc...mp;slc_lang=fa

**graymath0** · 2010-06-13T22:45:54

پاسخ : داده کاوی و نرم افزار داده کاوی Weka

با سلام و تشکر
شما راه دیگری برای تهیه نرم افزار weka سراغ ندارید؟
در مقاله ای که مشغول ارزیابی آن هستم از این نرم افزار استفاده شده؛ و موفق به دسترسی به لینکی، که در پست های قبلی فرموده بودید، نشدم.
آدرس دیگری می شناسید؟

**ellisa** · 2010-06-21T01:47:22

پاسخ : داده کاوی و نرم افزار داده کاوی Weka

با سلام

و عذر خواهی بابت تاخیر ...

این لینک دانلود نرم افزار داده کاوی Weka ...

http://www.softpedia.com/get/Interne...ils/Weka.shtml

http://linux.softpedia.com/get/Science-and-Engineering/Bioinformatics/WEKA-1245.shtml

موفق باشید /

**norsmor** · 2010-12-21T17:54:53

پاسخ : داده کاوی و نرم افزار داده کاوی Weka

سلام دوست عزیز
من در حال یادگیری نرم افزار weka هستم و دسترسی به هیچ منبعی جز این سایت نداشتم
لطفا در صورت امکان راهنایی بفرمایید
در مورد بقیه پانلها associate و select attributes و visualize توضیح بیشتر
ویا کار با قسمت DB
ممنون
لطفا ASAP

اطلاعیه

داده کاوی و نرم افزار داده کاوی Weka

داده کاوی و نرم افزار داده کاوی Weka

دیدگاه

دیدگاه

دیدگاه

دیدگاه

دیدگاه

اطلاعیه

داده کاوی و نرم ­افزار داده کاوی Weka

داده کاوی و نرم ­افزار داده کاوی Weka

دیدگاه

دیدگاه

دیدگاه

دیدگاه

دیدگاه

داده کاوی و نرم افزار داده کاوی Weka

داده کاوی و نرم افزار داده کاوی Weka