آموزش پروژه محور داده کاوی با نرم افزار Rapidminer
پیش نیاز دوره
- توانایی عمومی کار با کامپیوتر از پیشنیازهای اصلی این دوره است.
- علاوه بر این، دانش کافی در شاخه ریاضیات، آمار و علوم کامپیوتر کمک شایانی به بهرهبرداری هر چه بیشتر شرکت کنندگان از این دوره آموزشی مینماید.
مخاطبین دوره
- علاقه مندان به کسب کار در حوزه علوم داده و داده کاوی
- محققین علوم داده جهت آشنایی و تسلط با کاربردی سازی علم داده در rapid miner
معرفی رپیدماینر
این نرمافزار یک ابزار دادهکاوی متنباز است که با زبان جاوا نوشته شده و از سال 2001 تا به حال توسعه دادهشده است. در این نرمافزار سعی تیم توسعهدهنده، بر آن بوده است که تا حد امکان تمامی الگوریتمهای رایج دادهکاوی و همچنین یادگیری ماشین پوشش داده شوند. این نرمافزار براساس جریان داده کار میکند. به این صورت که در این نرمافزار گرههایی وجود دارند که هریک وظیفه خاصی داشته و عملکرد خاصی را بر روی دادهها اعمال میکنند و با اتصال به یکدیگر میتوان مدلسازی و ارزیابی نتایج انجام داد. از نقاط قوت این نرمافزار میتوان به موارد زیر اشاره کرد:
- - نمای گرافیکی مناسب و کاربرپسند.
- - ارایه گزارش و رونوشت از مراحل اجرای الگوریتم.
- - قابلیت لوله بندی بین اجزای مختلف با یکدیگر از طریق رابط کاربری گرافیکی.
- - امکان تصحیح و خطایابی بسیار سریع.
- - سرعت بالای روشها نسبت به نرمافزار وکا و کلمانتین.
- - امکان اجرای همزمان الگوریتمهای یادگیری متفاوت در نرمافزار و مقایسه آنها با یکدیگر.
- - این نرمافزار در سال 2014 از سوی دادهکاوان دنیا به عنوان نرمافزار برتر شناخته شده است.
آنچه در این دوره فرا خواهید گرفت:
- - داده کاوی و تجزیه و تحلیل بهینه
- - انجام پروژه های داده کاوی با داده های انرژی در مدل CRISP-DM
- - پاکسازی داده ها(نرمالسازی –داده های نویز و خالی ) –حذف داده پرت
- - وابستگی و اهمیت بین ویژگی ها(مهندسی ویژگی)
- - مدلسازی (طبقه بندی، رگرسیون)
- - ارزیابی و پیش بینی نتایج
سرفصل دوره:
ورود داده (آشنایی با محیط و پیش پردازش)
- فراخوانی داده ها در محیط rapid miner
- بررسی کیفیت داده ها
- انواع روش های پاکسازی( داده تکراری، داده از دست رفته،
- تشخیص رکوردهای پرت با استفاده از تکنیک های مبتنی بر فاصله LOF
- نرمالسازی و گسسته سازی
- وابستگی بین متغیرها correlation
- انتخاب ویژگی های تاثیرگذار با تکنیک های وزن دهی(شاخص سود اطلاعاتی(gain ratio) و شاخص جینی gini index)
مدلسازی (پیش بینی :مدل های با ناظر)
مدل های جعبه سفید
- - طبقه بندی: انواع درخت های تصمیم
- - استفاده از درخت های رگرسیونی به منظور پیش بینی مقدار انرژی براساس فاکتورهای گوناگون
- - آشنایی با انواع کرنل های خطی، چند جمله ای و گوسین
مدل های جعبه سیاه
- - شبکه های عصبی مصنوعی
- - بررسی مدل K- نزدیکترین همسایگی (KNN)
- - بیزساده
- - ماشین بردار پشتیبان