آموزش پروژه محور داده کاوی با نرم افزار Rapidminer
دادهکاوی عبارت است از اقتباس یا استخراج دانش از مجموعهای بسیار حجیم از دادهها، بهبیاندیگر، دادهکاوی فرآیندی است که با استفاده از تکنیکهای هوشمند، دانش را از مجموعهای از دادهها را در حوزه های مختلف در حوزه های مختلف کسب و کار، بازاریابی، حوزه سلامت، بانک، بیمه , …استخراج میکند که تحلیلهای ساده آماری قابل به انجام آن نیستند. دادهکاوی یک حوزه جدید میانرشتهای و در حال رشد است که حوزههای مختلف همچون پایگاه داده، آمار، یادگیری ماشین و سایر زمینههای مرتبط را باهم تلفیق کرده تا اطلاعات و دانش ارزشمند نهفته در حجم بزرگی از دادهها را استخراج نماید. داده کاوی اخیراً موضوع بسیاري از مقالات، اجلاسها و رسالههای عملی شده است، اما این واژه تا اوایل دهه نود مفهومی نداشت و بهکاربرده نمیشد. در مستندی که از سوی شبکه بیبیسی در مورد علم دادههای بزرگ بررسی شد. دادهکاوی و علم بیگ دیتا، بهعنوان یکی از بزرگترین منابع قدرت در قرن 21، نامبرده شد. هدف این دوره، آشنا نمودن شرکت کنندگان با نرم افزار Rapidminer و کاربرد آن در داده کاوی در صنعت انرژی است.
پیش نیاز دوره
- توانایی عمومی کار با کامپیوتر از پیشنیازهای اصلی این دوره است.
- علاوه بر این، دانش کافی در شاخه ریاضیات، آمار و علوم کامپیوتر کمک شایانی به بهرهبرداری هر چه بیشتر شرکت کنندگان از این دوره آموزشی مینماید.
مخاطبین دوره
- علاقه مندان به کسب کار در حوزه علوم داده و داده کاوی
- محققین علوم داده جهت آشنایی و تسلط با کاربردی سازی علم داده در rapid miner
معرفی رپیدماینر
این نرمافزار یک ابزار دادهکاوی متنباز است که با زبان جاوا نوشته شده و از سال 2001 تا به حال توسعه دادهشده است. در این نرمافزار سعی تیم توسعهدهنده، بر آن بوده است که تا حد امکان تمامی الگوریتمهای رایج دادهکاوی و همچنین یادگیری ماشین پوشش داده شوند. این نرمافزار براساس جریان داده کار میکند. به این صورت که در این نرمافزار گرههایی وجود دارند که هریک وظیفه خاصی داشته و عملکرد خاصی را بر روی دادهها اعمال میکنند و با اتصال به یکدیگر میتوان مدلسازی و ارزیابی نتایج انجام داد. از نقاط قوت این نرمافزار میتوان به موارد زیر اشاره کرد:
- - نمای گرافیکی مناسب و کاربرپسند.
- - ارایه گزارش و رونوشت از مراحل اجرای الگوریتم.
- - قابلیت لوله بندی بین اجزای مختلف با یکدیگر از طریق رابط کاربری گرافیکی.
- - امکان تصحیح و خطایابی بسیار سریع.
- - سرعت بالای روشها نسبت به نرمافزار وکا و کلمانتین.
- - امکان اجرای همزمان الگوریتمهای یادگیری متفاوت در نرمافزار و مقایسه آنها با یکدیگر.
- - این نرمافزار در سال 2014 از سوی دادهکاوان دنیا به عنوان نرمافزار برتر شناخته شده است.
آنچه در این دوره فرا خواهید گرفت:
- - داده کاوی و تجزیه و تحلیل بهینه
- - انجام پروژه های داده کاوی با داده های انرژی در مدل CRISP-DM
- - پاکسازی داده ها(نرمالسازی –داده های نویز و خالی ) –حذف داده پرت
- - وابستگی و اهمیت بین ویژگی ها(مهندسی ویژگی)
- - مدلسازی (طبقه بندی، رگرسیون)
- - ارزیابی و پیش بینی نتایج
سرفصل دوره:
ورود داده (آشنایی با محیط و پیش پردازش)
- فراخوانی داده ها در محیط rapid miner
- بررسی کیفیت داده ها
- انواع روش های پاکسازی( داده تکراری، داده از دست رفته،
- تشخیص رکوردهای پرت با استفاده از تکنیک های مبتنی بر فاصله LOF
- نرمالسازی و گسسته سازی
- وابستگی بین متغیرها correlation
- انتخاب ویژگی های تاثیرگذار با تکنیک های وزن دهی(شاخص سود اطلاعاتی(gain ratio) و شاخص جینی gini index)
مدلسازی (پیش بینی :مدل های با ناظر)
مدل های جعبه سفید
- - طبقه بندی: انواع درخت های تصمیم
- - استفاده از درخت های رگرسیونی به منظور پیش بینی مقدار انرژی براساس فاکتورهای گوناگون
- - آشنایی با انواع کرنل های خطی، چند جمله ای و گوسین
مدل های جعبه سیاه
- - شبکه های عصبی مصنوعی
- - بررسی مدل K- نزدیکترین همسایگی (KNN)
- - بیزساده
- - ماشین بردار پشتیبان