难度 初级
学习时间 12周
基础准备 零基础
立即试听
导师介绍
Spring Dai
人大统计学博士,企业高级统计师,资深SPSS、Sas、R、tableau培训讲师。15年数据挖掘企业经验,精通交通、金融、贸易等复杂数据建模,电商数据分析,网络新媒体数据挖掘,政府工作报告、社会热点事件等文本挖掘。
本课程适合谁
1无数学或编程基础,想要学习数据分析的学员
2想找数据分析相关工作的学员
3试图学好但缺乏正确指点的学员
4想转型从事数据或AI相关工作的学员
12个实战项目,精通R语言数据分析
项目1:数据分析职位薪酬的影响因素分析
运用箱型图展示薪酬与学历、公司规模、公司类别、数据分析软件的关系;通过本项目加深对虚拟变量回归、对数线性模型的理解,通过本项目了解高薪工作岗位对数据分析人才能力的要求。
项目2:酒店价格的影响因素分析
运用直方图展示酒店价格的分布,找出大多数酒店的价格区间;运用直方图展示酒店价格与酒店类型、位置、综合评价的关系;通过本项目加深对对数线性模型的理解,掌握模型的诊断办法,运用模型就行预测。
项目3:信用评分卡的建立
基于给定的数据集,编写函数抽取样本,建立logistics回归模型,并筛选出显著变量,通过本项目,加深对ROC曲线原理的理解,并会绘制ROC曲线。
项目4:银行涉农贷款影响因素分析
能够根据客户信息表和贷款申请表中的共同字段将两张票匹配,通过本项目掌握大型数据集的读入方法,能够根据建立的模型分析贷款违约的影响因素,并分析原因。
项目5:大学生恋爱情况分析
通过本项目,加深对决策树分类原理的理解,掌握决策树的修建办法,深入理解信息熵的作用和意义,针对调查的数据,使用rpart包构建决策数,使用rattle包进行可视化输出。
项目6:某地区移动客户流失情况分析
通过本项目,掌握用数据挖掘的分析预测客户流失的情况,并提出客户挽留的建议。根据调查的数据,构建新的自变量,运用箱型图展示是否流失与各个自变量的关系,建立logistics回归模型分析各影响因素对是否流失的作用。
项目7:糖尿病风险因素预测
基于给定的数据集,预测可能导致糖尿病的风险因素,运用KNN和SVM建模,并可视化数据模型结果,掌握根据ppv、npv等指标进行模型选择和模型评价。
项目8:商圈分析
通过本项目,加深对数据离散化处理的方法,掌握通过基站小区的覆盖范围划分商圈,归纳商圈人流特征和规律。运用层次聚类法构建商圈聚类模型,绘制谱系聚类图。
项目9:铁路货运情况预测
对于给定的时间序列,判断序列的平稳性,掌握非平稳序列的处理方法,绘制ADF和PADF图形,对模型进行定阶。运用X11-ARIMA模型进行分析预测,并根据残差分析判断模型的拟合效果。
项目10:财政收入预测
通过本项目加深对灰色预测与神经网络的组合模型理解,根据相关系数初步判断因变量与自变量之间的关系,掌握Adaptive-lasso变量选择和神经网络预测。
项目11:分析政府工作报告中的热点问题
通过本项目加深对TF-IDF算法的理解,掌握jiebaR和Rwordseg分词原理,掌握词性标注,文本特征提取的4种方法。会用wordcloud函数绘制普通词云和个性化词云。
项目12:分析某电商网站销售的某款产品的评论
基于电商网站售卖的某款产品的评论分析用户情感倾向,通过本项目加深对网络爬虫原理的掌握,会循环抓取网页数据。掌握神经网络语言模型NNLM和N-gram的原理,构建倾向性模型。
课程大纲
第一章:R语言入门
第二章:数据读写
第三章:R基本编程
第四章:R数据可视化
第五章:数据预处理、探索性分析
第六章:数据挖掘、机器学习入门、线性回归
第七章:线性分类方法
第八章:决策树、组合预测
第九章:K最近邻与支持向量机
第十章:无监督学习、主成分分析与回归、聚类分析
第十一章:关联规则、时序模式、离群点检测
第十二章:文本分析

同伴学习

打造你的技术开发外脑团队

同伴指导、同伴示范、同伴反馈、同伴竞争和同伴合作

开放式项目

学员自主选定义项目方向及题目

在导师以及助教团队全程指导下完成你的第一个独立项目

顶级校友圈

汇集顶尖人才的超强人脉资源校友网

顶尖硅谷AI科学家、全博士导师助教团队支持机制