难度 初级
学习时间 16周
基础准备 零基础
立即试听
导师介绍
Rui Guo
北航计算机博士,曾参与多项国家自然科学基金及国家科技支撑计划项目,多篇论文被SCI、EI及中文核心期刊检索。目前就职于第四范式,任职资深算法工程师,擅长分布式系统,负责算法改进及其产品化、数据建模及可视化等。
实战营中能够掌握的技能
1掌握数据预处理方法
2掌握描述性统计方法
3掌握特征工程方法
4掌握数据建模算法
5掌握模型调优方法
6独立实现常用数据挖掘算法
7能够完成大数据量分析建模任务
8能够完成文本挖掘任务
9具备数据挖掘工程师相应知识
10具备企业级数据思维
项目式学习方法 不停留在看视频
项目需求设定
遇到问题
知识要点回顾
拓展资料学习
知识要点回顾
解决问题
Code review + 复盘分享
10个实战项目,全面掌握数据分析
连锁超市数据分析项目
航空用户流失与价值分群项目
房屋价格预测项目
银行信用卡分期项目
电商广告点击率预测项目
工业互联网安全日志聚合项目
电网论坛员工发帖文本挖掘项目
新闻文本推荐项目
私募基金企业信用评级项目
毕业项目:电信终端换季项目
连锁超市数据分析项目(12课时)
依托国外大型连锁超市运营和销售数据,引导学员熟悉数据分析基本流程;培养数据思维,理解数据读入、多表合并关联、表内数据增、改、删等基本操作原理;强化数据预处理、统计分析及数据可视化的实操。
房屋价格预测项目(12课时)
房屋价格预测模型广泛用于银行抵押贷款,房屋租赁销售等环节,本项目通过爬取最新的二手房屋数据,构建线性回归模型,涉及的知识点主要有爬虫、线性回归原理推导及实现、回归诊断、正则化方法及回归模型的评估等。
银行信用卡分期项目(18课时)
商业银行的主要利润来源中,信用卡收入是很重要的一部分,通过精准决策找到有分期需求的信用卡客户,引导办理分期业务,可以提高用户体验,降低逾期风险。本项目通过逻辑回归原理的引入,带领大家实操构建分类模型的全流程,包括但不限于宽表连接、衍生特征构建、数据清洗和转换、特征选择、逐步回归、模型监控、拒绝演绎等。
工业互联网安全日志聚合项目(12课时)
基于无监督方法解决工业企业网络安全问题,主要涉及知识点有主成分分析、因子分析、变量聚类原理及实现;各种聚类算法的原理及实现、防火墙日志聚合实战等。
航空用户流失与价值分群项目(12课时)
随着航空业的竞争激烈,用户流失较为严重。本项目通过构建流失预警模型,准确预测有流失倾向的用户。由于营销成本有限,对有流失倾向的用户进行价值分群,对不同价值等级的用户匹配不同的营销策略,最大程度挽留高价值客户群体。涉及的知识点有,各分类算法的比较、网格搜索、交叉验证等。
国家电网论坛员工发帖文本挖掘项目(18课时)
国家电网论坛积累了海量的员工互动文本数据,通过分析发帖主题及内容,建立多分类模型,一方面确定内容与工作之间的各种关系,另一方面判断内容的情感倾向,最终与员工KPI及是否离职建立映射关系,自动化的预测每位员工的敬业程度和离职倾向。涉及的知识点有中文分词、停用词过滤、各种词向量的原理及实现、朴素贝叶斯算法的原理及实现等。
私募基金企业信用评级项目(18课时)
通过对指定行业内的企业各项会计信息及历史行为分析,建立分类模型预估哪些企业会出现风险,进而构建回归模型,确定企业信用评级,为投资决策提供依据。涉及的知识点有,spark rdd的生命周期,spark sql实操、spark mllib和spark ml的区别,spark ml各方法类的实操等。
课程大纲
第一章:Python语法及数据分析模块介绍
第二章:机器学习基本概念
第三章:机器学习基本流程与环节
第四章:sklearn介绍
第五章:机器学习算法简介
第六章:线性回归
第七章:逻辑回归
第八章:支持向量机、朴素贝叶斯、KNN
第九章:决策树
第十章:随机森林
第十一章:GBDT
第十二章:聚类算法
第十三章:关联规则挖掘
第十四章:数据案例讲解
第十五章:特征工程概念与意义
第十六章:常见特征方法
第十七章:特征选择方法
第十八章:模型(超参数)选择
第十九章:模型融合与优化

同伴学习

打造你的技术开发外脑团队

同伴指导、同伴示范、同伴反馈、同伴竞争和同伴合作

开放式项目

学员自主选定义项目方向及题目

在导师以及助教团队全程指导下完成你的第一个独立项目

顶级校友圈

汇集顶尖人才的超强人脉资源校友网

顶尖硅谷AI科学家、全博士导师助教团队支持机制