项目总览
项目亮点
企业盖上认证的项目实习证明
名企官方认证项目实习经历,为你的求职就业提供最真实的认可和背书
高含金量的企业级项目实习
完成一款完整的对话系统,包括最后部署上线,可直接展示给面试官
企业级项目流程
跟产品、设计、前端、后端工程师的协作、这里包括需求分析、任务拆解以及最终成果展示
项目小组模式
就像在企业一样,成立一个项目小组,共同讨论、共同解决问题,有助于相互学习
导师辅导教学
完成项目期间,会有专门的导师来讲解核心技术以及工程实战,他们就像企业中的Mentor
优质的求职资源
完成项目将会获得京东颁发的实习证明,而且我们也为你提供内推企业资源,助力你的职业发展成功
项目流程
第1-9周:学习阶段
以个人为单位完成京东医疗分诊、京东营销文案生成、同类产品搜索项目
第10-16周:毕业实习项目
以团队为单位,完整的搭建对话系统并部署上线(产品、设计、开发配合)
最后一周项目验收并颁发实习证明
求职
求职辅助
求职推荐
线上学习阶段
项目一
· 京东健康智能分诊项目
“看病慢看病难”早已成为当今社会的常见现象,因此随着技术的发展,AI+医疗是目前最有潜力的应用场景之一,其中一个很大的痛点是很多人不清楚应该去哪个科室看病。互联网医生服务可以构建医生与患者之间的桥梁,京东通过智能分诊项目,可以根据用户提供的文字型的病情描述精准识别,并自动帮助用户判断需要去哪个分诊科室,有效减少在线问诊被反复多次转接的情况发生,提高科室分配的准确度,实现降本增效。
这是一个经典的文本多分类项目。通过这个项目,学员可以扎实地掌握文本领域的相关技术如文本预处理、特征工程、词向量、分类模型、评价指标、模型部署等,并且通过完成一个完整的项目走完所有的必要流程。从技术的角度会涉及到tf-idf,word2vec,BERT向量,N-gram,FastText,TextCNN,SkipGram,CBOW,随机森林,XGBoost,Adagrad,Adam等技术和Flask,Docker,Jenkins等部署工具的使用。
tf-idf, Word2vec, FastText
TextCNN
XGBoost、LightGBM
文本特征工程
模型部署
Bag of Words模型
从tf-idf到Word2Vec
SkipGram与CBOW
Hierarhical Softmax与Negative Sampling
FastText
N-gram与平滑操作
文本特征工程
工具的使用:Gensim、Sklearn、jieba的使用
专题:如果阅读科研论文
项目:京东健康智能分诊项目讲解(1)
决策树
CART模型
Bagging & Boosting
随机森林和GBDT
XGBoost
精确率、召回率
F1,AUC
专题:如何处理样本不平衡问题
专题:京东Neufoundry平台的使用
项目:京东健康智能分诊项目讲解(2)
统计学习与深度学习的区别
深度学习与浅层学习
从逻辑回归到神经网络
深度学习的非线性性质
损失函数与优化器
神经网络的调参
CNN与TextCNN
实战:Pytorch的基础使用
实战:使用Pytorch实现神经网络和卷积神经网络
项目:京东健康智能分诊项目讲解(3)
项目二
· 京东智能营销文本生成项目
在京东零售场景,数百万的写作达人每天为商品创作卖点突出、风格多样的营销文案以促进用户下单,同时达人也会赚取佣金。但达人创业也会导致创作成本高、量产性差、质量参差不齐的问题。目前京东AI营销文案的人工审核通过率超过95%,并覆盖了全品类的商品。模型已成功应用于京东APP-发现好货,对话机器人京小智和搭配购等场景。
这是一个文本生成领域的问题,从技术层面上具有很大的挑战性。作为多模态的项目,学员会既可以拿到商品的描述文字,也可以拿到商品的图片数据,并利用这两部分信息让机器生成一个营销文案,也可以看作是多模态任务。在这个项目中,会涉及到Seq2Seq,Pointer-Generator Network,Beam Search的改进、多模态数据融合等相关技术。另外,很多挑战来自于模型本身的训练和调参,最终需要让模型给出一个合理的结果。
Seq2Seq,Attention
Pointer-Generator Network
Beam Search的改造
RestNet,Faster RCNN
多模态数据的融合
BPTT与RNN中的梯度消失、爆炸
梯度爆炸的处理
LSTM与GRU
基于LSTM的文本分类
Bi-LSTM与Deep Bi-LSTM
RNN与LSTM的可视化
实战:基于LSTM的情感分类
专题:GPU技术详解
项目:京东智能营销文本生成项目讲解(1)
Encoder-Decoder模型以及各类应用场景
Seq2Seq模型与注意力机制
Greedy Decoding
Beam Search
基于Seq2Seq的文本生成
文本生成的评价指标
实战:基于Seq2Seq的机器翻译
项目:京东智能营销文本生成项目讲解(2)
抽取式文本摘要和生成式文本摘要
Pointer-Generator Network
Beam Search优化思路
Length Normalization
Coverage Normalization
End of Sentence Normalization
多模态识别技术: ResNet和Faster RCNN
实战:PGN+Seq2Seq解读
论文:京东论文解读
项目:京东智能营销文本生成项目讲解(3)
项目三
· 京东同类商品搜索项目
当用户在网上购买商品时经常会试着货比三家,比如某一个京东的商品在苏宁网上的价格是怎样的。 为了便于这种比较,京东开发了一个同类商品搜索模块:给定一个京东商品,它可以根据商品相关的信息去自动找到苏宁等平台上的同类商品。 这里的一个难点在于,每一个商品在不同平台上的标题、描述这些都有一些区别的,所以定位到同一个商品本身具有一定的挑战。
假如我们把商品看作是实体,那这个任务实际上也是实体链接(entity linking)问题。在这个项目中,我们首先根据商品各类属性来搭建商品的图谱(知识图谱),接着再使用图神经网络来得出每一件商品的embedding,并给予这个表示来寻找跟当前商品匹配的另外一个商品。所涉及到的技术包括知识图谱、图神经网络以及基于GAT的一些模型改造,是图神经网络领域一个非常有趣的应用。
知识图谱的表示
GCN、GAT
Entity Linking
图神经网络的改造
什么是实体
Entity Linking问题解读
图的表示
图表示的应用场景
卷积神经网络回顾
在图中的卷积
图中的信息传递
图卷积神经网络(GCN)
论文:GCN论文解读和复现
项目:京东同类商品搜索项目讲解(1)
GraphSage详解
注意力机制讲解
注意力机制与图表示
GAT模型详解
GAT与知识图谱应用
对于Heterogenous数据处理
论文:GAT论文解读与复现
项目:京东同类商品搜索项目讲解(2)
Entity Linking前沿技术剖析
基于GNN的文本分类
基于GNN的实体识别
基于GNN的社交网络分析
基于GNN的链接预测
GNN的前沿主题
论文:图神经网络综述
项目:京东同类商品搜索项目讲解(3)
线上实习阶段
毕业实习项目关键节点
项目实施
项目实施过程会由专业的产品经理、设计、前端、后端工程师以及算法导师参与,提供设计架构、拆解任务、算法实施和优化、模型集成、部署、联调等环节上的支持。
算法导师
产品经理
设计
前端工程师
后端工程师
实习生
实习生
实习生
项目流程
1
组建团队
2
需求分析&产品设计
3
任务拆解
4
产品开发
8
颁发实习证明
7
项目答辩
6
部署&上线
5
产品开发
项目管理
颁发实习证明
禅道项目管理
敏捷开发
github代码管理
实习项目
京东智能对话系统项目
智能客服机器人已经成为了客服系统的重要组成部分,帮助人工客服提升工作效率,为企业降低人工成本。作为智能客服的行业先驱,京东多年来致力打造全链路的客服机器人,最大化提升商家的接待效率和用户体验。目前智能机器人的对话生成策略已经在“京小智”、“京东JIMI“等智能客服机器广泛应用,在用户购买商品的售前以及售后环节,为数千万用户以及数十万商家进行服务,为商家降本增效,为用户提升购物客服体验。
在这个项目中,学员有机会基于百万级的数据量来搭建一个智能客服系统,主要使用的框架为检索式对话系统和生成式对话系统。 在项目中,涉及到的技术包括倒排表、WAND、HNSW、L2R、BERT、Transformer等一系列技术。
基于检索式的对话系统
基于生成式的对话系统
倒排表、HNSW、WMD
Learning to Rank
BERT、ALBERT、Transformer
对话系统的分类方式
检索方法和生成方法
任务导向型系统和非任务导向型系统
对话系统架构
对话系统中的召回
对话系统中的排序
倒排索引和WAND算法
倒排索引的空间优化
信息检索系统的评估方式
实战:倒排索引的实现
对话系统的需求分析与设计
对话数据的收集
对话系统整体架构设计
前端、后端、算法模块的衔接
Approximate Nearest Neighbor Search
KD树
LSH技术
NSW和HNSW
论文:HNSW论文解读
Learning to Rank技术介绍
Point-wise Approach
Pair-wise Approach
List-wise Approach
常用模型的评估指标
MAP,NDCG
相似度计算方法
意图识别分类器
闲聊引擎的搭建
Attention和Self-Attention
Multi-head attention
Transformer详解
Transformer其他应用
实战:基于Transformer的闲聊引擎
多轮对话管理
特定业务场景的考虑
用户订单状态的使用
多轮对话状态管理
常见的多轮对话控制技术
AI模型的测试与部署
对话系统的性能优化
对话系统与业务设计
基于跳槽式的任务式对话系统
对话的多样性
规则的灵活使用
对话系统的线上评测
项目验收和项目答辩
项目上线
线上答辩
项目评分
线上实习证明和毕业证书
实习证明
毕业证书
求职阶段
不同形式的就业帮助
双选会
定向内推
上门直招
猎头
往期成绩
超过80%
毕业后3个月之内找到AI相关工作的学员
超过95%
毕业后6个月之内找到AI相关工作的学员
就业情况
适合人群与导师
适用人群
入学标准
1
理工科相关专业学生,或者在职技术人员
2
具有良好的Python编程能力
3
具备基础的机器学习知识
实习项目导师
李文哲
贪心科技创始人兼CEO
曾任金融科技独角兽公司的首席科学家、美国亚马逊的高级工程师,先后负责过聊天机器人、量化交易、自适应教育、金融知识图谱等项目,并在AAAI、KDD、AISTATS等顶会上发表过15篇以上论文,并荣获IAAI,IPDPS的最佳论文奖,多次出席行业峰会发表演讲。分别在USC, TAMU,南开攻读博士、硕士和本科。在荷兰访问期间,师从AI顶级学者Max Welling教授。
袁老师
贪心学院高级助教老师
负责京东自然语言处理高阶1期,2期,3期课程以及中阶机器学习类,高阶机器学习,高阶自然语言处理课程等。自然语言处理工程师,负责过医疗知识图谱、文本分类、聊天机器人等企业级核心项目。
王老师
实习项目导师
毕业于QS世界综合排名Top20 计算机学院;研究方向为机器阅读理解,信息检索,文本生成等;拥有新加坡国立大学,南洋理工等丰富海外访学交流经历。曾在AAAI, ICLR 等发表过数篇论文,多项国家发明专利。现任BAT高级算法工程师,拥有亚马逊,华为,平安科技等丰富行业经历,对NLP算法及其行业落地有深入研究。
郑老师
实习项目导师
负责京东自然语言处理训练营1期,2期项目讲解;统筹京东自然语言处理3期项目设计及项目安排;斯坦陵布什大学硕士,负责过缺陷检测,文本聚类,长文本意图识别,对话系统等项目。
助教老师课上辅导&课下答疑
常见问题
学完课程能达到什么水平?
有能力统筹解决具体场景中的自然语言处理/机器学习问题,胜任机器学习算法工程师,自然语言处理算法工程师的岗位。
在精通业务,活学活用的基础上能够胜任机器学习以及自然语言处理科学家的岗位。
有能力独自阅读最新文献,自我学习并应用掌握最前沿知识。
本课程怎么答疑?
本课程会配有专业的答疑助教团队,对于学员的问题,即时提供在线答疑。
学员会有实操的机会?
这是本课程设计的核心,课程设计以算法原理为主,理论+实践的方式,带你实战典型的行业应用。
课程支持哪些付费方式?
支付宝,微信,银行卡,公对公打款,paypal付款。