课程介绍

贪心科技

从2020年底开始,Transformer 在 CV 领域中有了大幅度性能上的提升,这就表明 CV 和 NLP 在 Transformer 结构之下达成统一。目前来看,基于Attention机制的Transformer在NLP, CV, 3D Point Cloud 领域都取得了非常好的效果,并且Transformer的应用范围正在不断扩展到其他更多的细分领域中。与此同时,对于Transformer的网络结构设计、改进,理论研究,新的Attention机制探索都在蓬勃发展中。作为深度学习技术发展历史中的一个重要工作,Transformer很有可能逐渐演变为类似于LSTM, GRU的基本模块供后来研究者使用。因此无论是学术界的研究人员,还是工业界的相关从业者,都有必要对Transformer技术深入了解,并且紧跟Transformer的前沿研究(包括ViT, DETR, Mobile-Transformer, TimeSformer, Uniformer 等 ),以此来夯实自己技术积累。
本次课程通过知识讲解+项目实践的方式,让学员掌握各类CV Transformer模型的原理、结构、实现方法和调参技巧,并全面了解Transformer模型在CV中的应用。学习过程中,可以通过实现基于Transformer模型的图像识别与目标检测项目,开拓眼界,拓展思路,从而真正提高自己解决问题能力。

课程亮点

贪心科技

全面的技术知识讲解

课程内容涵盖Bert/ViT/SegFormer/DETR/UP-DETR/TimeSformer/DeiT/Mobile-Transformer/Efficient Transformer/SwinTransformer/Point Transformer/MTTR/MMT/Uniformer等10余个模型的讲解

贪心科技

项目实践,学以致用

学员使用Transformer模型,练习CV领域应用最广泛的图像识别和目标检测任务。

贪心科技

专业团队严格打磨的课程内容,前沿且深入

课程内容经过前期数百小时的打磨设计,保证内容和项目节点设置合理,真正做到学有所得。

贪心科技

就业导向,目标明确

顺利完课后,优秀学员可获得字节、阿里、腾讯、美团等各互联网大厂,及商汤、旷视等AI独角兽公司的合作内推面试机会。

课程大纲

Week 1 NLP 中Transformer/Bert 知识梳理讲解
  1. 本节课将带领大家回顾NLP领域中Transformer/Bert技术。以此深入了解Transformer/Bert技术细节,算法优势。方便学生进一步学习Transformer 技术在其他领域的应用。
Week 2 Transformer 在图像分类、语义分割中的应用: ViT与SegFormer技术探究
  1. 基于第一节课的内容,进一步研究如何将Transformer思想迁移到两个计算机视觉中分类问题的应用: 图像分类,图像语义分割。以两个经典结构ViT, SegFormer为例,让学生体会如何将Transformer应用到视觉领域的思想。
Week 3 Transformer在目标检测中的应用: DETR, UP-DETR技术探究
  1. 本节课将进一步学习如何将Transformer技术应用到目标检测任务重。特别是如何设计Transformer网络结构让神经网络能够同时学习到目标的类别信息与位置信息。
Week 4 Transformer 在视频Video理解中的应用: TimeSformer 技术探究
  1. 本节课将进一步学习如何将Transformer技术应用到视频理解应用中,让Transformer能够同时学习时序上空间上的相关性。以TimeSformer为例,让学生能够深刻体会其中设计思想。
Week 5 Efficient Transformer 设计探讨:DeiT, Mobile-Transformer技术探究
  1. 高效的Transformer一直是研究者孜孜不倦的追求目标。这次课程将讨论如何设计高效的Transformer 网络结构。本节课将以DeiT, Mobile-Transformer为例,深入学习高效设计网络过程中需要注意的事项。
Week 6 经典Transformer网络结构学习: SwinTransformer 模型家族学习
  1. 本次课程将以SwinTransformer 模型为例,系统性学习SwinTransformer以及其变种模型。目的是让学生能够进一步体会将Transformer应用到视觉任务的网络设计过程中需要注意的问题,有哪些巧妙的思想以及如何通过合理的设计做到并行计算。
Week 7 Transformer in Point Cloud
  1. 本节课将跟大家分享3D Point Cloud中的Transformer应用。根据3D Point Cloud数据特点,我们将深入探讨如何设计合适的Transformer网络来处理海量、无结构的点云数据。同时如何进一步修改Transformer结构如何对点云进行分割,聚类等任务。
Week 8 多模态应用中的Transformer设计
  1. 本节课我们将学习multi-modality 中Transformer设计问题。Transformer 在不同的领域得到了很好的应用。最近的工作在探究如何设计合适的Transformer结构处理多模态的数据。我们将以MTTR, MMT, Uniformer等相关Transformer为例子做讲解。

项目部分

基于ViT 模型的图像识别系统

项目内容描述:作为Transformer在视觉领域的一个经典应用案例,ViT模型第一次将NLP领域中Transformer思想应用到图像领域,为后续的一系列Transformer in Vision 设计工作都提供了很好的思路启发。追根溯源,我们将以ViT模型做图像分类任务为例,开启一段如何将Transformer思想应用到视觉领域之旅。

项目使用的算法:ViT model;Cross-entropy loss;Multi-label/multi-class classification;Self-attention;LSTM/GRU

项目使用的工具:Python;Pytorch;OpenCV;ViT

项目预期结果:首先让学生自己动手实现ViT模型,在数据集上测试结果。然后根据官方的实现做对比,如果差异较大需要自己查找原因。掌握如何将Transformer中token, self-attention 思想应用到图像领域。触类旁通,希望学生能够在深刻理解的基础上,能够学生将Transformer思想用到其他相关问题中去。掌握ViT的训练方法,让学生跑完这个pipeline。从数据准备,模型训练,参数调节,到模型测试,指标计算等。

项目对应第几周的课程:1-3周

基于SwinTransformer 模型的图像分类,目标检测任务

项目内容描述:我们在上一个项目中学习了ViT模型,一个成功将Transformer应用到视觉分类问题的视觉Transformer模型。但是ViT模型的设计还是比较单一,存在一些不足。尤其是对图像中存在的问题,例如尺度变换问题没有很好的解决,并且没有考虑到效率问题。在本项目中,我们将学习另一个进阶版的视觉Transformer模型: SwinTransformer模型。

项目使用的算法:SwinTransformer;Cross-Entropy Loss;Regression Loss;Forward-Backward Propagation

项目使用的工具:Python;Pytorch;OpenCV

项目预期结果:学生自己实现SwinTransformer代码(也可参照官方实现),并且参照官方实现优化自己的实现,如果实验效果差异较大,学生需要查找原因。体会用SwinTransformer来做目标检测的思想。掌握如何从代码角度优化实现SwinTransformer的self-attention机制从局部扩展到全局。学生掌握如何将Transformer思想应用到自己工作或者学习中的实际问题中去。

项目对应第几周的课程:6-7周

授课方式

贪心科技

基础知识讲解

贪心科技

前沿论文解读

贪心科技

该知识内容的实际应用

贪心科技

该知识的项目实战

贪心科技

该知识的答疑解惑

贪心科技

该方向的知识延伸及未来趋势讲解

课程研发及导师团队

贪心科技

Jackson

CV主讲老师

牛津大学计算机博士;曾在BAT等多家公司任职算法科学家;从事计算机视觉,深度学习,语音信号处理相关研究;先后在CVPR, ICML, AAAI, ICRA等国际顶会及期刊发表多篇论文

贪心科技

Jerry Yuan

课程研发顾问

美国微软(总部)推荐系统部负责人;美国亚马逊(总部)资深工程师;美国新泽西理工大学博士;14年人工智能, 数字图像处理和推荐系统领域研究和项目经验;先后在AI相关国际会议上发表20篇以上论文

贪心科技

李文哲

贪心科技CEO

美国南加州大学博士;曾任独角兽金科集团首席数据科学家、美国亚马逊和高盛的高级工程师;金融行业开创知识图谱做大数据反欺诈的第一人;先后在AAAI、KDD、AISTATS、CHI等国际会议上发表过15篇以上论文

你将收获

贪心科技

全面掌握Transformer在CV领域的知识,灵活应用在自己工作中

贪心科技

能够了解各类Transformer模型的实现方式,并熟练掌握其关键技术与方法

贪心科技

深入理解前沿的Transformer模型技术,拓宽工作和研究的技术视野

贪心科技

短期内对一个领域有全面且系统的认识,大大节省学习时间

贪心科技

认识一群拥有同样兴趣的人、相互交流、相互学习

适合人群

贪心科技

大学生

编程及深度学习基础良好,未来想进入AI行业发展
对于CV Transformer模型有浓厚兴趣,希望进行系统性学习与实践
贪心科技

在职人士

工作中需要应用Transformer的高阶模型与技术
想进入AI算法行业成为AI算法工程师
想通过掌握AI高阶知识,拓宽未来职业路径

入学标准

贪心科技

掌握python

贪心科技

具备Pytorch或者TensorFlow 基础知识

贪心科技

具备神经网络基本知识

贪心科技

具备深度学习模型训练