线上学习阶段
京东健康智能分诊项目
“看病慢看病难”早已成为当今社会的常见现象,因此随着技术的发展,AI+医疗是目前最有潜力的应用场景之一,其中一个很大的痛点是很多人不清楚应该去哪个科室看病。互联网医生服务可以构建医生与患者之间的桥梁,京东通过智能分诊项目,可以根据用户提供的文字型的病情描述精准识别,并自动帮助用户判断需要去哪个分诊科室,有效减少在线问诊被反复多次转接的情况发生,提高科室分配的准确度,实现降本增效。
这是一个经典的文本多分类项目。通过这个项目,学员可以扎实地掌握文本领域的相关技术如文本预处理、特征工程、词向量、分类模型、评价指标、模型部署等,并且通过完成一个完整的项目走完所有的必要流程。从技术的角度会涉及到tf-idf,word2vec,BERT向量,N-gram,FastText,TextCNN,SkipGram,CBOW,随机森林,XGBoost,Adagrad,Adam等技术和Flask,Docker,Jenkins等部署工具的使用。
知识点
tf-idf, Word2vec, FastText
TextCNN
XGBoost、LightGBM
文本特征工程
模型部署
第一周
文本处理与特征工程
Bag of Words模型
从tf-idf到Word2Vec
SkipGram与CBOW
Hierarhical Softmax与Negative Sampling
FastText
N-gram与平滑操作
文本特征工程
工具的使用:Gensim、Sklearn、jieba的使用
专题:如果阅读科研论文
项目:京东健康智能分诊项目讲解(1)
第二周
基于统计学习的分类方法
决策树
CART模型
Bagging & Boosting
随机森林和GBDT
XGBoost
精确率、召回率
F1,AUC
专题:如何处理样本不平衡问题
专题:京东Neufoundry平台的使用
项目:京东健康智能分诊项目讲解(2)
第三周
基于深度学习的分类方法
统计学习与深度学习的区别
深度学习与浅层学习
从逻辑回归到神经网络
深度学习的非线性性质
损失函数与优化器
神经网络的调参
CNN与TextCNN
实战:Pytorch的基础使用
实战:使用Pytorch实现神经网络和卷积神经网络
项目:京东健康智能分诊项目讲解(3)
京东智能营销文本生成项目
在京东零售场景,数百万的写作达人每天为商品创作卖点突出、风格多样的营销文案以促进用户下单,同时达人也会赚取佣金。但达人创业也会导致创作成本高、量产性差、质量参差不齐的问题。目前京东AI营销文案的人工审核通过率超过95%,并覆盖了全品类的商品。模型已成功应用于京东APP-发现好货,对话机器人京小智和搭配购等场景。
这是一个文本生成领域的问题,从技术层面上具有很大的挑战性。作为多模态的项目,学员会既可以拿到商品的描述文字,也可以拿到商品的图片数据,并利用这两部分信息让机器生成一个营销文案,也可以看作是多模态任务。在这个项目中,会涉及到Seq2Seq,Pointer-Generator Network,Beam Search的改进、多模态数据融合等相关技术。另外,很多挑战来自于模型本身的训练和调参,最终需要让模型给出一个合理的结果。
知识点
Seq2Seq,Attention
Pointer-Generator Network
Beam Search的改造
RestNet,Faster RCNN
多模态数据的融合
第四周
文本处理与特征工程
BPTT与RNN中的梯度消失、爆炸
梯度爆炸的处理
LSTM与GRU
基于LSTM的文本分类
Bi-LSTM与Deep Bi-LSTM
RNN与LSTM的可视化
实战:基于LSTM的情感分类
专题:GPU技术详解
项目:京东智能营销文本生成项目讲解(1)
第五周
Seq2Seq模型与营销文本生成
Encoder-Decoder模型以及各类应用场景
Seq2Seq模型与注意力机制
Greedy Decoding
Beam Search
基于Seq2Seq的文本生成
文本生成的评价指标
实战:基于Seq2Seq的机器翻译
项目:京东智能营销文本生成项目讲解(2)
第六周
Pointer-Generator Network和多模态识别
抽取式文本摘要和生成式文本摘要
Pointer-Generator Network
Beam Search优化思路
Length Normalization
Coverage Normalization
End of Sentence Normalization
多模态识别技术: ResNet和Faster RCNN
实战:PGN+Seq2Seq解读
论文:京东论文解读
项目:京东智能营销文本生成项目讲解(3)
京东同类商品搜索项目
当用户在网上购买商品时经常会试着货比三家,比如某一个京东的商品在苏宁网上的价格是怎样的。 为了便于这种比较,京东开发了一个同类商品搜索模块:给定一个京东商品,它可以根据商品相关的信息去自动找到苏宁等平台上的同类商品。 这里的一个难点在于,每一个商品在不同平台上的标题、描述这些都有一些区别的,所以定位到同一个商品本身具有一定的挑战。
假如我们把商品看作是实体,那这个任务实际上也是实体链接(entity linking)问题。在这个项目中,我们首先根据商品各类属性来搭建商品的图谱(知识图谱),接着再使用图神经网络来得出每一件商品的embedding,并给予这个表示来寻找跟当前商品匹配的另外一个商品。所涉及到的技术包括知识图谱、图神经网络以及基于GAT的一些模型改造,是图神经网络领域一个非常有趣的应用。
知识点
知识图谱的表示
GCN、GAT
Entity Linking
图神经网络的改造
第七周
Entity Linking与图卷积神经网络
什么是实体
Entity Linking问题解读
图的表示
图表示的应用场景
卷积神经网络回顾
在图中的卷积
图中的信息传递
图卷积神经网络(GCN)
论文:GCN论文解读和复现
项目:京东同类商品搜索项目讲解(1)
第八周
GraphSage与Graph Attention Network
GraphSage详解
注意力机制讲解
注意力机制与图表示
GAT模型详解
GAT与知识图谱应用
对于Heterogenous数据处理
论文:GAT论文解读与复现
项目:京东同类商品搜索项目讲解(2)
第九周
Entity Linking前沿技术剖析
Entity Linking前沿技术剖析
基于GNN的文本分类
基于GNN的实体识别
基于GNN的社交网络分析
基于GNN的链接预测
GNN的前沿主题
论文:图神经网络综述
项目:京东同类商品搜索项目讲解(3)
线上实习阶段
第10周
分组确定(4人一组)
完成项目设计、成员之间任务拆解
第16周
项目的最终验收
颁发实习证明
评选优秀作品
项目实施过程会由专业的产品经理、设计、前端、后端工程师以及算法导师参与,提供设计架构、拆解任务、算法实施和优化、模型集成、部署、联调等环节上的支持。
京东智能对话系统项目
智能客服机器人已经成为了客服系统的重要组成部分,帮助人工客服提升工作效率,为企业降低人工成本。作为智能客服的行业先驱,京东多年来致力打造全链路的客服机器人,最大化提升商家的接待效率和用户体验。目前智能机器人的对话生成策略已经在“京小智”、“京东JIMI“等智能客服机器广泛应用,在用户购买商品的售前以及售后环节,为数千万用户以及数十万商家进行服务,为商家降本增效,为用户提升购物客服体验。
在这个项目中,学员有机会基于百万级的数据量来搭建一个智能客服系统,主要使用的框架为检索式对话系统和生成式对话系统。 在项目中,涉及到的技术包括倒排表、WAND、HNSW、L2R、BERT、Transformer等一系列技术。
知识点
基于检索式的对话系统
基于生成式的对话系统
倒排表、HNSW、WMD
Learning to Rank
BERT、ALBERT、Transformer
视频截图: