大数据推荐算法最佳学习路线!!!
我们正处于大数据的时代,传统的信息检索技术已经不能满足用户对信息发现的需求,推荐引擎的出现,可以帮用户获取更丰富,更符合个人口味和更加有意义的信息。
面对每天铺天盖地的网络资源、很多时候我们面临的问题并不是缺资源,而是找准资源,从而高效学习。但很多时候你会发现,花费大量的时间在零零散散的内容上,但最后发现效率极低,浪费了很多宝贵的时间。为了迎合大家学习的需求,八斗大数据学院这次重磅推出了《大数据推荐算法高薪就业班》。
课程主要涵盖了大数据技术生态以及推荐系统:Hadoop、Hive、Spark、SparkStreaming、Hbase、Kafka、query2doc、召回、排序、重排策略等所必要的技术。
01 课程大纲
第一部分:大数据技术生态篇
01篇-大数据技术生态理论
第一章:Hadoop
MapReduce原理深入
技术实现:基于MapReduce实现用户lbs区域推荐
面试常考察点:MapReduce面试点
leetcode二叉树面试总结
第二章:HIVE
HIVE设计原理
HIVE常用语句优化,SQL语句解析
HIVE高阶UDF,UDAF,UDTF设计原理,实现
leetcode 动态规划面试
第三章:Spark
Scala语法基础
Spark core transformer和action
Spark SQL、ML
Spark graphx应用
第四章:SparkStreaming
流式数据处理概要
SparkStreaming+kafka的receiver模式与direct模式
第五章:Hbase
Hbase设计原理解析
第六章:Kafka
Kafka消息队列的作用
Kafka实战数据落地
项目实战
Spark离线多路召回项目
Hive用户行为画像构建
第二部分:深度学习项目
01篇-Query2doc
第一章:Query2doc
NLP基础
word2vector、tfidf、n-gram
命名实体识别
文本分类
transformers 使用
第二章:query2doc
query理解
w2v+tfidf+bertsentence实现baseline
召回
query理解
query纠错
新词发现,query解析
双塔召回、mrr
02篇-多模态
第一章:多模态理论
文本backbone
图片backbone (vit)
多模态fusiom
第二章:多模态表达
模型层面
Vit模型
Robert
Moe融合
Nextvald
多模态pretrain
多模态对比学习
多模态mlm+embedidng抽取+多模态打散
第三部分:大数据推荐系统
01篇-推荐系统项目-召回设计
第一章:基于热门召回
热度衰减算法,热门衰减
基于热榜计算挖掘算法的设计与实现(面试加分项) ⭐️
第二章:基于用户协同过滤召回
基于Usercf面试考点 ⭐️
隐式反馈和显式反馈的评分矩阵
用户相似性矩阵计算
倒排索引
相似用户物品推荐+ 过滤
第三章:基于物品协同过滤召回
基于Itemcf面试考点 ⭐️
隐式反馈和显式反馈的评分矩阵
物品相似性矩阵计算
倒排索引
相似物品推荐 + 过滤
第四章:基于模型召回
召回模型的发展 (面试必考点⭐️)
ALS+SVD+FUNKSVD基于矩阵分解的召回算法
Youtube双塔模型召回
DSSM双塔模型召回
Embeding预训练召回
快速召回模型设计策略负采样+哈夫曼树
第五章:召回策略面试考察点 ⭐️
召回的目的
召回的方式(离线召回, 在线召回)
召回的难点
02篇-推荐系统项目-排序设计
第一章:排序的目的
排序面试考察点汇总 ⭐️
排序模型的发展(面试必考点⭐️)
排序的线上,线下评价指标(面试必考点⭐️)
第二章:排序算法
Base模型:LR
特征自动组合:GBDT+LR
经典集成模型:XGBOOST, Lightgbm
特征交叉模型:FM
深度学习模型:Wide&Deep
深度学习模型:DeepFM
项目实践+ 模型优化策略
第三章:重排策略
冷启动策略
冷启动问题原理
冷启动问题解决方案
用户冷启动
物品冷启动
冷启动面试问题汇总 ⭐️
强插策略
强插策略的应用场景,以及实现方案
打散策略
打散策略的应用场景
打散策略应用实践:DPP打散
02 课程中所匹配八大商业实战项目
项目01:物品画像构建(Spark、Python、Tensorflow)
内容画像的搭建基础
关键词提取技术tf-idf, textRank
LSTM与注意力机制
Attention的几种常用方式
Self-Attention
Multi-head Attention
HuggingFace的使用
MySQL数据库的搭建
项目02:用户画像项目
用户画像与内容画像的关系
用户画像的架构
用户画像的扩展
用户画像与排序特征
用途:基于标签的用户画像
标签权重的计算方法(贝叶斯平滑、时间衰减)
基于用户画像的召回方法
Hadoop、Hive、Spark等工具使用
项目03:召回项目介绍
MF召回法以及求解
特征值分解
传统奇异值分解之SVM
Embedding与稀疏ID类特征的关系
Item-CF召回与Item2Vec
Airbnb序列召回与冷启动缓解思路
YouTube召回方法
从DSSM到双塔模型
双塔模型工业界的部署方法
多兴趣召回
MIND召回
Faiss工具介绍
项目04:画像召回
随机游走于传统协同方法
Deepwalk
Node2Vec及其同质性与结构性
LINE
随机游走的实现
Alias采样方法
Spark实现Graph Embedding的实现
Eges大规模图召回
Dgl实验pinsage进行推荐
项目05:推荐系统之精确排序
Ranking与用户画像
物品画像
LR模型
GBDT+ LR
FM模型详解、业界使用方法与坑
FFM模型
AUC与GAUC
基于FM实现Ranking精排序
特征自动组合:Deep&Cross、XDeepFM、PNN
序列推荐模型:DIN、DIEN、AttRes、Stamp
深度模型工具的介绍与使用
MLSQL
DeepCTR等与工业界采样方法
项目06:用户画像项目
用户画像概念
用户三大标签类型
基于用户行为的标签构建
dmp平台如何利用标签进行广告定向投放
机器学习类别标签
项目07:实时召回系统构建
实时召回系统架构
基于用户行为的实时召回
召回模型部署
召回算法详解
召回评估方法
项目08:基于大数据的LBS区域推荐
MapReduce介绍
用户行为日志分析
聚类算法的应用
基于区域聚类的lbs推荐
Hadoop从0-1实现百万用户聚类的lbs区域热点推荐
03 该课程适合谁?
大学生:
在校学生,论文没人指导,进度缓慢临近毕业
在校学生,没有实战项目傍身,找工作实习屡屡受挫
希望系统性学习大数据推荐算法领域
在职人士:
在职自学,时间有限且没人指导,在摸索的路上浪费了大量时间
目前已经在大数据领域,但业务场景单一不成体系,无法应对更加高级的需求
从其他行业(Java、运维、前端等)寻求转型,没有高手带路
已在大数据领域,但要进阶大数据推荐算法领域者
就业单位:
百度、腾讯、阿里巴巴、京东、美团、滴滴等知名互联网企业或研究院,以及中科院、研究所、信息工程研究所等国内著名科研所及清华、北大、浙大等国内知名高校继续深造学习。
就业数据:
就业人数:83人
平均薪资:23415元
最高薪资:6800元
就业详情:
10K以上83人 占比100%
20K以上55人 占比66%
30K以上17人 占比20%
06 报名须知
该课程为收费教学
本期仅招剩余名额有限
售后保障!7天内无理由退款(保障)
签订保涨薪40%协议,4个月冲刺月薪25-60K
一线互联网大厂内推名额,至满意为主