vlambda博客
学习文章列表

大数据推荐算法最佳学习路线!!!

我们正处于大数据的时代,传统的信息检索技术已经不能满足用户对信息发现的需求,推荐引擎的出现,可以帮用户获取更丰富,更符合个人口味和更加有意义的信息。


面对每天铺天盖地的网络资源、很多时候我们面临的问题并不是缺资源,而是找准资源,从而高效学习。但很多时候你会发现,花费大量的时间在零零散散的内容上,但最后发现效率极低,浪费了很多宝贵的时间。为了迎合大家学习的需求,八斗大数据学院这次重磅推出了《大数据推荐算法高薪就业班》


课程主要涵盖了大数据技术生态以及推荐系统Hadoop、Hive、Spark、SparkStreaming、Hbase、Kafka、query2doc、召回、排序、重排策略等所必要的技术。


01 课程大纲

第一部分:大数据技术生态篇

01篇-大数据技术生态理论

第一章:Hadoop

  • MapReduce原理深入

  • 技术实现:基于MapReduce实现用户lbs区域推荐

  • 面试常考察点:MapReduce面试点 

  • leetcode二叉树面试总结


第二章:HIVE

  • HIVE设计原理

  • HIVE常用语句优化,SQL语句解析

  • HIVE高阶UDF,UDAF,UDTF设计原理,实现

  • leetcode 动态规划面试


第三章:Spark

  • Scala语法基础

  • Spark core transformer和action

  • Spark SQL、ML

  • Spark graphx应用


第四章:SparkStreaming

  • 流式数据处理概要

  • SparkStreaming+kafka的receiver模式与direct模式


第五章:Hbase

  • Hbase设计原理解析


第六章:Kafka

  • Kafka消息队列的作用

  • Kafka实战数据落地


项目实战

  • Spark离线多路召回项目

  • Hive用户行为画像构建


第二部分:深度学习项目

01篇-Query2doc

第一章:Query2doc

NLP基础

  • word2vector、tfidf、n-gram

  • 命名实体识别

  • 文本分类

  • transformers 使用


第二章:query2doc

  • query理解

  • w2v+tfidf+bertsentence实现baseline


召回

  • query理解

  • query纠错

  • 新词发现,query解析

  • 双塔召回、mrr


02篇-多模态

第一章:多模态理论

  • 文本backbone

  • 图片backbone (vit)

  • 多模态fusiom


第二章:多模态表达

模型层面

  • Vit模型

  • Robert

  • Moe融合

  • Nextvald


多模态pretrain

  • 多模态对比学习

  • 多模态mlm+embedidng抽取+多模态打散


第三部分:大数据推荐系统

01篇-推荐系统项目-召回设计

第一章:基于热门召回

  • 热度衰减算法,热门衰减

  • 基于热榜计算挖掘算法的设计与实现(面试加分项) ⭐️


第二章:基于用户协同过滤召回

  • 基于Usercf面试考点 ⭐️

  • 隐式反馈和显式反馈的评分矩阵

  • 用户相似性矩阵计算

  • 倒排索引

  • 相似用户物品推荐+ 过滤


第三章:基于物品协同过滤召回

  • 基于Itemcf面试考点 ⭐️

  • 隐式反馈和显式反馈的评分矩阵

  • 物品相似性矩阵计算

  • 倒排索引

  • 相似物品推荐 + 过滤


第四章:基于模型召回

  • 召回模型的发展 (面试必考点⭐️)

  • ALS+SVD+FUNKSVD基于矩阵分解的召回算法

  • Youtube双塔模型召回

  • DSSM双塔模型召回

  • Embeding预训练召回

  • 快速召回模型设计策略负采样+哈夫曼树


第五章:召回策略面试考察点 ⭐️

  • 召回的目的

  • 召回的方式(离线召回, 在线召回)

  • 召回的难点


02篇-推荐系统项目-排序设计

第一章:排序的目的

  • 排序面试考察点汇总 ⭐️

  • 排序模型的发展(面试必考点⭐️)

  • 排序的线上,线下评价指标(面试必考点⭐️)


第二章:排序算法

  • Base模型:LR

  • 特征自动组合:GBDT+LR

  • 经典集成模型:XGBOOST, Lightgbm

  • 特征交叉模型:FM

  • 深度学习模型:Wide&Deep

  • 深度学习模型:DeepFM

  • 项目实践+ 模型优化策略


第三章:重排策略


冷启动策略

  • 冷启动问题原理


冷启动问题解决方案

  • 用户冷启动

  • 物品冷启动


冷启动面试问题汇总 ⭐️


强插策略

  • 强插策略的应用场景,以及实现方案


打散策略

  • 打散策略的应用场景

  • 打散策略应用实践:DPP打散


02 课程中所匹配八大商业实战项目

项目01:物品画像构建(Spark、Python、Tensorflow)

  • 内容画像的搭建基础

  • 关键词提取技术tf-idf, textRank

  • LSTM与注意力机制

  • Attention的几种常用方式

  • Self-Attention

  • Multi-head Attention

  • HuggingFace的使用

  • MySQL数据库的搭建


项目02:用户画像项目

  • 用户画像与内容画像的关系

  • 用户画像的架构

  • 用户画像的扩展

  • 用户画像与排序特征

  • 用途:基于标签的用户画像

  • 标签权重的计算方法(贝叶斯平滑、时间衰减)

  • 基于用户画像的召回方法

  • Hadoop、Hive、Spark等工具使用


项目03:召回项目介绍

  • MF召回法以及求解

  • 特征值分解

  • 传统奇异值分解之SVM

  • Embedding与稀疏ID类特征的关系

  • Item-CF召回与Item2Vec

  • Airbnb序列召回与冷启动缓解思路

  • YouTube召回方法

  • 从DSSM到双塔模型

  • 双塔模型工业界的部署方法

  • 多兴趣召回

  • MIND召回

  • Faiss工具介绍


项目04:画像召回

  • 随机游走于传统协同方法

  • Deepwalk

  • Node2Vec及其同质性与结构性

  • LINE 

  • 随机游走的实现

  • Alias采样方法

  • Spark实现Graph Embedding的实现

  • Eges大规模图召回

  • Dgl实验pinsage进行推荐


项目05:推荐系统之精确排序

  • Ranking与用户画像

  • 物品画像

  • LR模型

  • GBDT+ LR

  • FM模型详解、业界使用方法与坑

  • FFM模型

  • AUC与GAUC

  • 基于FM实现Ranking精排序

  • 特征自动组合:Deep&Cross、XDeepFM、PNN

  • 序列推荐模型:DIN、DIEN、AttRes、Stamp

  • 深度模型工具的介绍与使用

  • MLSQL

  • DeepCTR等与工业界采样方法


项目06:用户画像项目

  • 用户画像概念

  • 用户三大标签类型

  • 基于用户行为的标签构建

  • dmp平台如何利用标签进行广告定向投放

  • 机器学习类别标签


项目07:实时召回系统构建

  • 实时召回系统架构

  • 基于用户行为的实时召回

  • 召回模型部署

  • 召回算法详解

  • 召回评估方法


项目08:基于大数据的LBS区域推荐

  • MapReduce介绍

  • 用户行为日志分析

  • 聚类算法的应用

  • 基于区域聚类的lbs推荐

  • Hadoop从0-1实现百万用户聚类的lbs区域热点推荐

03 该课程适合谁?


大学生:

  • 在校学生,论文没人指导,进度缓慢临近毕业

  • 在校学生,没有实战项目傍身,找工作实习屡屡受挫

  • 希望系统性学习大数据推荐算法领域


在职人士:

  • 在职自学,时间有限且没人指导,在摸索的路上浪费了大量时间

  • 目前已经在大数据领域,但业务场景单一不成体系,无法应对更加高级的需求

  • 从其他行业(Java、运维、前端等)寻求转型,没有高手带路

  • 已在大数据领域,但要进阶大数据推荐算法领域者

04 毕业学员去向

就业单位:

百度、腾讯、阿里巴巴、京东、美团、滴滴等知名互联网企业或研究院,以及中科院、研究所、信息工程研究所等国内著名科研所及清华、北大、浙大等国内知名高校继续深造学习。

05 八斗最新就业信息

就业数据:

就业人数:83人

平均薪资:23415元

最高薪资:6800元


就业详情:

10K以上83人 占比100%

20K以上55人 占比66%

30K以上17人 占比20%


06 报名须知

  • 该课程为收费教学

  • 本期仅招剩余名额有限

  • 售后保障!7天内无理由退款(保障)

  • 签订保涨薪40%协议,4个月冲刺月薪25-60K

  • 一线互联网大厂内推名额,至满意为主