-
Notifications
You must be signed in to change notification settings - Fork 55
Description
非常喜欢塔哥的书以及在知乎上的文章,学到了很多。最近在读塔哥的书,发现了一点小 typo 如下。
==========================================================================
引言:《互联网大厂推荐算法实战》上线啦
或许未来补充章节会会考察把它们加进去 -> 多了一个 "会"
算法工程师的恶梦 -> 噩梦
否则很多推荐算法精彩设计,在外行看来像是“无病呻吟”。 -> 很多推荐算法的精彩设计
Embedding是深度学习推荐算法的基石,作者用“无中生有”来形容这一思想 -> 本书
本文提出了理解深度学习推荐算法的5个维度,帮助读者加深对推荐算法的理解。 -> 本书提出了理解深度学习推荐算法的5个维度
对比学习在形式与向量化召回很相似 -> 在形式上
并非以ChatGPT为代表的AIGC等技术所能取代的 -> (这里我个人感觉不能说 ChatGPT 是 AIGC 技术的代表)
未来,这个项目就成为付费读者的专属权力。 -> 这个项目会成为付费读者的专属权益
=============================================================================
第1章 推荐系统简介
"通力配合" 后面的句号可以去掉。
正确的作法是, -> 做法
还上高中 -> 还在上高中
第二步,建立倒排索引,将所有物料组织起来 ,如所示。 -> 如图所示
公式(1-1) 感觉有一点问题,Score 的自变量不应该包括标签。Score(u, v) = sigma_{g} Like(u,g) \times Q(u)
对让你满意的推荐系统 -> 对让你满意的推荐内容
对令你不满意的推荐系统 -> 对令你不满意的推荐内容
也就限制了制约了召回模型的预测精度 -> 去掉制约了
为了解决这一矛盾,重排应运而生,它接在召回后面。 -> 粗排应运而生
精排时,相似内容(比如相同话题、相同标签)会被粗排模型打上相近的分数 -> 会被精排模型打上
数以T计 -> 量以 T 计
还有许多用户行为未得及组成用户日志 -> 未来得及组成用户日志
为了加速,我们可以定时跑另一个小时级的批量任务 -> 我们可以改为跑另一个小时级的批量任务
首先搜推留用用户来制造流量 -> 首先搜推留住用户
拆分与若干个模块 -> 拆分成若干个模块
1.4节为读者梳理了这三者之间区别与联系 -> 这三者之间的区别与联系。
=============================================================================
第2章 推荐系统中的特征工程
各种形式 -> 数字和文本并列似乎不太妥当
前面讲过了,提取特征不能随心所欲,否则难免重复或遗漏。 -> 这里前面似乎没讲过
使我们的特征提取过程有章可循环 -> 有章可循
物料方式 -> 这个不知道是指的啥
如何在守法合规地前提下 -> 守法合规的前提下
倒是一个非常重要特征 -> 倒是一个非常重要的特征
将用户一段时间内用户交互过的物料的Item ID 按时间顺序组成的集合 -> 将一段时间内用户交互过的物料的Item ID 按时间顺序组成集合
这种作法根本就无法满足在线预测 -> 这种做法
这种作法抽取出来的用户兴趣 -> 这种做法
所以后验指标更好,模型排名更高,; -> 去掉多余的逗号
至于解决方法,我们在2.2.4节提到过 -> 除了我们在2.2.4节提到过,
c_i=1 表示发生目击 -> 发生点击
个性化成份 -> 个性化成分
年龄对B用户的购买愿意的影响 -> 年龄对B用户的购买意愿的影响
而是拥有各自不同的内含 -> 内涵
=============================================================================
第3章 推荐系统中的 Embedding
即能不能让算法自动将概念拆解成特征向量? -> 去掉 “即”
点击率、购买率、转发率、......等多个目标 -> 等字已经包括了 ...... 的含义
得益于推荐系统的特征是超级特征的特点 -> 得益于推荐系统的特征是超级稀疏特征的特点
所以分布式训练的效果赞同于单机训练的效果 -> 等同于
接纳它并为它分配存储空间的概论是 p -> 概率是 p
=============================================================================
第4章 精排
本章第节将会讲到 -> 本章第4.2.3节将会讲到
公式 4-4 显示有问题: tag4-4
只 w_ij 一项就引入了 n^2 个要训练的参数 -> 准确数值应该是 n(n-1)/2, 建议换为 “O(n^2) 个参数”
l是每个特征 Embedding 的长度 -> k 是每个特征 Embedding 的长度
(4-12) 公式的推导会让人误以为 FM 的线性复杂度是由于 x_i, x_j 不是 0就是1 所带来的, 但其实不是这样。建议可以改一下,最后再把 x_i 不是0就是1 这个特性代进去。
wide 侧主要直到一个查漏补缺的助攻作用 -> 主要起到一个查漏补缺的助攻作用
公式 4-15 的 (b) 中的 FM 指代不明,FM() 应该是指 FM 的二阶项。
=============================================================================
第5章 召回
todo
=============================================================================
第6章 绿叶:粗排与重排
如何让粗排,既保持相对简单的结构以应对比粗排大得多的候选集 -> 比精排大得多的候选集
本章节向读者介绍“重排”这片绿叶 -> 本章6.2节向读者介绍重排这片绿叶
各大厂的标准作法是在召回和精排之间 -> 标准做法是在召回和精排之间
根据 5.1.4 介绍的作法 -> 做法
上万个量级 -> 上万量级
所以召回双塔在将离线生成众多的物料向量后 -> 去掉 “将”
比如一个由2层全连接(Fully Connection) -> Fully-connected
A[i]>1, 代表第 i 个 Field 很重要 -> 去掉中间的逗号
Document Tower 最终的Document Embedding -> 去掉 Document Tower
拟合能力远不如粗排模型 -> 远不如精排模型
至于要削减哪几层,消减到多少 -> 削减到多少
只不过实现得简单还是复杂的区别而已
=============================================================================
第7章 多任务与多场景
todo
=============================================================================
第 8 章 冷启动
todo
=============================================================================
第9章 评估与调试
上线后搜集用户反馈也要等, 时间成本非常高 -> 收集用户反馈
这些点就连与一条 ROC -> 连成
有两对儿错误地将负样本排在了正样本前面 -> 有两对儿发生了负样本被错误地排在正样本前面
GAUC 这里应该加一个参考文献
NDGC 这里应该加一个参考文献
但都是在我们已经注意到角度衡量模型 -> 注意到的角度
是根据用户ID决定用户用户去向 -> 去掉多余的 “用户”
“全连接”(Fully Connection FC) -> Fully-connected
听者心酸,闻着流泪 -> 闻者流泪
但是缺点也不少。 -> 句号应该改为冒号
首先,未曝光的样本就没用用户反馈 -> 没有用户反馈
=============================================================================
第10章 算法工程师的自我修养
写出高质量的代码,即容易,也困难 -> 既容易
矩阵分解 ^[2]^作为早期的经典推荐算法 -> 这里显示地似乎有一点问题
又比如,多场景推荐问题问题 -> 去掉多余的 “问题”
数据少的场景有会训练不充分 -> 又会训练不充分
结果踩了坑,线上表现得一塌糊涂 -> 中间的逗号应该换成中文的逗号
只知道照搬论文中的作法 -> 做法
技术治理水平 -> 这个不知道指啥
不同模块、......等一系列技巧。-> 等字已经包括了省略号的含义
在介绍正式内容之前,请读者们注意两点 -> “两点” 后面应该加上冒号
应界生 -> 应届生 (这个多次出现,需要全局替换)
总之,哪些简历上没有项目经历的同学 -> 那些
认真学习下一别人的攻略和代码 -> 认真学习一下
总结一下 -> “总结一下” 后面需要加上冒号
没必要盲目追随大厂的作法 -> 做法