Skip to content

部分文字 typo #1

@guixianjin

Description

@guixianjin

非常喜欢塔哥的书以及在知乎上的文章,学到了很多。最近在读塔哥的书,发现了一点小 typo 如下。

==========================================================================

引言:《互联网大厂推荐算法实战》上线啦

或许未来补充章节会会考察把它们加进去 -> 多了一个 "会"

算法工程师的恶梦 -> 噩梦

否则很多推荐算法精彩设计,在外行看来像是“无病呻吟”。 -> 很多推荐算法的精彩设计

Embedding是深度学习推荐算法的基石,作者用“无中生有”来形容这一思想 -> 本书

本文提出了理解深度学习推荐算法的5个维度,帮助读者加深对推荐算法的理解。 -> 本书提出了理解深度学习推荐算法的5个维度

对比学习在形式与向量化召回很相似 -> 在形式上

并非以ChatGPT为代表的AIGC等技术所能取代的 -> (这里我个人感觉不能说 ChatGPT 是 AIGC 技术的代表)

未来,这个项目就成为付费读者的专属权力。 -> 这个项目会成为付费读者的专属权益

=============================================================================

第1章 推荐系统简介

"通力配合" 后面的句号可以去掉。

正确的作法是, -> 做法

还上高中 -> 还在上高中

第二步,建立倒排索引,将所有物料组织起来 ,如所示。 -> 如图所示

公式(1-1) 感觉有一点问题,Score 的自变量不应该包括标签。Score(u, v) = sigma_{g} Like(u,g) \times Q(u)

对让你满意的推荐系统 -> 对让你满意的推荐内容
对令你不满意的推荐系统 -> 对令你不满意的推荐内容

也就限制了制约了召回模型的预测精度 -> 去掉制约了

为了解决这一矛盾,重排应运而生,它接在召回后面。 -> 粗排应运而生

精排时,相似内容(比如相同话题、相同标签)会被粗排模型打上相近的分数 -> 会被精排模型打上

数以T计 -> 量以 T 计
还有许多用户行为未得及组成用户日志 -> 未来得及组成用户日志

为了加速,我们可以定时跑另一个小时级的批量任务 -> 我们可以改为跑另一个小时级的批量任务

首先搜推留用用户来制造流量 -> 首先搜推留住用户

拆分与若干个模块 -> 拆分成若干个模块

1.4节为读者梳理了这三者之间区别与联系 -> 这三者之间的区别与联系。

=============================================================================

第2章 推荐系统中的特征工程

各种形式 -> 数字和文本并列似乎不太妥当

前面讲过了,提取特征不能随心所欲,否则难免重复或遗漏。 -> 这里前面似乎没讲过
使我们的特征提取过程有章可循环 -> 有章可循

物料方式 -> 这个不知道是指的啥

如何在守法合规地前提下 -> 守法合规的前提下

倒是一个非常重要特征 -> 倒是一个非常重要的特征

将用户一段时间内用户交互过的物料的Item ID 按时间顺序组成的集合 -> 将一段时间内用户交互过的物料的Item ID 按时间顺序组成集合

这种作法根本就无法满足在线预测 -> 这种做法
这种作法抽取出来的用户兴趣 -> 这种做法

所以后验指标更好,模型排名更高,; -> 去掉多余的逗号

至于解决方法,我们在2.2.4节提到过 -> 除了我们在2.2.4节提到过,

c_i=1 表示发生目击 -> 发生点击

个性化成份 -> 个性化成分
年龄对B用户的购买愿意的影响 -> 年龄对B用户的购买意愿的影响

而是拥有各自不同的内含 -> 内涵

=============================================================================

第3章 推荐系统中的 Embedding

即能不能让算法自动将概念拆解成特征向量? -> 去掉 “即”

点击率、购买率、转发率、......等多个目标 -> 等字已经包括了 ...... 的含义

得益于推荐系统的特征是超级特征的特点 -> 得益于推荐系统的特征是超级稀疏特征的特点

所以分布式训练的效果赞同于单机训练的效果 -> 等同于

接纳它并为它分配存储空间的概论是 p -> 概率是 p

=============================================================================

第4章 精排

本章第节将会讲到 -> 本章第4.2.3节将会讲到

公式 4-4 显示有问题: tag4-4

只 w_ij 一项就引入了 n^2 个要训练的参数 -> 准确数值应该是 n(n-1)/2, 建议换为 “O(n^2) 个参数”

l是每个特征 Embedding 的长度 -> k 是每个特征 Embedding 的长度

(4-12) 公式的推导会让人误以为 FM 的线性复杂度是由于 x_i, x_j 不是 0就是1 所带来的, 但其实不是这样。建议可以改一下,最后再把 x_i 不是0就是1 这个特性代进去。

wide 侧主要直到一个查漏补缺的助攻作用 -> 主要起到一个查漏补缺的助攻作用

公式 4-15 的 (b) 中的 FM 指代不明,FM() 应该是指 FM 的二阶项。

=============================================================================

第5章 召回

todo

=============================================================================

第6章 绿叶:粗排与重排

如何让粗排,既保持相对简单的结构以应对比粗排大得多的候选集 -> 比精排大得多的候选集

本章节向读者介绍“重排”这片绿叶 -> 本章6.2节向读者介绍重排这片绿叶

各大厂的标准作法是在召回和精排之间 -> 标准做法是在召回和精排之间

根据 5.1.4 介绍的作法 -> 做法
上万个量级 -> 上万量级

所以召回双塔在将离线生成众多的物料向量后 -> 去掉 “将”

比如一个由2层全连接(Fully Connection) -> Fully-connected

A[i]>1, 代表第 i 个 Field 很重要 -> 去掉中间的逗号

Document Tower 最终的Document Embedding -> 去掉 Document Tower

拟合能力远不如粗排模型 -> 远不如精排模型

至于要削减哪几层,消减到多少 -> 削减到多少

只不过实现得简单还是复杂的区别而已

=============================================================================

第7章 多任务与多场景

todo

=============================================================================

第 8 章 冷启动

todo

=============================================================================

第9章 评估与调试

上线后搜集用户反馈也要等, 时间成本非常高 -> 收集用户反馈

这些点就连与一条 ROC -> 连成

有两对儿错误地将负样本排在了正样本前面 -> 有两对儿发生了负样本被错误地排在正样本前面

GAUC 这里应该加一个参考文献
NDGC 这里应该加一个参考文献

但都是在我们已经注意到角度衡量模型 -> 注意到的角度

是根据用户ID决定用户用户去向 -> 去掉多余的 “用户”

“全连接”(Fully Connection FC) -> Fully-connected

听者心酸,闻着流泪 -> 闻者流泪

但是缺点也不少。 -> 句号应该改为冒号

首先,未曝光的样本就没用用户反馈 -> 没有用户反馈

=============================================================================

第10章 算法工程师的自我修养

写出高质量的代码,即容易,也困难 -> 既容易
矩阵分解 ^[2]^作为早期的经典推荐算法 -> 这里显示地似乎有一点问题
又比如,多场景推荐问题问题 -> 去掉多余的 “问题”
数据少的场景有会训练不充分 -> 又会训练不充分
结果踩了坑,线上表现得一塌糊涂 -> 中间的逗号应该换成中文的逗号
只知道照搬论文中的作法 -> 做法

技术治理水平 -> 这个不知道指啥

不同模块、......等一系列技巧。-> 等字已经包括了省略号的含义

在介绍正式内容之前,请读者们注意两点 -> “两点” 后面应该加上冒号
应界生 -> 应届生 (这个多次出现,需要全局替换)
总之,哪些简历上没有项目经历的同学 -> 那些

认真学习下一别人的攻略和代码 -> 认真学习一下

总结一下 -> “总结一下” 后面需要加上冒号

没必要盲目追随大厂的作法 -> 做法

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions