部分文字 typo

非常喜欢塔哥的书以及在知乎上的文章，学到了很多。最近在读塔哥的书，发现了一点小 typo 如下。

==========================================================================
#### 引言：《互联网大厂推荐算法实战》上线啦

或许未来补充章节会会考察把它们加进去  -> 多了一个 "会"


算法工程师的恶梦  -> 噩梦

否则很多推荐算法精彩设计，在外行看来像是“无病呻吟”。 -> 很多推荐算法的精彩设计


Embedding是深度学习推荐算法的基石，作者用“无中生有”来形容这一思想 -> 本书


本文提出了理解深度学习推荐算法的5个维度，帮助读者加深对推荐算法的理解。 -> 本书提出了理解深度学习推荐算法的5个维度


对比学习在形式与向量化召回很相似  -> 在形式上


并非以ChatGPT为代表的AIGC等技术所能取代的  -> （这里我个人感觉不能说 ChatGPT 是 AIGC 技术的代表）


未来，这个项目就成为付费读者的专属权力。 ->  这个项目会成为付费读者的专属权益

=============================================================================

####  第1章 推荐系统简介


"通力配合" 后面的句号可以去掉。

正确的作法是， -> 做法

还上高中 -> 还在上高中

第二步，建立倒排索引，将所有物料组织起来 ，如所示。  -> 如图所示

公式（1-1） 感觉有一点问题，Score 的自变量不应该包括标签。Score(u, v) = sigma_{g} Like(u,g) \times Q(u)

对让你满意的推荐系统 -> 对让你满意的推荐内容
对令你不满意的推荐系统 -> 对令你不满意的推荐内容

也就限制了制约了召回模型的预测精度 -> 去掉制约了

为了解决这一矛盾，重排应运而生，它接在召回后面。 -> 粗排应运而生

精排时，相似内容（比如相同话题、相同标签）会被粗排模型打上相近的分数 -> 会被精排模型打上

数以T计  -> 量以 T 计
还有许多用户行为未得及组成用户日志 -> 未来得及组成用户日志

为了加速，我们可以定时跑另一个小时级的批量任务 -> 我们可以改为跑另一个小时级的批量任务

首先搜推留用用户来制造流量  ->  首先搜推留住用户

拆分与若干个模块 -> 拆分成若干个模块


1.4节为读者梳理了这三者之间区别与联系 -> 这三者之间的区别与联系。


=============================================================================


#### 第2章 推荐系统中的特征工程

各种形式 -> 数字和文本并列似乎不太妥当

前面讲过了，提取特征不能随心所欲，否则难免重复或遗漏。 ->  这里前面似乎没讲过
使我们的特征提取过程有章可循环 -> 有章可循

物料方式 -> 这个不知道是指的啥

如何在守法合规地前提下 -> 守法合规的前提下


倒是一个非常重要特征 -> 倒是一个非常重要的特征

将用户一段时间内用户交互过的物料的Item ID 按时间顺序组成的集合 -> 将一段时间内用户交互过的物料的Item ID 按时间顺序组成集合

这种作法根本就无法满足在线预测 -> 这种做法
这种作法抽取出来的用户兴趣 -> 这种做法

所以后验指标更好，模型排名更高，; -> 去掉多余的逗号


至于解决方法，我们在2.2.4节提到过 -> 除了我们在2.2.4节提到过， 


c_i=1 表示发生目击  -> 发生点击


个性化成份 -> 个性化成分
年龄对B用户的购买愿意的影响 -> 年龄对B用户的购买意愿的影响 

而是拥有各自不同的内含 -> 内涵


=============================================================================

#### 第3章 推荐系统中的 Embedding


即能不能让算法自动将概念拆解成特征向量？  -> 去掉 “即”

点击率、购买率、转发率、......等多个目标 -> 等字已经包括了 ...... 的含义

得益于推荐系统的特征是超级特征的特点 ->  得益于推荐系统的特征是超级稀疏特征的特点 

所以分布式训练的效果赞同于单机训练的效果 -> 等同于

接纳它并为它分配存储空间的概论是 p -> 概率是 p

=============================================================================

#### 第4章 精排 

本章第节将会讲到 -> 本章第4.2.3节将会讲到 

公式 4-4 显示有问题: tag4-4

只 w_ij 一项就引入了 n^2 个要训练的参数 -> 准确数值应该是 n(n-1)/2, 建议换为 “O(n^2) 个参数”

l是每个特征 Embedding 的长度 -> k 是每个特征 Embedding 的长度

(4-12) 公式的推导会让人误以为 FM 的线性复杂度是由于 x_i, x_j 不是 0就是1 所带来的， 但其实不是这样。建议可以改一下，最后再把 x_i 不是0就是1 这个特性代进去。

wide 侧主要直到一个查漏补缺的助攻作用 -> 主要起到一个查漏补缺的助攻作用

公式 4-15 的 (b) 中的 FM 指代不明，FM() 应该是指 FM 的二阶项。

=============================================================================

#### 第5章 召回
todo

=============================================================================

#### 第6章 绿叶：粗排与重排

如何让粗排，既保持相对简单的结构以应对比粗排大得多的候选集 -> 比精排大得多的候选集

本章节向读者介绍“重排”这片绿叶 -> 本章6.2节向读者介绍重排这片绿叶

各大厂的标准作法是在召回和精排之间 -> 标准做法是在召回和精排之间

根据 5.1.4 介绍的作法 -> 做法
上万个量级 -> 上万量级

所以召回双塔在将离线生成众多的物料向量后 -> 去掉 “将”

比如一个由2层全连接（Fully Connection） -> Fully-connected

A[i]>1, 代表第 i 个 Field 很重要 -> 去掉中间的逗号

Document Tower 最终的Document Embedding   -> 去掉 Document Tower 

拟合能力远不如粗排模型 -> 远不如精排模型

至于要削减哪几层，消减到多少  -> 削减到多少

只不过实现得简单还是复杂的区别而已

=============================================================================
#### 第7章 多任务与多场景
todo

=============================================================================
#### 第 8 章 冷启动
todo 

=============================================================================
#### 第9章 评估与调试

上线后搜集用户反馈也要等， 时间成本非常高 -> 收集用户反馈

这些点就连与一条 ROC -> 连成

有两对儿错误地将负样本排在了正样本前面 -> 有两对儿发生了负样本被错误地排在正样本前面

GAUC 这里应该加一个参考文献
NDGC 这里应该加一个参考文献

但都是在我们已经注意到角度衡量模型 -> 注意到的角度

是根据用户ID决定用户用户去向 -> 去掉多余的 “用户”

“全连接”（Fully Connection FC） -> Fully-connected

听者心酸，闻着流泪 -> 闻者流泪

但是缺点也不少。 -> 句号应该改为冒号

首先，未曝光的样本就没用用户反馈 -> 没有用户反馈

=============================================================================
#### 第10章 算法工程师的自我修养

写出高质量的代码，即容易，也困难 -> 既容易
矩阵分解 ^[2]^作为早期的经典推荐算法  -> 这里显示地似乎有一点问题
又比如，多场景推荐问题问题 -> 去掉多余的 “问题”
数据少的场景有会训练不充分 -> 又会训练不充分
结果踩了坑,线上表现得一塌糊涂 -> 中间的逗号应该换成中文的逗号
只知道照搬论文中的作法 -> 做法

技术治理水平 -> 这个不知道指啥

不同模块、......等一系列技巧。-> 等字已经包括了省略号的含义

在介绍正式内容之前，请读者们注意两点 -> “两点” 后面应该加上冒号
应界生 -> 应届生 （这个多次出现，需要全局替换）
总之，哪些简历上没有项目经历的同学 -> 那些

认真学习下一别人的攻略和代码 -> 认真学习一下

总结一下 -> “总结一下” 后面需要加上冒号

没必要盲目追随大厂的作法 -> 做法


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

部分文字 typo #1

引言：《互联网大厂推荐算法实战》上线啦

第1章推荐系统简介

第2章推荐系统中的特征工程

第3章推荐系统中的 Embedding

第4章精排

第5章召回

第6章绿叶：粗排与重排

第7章多任务与多场景

第 8 章冷启动

第9章评估与调试

第10章算法工程师的自我修养

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

部分文字 typo #1

Description

引言：《互联网大厂推荐算法实战》上线啦

第1章 推荐系统简介

第2章 推荐系统中的特征工程

第3章 推荐系统中的 Embedding

第4章 精排

第5章 召回

第6章 绿叶：粗排与重排

第7章 多任务与多场景

第 8 章 冷启动

第9章 评估与调试

第10章 算法工程师的自我修养

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions

第1章推荐系统简介

第2章推荐系统中的特征工程

第3章推荐系统中的 Embedding

第4章精排

第5章召回

第6章绿叶：粗排与重排

第7章多任务与多场景

第 8 章冷启动

第9章评估与调试

第10章算法工程师的自我修养