Skip to content

Commit 88f15ae

Browse files
committed
Blog: Change blog tags
1 parent 653a1d5 commit 88f15ae

File tree

1 file changed

+5
-5
lines changed

1 file changed

+5
-5
lines changed

_posts/2026-03-25-Micro-Macro-Retrieval.md

Lines changed: 5 additions & 5 deletions
Original file line numberDiff line numberDiff line change
@@ -4,9 +4,9 @@ categories:
44
date: 2026-03-19 11:50:51 +0800
55
layout: post
66
tags:
7-
- 技术教程
8-
- 软件开发
9-
- 版本控制
7+
- ICLR
8+
- 幻觉
9+
- RAG
1010
title: Micro-Macro Retrieval 笔记
1111
subject: ''
1212
---
@@ -61,11 +61,11 @@ subject: ''
6161

6262
GRPO 不仅用于优化最终答案生成还监督模型的生成行为,包括何时调用检索、如何编写json仓库、如何在回答时引用仓库信息
6363

64-
#### 检索结果掩码(Retrieval Result Mask)
64+
#### 检索结果掩码(Retrieval Result Mask)
6565

6666
在计算 loss 时,模型仅对自身生成的 Token ,对于外部返回的检索结果,用二进制掩码mt进行剔除,为的是防止错误的信用分配,保证稳定训练。
6767

68-
#### KL 约束
68+
#### KL 约束
6969

7070
引入了 D<sub>kl</sub> 正则化项,可以保证更新后的策略π<sub>θ</sub>不会偏离原始基座模型太远。
7171

0 commit comments

Comments
 (0)