We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
1 parent 653a1d5 commit 88f15aeCopy full SHA for 88f15ae
_posts/2026-03-25-Micro-Macro-Retrieval.md
@@ -4,9 +4,9 @@ categories:
4
date: 2026-03-19 11:50:51 +0800
5
layout: post
6
tags:
7
-- 技术教程
8
-- 软件开发
9
-- 版本控制
+- ICLR
+- 幻觉
+- RAG
10
title: Micro-Macro Retrieval 笔记
11
subject: ''
12
---
@@ -61,11 +61,11 @@ subject: ''
61
62
GRPO 不仅用于优化最终答案生成还监督模型的生成行为,包括何时调用检索、如何编写json仓库、如何在回答时引用仓库信息
63
64
-#### 检索结果掩码(Retrieval Result Mask):
+#### 检索结果掩码(Retrieval Result Mask)
65
66
在计算 loss 时,模型仅对自身生成的 Token ,对于外部返回的检索结果,用二进制掩码mt进行剔除,为的是防止错误的信用分配,保证稳定训练。
67
68
-#### KL 约束:
+#### KL 约束
69
70
引入了 D<sub>kl</sub> 正则化项,可以保证更新后的策略π<sub>θ</sub>不会偏离原始基座模型太远。
71
0 commit comments