Skip to content

Commit 53c1fe2

Browse files
committed
Blog: Write new blog
1 parent e52abc7 commit 53c1fe2

1 file changed

Lines changed: 56 additions & 0 deletions

File tree

Lines changed: 56 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,56 @@
1+
---
2+
categories:
3+
- paper
4+
date: 2026-03-25 18:50:51 +0800
5+
layout: post
6+
tags:
7+
- AAAI
8+
- 幻觉
9+
- VIB
10+
title: ADAVIB
11+
subject: ""
12+
last_modified_at:
13+
---
14+
15+
16+
17+
> AAAI 2025论文,方法部分感觉有点难理解(导师说方法像扩散模型,之后去看一下)
18+
19+
## 背景
20+
21+
物体幻觉阻碍了 LVLMs 在需要精确判断的场景(医疗诊断、自动驾驶等)下的可靠性和适用性。
22+
23+
### 问题
24+
25+
软视觉token映射到大语言模型的词嵌入空间时,模型对无关视觉特征产生了过度自信
26+
27+
## 本文贡献
28+
29+
1、首次用变分信息瓶颈(VIB)原理作为正则化技术来缓解 LVLM 中的物体幻觉问题
30+
31+
2、提出了一种名为 ADAVIB 的自适应噪声控制策略 。该策略基于相似度分布的熵来衡量样本的过度自信程度,可以动态地调整注入的随机噪声强度
32+
33+
## 方法
34+
35+
普通的LVLM步骤是,直接把图像解码器生成的特征向量v通过projector (MLP) 映射到z,z就是软视觉token,然后嵌入到输入的提示词token中作为输入进入到大语言模型中进行处理,本论文提出了一种新的方法叫ADAVIB,主要公式minL<sub>vib</sub>是目标函数,前一项表达的是压缩项,也可以命名为正则项,主要作用是限制z从v带走过多信息;第二大项是预测项,主要是生成任务本身的损失,作用是保证压缩后的z能生成正确的答案y。
36+
### 对于主要公式(minL<sub>vib</sub>)的解释
37+
β是一个权重系数,论文里叫Lagrange multiplier,主要是用来平衡压缩和预测项,如果β越大,那么约束更强,信息流更容易受限;相反如果β小则能保留更多信息,β会根据熵做自适应调整。
38+
p<sub>Θ</sub>(z|v)是后验分布,论文里将它建模为一个高斯分布,μ是均值∑是方差,大白话讲就是模型不算直接输出一个固定的z,而是先输出z大概位置和波动大小,再从这个分布里进行采样。r(z)是先验分布,是不依赖具体输入v的参考分布,对于后验分布来说是一个约束目标。
39+
40+
最后生成的z是经过重参数化采样得到的,μ和∑分别是后验分布的均值和方差,e是标准的高斯噪声,然后把标准高斯噪声与后验分布的方差进行逐元素相乘(论文中注入噪声最直接体现在公式 (9)。作者将 visual token 写成公式9,∑控制噪声幅度,因此 z 不是确定性映射结果,而是带随机扰动的压缩表示。这种噪声注入对应 VIB 中的信息压缩过程,用来限制无关信息流入 LLM。)
41+
42+
43+
## 实验
44+
45+
所用数据集:
46+
- MSCOCO
47+
- CHAIR
48+
- POPE
49+
并用Accuracy和F1进行评估
50+
51+
MiniGPT-4和LLaVa-1.5作为backbone
52+
53+
54+
## 结果
55+
56+
在MiniGPT-4 和 LLaVa-1.5上,都能稳定降低 object hallucination,并且在两个基准上都优于普通微调和多种强基线;在 MSCOCO 上,ADAVIB 显著降低了 CHAIR_S 和 CHAIR_I,说明生成描述里“图中不存在物体”的现象更少,在 POPE 上也整体提升了 Accuracy 和 F1,在 **Popular** split 上提升更明显,证明它对高频物体共现带来的统计偏差抑制更有效。消融实验中证明**adaptive β 和 **reparameterization** 都是有效组件,而机理分析图说明 ADAVIB 会让 visual token 到 LLM 词空间的相似度分布更平滑、熵更高,最后的敏感性实验也表明,压缩强度过大或过小都会变差,自适应控制优于固定设置

0 commit comments

Comments
 (0)