Blog: Write new blog

actions-user · actions-user · commit 53c1fe289812 · 2026-04-10T14:24:30.000+08:00
diff --git a/_posts/2026-04-08-Mitigating-Hallucinations-in-Large-Vision-Language-Models-by-Adaptively-Constraining-Information-low.md b/_posts/2026-04-08-Mitigating-Hallucinations-in-Large-Vision-Language-Models-by-Adaptively-Constraining-Information-low.md
@@ -0,0 +1,56 @@
+---
+categories:
+  - paper
+date: 2026-03-25 18:50:51 +0800
+layout: post
+tags:
+  - AAAI
+  - 幻觉
+  - VIB
+title: ADAVIB
+subject: ""
+last_modified_at:
+---
+
+
+
+> AAAI 2025论文，方法部分感觉有点难理解（导师说方法像扩散模型，之后去看一下）
+
+## 背景
+
+物体幻觉阻碍了 LVLMs 在需要精确判断的场景（医疗诊断、自动驾驶等）下的可靠性和适用性。
+
+### 问题
+
+软视觉token映射到大语言模型的词嵌入空间时，模型对无关视觉特征产生了过度自信
+
+## 本文贡献
+
+1、首次用变分信息瓶颈（VIB）原理作为正则化技术来缓解 LVLM 中的物体幻觉问题
+
+2、提出了一种名为 ADAVIB 的自适应噪声控制策略 。该策略基于相似度分布的熵来衡量样本的过度自信程度，可以动态地调整注入的随机噪声强度
+
+## 方法
+
+普通的LVLM步骤是，直接把图像解码器生成的特征向量v通过projector (MLP) 映射到z，z就是软视觉token，然后嵌入到输入的提示词token中作为输入进入到大语言模型中进行处理，本论文提出了一种新的方法叫ADAVIB，主要公式minL<sub>vib</sub>是目标函数，前一项表达的是压缩项，也可以命名为正则项，主要作用是限制z从v带走过多信息；第二大项是预测项，主要是生成任务本身的损失，作用是保证压缩后的z能生成正确的答案y。
+### 对于主要公式(minL<sub>vib</sub>)的解释
+β是一个权重系数，论文里叫Lagrange multiplier，主要是用来平衡压缩和预测项，如果β越大，那么约束更强，信息流更容易受限；相反如果β小则能保留更多信息，β会根据熵做自适应调整。
+p<sub>Θ</sub>（z|v）是后验分布，论文里将它建模为一个高斯分布，μ是均值∑是方差，大白话讲就是模型不算直接输出一个固定的z，而是先输出z大概位置和波动大小，再从这个分布里进行采样。r（z）是先验分布，是不依赖具体输入v的参考分布，对于后验分布来说是一个约束目标。
+
+最后生成的z是经过重参数化采样得到的，μ和∑分别是后验分布的均值和方差，e是标准的高斯噪声，然后把标准高斯噪声与后验分布的方差进行逐元素相乘（论文中注入噪声最直接体现在公式 (9)。作者将 visual token 写成公式9，∑控制噪声幅度，因此 z 不是确定性映射结果，而是带随机扰动的压缩表示。这种噪声注入对应 VIB 中的信息压缩过程，用来限制无关信息流入 LLM。）
+
+
+## 实验
+
+所用数据集：
+- MSCOCO
+- CHAIR
+- POPE
+并用Accuracy和F1进行评估
+
+MiniGPT-4和LLaVa-1.5作为backbone
+
+
+## 结果
+
+在MiniGPT-4 和 LLaVa-1.5上，都能稳定降低 object hallucination，并且在两个基准上都优于普通微调和多种强基线；在 MSCOCO 上，ADAVIB 显著降低了 CHAIR_S 和 CHAIR_I，说明生成描述里“图中不存在物体”的现象更少，在 POPE 上也整体提升了 Accuracy 和 F1，在 **Popular** split 上提升更明显，证明它对高频物体共现带来的统计偏差抑制更有效。消融实验中证明**adaptive β 和 **reparameterization** 都是有效组件，而机理分析图说明 ADAVIB 会让 visual token 到 LLM 词空间的相似度分布更平滑、熵更高，最后的敏感性实验也表明，压缩强度过大或过小都会变差，自适应控制优于固定设置