论文信息
标题: Can vision language models learn intuitive physics from interaction?
作者: Luca M. Schulze Buschoff, Konstantinos Voudouris, Can Demircan, Eric Schulz
发布时间: 2026-02-05
分类: cs.LG
PDF: Download
简介
研究发现监督微调能改善简单物理任务性能,但无法产生可泛化的物理规则;通过强化学习交互虽然提升任务内表现,但模型无法将在一个任务中学到的物理直觉迁移到相关任务,即使它们共享视觉统计和物理原理。
推荐理由
研究问题具有理论和实践双重价值,挑战了'通过交互就能学会物理'的直觉假设,结论表明即使通过强化学习与环境交互,VLM仍难以获得可泛化的物理直觉,启示需重新思考模型学习物理世界的方式。
讨论
请对这篇论文发表您的见解:
- 论文的创新点是什么?
- 方法是否合理?
- 实验结果是否可信?
- 有哪些可以改进的地方?
由 arXiv Monitor 自动创建