[论文讨论] Can vision language models learn intuitive physics from interaction?

## 论文信息

**标题**: [Can vision language models learn intuitive physics from interaction?](https://arxiv.org/abs/2602.06033v1)
**作者**: Luca M. Schulze Buschoff, Konstantinos Voudouris, Can Demircan, Eric Schulz
**发布时间**: 2026-02-05
**分类**: cs.LG
**PDF**: [Download](https://arxiv.org/pdf/2602.06033v1.pdf)

## 简介

研究发现监督微调能改善简单物理任务性能，但无法产生可泛化的物理规则；通过强化学习交互虽然提升任务内表现，但模型无法将在一个任务中学到的物理直觉迁移到相关任务，即使它们共享视觉统计和物理原理。

## 推荐理由

研究问题具有理论和实践双重价值，挑战了'通过交互就能学会物理'的直觉假设，结论表明即使通过强化学习与环境交互，VLM仍难以获得可泛化的物理直觉，启示需重新思考模型学习物理世界的方式。

## 讨论

请对这篇论文发表您的见解：
- 论文的创新点是什么？
- 方法是否合理？
- 实验结果是否可信？
- 有哪些可以改进的地方？

---
_由 arXiv Monitor 自动创建_

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[论文讨论] Can vision language models learn intuitive physics from interaction? #62

论文信息

简介

推荐理由

讨论

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

[论文讨论] Can vision language models learn intuitive physics from interaction? #62

Description

论文信息

简介

推荐理由

讨论

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions