-

世界モデルと言語モデルの接地グループ20 「視覚言語モデルと世界モデルの接地」

視覚言語モデル（VLM）を活用した汎化エージェントの学習は、複数タスクの効率的な解決を目指す分野で重要な課題です。従来の強化学習（RL）は、タスクごとに複雑な報酬設計を必要とし、他タスクへの応用が難しい一方、VLMは自然言語でのタスク指定の容易なインターフェースを提供しますが、応用にあたってはドメイン間ギャップやデータ不足が障害となっていました。本研究では、VLMの表現とRL用生成世界モデルの潜在空間を結びつけます。具体的には、VLMを用いてタスク・観測から得た埋め込み表現を潜在表現に変換し、ロールアウトにおける実際の潜在表現との距離を損失関数として方策を学習します。この手法により、ファインチューニング不要で高い汎用性を実現し、ALFREDベンチマークにおいてマルチモーダルなタスク解決性能の向上ができるかを確かめる。本研究は、生成的世界モデルを活用した汎化エージェント学習の新たな基盤を築くものです。

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
README.md		README.md
世界モデル20.pdf		世界モデル20.pdf
世界モデルと言語モデルの接地(2分ver).pptx		世界モデルと言語モデルの接地(2分ver).pptx

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

-

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

-

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages