记录一下自己读的Paper。
数据集
- 2025.12.22 李飞飞实验室发的 benchmark,用于评测 VLM,基本所有模型都”不及格“(落后于人类认知水平)
- 最后他们产出一个有意思的观点,
when estimating kinematic quantities, existing VLMs hallucinate by relying heavily on pre-trained world knowledge while hardly inferring from the actual reference video and text.
- 最后他们产出一个有意思的观点,
- 这里有个不一样的点,之前大部分的 benchmark 使用的是 VQA 的模式来让 model 描述或者做选择题,但是这个 benchmark 主要会考察模型是否真正能理解视频以及用物理学知识来解决一些具体的问题。(因为能描述可能是因为记忆,但不一定能理解和使用)
- 数据集上有这几类:
- 2D/3D:主要区别是景深(depth)
- Static/Dynamic:举个例子,static 是求长度(不变的),dynamic 是求速度(某个时间点 t 的数值);
- 数据上会提供 Prior(先验知识),和数学问题,和标准答案;
- 数据集来源
- Blender Simulation: Blender 是一个研究用的仿真软件
- Lab Capturing: 实验室采集
- Internet: 互联网上扒数据
- Key Findings
- VLMs rely more on learned prior knowledge than visual inputs for physical reasoning.
- 把 video 撤掉,仅保留问题和prior,模型也能答
- VLMs (mostly) do not reason but memorize
- 把 prior 先验知识的数值乘上一个 factor,发生了量级上的改变,但是结果没有发生太大变化,模型还是以真实世界的结果来返回,
- VLMs rely more on learned prior knowledge than visual inputs for physical reasoning.

ALOHA(A Low-cost Open-source Hardware Arm)
- 双臂操作数据集,解决真实世界双臂 robot 数据少的问题;
- Task 很多样,fold cloth, open container...
模型结构
mHC: Manifold-Constrained Hyper-Connections
- 2025.12.31 25 年年底,deepseek 发的
- 主要背景是当前 transformer 网络里的 residual/Hyper Connection 网络结构里,直接把输入加回到输出的做法,经过多层 layer 的叠加后,会出现梯度爆炸或训练不稳定的情况。
- mHC 的做法是让 HC 里的可学习矩阵,通过正交的一些手段,强行让他们“范数守恒"(总长度不变,但是可以旋转和转换),让这些可学习矩阵不会随着 layer 增多而出现不可控的情况。

Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models
- 24 年 ACL,video-based conservaiton model
- 除了模型之外,做了一个数据集和 benchmark,https://github.com/mbzuai-oryx/Video-ChatGPT?tab=readme-ov-file
- 模型结构主要是增加了 CLIP ViT-L/14,把视频拆成 Spatial 和 Temporal(空间和时间),空间上根据 patch_size 拆成 N 个 token,时间上用 T 个 frame 标识,经过 pooling 后映射到语言空间;
- 数据生成,分人工标注和半自动化标注
- 人工标注:数据来自于 ActivityNet-200,人工再丰富了一下描述
- 半自动化标注:
- 关键帧:The BLIP-2 imagecaptioning model generates frame-level captions,
- 关键帧描述:GRiT dense captioning model provides detailed captions for scene objects.
- 标签:Tag2Text,remove noise
- 再结合 GPT-3.5 进行内容丰富

Unified Vision-Language-Action Model
- 25 年 6 月发的
Infra
Lance: Efficient Random Access in Columnar Storage through Adaptive Structural Encodings
- 25 年 4 月份发的,主要是 LanceDB 公司,lance format 是开源项目,lancedb 是商业化产品
- 主要是解决 parquet 里对于大 value 不友好的问题 1) meta 和 data 分开存,多次 IO,2) page 的结构在大 value 下引入大量 meta 导致 oom
- 用了一个 HF 的图片 dataset 实测下来体感一般,压缩效率没有 parquet 好(和论文有出入,但是和其他实际使用者聊下来体感类似),但确实提供了一些 emb search 的能力,关键点是不确定是否能够 scale
Benchmark
Calvin(Composing Actions from Language and Vision)
- 22 年提的,通过 language 完成 long horizon task,
We present CALVIN (Composing Actions from Language and Vision), an open-source simulated benchmark to learn long-horizon language-conditioned tasks. Our aim is to make it possible to develop agents that can solve many robotic manipulation tasks over a long horizon, from onboard sensors, and specified only via human language. CALVIN tasks are more complex in terms of sequence length, action space, and language than existing vision-and-language task datasets and supports flexible specification of sensor suites.·
- 23 年提出,场景宽度上比较多,可以无限生成 manipulation task
- 不是一个 evaluation 框架,提供了一个 evalution 环境,解决真实场景里 evalution 成本高的问题