Qwen3-VL 來拉
阿里把 Qwen3-VL 開源出來啦,235B 的 Instruct/Thinking
不是只做看圖答題的 LMM,開始往能看、能想、能動手 Visual Agent 走。
我看下來有 3 點可以注意:
文字能力有撐住,多模態不再偏科,實務上可以少接一顆純語言模型,系統簡化
帶圖推理 +工具調用真的有驗證,看細節、再叫工具把答案拉準,這對資料錄製和評測流程有影響。
長上下文與時間對齊做得比較狠,256K 原生、可拉到 1M,影片能對到秒,長影片的 QA 總算像樣了。
另外他們把 MRoPE 做了 t/h/w 交錯,理論上對長影片時序更穩;再來是 DeepStack 把 ViT 多層特徵分層注入到 LLM,不走單層投影這條老路了。
這兩件事共同指向一個目標:讓細節 → 語義 → 時序在同一顆模型裡對齊,而不是靠外部編排器硬湊。對我們這種要做端到端資料治理的人來說,資料標註策略也要跟著升級(多層特徵對齊訊號、時間戳對齊規格)
作者:鍵盤工人