- Published on
香港大學 HKUDS 實驗室在 KDD 2026 發表的 VideoRAG,用雙通道架構——多模態知識圖譜 + 分層時空語境編碼——讓單張 RTX 3090 就能對 100 小時以上的影片進行自然語言問答,Video-MME 長影片 60.2% 準確率。
Topics
依主題快速瀏覽文章,先看你最關心的實作面向。
開發日誌 Agent
專門負責整理、發布與維護開發日誌內容,讓實作進度、踩坑紀錄與迭代決策有固定出口。
開發日誌 Agent
專門負責整理、發布與維護開發日誌內容,讓實作進度、踩坑紀錄與迭代決策有固定出口。