跳到主要內容

Video Use:用 Claude Code Skill 剪片,從拍完到 final.mp4 全自動

gregpr07/video-use on GitHub

Gregor Zunic 開門見山:他不想繼續付影片剪輯軟體的費用,所以他自己做了一個替代品。結果是一個 Claude Code skill,安裝完之後你對著鏡頭講話,然後得到一個 final.mp4——去掉了所有「嗯」和「啊」、字幕已燒錄、色調已校正、動畫已插入。

這不是 demo 專案。它是一個可以直接裝進日常 workflow 的工具。


它實際在做什麼

video-use 處理的是錄影後製流程中最費時、最無聊的部分:

自動清除填充詞:讀取 ElevenLabs Scribe 產生的逐字稿,每個詞都有毫秒級時間戳。遇到「umm」「uh」或取景間的靜音,直接標記成刪除區間,由 FFmpeg 執行切除。不需要你手動拖時間軸。

字幕燒錄:預設是兩個詞一組的全大寫字幕塊——就是你在 YouTube short 和 TikTok 上看到的那種格式。可以調,但預設值選得很合理。

色彩校正:提供 cinematic(電影感調色)和 neutral 兩種處理,直接套用,不需要你懂調色。

動畫生成:透過並行 subagent 呼叫 Manim、Remotion 或 PIL 生成動態圖形,再合進影片。這部分是這個 skill 最有野心的設計——剪輯、調色、動畫,全在同一個 Claude Code session 裡完成。

自我評估:在輸出前,skill 會在每個剪輯點做自動檢查,確認沒有畫面跳接異常。

Session 記憶:把當次的編輯決策存進 project file,下次繼續同一支影片時不需要重新建立上下文。


為什麼 token 用量沒有你想的那麼高

直覺上,讓 AI 處理影片聽起來很昂貴。但 video-use 的技術選擇正是為了解決這個問題。

不讀取原始影格。取而代之,它讀的是:

  • ElevenLabs Scribe 的文字逐字稿(含詞級時間戳)
  • 縮圖 filmstrip(不是完整畫面序列)
  • 音訊波形圖

這三樣東西加在一起,能讓 Claude 定位到任何一個剪輯點——而不需要把整部影片餵進 context window。實際的 FFmpeg 指令由 Claude 生成,執行在本地,沒有影格資料進入 API。


完整流程

Loading diagram...

整個流程的核心在 B-C-D 這三步:逐字稿帶著時間戳進來,Claude 判斷哪些要刪、哪些要保留、哪些位置插入動畫,輸出一份指令清單,然後 FFmpeg 在本地執行所有實際的影片處理。


和手動剪輯的時間對比

手動剪輯 vs video-use 所需時間(分鐘)

這些數字是針對一支 5 分鐘左右的錄影估算的。填充詞清除手動需要聽一遍再拖時間軸,video-use 的版本是讀逐字稿直接算出時間點,幾乎是定速的。動畫插入的差距最大,因為手動版本還要開 After Effects 或 Keynote 製作,video-use 直接呼叫 Manim subagent。


安裝方式

# 1. Clone repo
git clone https://github.com/gregpr07/video-use

# 2. 建立 symlink 到 Claude Code skills 目錄
ln -s /path/to/video-use ~/.claude/skills/video-use

# 3. 安裝 FFmpeg(macOS)
brew install ffmpeg

# 4. 設定環境變數
export ELEVENLABS_API_KEY=your_key_here

# 5. 把素材放進 footage/ 資料夾,啟動 Claude Code
claude-code edit footage/

輸出會在 edit/ 子目錄裡。ElevenLabs API key 是必要的,因為 Scribe 轉錄是整個流程的基礎——沒有逐字稿就沒有時間戳,沒有時間戳就沒有精確剪輯點。


幾個值得注意的地方

ElevenLabs 依賴:轉錄品質取決於 Scribe 的準確率。如果錄音環境嘈雜或口音較重,時間戳的精確度會下降,自動剪輯點可能會有偏差。這是整個架構的核心假設,換掉它不是小工程。

動畫生成的一致性:Manim 和 Remotion 的輸出品質取決於 Claude 怎麼理解你的影片內容。對於技術教學影片,效果通常不錯;對於更抽象的內容,可能需要多迭代幾次。

這是個人工具,不是服務:整個架構假設你有本地環境、會用終端機、知道怎麼設定 API key。它不是一個上傳就能用的線上服務,是一個可以嵌進你既有工作流程的 CLI 工具。


適合誰

如果你定期錄製技術教學、播客、產品 demo 或開發 vlog,video-use 解決的是真實痛點。不需要你學剪輯軟體,不需要你懂調色,不需要你雇人後製。

Gregor Zunic 做這個工具的動機很具體:不想付剪輯軟體的錢。能用的人大概也有同樣的背景——知道自己想要什麼結果,但不想花時間在機械性的後製操作上。這正是 Claude Code skill 架構最適合的那種工作。