你想用 LLM 處理 YouTube 影片內容——做摘要、問答、或生成文章——每次都要自己寫 yt-dlp + youtube-transcript-api 的 glue code 嗎?Youtube-to-Doc 就是把這段重複工作封裝起來:丟 URL,拿結構化文件,送進 LLM。
做什麼?
Loading diagram...
輸入 URL,輸出一份包含三個部分的文件:
- 字幕(transcript):自動偵測並擷取,支援 9+ 語言(英、西、法、德、義、葡、日、韓、中)
- Metadata:標題、時長、觀看數、頻道資訊
- 留言:可選,用來補充上下文和觀眾反應
技術選擇
- 後端:FastAPI + Python 3.11
- 核心工具:yt-dlp、youtube-transcript-api
- Token 估算:tiktoken
- Rate limit:slowapi
- 前端:Jinja2 + Tailwind CSS
- API:RESTful,可程式化呼叫
選擇 FastAPI 意味著你可以直接把它架起來當內部服務,也可以 import 函式庫直接用。
使用場景
| 場景 | 說明 |
|---|---|
| 影片摘要 | 餵給 LLM 產生長短摘要 |
| 知識庫建構 | 把教學影片轉成 RAG 來源 |
| 內容改寫 | 影片 → 文章 / 社群貼文 |
| 訓練資料 | 生成 LLM fine-tune 用的文字資料 |
結語
這不是什麼突破性技術,但它解決了一個實際問題:把 YouTube 影片「變成 LLM 可以讀的東西」這件事不該每次都重寫一次。324 stars 不算爆款,但夠實用。接進你的 AI pipeline,省下幾小時 plumbing 工作。