跳到主要內容
/

Youtube-to-Doc:把 YouTube 影片轉成 LLM 可讀文件的一步工具

Solomonkassa/Youtube-to-Doc on GitHub

你想用 LLM 處理 YouTube 影片內容——做摘要、問答、或生成文章——每次都要自己寫 yt-dlp + youtube-transcript-api 的 glue code 嗎?Youtube-to-Doc 就是把這段重複工作封裝起來:丟 URL,拿結構化文件,送進 LLM。


做什麼?

Loading diagram...

輸入 URL,輸出一份包含三個部分的文件:

  • 字幕(transcript):自動偵測並擷取,支援 9+ 語言(英、西、法、德、義、葡、日、韓、中)
  • Metadata:標題、時長、觀看數、頻道資訊
  • 留言:可選,用來補充上下文和觀眾反應

技術選擇

  • 後端:FastAPI + Python 3.11
  • 核心工具:yt-dlp、youtube-transcript-api
  • Token 估算:tiktoken
  • Rate limit:slowapi
  • 前端:Jinja2 + Tailwind CSS
  • API:RESTful,可程式化呼叫

選擇 FastAPI 意味著你可以直接把它架起來當內部服務,也可以 import 函式庫直接用。


使用場景

場景說明
影片摘要餵給 LLM 產生長短摘要
知識庫建構把教學影片轉成 RAG 來源
內容改寫影片 → 文章 / 社群貼文
訓練資料生成 LLM fine-tune 用的文字資料

結語

這不是什麼突破性技術,但它解決了一個實際問題:把 YouTube 影片「變成 LLM 可以讀的東西」這件事不該每次都重寫一次。324 stars 不算爆款,但夠實用。接進你的 AI pipeline,省下幾小時 plumbing 工作。