Edit Banana：把 AI 生成的死圖一鍵轉成可編輯 DrawIO XML

兄弟们！🍌这个太顶了！ Github 上的 Edit Banana这个开源项目太顶了！！！今日登上热榜，直接斩获2800Star！把AI生成的死图、流程图、架构图、PDF统计图、公式图，一键秒变完全可编辑的 DrawIO / SVG / PPTX！使用SAM3精准分割 + 本地OCR + Show more

2:12 PM · Mar 8, 2026

2.2K

Read 26 replies

AI 畫圖很快，但畫完就死了。你從 ChatGPT 或 Claude 拿到一張架構圖，想改一個節點、調一條箭頭——沒辦法，PNG 不認識你。Edit Banana 要解決的就是這個問題：靜態圖片進去，可編輯的 DrawIO XML 出來。

為什麼這個問題值得認真對待

AI 生成圖表的場景已經很普遍了：系統架構示意、流程說明、PDF 裡的統計圖、甚至 LaTeX 公式截圖。這些圖的問題不是長得醜，是完全不可修改。要改就只能重新生成，或者從頭在 draw.io 裡手畫。

這個流程很蠢，但一直沒有好工具——直到 Edit Banana 出現。

技術架構：三層管線並行

Loading diagram...

整個管線分三個核心技術模組：

SAM 3（Segment Anything Model 3）：Meta 的通用分割模型，Edit Banana 針對圖表場景做了 fine-tune。它的工作是把一張圖裡的每個視覺元素——節點、箭頭、文字框、背景——切開來，識別出形狀類型和邊界框。

本地 OCR（Tesseract）+ Crop-guided 策略：把每個被 SAM 分割出來的區域，裁切後送進 Tesseract 做文字辨識。Crop-guided 的關鍵在於：先分割再 OCR，而不是對整張圖做 OCR，讓高解析度文字的辨識準確率顯著提升。

Pix2Text：專門處理數學公式和 LaTeX 轉換。公式圖片進去，LaTeX 字串出來，直接寫進 DrawIO XML 的對應節點。

三個模組的輸出匯進合併層，推算出元素的層級關係、箭頭連接點、樣式配置，最後序列化成合法的 DrawIO XML。

支援場景與實際效果

各輸入場景的轉換實用分（越高越適合用 Edit Banana 處理）

最適合的場景是 AI 生成的向量感圖表和流程圖——這類圖的邊界清晰、節點規則，SAM 分割效果最好。PDF 統計圖次之，主要挑戰是座標軸文字的 OCR。手繪掃描圖效果最不穩定，因為 SAM 的 fine-tune 資料集以數位圖表為主。

輸出的 DrawIO XML 保留了：佈局座標、元素顏色、形狀樣式、箭頭類型和連接點配置。不是一個粗糙的近似——你在 draw.io 打開後，節點是可以直接拖移和編輯的。

使用方式

Web 介面：editbanana.anxin6.cn，新用戶 10 個免費積分，拖圖上去就能跑。

CLI 本地跑：從 GitHub clone 下來，按照 README 設好環境（主要是 SAM 3 的權重下載），可以完全本地離線執行——這對處理敏感的架構圖或內部文件特別重要。

git clone https://github.com/BIT-DataLab/edit-banana
cd edit-banana
pip install -r requirements.txt
python convert.py --input diagram.png --output result.xml

輸出是標準 DrawIO XML，直接在 draw.io 桌面版或 app.diagrams.net 開啟即可編輯。

這個工具的定位

Edit Banana 不是要替代 AI 畫圖——它是 AI 畫圖之後的後處理層。生成給你一個初稿，Edit Banana 讓你從那個初稿繼續工作，而不是被迫重新來。

這個定位其實填了一個很實際的工作流程缺口。每個用 AI 做技術文件或系統設計的人都踩過：AI 給你一張看起來不錯的圖，但你要改一個細節，就只能全部重來。

4.9k stars 在短時間內累積，說明這個痛點是真實且普遍的，不是少數人的需求。

值得關注的限制：目前公式識別對複雜多行 LaTeX 的準確率還不穩定，極端複雜的巢狀圖表偶爾會有分割錯位。這是開源早期版本的正常狀態，BIT-DataLab 還在持續迭代。

值得一用的理由很簡單

你不需要相信所有技術細節都完美。你只需要知道：下次 AI 給你一張你想繼續編輯的圖，你現在有工具可以試了。