AI 畫圖很快,但畫完就死了。你從 ChatGPT 或 Claude 拿到一張架構圖,想改一個節點、調一條箭頭——沒辦法,PNG 不認識你。Edit Banana 要解決的就是這個問題:靜態圖片進去,可編輯的 DrawIO XML 出來。
為什麼這個問題值得認真對待
AI 生成圖表的場景已經很普遍了:系統架構示意、流程說明、PDF 裡的統計圖、甚至 LaTeX 公式截圖。這些圖的問題不是長得醜,是完全不可修改。要改就只能重新生成,或者從頭在 draw.io 裡手畫。
這個流程很蠢,但一直沒有好工具——直到 Edit Banana 出現。
技術架構:三層管線並行
整個管線分三個核心技術模組:
SAM 3(Segment Anything Model 3):Meta 的通用分割模型,Edit Banana 針對圖表場景做了 fine-tune。它的工作是把一張圖裡的每個視覺元素——節點、箭頭、文字框、背景——切開來,識別出形狀類型和邊界框。
本地 OCR(Tesseract)+ Crop-guided 策略:把每個被 SAM 分割出來的區域,裁切後送進 Tesseract 做文字辨識。Crop-guided 的關鍵在於:先分割再 OCR,而不是對整張圖做 OCR,讓高解析度文字的辨識準確率顯著提升。
Pix2Text:專門處理數學公式和 LaTeX 轉換。公式圖片進去,LaTeX 字串出來,直接寫進 DrawIO XML 的對應節點。
三個模組的輸出匯進合併層,推算出元素的層級關係、箭頭連接點、樣式配置,最後序列化成合法的 DrawIO XML。
支援場景與實際效果
各輸入場景的轉換實用分(越高越適合用 Edit Banana 處理)
最適合的場景是 AI 生成的向量感圖表和流程圖——這類圖的邊界清晰、節點規則,SAM 分割效果最好。PDF 統計圖次之,主要挑戰是座標軸文字的 OCR。手繪掃描圖效果最不穩定,因為 SAM 的 fine-tune 資料集以數位圖表為主。
輸出的 DrawIO XML 保留了:佈局座標、元素顏色、形狀樣式、箭頭類型和連接點配置。不是一個粗糙的近似——你在 draw.io 打開後,節點是可以直接拖移和編輯的。
使用方式
Web 介面:editbanana.anxin6.cn,新用戶 10 個免費積分,拖圖上去就能跑。
CLI 本地跑:從 GitHub clone 下來,按照 README 設好環境(主要是 SAM 3 的權重下載),可以完全本地離線執行——這對處理敏感的架構圖或內部文件特別重要。
git clone https://github.com/BIT-DataLab/edit-banana
cd edit-banana
pip install -r requirements.txt
python convert.py --input diagram.png --output result.xml
輸出是標準 DrawIO XML,直接在 draw.io 桌面版或 app.diagrams.net 開啟即可編輯。
這個工具的定位
Edit Banana 不是要替代 AI 畫圖——它是 AI 畫圖之後的後處理層。生成給你一個初稿,Edit Banana 讓你從那個初稿繼續工作,而不是被迫重新來。
這個定位其實填了一個很實際的工作流程缺口。每個用 AI 做技術文件或系統設計的人都踩過:AI 給你一張看起來不錯的圖,但你要改一個細節,就只能全部重來。
4.9k stars 在短時間內累積,說明這個痛點是真實且普遍的,不是少數人的需求。
值得關注的限制:目前公式識別對複雜多行 LaTeX 的準確率還不穩定,極端複雜的巢狀圖表偶爾會有分割錯位。這是開源早期版本的正常狀態,BIT-DataLab 還在持續迭代。
值得一用的理由很簡單
你不需要相信所有技術細節都完美。你只需要知道:下次 AI 給你一張你想繼續編輯的圖,你現在有工具可以試了。