通用 LLM 不夠用了：GeoGPT 與領域專屬模型的崛起

問 ChatGPT 一個地球科學問題：「請解釋白堊紀晚期的海洋缺氧事件對碳循環的影響。」

它會給你一個聽起來合理的答案。但如果你是地質學家，你會發現它在瞎掰。

這不是 ChatGPT 的錯，這是通用 LLM 的結構性限制。

通用 LLM 的盲點

GPT-4、Claude、Gemini 的訓練資料以網路文字為主——維基百科、新聞、論壇、部落格。這些資料覆蓋了大多數日常知識，但在高度專業的學術領域，覆蓋率極低。

地球科學就是典型的例子。全球地科相關的學術論文以百萬計，但其中能出現在通用訓練資料裡的比例微乎其微。結果是：模型對「板塊構造」有基礎認識，但對「Tethys 海的閉合機制」或「地震波速度異常的成因」這類專業問題，只能靠模式匹配硬拼一個答案出來。

這種「聽起來對、實際上錯」的輸出，在普通使用者那裡問題不大，但在研究場景裡是災難。

GeoGPT 是一組專門為地球科學訓練的大型語言模型，由 GeoGPT Research Project 開源釋出。

目前有三個模型：

訓練資料包含來自 182 本期刊、15 個出版商的 28 萬篇開放取用地科論文，以及從 CommonCrawl 中針對地科主題挖掘的網頁資料。

訓練流程分三個階段：

Loading diagram...

GeoGPT 在 2025 年 AI for Good 全球峰會獲得「傑出創新影響力應用案例獎」，也被收錄進《全球人工智慧標準發展報告（2025）》。

GeoGPT 不是孤例。這幾年，各個垂直領域都在做同樣的事：

邏輯很簡單：通用模型是一個很好的起點，但它無法替代領域積累。專業知識需要專業訓練資料，需要領域專家的標注，需要針對該領域的評測基準。

這個趨勢不會停。接下來會看到更多針對材料科學、氣候研究、天文學、化學的專屬模型出現。開源社群正在把「訓練領域 LLM」這件事的門檻快速降低——GeoGPT 就是一個完整的開源範例。

通用 LLM 不會消失，但它會越來越像一個「起點」，而不是終點。

真正能在專業場景發揮價值的，是那些吃透領域知識的專屬模型。GeoGPT 證明了這條路走得通——用開放資料、開源工具、清晰的三階段訓練流程，一個研究團隊就能做出比通用模型更適合自己領域的工具。

這個模式接下來會在更多領域複製。如果你在某個垂直領域工作，現在是開始思考「我們需不需要自己的 LLM」這個問題的時候了。

GeoGPT 所有模型與配套資料集（GeoGPT-QA、GeoRAG-QA、GeoGPT-CoT-QA）已開源，非商業研究與教育用途免費使用。