LLM 不是答案本身,而是搜索引擎:IBM 用 AI 發現 465 個量子糾錯碼的方法論啟示
最近看到 IBM Research Blog 介紹了一個讓我思考很久的研究案例。
他們用一條 LLM-guided evolutionary workflow,找到了 465 個全新的量子糾錯碼候選。但讓我感興趣的,不是量子物理本身,而是這個流程的設計哲學——它幾乎就是一份「如何用 AI 做嚴謹科學發現」的架構手冊。
先說問題背景
量子糾錯碼(Quantum Error Correction Code, QEC)是讓量子電腦能穩定運算的關鍵技術。設計一個好的 QEC code,本質上是在一個極其龐大的離散空間裡做搜索——維度太高、規則複雜,不可能靠人工窮舉。這種問題,過去要嘛用傳統優化算法硬跑,要嘛靠領域專家憑直覺試錯。
IBM 的解法:不信任 LLM,但善用它
這條 pipeline 的設計有一個核心原則,我覺得值得反覆思考:
LLM 負責「生成候選」,不負責「判斷正確」。
具體流程分四層:
LLM 生成階段:讓模型根據已知 code 的特性,產生新的 code 候選以及對應的 Python 驗證腳本。這一步 LLM 發揮的是創意與聯想能力,產出的東西可能有用、也可能是垃圾。
k-only screening:用一個計算成本極低的初步篩選,把明顯不符合基本數學性質的候選快速淘汰。這層的目的是大量減少後續需要認真評估的數量。
BP-OSD 快速分析:用一個業界標準的解碼演算法做中等深度的分析,進一步篩掉「看起來不差但其實不行」的候選。
MILP 嚴格驗證:最後用混合整數線性規劃(Mixed-Integer Linear Programming)做嚴格的數學驗證,確認留下來的候選確實有效。
整條流程的邏輯是:用 LLM 的廣度換取探索空間,用多層 verifier 的嚴謹性確保品質。生成的代價很低,驗證的代價按需逐層遞增。
這對 AI/Agent 從業者的啟示
我在做 NLP 研究的過程中,看到太多人把 LLM 用錯了方向——要嘛完全信任模型輸出(然後被 hallucination 坑),要嘛因為不信任就根本不用(然後放棄了 LLM 真正擅長的那部分)。
IBM 這個案例展示了第三條路:把 LLM 定位成「有偏見的隨機搜索器」,把驗證邏輯交給更可靠的工具。
這個思路可以直接套用到很多 AI agent 設計場景:
程式碼生成 agent:LLM 生成 10 個解法候選,unit test 做 screening,static analysis 做中層過濾,integration test 做最終驗證。不要期待 LLM 第一次就寫對,期待它在合理範圍內生成足夠多樣的候選。
資料分析 agent:LLM 生成多條假設,用統計顯著性做初步篩選,再用更嚴格的因果推斷方法驗證值得深入的那幾條。
文件摘要/檢索 agent:LLM 生成多個可能的答案片段,用 retrieval score 做 screening,用獨立的 fact-check 模組做最終確認。
共同的結構都是:生成廉價、篩選分層、驗證嚴格。
為什麼「Evolutionary」這個字很重要
IBM 這條 pipeline 不只跑一輪,它是迭代的。LLM 會根據前幾輪通過驗證的 code,調整下一輪的生成方向。這讓整個流程更像演化算法而不是單次推論——每一代的「存活者」成為下一代的種子。
這個設計解決了一個 LLM 生成任務常見的問題:如何讓模型越跑越聚焦,而不是每次都在廣袤的可能空間裡亂猜?答案是給它「反饋迴路」,讓它知道哪個方向是對的。
對 agent 設計者來說,這意味著:不要只設計「一次性完成任務」的 agent,要設計「能從失敗中學習並調整策略」的 agent。即使不需要真正的強化學習,光是把「成功的中間結果餵回 context」這個動作,就能大幅提升後續生成的品質。
我的思考
看完這個研究,我最大的感受是:IBM Research 在這裡做的事,本質上是把「科學方法論」的嚴謹性,注入到 LLM 的生成流程裡。
科學方法的核心是「可證偽性」——一個主張要能被測試,被測試到失敗的要淘汰,通過測試的才能晉級。IBM 這條 pipeline 做的就是這件事,只是規模化、自動化了。
現在很多 LLM 應用之所以讓人不放心,恰恰是因為缺少這一層:生成出來的東西沒有辦法被「嚴格地證偽」,用戶只能憑感覺判斷對不對。
如果你正在設計一個需要產出可靠結果的 AI system,IBM 這個案例值得認真參考。不是學量子物理,而是學它的架構思路:生成 + 分層篩選 + 嚴格驗證,串成一條完整的 discovery pipeline。
這才是 LLM 在高要求場景下真正能發揮作用的方式。
作者:陳思維