harness-starter-kit 在 hidden-oracle A/B 測試中成功了

harness-starter-kit 在 hidden-oracle A/B 測試中成功了
大家好,我是一位來自韓國的初級開發者。這是 harness-starter-kit 系列的第 8 篇文章。
到目前為止,我一直很謹慎,沒有直接說 harness「讓 coding agent 變得更強」。
我之前能說的,只有它可以把規則留在 repo 裡、讓錯誤更早被發現,也讓 agent 的工作更容易被 review。
但這一次,我覺得可以更進一步地說:
對於需要遵守 repository convention 的任務,harness-starter-kit 確實有明顯幫助。
我做了一次 hidden-oracle A/B 測試,使用兩個結構相近的 Flask repo:
flask-no-harnessflask-yes-harness
結果如下:
Target | Harness | Runs | Successes | Wrong-file edits | Timeouts |
|---|---|---|---|---|---|
| No | 12 | 0 | 11 | 3 |
| Yes | 12 | 11 | 0 | 0 |
這是第一次讓我覺得,harness-starter-kit 不是只是「感覺有用」。
它真的開始影響 agent 的行為了。

為什麼 hidden oracle 很重要
我之前做過 visible oracle 的測試。
visible oracle 的意思是,驗證程式碼放在 target repo 裡,所以 agent 看得到。
這對測試 benchmark runner 本身很有幫助,但如果要證明 harness 的效果,就不太理想。
因為就算是 no-harness 的 agent,也可以讀測試程式,反推出預期的 endpoint 名稱、response shape 和規則。
所以這次,我把真正的驗證邏輯放在 target repo 外面,也就是 benchmark runner 裡。
agent 能依靠的只有:
prompt
repo code
repo docs
conventions
check scripts
這更接近我真正想問的問題:
當任務需要理解 repo-local convention 時,harness 會不會有幫助?
有 harness 之後改變了什麼
flask-yes-harness 裡包含了 repo-level guidance,例如:
coding conventions
domain glossary
decision records
check_harness.py
documentation placement rules
file boundary rules
sandbox retry rules
這次任務不是單純看「程式能不能跑」。
一次 run 必須同時通過:
agent 正常結束
git diff --checkpytest
hidden oracle
沒有 wrong-file edits
沒有 forbidden-file edits
這點很重要,因為真實專案不只是程式能跑就好。
程式也必須放在正確的位置、符合既有 contract、避免不必要的 dependency 變更,並遵守 repo 的工作方式。
為什麼 no-harness 失敗
flask-no-harness 失敗,不是因為 Codex 不會寫 Flask。
更準確地說,是因為它不知道這個 repo 想要什麼。
所以它只能猜。
它會猜 endpoint 名稱、response shape、domain rule、文件要放哪裡,有時也會改到不該碰的檔案。
這和真實專案中常見的 coding-agent 失敗很像。
agent 會寫程式,但如果沒有 repo-local context,它就只能靠一般經驗來做事。
為什麼 yes-harness 成功
flask-yes-harness 並不是讓模型突然變聰明。
它做的是把 project-specific knowledge 變成 repo 裡可讀、可檢查的內容。
agent 可以更清楚回答這些問題:
我應該遵守哪種命名 convention?
文件應該放在哪裡?
哪些檔案不應該碰?
我應該跑哪個 check command?
這個專案有哪些特別重要的規則?
這就是 harness 的價值。
它減少猜測,並把人類反覆提醒 agent 的規則,變成 repo 裡持久存在的 context。
我目前的結論
我還是不想過度解讀這次結果。
我不是在說:
harness-starter-kit 會讓所有 coding task 都變好。
更準確的結論是:
對 convention-dependent work 來說,harness-starter-kit 確實有幫助。
它的價值不是提升一般 coding intelligence。
它真正改善的是:
contract discovery
file-boundary discipline
documentation placement
validation discipline
project-specific consistency
這次測試中:
no-harness: 0/12
yes-harness: 11/12
wrong-file edits: 11 → 0
timeouts: 3 → 0
對我來說,這已經不只是感覺了。
這是可以被 review 的 evidence。
接下來,我想用更多 tasks、repos、frameworks、agents 和 repetitions 繼續測試。
但至少現在,我終於可以說:
harness-starter-kit 在 hidden-oracle A/B 測試中成功了。
對 convention-dependent work 來說:
harness 是有用的。
GitHub: https://github.com/harnessworks/harness-starter-kit
如果你覺得這個專案有幫助,歡迎幫我按個 GitHub Star,我會非常感謝!
作者:Yuan