Harness Engineering:駕馭工程
Harness Engineering,自譯「駕馭工程」,指的是替 AI agent 設計與搭建一整套「能依需執行任務」的驅動環境:包含任務規格、工具權限、上下文、測試、記錄、回饋迴圈、失敗修正機制,以及必要時的人工介入點。
簡單講,model 是引擎,harness 是方向盤、煞車、儀表板、護欄與維修手冊。這套環境讓使用者能更完整的駕馭 AI 去進行完整且長時間的任務。(燃料就是代幣 Tokens...)
這個詞在 2026 年快速冒出來,不是因為大家突然想換名詞,而是 agent 開始真的能做長時間任務。OpenAI 在 2 月 11 日公開的 Codex 文章裡提到,他們用 Codex 建出一個約百萬行程式碼的內部產品,且沒有人工手寫程式碼;工程師的角色轉成設計環境、指定意圖、建立回饋迴圈。這句話其實就是駕馭工程的核心:人負責方向,agent 負責執行,但中間必須有可靠的制度。
它跟 prompt engineering 的差別很直接。
Prompt engineering 關心「我要怎麼說,模型才會答得好」;
context engineering 關心「我要給模型看什麼資訊」;
harness engineering 則關心「整個系統要怎麼讓 agent 不容易做錯,做錯後也能被抓到、被修正,最好下次不再犯」,這就像是在設計一輛車。
這已經是軟體工程、測試、DevOps、資安與產品治理的混合題,不只是會寫咒語。
Martin Fowler 的文章把這件事拆得很清楚:好的 harness 需要 guides 與 sensors。Guides 是事前引導,例如 AGENTS.md、架構原則、開發規範、範例與工具說明;sensors 是事後偵測,例如 linter、測試、瀏覽器檢查、log、review agent、CI gate。前者提高第一次做對的機率,後者讓 agent 能在交給人看以前自己修正。
Anthropic 的長時間應用開發實驗也指向同一件事。單一 agent 跑久了容易跑偏,所以他們把工作拆成 planner、generator、evaluator 等角色,讓規劃、產出與評估彼此牽制。這種設計很像把「資深工程師的工作習慣」系統化:先切任務,再執行,再用標準檢查結果,而不是賭一個超長 prompt 能一路撐到底。
駕馭工程最值得注意的地方,是它把 AI agent 的可靠性問題從「模型夠不夠聰明」拉回「系統設計基礎夠不夠扎實」,因為未來強模型會越來越多,但能不能把 agent 放進真實工作流程,取決於企業有沒有能力設計權限、測試、觀測、回滾、記憶與稽核。
換句話說,下一波 AI 工程能力的分水嶺,很可能不在誰比較會下 prompt,而在誰比較會替 agent 建一個不容易翻車的工作場域。至於這 AI 車跑得快、跑得慢、轉彎順不順暢、起跑夠不夠力、高速是否輕快、煞車是否穩定,完全要看設計駕馭工具的工程實力了。
消息來源:
https://openai.com/index/harness-engineering/
https://www.anthropic.com/engineering/harness-design-long-running-apps