
The Validation Tax: Shifting Focus from Production to Verification in the AI Era
評估稅:為何AI時代需要從「生產」轉向「驗證」
若使用得當,生成式 AI 能夠顯著提升人類的生產力。 它可以協助團隊探索戰略、起草行銷方案,並大幅拓展個人產出的廣度與速度。
但伴隨這些收益而來的是組織內部湧現的一個新挑戰:「工作廢料」(workslop)——即那些乍看之下打磨精緻且合乎情理,實則內容空洞的作品。 《哈佛商業評論》近期的一篇文章引入了這一術語,精準概括了許多管理者在日常工作中遇到的現狀:包裝精美的草案最終反而給他人增加了額外的工作負擔。
在 AI 時代來臨之前,識別劣質工作通常相對容易,因為工作的「賣相」與「實質」之間至少存在某種鬆散的聯繫。 篇幅、潤色程度和連貫性雖然不是完美的指標,但往往能反映出投入的精力。 然而,AI 切斷了這種關聯。
如今,生成流暢且形式上看似正確的備忘錄、演示文稿、代碼和分析報告的成本極低。 但其真實性、嚴謹性和相關性卻難以保障,除非有人投入時間進行仔細核查。
這種轉變催生了一種「評估稅」(evaluation tax),它帶來的後果不僅是技術層面的,更是組織層面的。 作為企業最稀缺的資源,「注意力」必須從「生產」環節轉移到「驗證」環節。
但這並不意味著要放慢一切。 它意味著我們必須認識到,對於組織中最具價值的貢獻者而言,其核心任務正日益從「誰能起草初稿」轉變為「誰能判斷文稿中的主張是否站得住腳」。
由於注意力稀缺,且決策者早已不堪重負,人們很容易傾向於對那些看似完美的產出進行「橡皮圖章」式的盲目批准。 這種捷徑可能代價高昂。 2025年10月,德勤澳大利亞(Deloitte Australia)同意向政府退還部分款項,原因是一份長達237頁的報告被發現包含明顯的AI生成錯誤,其中包括引用了並不存在的論文以及錯誤歸屬的法律引言。
即便該報告的大致結論在邏輯上是合乎情理的,這一事件仍引發了補救工作,削弱了信任,並導致了合約層面的爭執。 問題的根源並不在於使用 AI 本身,而在於使用了 AI 卻未加核查。
如果 AI繼續加速草案的生成,管理者將面臨一個不可迴避的問題:組織如何在獲得規模與範圍紅利的同時,不被「工作廢料」所淹沒?
面對這一評估難題,一種自然的反應是詢問 AI 自身能否承擔核查任務。 如果 AI 能生成內容,為何不讓 AI 也來驗證它? 在某些領域,這種方法行之有效。
數學是最典型的例子。 諸如 Lean 這樣的工具可以精確地對證明進行正式的驗證。 在這些場景中,人類探索思路,機器核查正確性。 這種驗證是正式的、無歧義的,且具備可擴充性。
然而,大多數組織工作並不像數學。 戰略制定、研究綜述、政策分析、諮詢建議以及許多軟體設計工作,都是無法進行正式驗證的。 這些工作依賴於判斷力、語境和解讀。 在這些領域,驗證無法完全自動化,仍然需要人類的投入。
更糟糕的是,基於 AI 的核查往往非但不能補充人類的驗證,反而會將其削弱。 對於演算法輔助評估的研究證據表明,當演算法執行了初步檢查后,人類往往會降低自身的審查力度。 自動化檢查工具的存在改變了人們的行為模式:一旦人們認為「系統已經查過了」,他們對仔細進行人工驗證的預期回報感就會下降。
這引出了更深層的問題:激勵機制。 AI 降低了生產成本,卻提高了「動力成本」(cost of motivation)。 即便做正確的事變得更容易了,但做錯誤的事也變得更加容易。 當生成看似合理的產出變得極其低成本時,產出便不再能可靠地反映投入的努力或判斷力。 這並非職業道德的淪喪,而是對工作回報機制的一種理性反應。
人們是基於可見的交付成果——生成的文檔、提交的幻燈片、完成的分析——來接受評估的。 AI讓達到這些標準變得毫不費力。 相比之下,驗證工作依然耗時耗力,且在很大程度上是「不可見」的。 當激勵機制依然與「生產」挂鉤,而非與「審查」挂鉤時,人們的努力方向便會隨之轉移,導致驗證工作系統性地供給不足。
面對這種驗證不足,組織主要有兩種干預途徑。
第一種是重塑流程。 AI不僅僅是一個加速現有工作流程的工具; 它改變了哪些類型的工作流程是可行的。 例如在軟體開發中,當代碼是由人類以人類的速度編寫時,逐行審查是合理的。 但面對 AI 生成的代碼,這種方法不再具備可擴充性。 高效能團隊的應對之策並非「更仔細地審查」,而是重塑流程本身:將驗證工作向上游轉移,聚焦於規範明細、約束條件、測試用例和交互介面。 稀缺的技能從「生成產出」轉變為「定義何為正確」。
第二種是重塑激勵機制。 對於那些無法形式化規範的重判斷型工作,企業必須讓隱形的驗證工作變得「可見」。 這需要徹底轉變對勞動價值的評估方式。 組織應當將「捕捉到一個微妙錯誤」、「完善一個複雜的論點」或「指出一個看似合理但錯誤的結論」視為晉陞的途徑。 如果企業希望人類承擔起艱難的判斷工作,就必須停止獎勵數量和速度,轉而獎勵對錯誤的偵測。 這會直接導致專業技能的重新分配:從起草轉向驗證; 企業將日益把稀缺的人才從內容生產中抽離出來,轉而讓他們負責審查並簽署那些真正關鍵的工作成果。
如果企業在這兩方面都無所作為,它們將退而求其次,選擇第三種更具破壞性的方案:標準化。 企業將轉向那些更容易規範、衡量和檢查的工作。 職能範圍將縮小,自由裁量權將縮減,複雜的任務將被分解為標準化的碎片。
其結果是滑向「糟糕的工作」(bad jobs)——那些並非為了判斷力,而是為了合規性和生產力所打造的崗位。 這種趨勢有可能導致人類的工作體驗被「掏空」。 我們面臨的風險是創造出一支被困在「認知淺水區」的工作力大軍——執行著那些審計起來很安全,但做起來卻令人心力交瘁的標準化任務。
為了避免這種未來,我們必須認識到,AI 帶來的挑戰主要不在於技術,而在於組織。 為了一個人類能夠蓬勃發展的未來,我們必須重新設計流程和激勵機制,以解決這一評估難題。
李晋教授
港大經管學院管理及商業策略、經濟學學術領域主任及教授
Matthias Fahn教授
港大經管學院管理及商業策略副教授
(本文同時於二零二六年一月八日載於《FT中文網》明德商論專欄)






