AI-First 決策框架
此框架的核心理念:在每個決策點,優先評估 AI 能否成為主要執行者或增強器,而非事後才考慮 AI 的角色。
核心洞察: 傳統思維是「這件事要不要用 AI?」,AI-First 思維是「這件事有什麼理由不用 AI?」。舉證責任反轉——人工介入需要正當理由。
相關原則: C4: AI 優先
問題陳述
組織以倒退的方式進行 AI 採用:
| 傳統方法 | AI-First |
|---|---|
| 人類執行,AI 輔助 | AI 執行,人類監督 |
| AI 採用是可選的 | 人工介入需要理由 |
| 優化人類工作流程 | 優化 AI-人類協作 |
| 自動化前追求完美 | 可逆性優於完美 |
核心原則
1. 預設 AI 優先 (Default to AI)
問題從「該不該用 AI?」轉變為「為什麼不用 AI?」
| 面向 | 傳統 | AI-First |
|---|---|---|
| 預設執行者 | 人類 | AI |
| 舉證責任 | 證明應該用 AI | 證明應該人工介入 |
| 決策速度 | 謹慎 | 快速迭代 |
2. Human-in-the-Loop,而非 Human-as-the-Loop
人類的角色從執行者轉變為監督者、決策者、例外處理者。
| 路徑類型 | 處理者 | 範例 |
|---|---|---|
| 常規 | AI | 標準程式碼審查、文件更新 |
| 邊界案例 | 人類 + AI | 模糊需求、衝突約束 |
| 最終判斷 | 人類 | 倫理、政治、利害關係人關係 |
3. 可逆性優於完美 (Reversibility over Perfection)
優先選擇可逆的 AI 決策,而非追求完美的人工決策。快速迭代加上回滾能力勝過緩慢的完美方案。
| 方法 | 速度 | 風險 | 復原 |
|---|---|---|---|
| 完美的人工決策 | 慢 | 初始錯誤低 | 不適用 |
| 可逆的 AI 決策 | 快 | 可管理的錯誤 | 快速回滾 |
| 勝者 | AI-First | 可接受 | 迭代改進 |
決策評估矩陣
對任何任務或決策,評估四個維度:
| 維度 | 問題 | AI-First 傾向 |
|---|---|---|
| 重複性 (Repeatability) | 這個決策會重複發生嗎? | 高重複 -> AI 優先 |
| 後果 (Consequence) | 錯誤決策的後果可逆嗎? | 可逆 -> AI 優先 |
| 資料可用性 (Data Availability) | 有足夠的資料或 context 嗎? | 資料充足 -> AI 優先 |
| 判斷複雜度 (Judgment Complexity) | 需要深層人類判斷嗎?(倫理、政治、情感) | 低複雜度 -> AI 優先 |
四種決策模式
高 AI 適合度
|
+------------+------------+
| AI-Led | AI-Assisted|
| (自動化) | (增強) |
低 -----+------------+------------+----- 高
後果嚴重度| AI-Draft | Human-Led | 後果嚴重度
| (草稿) | (諮詢) |
+------------+------------+
|
低 AI 適合度| 模式 | AI 角色 | 人類角色 | 範例 |
|---|---|---|---|
| AI-Led | 完全執行 | 定期審計 | 程式碼格式化、測試生成 |
| AI-Assisted | 主導但有護欄 | 即時監督 | 程式碼審查建議、PR 描述 |
| AI-Draft | 提出選項 | 選擇與精煉 | 架構決策、API 設計 |
| Human-Led | 提供資訊 | 做決策 | 策略方向、招聘 |
實施流程:RAPID-AI
R - Recognize(識別)
識別決策點。任何需要選擇、判斷、產出的時刻都是潛在的 AI 介入點。
要問的問題:
- 人們在哪裡花時間做例行決策?
- 哪些任務有明確的輸入和預期輸出?
- 哪裡因為等待人員而產生延遲?
A - Assess(評估)
用評估矩陣快速評估。問自己:「如果 AI 做這件事,最壞情況是什麼?」
P - Prototype(原型)
不要過度設計。先讓 AI 嘗試一次,觀察輸出品質。Prompt engineering 本身就是一種快速原型。
| 原型方法 | 時間投資 | 學習價值 |
|---|---|---|
| 完美 prompt 設計 | 高 | 低(假設未經測試) |
| 快速測試與迭代 | 低 | 高(真實回饋) |
I - Integrate(整合)
設計回饋迴路:
關鍵整合點:
- 明確的驗收標準
- 結構化的回饋格式
- 版本控制的 prompts
- 可測量的品質指標
D - Delegate(委派)
當 AI 達到可接受的品質閾值,正式委派並建立監控機制。
| 階段 | 審核類型 | 頻率 |
|---|---|---|
| 初期 | 每個輸出 | 持續 |
| 穩定中 | 抽樣 | 每日/每週 |
| 成熟 | 例外導向 | 定期審計 |
從逐案審核轉變為定期審計。
組織層面的導入策略
Phase 1:Shadow Mode(影子模式)
AI 與人類平行決策。比較結果但不採用 AI 輸出。
| 指標 | 目的 |
|---|---|
| 一致率 | 基準 AI 準確度 |
| 不一致分析 | 識別改進領域 |
| 時間比較 | 量化速度優勢 |
Phase 2:Suggestion Mode(建議模式)
AI 提供建議。人類決定是否採納。
| 指標 | 目的 |
|---|---|
| 採納率 | 信任度指標 |
| 覆寫原因 | 改進的訓練資料 |
| 結果比較 | 驗證 AI 品質 |
Phase 3:Default Mode(預設模式)
AI 輸出為預設。人類可選擇覆寫。
| 指標 | 目的 |
|---|---|
| 覆寫率 | 例外頻率 |
| 覆寫模式 | 識別 AI 盲點 |
| 節省時間 | ROI 測量 |
Phase 4:Autonomous Mode(自主模式)
AI 自主決策。人類只處理標記的例外。
| 指標 | 目的 |
|---|---|
| 例外率 | 系統健康度 |
| 誤報標記 | 校準閾值 |
| 審計發現 | 持續改進 |
反模式警示
避免這些常見陷阱:
AI Washing(AI 漂洗)
症狀: 表面上用 AI,實際上人工審核每一筆輸出。
問題: 失去效率優勢卻聲稱 AI 採用。
解決方案: 信任流程。品質穩定後轉為抽樣審核。
Perfectionism Trap(完美主義陷阱)
症狀: 等 AI 100% 準確才願意導入。
問題: 忽略 80% 準確已經勝過現狀。
解決方案: 將 AI 表現與實際人類表現(包含人類錯誤)比較,而非與理論完美比較。
Context Starvation(脈絡饑餓)
症狀: 給 AI 的 context 不足,然後怪 AI 不夠聰明。
問題: 垃圾進,垃圾出。
解決方案: 投資脈絡工程。AI 品質與 context 品質成正比。
Responsibility Diffusion(責任稀釋)
症狀: 「AI 決定的」變成推卸責任的藉口。
問題: 人類仍需為 AI 輔助決策負責。
解決方案: 明確的責任框架。AI 執行;人類負責。
| 角色 | 責任 |
|---|---|
| AI | 執行、建議 |
| 人類 | 監督、究責、例外處理 |
| 組織 | 治理、審計、持續改進 |
成功指標
| 指標 | 說明 | 目標方向 |
|---|---|---|
| AI 任務比例 | AI 作為主要執行者的任務百分比 | 增加 |
| 決策延遲 | 從輸入到決策的時間 | 減少 |
| 覆寫率 | AI 決策被覆寫的百分比 | 隨時間減少 |
| 例外率 | 需要人工介入的百分比 | 穩定在低水平 |
| 回滾頻率 | AI 決策被逆轉的頻率 | 低且下降 |
| 品質對等 | AI 輸出品質 vs 人類基準 | 匹配或超越 |
與其他提案的整合
| 提案 | 整合點 |
|---|---|
| AI-DLC 群體精煉 | 需求會議中的 AI-First 決策 |
| 審查機制精煉 | 階段適當的審查強度 |
| 人類價值主張 | 定義 AI-First 世界中的人類角色 |
| 持續脈絡清理 | 實現更高的 AI 決策品質 |
相關: C4: AI 優先原則 | 人類價值主張 | 返回: 提案總覽