HYBRID AGENT ARCHITECTURE · ANATOMICAL EDITION

混合 Agent 架構全書

Cloud × Local × Specialized Models · Fifteen Plates

HYBRID ANATOMY ROUTING LOCAL CLOUD MCP ORCHESTRATOR GOVERNANCE COST REFERENCE

混合式 Agent 架構的核心命題,在於承認沒有任何單一模型能夠完美覆蓋所有推理場景。雲端大型語言模型擁有驚人的通用推理能力與豐富的世界知識,但它們受限於延遲、成本、以及資料隱私的邊界。本地推理引擎則在速度、離線可用性與資料主權方面佔據優勢,卻在參數規模與推理深度上有所不足。混合架構正是為了調和這兩個世界而誕生的設計典範。

本書以十五幅解剖圖版(Plates)的形式,逐層剖析混合 Agent 系統的每一個器官:從語意路由器的判斷邏輯、本地模型動物園的物種分類、到 MCP 橋接協定的神經突觸。每幅圖版均以生物解剖學的標注方式呈現,力求在精確與直觀之間取得平衡。讀者可將此書視為一部活體解剖圖譜——每個章節都是一次對系統組織的切片觀察。

我們的目標不僅是描述架構,更是建立一套可操作的設計語彙。當你在設計自己的混合 Agent 時,這些圖版將成為你的解剖學參考手冊。

PLATE I

混合宣言

The Hybrid Manifesto
FIG · 1
COMPARATIVE ANATOMY

混合架構的誕生源自一個簡單的觀察:雲端模型與本地模型各有其解剖學上的「器官優勢」。將兩者的優勢組織移植到同一個有機體中,便能創造出一個適應力遠超任何單一物種的混合生命體。本圖版以三欄對照的方式,解剖雲端、本地與混合三種架構形態的結構差異。

雲端限制 Cloud Limitations 本地限制 Local Limitations 混合優勢 Hybrid Advantages 高延遲(100-2000ms) network round-trip overhead API 成本累積 $0.01-0.06 / 1K tokens 資料離境風險 data sovereignty concerns 速率限制與配額 rate limits / quota caps 離線不可用 requires internet connectivity powerful but expensive! 參數規模受限 7B-70B vs 1T+ cloud 推理深度不足 weaker multi-step reasoning 硬體門檻 GPU / RAM requirements 模型更新滯後 manual update cycle 生態系碎片化 fragmented tooling fast but limited 智慧路由降低延遲 route simple → local 成本最佳化 70-80% cost reduction 資料主權保障 sensitive data stays local 離線降級能力 graceful offline fallback 專才模型組合 best model per task best of both worlds! — SECTION A-A' · ARCHITECTURAL COMPARISON —
1 CAPABILITY UNIT

Annotations

延遲與推理深度的取捨是混合架構的第一原理。簡單查詢無需動用雲端重型火力。

成本攤銷的關鍵在於流量分級:將 70% 的常規請求導向本地,僅 30% 高複雜度任務送往雲端。

資料分級制度(PII / PHI / 商業機密)決定了哪些 token 永遠不應離開本地邊界。

PLATE II

模型動物園

The Model Zoo
FIG · 2
SPECIMEN CATALOGUE

一個成熟的混合 Agent 系統並非只仰賴一種模型,而是飼養著一整座動物園。每個物種(模型類別)都有其獨特的生態位——有些是雲端巨獸,有些是本地靈活的小型哺乳動物,還有些則是兩棲物種,能在雲端與本地之間自由遷徙。本圖版以標本卡的形式,分類展示混合架構中的八大模型門類。

推理型 LLM Reasoning LLM Claude Opus · GPT-4o Gemini Ultra · DeepSeek-R1 PARAMS: 200B-1T+ LATENCY: 500-3000ms CONTEXT: 128K-1M COST: $$$ the heavy artillery cloud-only (for now) CLOUD 快速型 LLM Fast LLM Claude Haiku · GPT-4o-mini Gemma-3 · Llama-3 8B PARAMS: 3B-27B LATENCY: 50-300ms CONTEXT: 8K-128K COST: $ workhorse of the fleet cloud OR local! BOTH 程式碼模型 Code Model Codestral · DeepSeek-Coder Qwen2.5-Coder · StarCoder2 PARAMS: 7B-33B LATENCY: 80-500ms CONTEXT: 16K-128K COST: $-$$ local = zero data leak great for autocomplete BOTH 嵌入模型 Embedding Model nomic-embed · text-embed-3 bge-m3 · E5-mistral PARAMS: 137M-7B LATENCY: 5-50ms DIMS: 384-4096 COST: ¢ run locally for free! backbone of RAG BOTH 視覺模型 Vision Model GPT-4V · Claude Vision LLaVA · Qwen-VL PARAMS: 7B-1T+ LATENCY: 200-2000ms INPUT: image+text COST: $$ LLaVA runs local! chart/doc understanding CLOUD+ 音訊模型 Audio / STT Model Whisper · Whisper.cpp Canary · Parakeet PARAMS: 39M-1.5B LATENCY: realtime INPUT: audio stream COST: ¢ (local) runs great on CPU! privacy-first transcription LOCAL 分類模型 Classification Model DistilBERT · BART-MNLI SetFit · Fasttext PARAMS: 22M-400M LATENCY: 2-20ms OUTPUT: label + conf COST: ~free tiny & blazing fast perfect for routing! LOCAL 圖像生成 Image Generation DALL-E 3 · Midjourney SDXL · Flux PARAMS: 860M-6B+ LATENCY: 2-30s OUTPUT: image COST: $$ SDXL runs local w/ GPU VRAM hungry! BOTH CLOUD-ONLY LOCAL-ONLY CLOUD + LOCAL
1 MODEL CLASS

Dissection Notes

i. 推理型 LLM 目前仍以雲端為主要棲息地,但量化技術正在改變這個現實——DeepSeek-R1 的蒸餾版已可在消費級硬體上運行。

ii. 嵌入模型與分類模型是本地部署的最佳候選:參數量小、推理快、且不涉及生成式輸出的安全風險。

iii. 「兩棲物種」(標記為 BOTH 的模型)是混合架構的戰略資產——它們允許系統根據當前負載與隱私需求動態遷移推理位置。

PLATE III

路由之術

The Art of Routing
FIG · 3
DECISION ANATOMY

語意路由器是混合 Agent 的神經中樞——它接收每一個傳入的任務訊號,經過多層判斷後,將請求導向最適合的模型端點。這個過程就像是神經系統的反射弧:簡單刺激走脊髓反射(本地快速模型),複雜思考才送上大腦皮層(雲端推理模型)。本圖版解剖三種路由策略的分層結構。

— LAYER A: RULE-BASED — — LAYER B: SEMANTIC — — LAYER C: CLASSIFIER — 任務輸入 規則檢查 Rule Check 本地快捷 regex / keyword hit 強制雲端 safety / compliance NO RULE MATCH 向量嵌入 語意相似度比對 CODE_GEN → Codestral SUMMARIZE → Llama-3 8B REASONING → Claude Opus CREATIVE → GPT-4o LOW CONFIDENCE 分類器判斷 DistilBERT classifier 信心度 confidence ≥0.85 LOCAL ≥0.85 CLOUD <0.85 → FALLBACK when in doubt, ask the big model
1 DECISION NODE

Annotations

規則層是最快的出口——透過正則匹配、關鍵字檢測、或資料分級標籤,在毫秒內完成路由決策。典型規則:包含 PII 的請求強制本地處理。

語意層使用預先計算的路由範例(route exemplars)嵌入向量,與輸入的嵌入向量計算餘弦相似度。這種方法不需要訓練分類器,只需維護一組代表性範例。

分類器層是最後的防線。經過微調的 DistilBERT 可以在 2ms 內完成推理,為系統提供一個高精度的兜底路由決策。信心度低於 0.85 時,系統會降級到雲端大模型以確保品質。

PLATE IV

本地推理引擎

Local Inference Engines
FIG · 4
CROSS-SECTION

本地推理引擎是混合架構的骨骼肌系統——它們決定了系統在脫離雲端供氧後,能以多快的速度、多大的力量獨立運作。四大引擎各有其解剖學特徵:Ollama 以簡潔的 API 包裝降低使用門檻,llama.cpp 提供最大的底層操控彈性,MLX 為 Apple 生態系量身打造的神經通路,而 vLLM 則是高吞吐量場景的心臟泵浦。

Ollama 易用性冠軍 · The Ease Champion ollama pull llama3:8b ollama run llama3:8b REST API :11434 pull & run! like Docker for LLMs ✦ OpenAI-compatible API ✦ Auto GGUF quantization ✦ Model library (registry) ✦ GPU auto-detection ✦ Modelfile (Dockerfile-like) ✦ Concurrent model loading best for getting started llama.cpp 彈性之王 · The Flexibility King Pure C/C++ inference GGUF format standard llama-server HTTP ✦ CPU + GPU hybrid splits ✦ Q2-Q8 quantization ✦ LoRA adapter hot-swap ✦ Grammar-constrained gen ✦ Speculative decoding ✦ Metal / CUDA / Vulkan the engine under Ollama maximum control! MLX Apple 原生 · The Apple Native Apple Silicon unified mlx-lm generate NumPy-like API ✦ Unified memory (no copy) ✦ Lazy evaluation ✦ 4-bit MLX quantization ✦ Swift / Python bindings ✦ LoRA fine-tuning ✦ Vision model support M-series magic! no GPU/CPU split needed vLLM 吞吐之王 · The Throughput King PagedAttention engine Continuous batching OpenAI-compat server ✦ PagedAttention (no waste) ✦ Tensor parallelism ✦ Prefix caching ✦ CUDA / ROCm support ✦ Structured output ✦ Multi-LoRA serving PagedAttention = game changer production-grade serving 本地 LOCAL
1 ENGINE

Dissection Notes

Ollama 是大多數開發者的第一站。它將 llama.cpp 包裝成類似 Docker 的使用體驗——ollama pull 就像 docker pull,一行指令即可開始推理。

llama.cpp 是本地推理的瑞士刀。當你需要精確控制量化等級、記憶體分配、或 GPU 層級分割時,它是唯一的選擇。GGUF 格式已成為本地模型的事實標準。

MLX 利用 Apple Silicon 的統一記憶體架構,消除了 CPU↔GPU 之間的資料複製開銷。對 Mac 使用者而言,這意味著可以將全部可用記憶體都用於模型推理。

vLLM 的 PagedAttention 機制如同作業系統的虛擬記憶體——將 KV-cache 分頁管理,幾乎消除記憶體碎片。在高並發場景下,吞吐量可達 llama.cpp 的 2-4 倍。

PLATE V

本地專才

Local Specialists
FIG · 5
SPECIMEN PLATE

本地專才模型是混合架構的特化器官——每一個都演化出高度專精的能力,在其領域內的效能甚至超越通用大模型。它們就像解剖學中的腺體:體積不大,卻在系統的特定功能上扮演不可或缺的角色。本圖版以生物標本版的形式,垂直排列六個關鍵的本地專才物種,並標注其解剖特徵。

SPECIMEN CATALOGUE · LOCAL SPECIALIST MODELS SPECIMEN PARAMETERS HARDWARE LATENCY DEPLOYMENT FUNCTION nomic-embed text-v1.5 137M params 768-dim output 💻 CPU sufficient 5-15ms blazing fast! Ollama / ONNX ollama pull nomic-embed-text RAG 嵌入 Semantic Search RAG backbone Whisper large-v3-turbo 809M params 99 languages 🎤 CPU / GPU realtime faster than speech whisper.cpp / MLX whisper-server --model large 語音轉文字 STT / Transcription privacy-first STT LLaVA v1.6 (Llama-3) 8B-13B params vision + text 👁 GPU (6GB+) 200-800ms depends on image size Ollama / llama.cpp ollama run llava:13b 圖像理解 Vision Understanding local GPT-4V alternative Codestral Mamba 7B 7B params 80+ languages 💻 GPU (4GB+) 50-200ms FIM = fill-in-middle Ollama / vLLM ollama run codestral 程式碼生成 Code Generation zero data leak coding DistilBERT fine-tuned 66M params 6 layers CPU only 1-5ms microsecond territory! ONNX Runtime transformers + torch 路由分類 Route Classification the routing brain! bge-reranker v2-m3 568M params cross-encoder 🔍 CPU / GPU 10-50ms per query-doc pair ONNX / PyTorch sentence-transformers 重排序 Re-ranking (RAG) RAG quality booster <20ms (ultra-fast) <200ms (fast) <1s (moderate) CPU = no GPU required GPU = dedicated VRAM needed
1 SPECIMEN

Annotations

nomic-embed-text 是本地 RAG 管線的基石。137M 參數量意味著它可以在任何現代 CPU 上以個位數毫秒完成嵌入,無需 GPU。其 768 維向量在 MTEB 基準測試中表現優於許多更大的模型。

Whisper large-v3-turbo 是 OpenAI 開源的語音辨識模型。透過 whisper.cpp 編譯後,可在 MacBook 的 CPU 上實現即時轉錄,延遲低於人類說話速度。這對需要語音輸入的 Agent 系統至關重要。

LLaVA 將視覺理解能力帶到本地端。8B 版本僅需 6GB VRAM,即可理解圖表、文件截圖、與照片內容。這讓混合 Agent 在處理敏感圖像時無需將資料送往雲端。

Codestral 支援 Fill-in-Middle(FIM)推理模式,特別適合程式碼自動補全場景。在本地運行意味著你的專有程式碼永遠不會離開你的機器。

DistilBERT 是路由系統的核心分類器。66M 參數、6 層 Transformer,在 CPU 上僅需 1-5ms 即可完成分類。經過任務路由資料集微調後,可以成為語意路由器的高效前哨站。

bge-reranker 是 RAG 管線的品質放大器。在初步檢索(bi-encoder)之後,使用 cross-encoder 對候選文件進行精細重排序,顯著提升最終答案的相關性。

PLATE VI

本地記憶與工具

Local Memory & Tools
FIG · 6
GEOLOGICAL CROSS-SECTION

地表之下,層層堆疊的記憶地層構成了 Agent 的認知基底。自最深處的檔案系統沉積層,經由 SQLite 結構化岩床、向量資料庫含水層,直至 RAG 管線的地表風化帶——每一層皆承載不同形態的知識礦脈。本圖以地質剖面之法,揭示記憶與工具之間的垂直共生關係。

檔案系統 Filesystem ~/.cache/agent/ · logs/ · configs/ · raw documents bedrock layer! SQLite 結構化岩床 對話歷史 · 工具調用日誌 · 設定值 · 鍵值快取 CREATE TABLE memory(id, ts, role, content, embedding BLOB) ChromaDB 本地向量 · 無需伺服器 Qdrant 高效能向量搜尋 · gRPC 向量含水層 — 語意相似度檢索之泉源 CPU OK for <100k vectors IDE 整合層 VS Code Extension · Cursor · Neovim LSP · 檔案監聽 RAG 管線 · 地表風化帶 Embed Store Retrieve Rerank Inject SURFACE -1 -2 -3 -4 DEEP TOOL INVENTORY file_read / file_write 本地檔案讀寫 · 支援 glob shell_exec 沙箱化 shell 執行 · timeout 控制 vector_search 語意近鄰查詢 · top-k · threshold sql_query 唯讀 SQL · 參數綁定 · 結果限制 code_index AST 解析 · 符號表 · 跨檔參照 browser_preview Headless Chrome · 截圖 · DOM 查詢 git_ops diff · blame · log · commit · branch embed here! CPU OK persistence = survival
1 LAYER
地層隱喻:愈深層的記憶愈穩定、延遲愈高;地表 RAG 管線提供即時檢索能力,如同風化作用將深層礦物帶至可及之處。
Embed 策略:使用 sentence-transformers/all-MiniLM-L6-v2 於本地 CPU 即可處理十萬級文件,無需 GPU。 -- keep it local!
Rerank 階段:Cross-encoder 對 top-50 候選重新排序至 top-5,大幅提升精確度。成本:每次約 80ms。
工具安全:所有 shell_exec 呼叫受 seccomp 沙箱限制,file_write 限於白名單目錄,sql_query 強制唯讀模式。
PLATE VII

雲端 Agent

Cloud Backbone
FIG · 7
ARCHITECTURAL SECTION

如同剖開一幢建築以窺其內部構造,本圖以建築截面之法展示雲端 Agent 的內在腔室。左側為本地 Agent(綠色外殼),右側為受管理的雲端 Agent(青色穹頂),兩者之間以金色橋梁貫通——此即 Hybrid 架構的脊柱所在。

GROUND PLANE 本地 Agent Local Agent 上下文窗口 Context Window 200k tokens · 滑動壓縮 工具路由器 Tool Router 記憶層 Local Memory 規劃引擎 Planner ReAct loop · 子任務分解 執行器 Executor 工具調用 · 結果解析 · 錯誤重試 本地基礎設施 Docker · Node.js · Python · 檔案系統 橋梁 Bridge MCP / REST / gRPC 受管理 Agent Managed Cloud Agent 安全沙箱 Sandbox 隔離執行環境 · 資源配額 · 逾時控制 網路搜尋 Web Search 程式執行 Code Exec 多步推理引擎 Multi-step Reasoning · Chain-of-Thought · 自我校正 回應合成器 Response Synthesis · 格式化 · 引用 雲端基礎設施 API Gateway · Load Balancer · Autoscale the spine! scales to infinity your machine, your rules REQUEST: Local → Bridge → Cloud RESPONSE: Cloud → Bridge → Local
1 MODULE
建築截面法:如同剖開牆面觀察管線配置,此圖揭示每一層的內部職責。本地與雲端各自為完整建築,橋梁為唯一連通點。
橋梁設計:所有跨界通訊皆經橋梁——單一控制點實現認證、限流、日誌、脈絡脫敏。 -- chokepoint = safety
故障隔離:雲端不可用時,本地 Agent 仍可獨立運行。橋梁實作 circuit-breaker 模式,自動降級至本地推理。
沙箱安全:雲端沙箱使用 Firecracker microVM,記憶體上限 512MB,CPU 時間上限 30 秒,網路白名單制。
PLATE VIII

多供應商路由

Multi-Vendor Routing
FIG · 8
CLASSIFICATION MATRIX

如同林奈分類法將物種按屬性歸類,此分類矩陣將六大模型供應商與六種任務類型交叉比對。紅圈標示首選搭配,金圈為次選替代,空格代表不建議使用——形成一幅精確的「物種適配圖譜」,指引路由器在每一次調用時選擇最適模型。

模型 × 任務 適配矩陣 程式生成 Coding 推理分析 Reasoning 文本創作 Creative 多模態 Multimodal 長文脈絡 Long Context 即時對話 Real-time Claude Anthropic · Opus / Sonnet GPT-4o OpenAI · GPT-4o / o1 Gemini Google · 2.0 Pro / Flash Grok xAI · Grok-3 Llama API Meta · Llama 4 · 開源 DeepSeek DeepSeek · R1 / V3 首選 Primary 次選 Secondary 空白 = 不建議 FALLBACK CHAIN Claude → GPT-4o → Gemini → DeepSeek → Llama → Grok 1M context! cost champion R1 = reasoning beast
1 VENDOR
路由邏輯:根據任務類型、延遲需求、成本預算、可用性狀態四維度加權評分,選出最適供應商。紅圈模型獲最高基礎分。
Fallback 機制:主選模型逾時或返回錯誤時,沿鏈自動切換。每次切換計入 degradation metric,累計超過閾值則發出告警。
成本控制:DeepSeek R1 在推理任務上性價比最高,可作為非關鍵路徑的預設選擇。 -- watch the bill!
延遲分級:即時對話要求 <500ms TTFT,GPT-4o 與 Gemini Flash 為此場景最佳。長文脈絡任務允許 <5s 延遲。
PLATE IX

通訊之橋

The Bridge Protocol
FIG · 9
COMPARATIVE MORPHOLOGY

四種通訊協定如同四個近親物種——外形相似卻各有演化優勢。本圖以比較形態學之法,將 MCP、REST、gRPC、訊息佇列並列展示,解剖其內在結構,標註各自的功能器官與適應特徵。MCP 以紅色剖面線框出,標示為推薦物種。

RECOMMENDED MCP Model Context Protocol 工具發現 Discovery 資源存取 Resources 提示模板 Prompts 取樣回呼 Sampling + Agent 原生設計 + 工具/資源/提示 統一介面 + 雙向串流 (stdio/SSE) - 生態尚在早期階段 - 規範仍在演進中 + 已獲主流 IDE 支援 傳輸: JSON-RPC 2.0 延遲: ~5-15ms 序列化: JSON 串流: SSE / stdio 安全: OAuth 2.1 REST HTTP / JSON API GET 讀取 POST 建立 PUT 更新 DELETE 刪除 PATCH 修補 + 通用性極高 · 生態成熟 + 快取友善 · 易於除錯 + OpenAPI 規範完善 - 無原生串流 (需 SSE 補充) - 非 Agent 原生設計 - 每次請求需完整 header 傳輸: HTTP/1.1-2 延遲: ~10-50ms 序列化: JSON gRPC HTTP/2 · Protobuf Unary 單次呼叫 Server Stream 伺服端串流 Client Stream 客戶端串流 Bidi Stream 雙向串流 + 高效能 · 低延遲 · 型別安全 + 原生雙向串流 + Protobuf 序列化效率極高 - 瀏覽器不直接支援 - 除錯難度較高 - Schema 演進需謹慎 傳輸: HTTP/2 延遲: ~2-8ms 序列化: Protobuf Message Queue NATS / RabbitMQ / Kafka Pub/Sub 發布訂閱 Queue 工作佇列 Request/Reply 請求回覆 Dead Letter 死信佇列 + 解耦 · 非同步 · 可靠投遞 + 天然負載均衡 + 回溯重播 (Kafka) - 額外基礎設施依賴 - 延遲不可預測 - 順序保證需額外設計 傳輸: TCP 延遲: ~1-100ms 序列化: 自訂 vs vs vs this one. trust me. everyone knows this one speed demon! for heavy async jobs 推薦策略:MCP 為預設 → REST 作 Fallback → gRPC 用於高頻內部通訊 → MQ 處理非同步長任務 Recommended: MCP default → REST fallback → gRPC for hot path → MQ for async
1 PROTOCOL
物種比較:四種協定如同四個近親屬——共享「訊息傳遞」的基本功能,卻在序列化效率、串流能力、生態支援上各自演化出不同特徵。
MCP 優勢:唯一為 Agent 場景原生設計的協定。工具發現、資源存取、提示模板、取樣回呼四大功能統一於單一協定中。 -- born for agents
混合策略:實務中常以 MCP 為主幹,REST 做對外 API 介面,gRPC 用於微服務間熱路徑,MQ 處理批次或需重試的工作。
延遲預算:MCP (stdio) 延遲約 5ms,REST 約 10-50ms,gRPC 約 2-8ms,MQ 視佇列深度而定。選擇時需考慮端到端 SLA。
PLATE X

脈絡脫敏

Context Sanitization
FIG · 10
ORGAN PIPELINE

如同消化系統將食物逐段分解、過濾、吸收,脈絡脫敏管線將原始資料經由一系列「器官」處理——偵測個資、遮蔽敏感欄位、語意壓縮、最終輸出淨化後的脈絡。管線下方,審計日誌如同神經系統般不間斷地記錄每一次脫敏操作。

原始 資料 Raw Data user input! PII 偵測器 NER · Regex · 字典 names, emails, phones... PII × 遮蔽 引擎 Redactor [MASK] · [HASH] · [FAKE] replace or hash? 語意壓縮 Compressor 摘要 · 去重 · Token 預算 100k → 12k tokens (88% reduction) squeeze it! 淨化 輸出 Sanitized Output → LLM 審計神經系統 Audit Nervous System 不可變日誌 · 每一次脫敏操作皆被記錄 · 合規追溯 AUDIT LOG SCHEMA { timestamp, request_id, stage: "pii_detect|redact|compress", input_hash, output_hash, pii_types_found: ["email","phone"], redaction_method: "mask|hash|synthetic", tokens_before, tokens_after, compliance_tags: ["GDPR","HIPAA"], reviewer: null } immutable! every. single. op. 1 2 3 4 5 INTAKE DETECT REDACT COMPRESS OUTPUT
1 STAGE
消化隱喻:每個器官執行單一職責——偵測器只偵測不修改,遮蔽器只遮蔽不壓縮。此管線遵循 Unix 哲學:「做好一件事」。
PII 偵測:結合 NER 模型 (spaCy/Presidio) 與正則表達式雙軌偵測。支援中英日韓四語之個資格式。 -- never skip this
遮蔽策略:三種模式——MASK (以 [REDACTED] 替換)、HASH (單向雜湊保留關聯性)、FAKE (合成假資料維持格式)。依合規等級選擇。
審計不可變性:日誌寫入 append-only storage,每筆記錄含 input/output 雜湊值。任何篡改皆可被偵測。GDPR/HIPAA 合規必備。
PLATE XI

編排器設計

Orchestrator Design
FIG · 11
NEURAL PATHWAY

編排器為混合系統的中樞神經——接收使用者請求後,沿三條路徑分派:元代理(Meta-Agent) 自主決策、規則引擎(Rule Engine)確定性路由、混合編排器(Hybrid Orchestrator)兼取二者之長。 本板以神經通路圖示三種模式,金色水洗標記推薦路線。

使用者請求 / User Request 中樞編排器 Central Orchestrator 元代理 Meta-Agent 自主推理 · LLM 驅動 規則引擎 Rule Engine 確定性 · if/else 路由 混合編排器 Hybrid Orchestrator 規則 + LLM 回退 recommended! 本地推理群 Local Inference Pool 雲端代理群 Cloud Agent Pool 高彈性 / 高成本 低延遲 / 低彈性 最佳平衡 SECTION A–A′ · 編排器決策路徑剖面 · ORCHESTRATOR DECISION PATHWAYS
1 DECISION UNIT
① 元代理(Meta-Agent)——完全以 LLM 決定路由,彈性最高但成本不可預測。適合探索性任務。
② 規則引擎(Rule Engine)——以預先定義規則決定路由,確定性高但無法處理意外情境。
③ 混合編排器(Hybrid)——先走規則路徑,遇到未知情境時回退至 LLM 推理。兼具效率與彈性,為本書推薦模式。
設計要點:規則覆蓋率目標 ≥ 85%,LLM 回退率控制在 15% 以下以維持成本可控。
PLATE XII

任務分解與整合

Task Decomposition & Aggregation
FIG · 12
DAG ANATOMY

一個安全審查任務被分解為有向無環圖(DAG):步驟 1 與 2 可平行執行(本地 grep 掃描 + 雲端 CVE 搜尋),步驟 3 與 4 則依序進行(本地嵌入生成 + 雲端報告撰寫)。最終由聚合節點 合併全部結果。本板呈現任務拆解的解剖學。

安全審查任務 Security Review Task parallel! 步驟 1 · 本地掃描 Local grep + AST parse LOCAL · 7B model 步驟 2 · CVE 搜尋 Cloud CVE DB Search CLOUD · Web API wait for both 步驟 3 · 嵌入生成 Local Embedding Gen LOCAL · nomic-embed 步驟 4 · 報告生成 Cloud Report Synthesis CLOUD · Sonnet 聚合 MERGE 最終安全報告 ~2s ~3s ~1s ~4s Total: ~7s (vs. ~10s serial)
1 TASK UNIT
解剖觀察:透過 DAG 分解,原本需要 10 秒串列執行的安全審查壓縮至 7 秒。關鍵在於 識別哪些步驟可平行化(步驟 1+2 無資料相依),哪些必須依序(步驟 3 需要 1+2 的輸出,步驟 4 需要步驟 3 的嵌入向量)。聚合節點負責衝突解決與結果排序。
PLATE XIII

成本工程

Cost Engineering
FIG · 13
COST CURVE

成本曲線揭示混合架構的經濟邏輯:本地 7B 模型為固定低成本(硬體折舊),雲端 Haiku 與 Sonnet 為線性遞增。三條曲線交叉處即為損益兩平點——超過該流量時,本地推理的邊際成本優勢顯著。 90/10 法則:90% 常規任務由本地處理,10% 高價值任務交給雲端。

每日 Token 使用量 / Daily Tokens (thousands) 每日成本 USD / Daily Cost 100K 500K 1M 2M 5M $5 $20 $50 $100 Local 7B (固定硬體成本) Cloud Haiku Cloud Sonnet breakeven here → 90 / 10 法則 90% 常規任務 → 本地推理 (低邊際成本) 10% 高價值任務 → 雲端模型 (高品質) 本地 7B 雲端 Haiku 雲端 Sonnet
1 COST UNIT
① 損益兩平點——當每日 Token 量超過約 500K 時,本地 7B 模型的每日固定成本(硬體折舊約 $5/日) 低於雲端 Haiku 的線性計費。此時混合架構的成本優勢開始顯現。
90/10 法則:將 90% 的常規推理(程式碼補全、簡單問答、格式轉換)分派至本地模型, 僅 10% 的高價值任務(複雜推理、長文生成、多步規劃)使用雲端 Sonnet。實測可降低 60–70% 總成本。
PLATE XIV

資料治理

Data Governance
FIG · 14
CROSS-SECTION

資料分類如同地質剖面——由底層公開資料到頂層機密資料,每層有嚴格的路由規則與合規要求。 本板以解剖學橫截面呈現四級金字塔,右側標註各層的路由策略,合規徽章以引線連接對應層級。

PUBLIC 公開 開源程式碼、公開文件、一般查詢 INTERNAL 內部 內部文件、API 金鑰雜湊、設定檔 RESTRICTED 限制 PII、財務資料、客戶資料 SECRET 機密 密鑰、模型權重、戰略資料 → 可送雲端 · 無限制 → 雲端需加密 · TLS + 脫敏 → 僅限本地 · 禁止雲端傳輸 → 氣隔環境 · 零外部存取 GDPR HIPAA SOC 2 SECTION B–B′ · 資料分級橫截面 · DATA CLASSIFICATION CROSS-SECTION never leaves the vault
1 CLASSIFICATION UNIT
解剖洞見:資料治理金字塔的每一層不只是標籤——它決定了資料可以流經哪些元件。 PUBLIC 層(①)的資料可自由送往雲端 API;INTERNAL 層(②)需經過 TLS 加密與欄位脫敏; RESTRICTED 層(③)嚴格限制在本地推理環境中處理;SECRET 層(④)必須在氣隔(air-gapped) 環境中運作,完全切斷外部網路存取。合規框架(GDPR、HIPAA、SOC 2)以引線連接至各自 管轄的最低層級。
PLATE XV

參考架構

Reference Architecture — The Grand Plate
FIG · 15
FULL ANATOMY

本板為全書之總成——將十四板中的所有元件組裝為完整的參考架構圖。從使用者層到可觀測性層, 每一元件皆標注其所屬板號。最後附上具體案例:以 Codestral 自動補全 + Nomic 嵌入 + Claude 重構 + Web 搜尋組成的 AI 編程助手。

使用者 / 應用層 · User / Application Layer → Plate I 編排器層 · Orchestrator Layer → Plate XI 任務路由器 Task Router · Plate XII 模型路由器 Model Router · Plate VII 成本守衛 Cost Guard · Plate XIII 資料分級器 Classifier · Plate XIV 本地堆疊 · Local Stack 推理引擎 Inference · Plate III 專用模型 Specialist · Plate IV 向量資料庫 Vector DB · Plate V 檔案系統 Filesystem · Plate V 安全沙箱 · Security Sandbox Plate IX 脈絡引擎 · Context Engine Plate VI 工具執行器 · Tool Executor Plate VIII 模型快取 · Model Cache Plate III 雲端堆疊 · Cloud Stack 託管代理 Managed Agent · Plate II 多廠商 API Multi-Vendor · Plate VII 網路工具 Web Tools · Plate VIII 容器執行 Container · Plate IX 雲端持久化 · Cloud Persistence Plate V 提示快取 · Prompt Cache Plate VI 品質評估 · Evaluation Plate X 速率限制 · Rate Limiter Plate XIII 橋接層 Bridge Layer MCP 協議 Plate VIII 脫敏管線 Sanitize · Plate IX 狀態同步 State Sync · Plate VI 混合路由 Hybrid Router · Plate XI 結構驗證 Schema · Plate VIII 成本計量 Cost Meter · Plate XIII 可觀測性層 · Observability Layer 統一追蹤 · 指標收集 · 日誌聚合 · 成本儀表板 · 警報引擎 → Plate X Traces Metrics Logs Cost Dashboard Alerts SECTION C–C′ · 完整參考架構縱剖面 · FULL REFERENCE ARCHITECTURE LONGITUDINAL SECTION 具體案例:AI 編程助手 · Concrete Walkthrough: AI Coding Assistant 開發者輸入程式碼 Developer types code Codestral 補全 LOCAL · 自動補全 Nomic 嵌入 LOCAL · 語意索引 Claude 重構 CLOUD · 深度推理 Web 搜尋 CLOUD · 最新文件 聚合 最終重構建議 附語意搜尋 + 最新 API 參考 90% local, 10% cloud cost: ~$0.003 per interaction ❶ Codestral (本地 7B) 即時補全 → ❷ Nomic (本地嵌入) 語意搜尋 → ❸ Claude (雲端) 深度重構 → ❹ Web (雲端) 文件查詢 延遲 < 200ms (補全) · 品質 ≥ 雲端純方案 95% · 成本 ↓ 65%
1 ARCHITECTURE UNIT
總覽解剖:完整參考架構由四層構成——使用者層(Plate I)接收請求;編排器層(Plate XI) 內含任務路由器(XII)、模型路由器(VII)、成本守衛(XIII)與資料分級器(XIV); 左右兩側分別為本地堆疊(Plates III–VI, VIII–IX)與雲端堆疊(Plates II, VII–X); 中央橋接層以 MCP 協議(VIII)、脫敏管線(IX)、狀態同步(VI)串連兩岸; 底層可觀測性(Plate X)提供統一追蹤。

案例剖析:AI 編程助手展示了混合架構在真實場景中的運作——Codestral 7B 在本地以 <50ms 延遲提供即時補全,Nomic Embed 在本地建立語意索引,唯有需要深度推理的重構任務才發送至 雲端 Claude,並視需要以 Web 搜尋補充最新文件。整體成本每次互動約 $0.003,僅為純雲端方案的 35%。