HYBRID AGENT ARCHITECTURE · ANATOMICAL EDITION

混合 Agent 架構全書

Cloud × Local × Specialized Models · Fifteen Plates

HYBRID ANATOMY ROUTING LOCAL CLOUD MCP ORCHESTRATOR GOVERNANCE COST REFERENCE

混合式 Agent 架構的核心命題，在於承認沒有任何單一模型能夠完美覆蓋所有推理場景。雲端大型語言模型擁有驚人的通用推理能力與豐富的世界知識，但它們受限於延遲、成本、以及資料隱私的邊界。本地推理引擎則在速度、離線可用性與資料主權方面佔據優勢，卻在參數規模與推理深度上有所不足。混合架構正是為了調和這兩個世界而誕生的設計典範。

本書以十五幅解剖圖版（Plates）的形式，逐層剖析混合 Agent 系統的每一個器官：從語意路由器的判斷邏輯、本地模型動物園的物種分類、到 MCP 橋接協定的神經突觸。每幅圖版均以生物解剖學的標注方式呈現，力求在精確與直觀之間取得平衡。讀者可將此書視為一部活體解剖圖譜——每個章節都是一次對系統組織的切片觀察。

我們的目標不僅是描述架構，更是建立一套可操作的設計語彙。當你在設計自己的混合 Agent 時，這些圖版將成為你的解剖學參考手冊。

PLATE I

混合宣言

The Hybrid Manifesto

FIG · 1
COMPARATIVE ANATOMY

混合架構的誕生源自一個簡單的觀察：雲端模型與本地模型各有其解剖學上的「器官優勢」。將兩者的優勢組織移植到同一個有機體中，便能創造出一個適應力遠超任何單一物種的混合生命體。本圖版以三欄對照的方式，解剖雲端、本地與混合三種架構形態的結構差異。

1 CAPABILITY UNIT

Annotations

① 延遲與推理深度的取捨是混合架構的第一原理。簡單查詢無需動用雲端重型火力。

② 成本攤銷的關鍵在於流量分級：將 70% 的常規請求導向本地，僅 30% 高複雜度任務送往雲端。

③ 資料分級制度（PII / PHI / 商業機密）決定了哪些 token 永遠不應離開本地邊界。

PLATE II

模型動物園

The Model Zoo

FIG · 2
SPECIMEN CATALOGUE

一個成熟的混合 Agent 系統並非只仰賴一種模型，而是飼養著一整座動物園。每個物種（模型類別）都有其獨特的生態位——有些是雲端巨獸，有些是本地靈活的小型哺乳動物，還有些則是兩棲物種，能在雲端與本地之間自由遷徙。本圖版以標本卡的形式，分類展示混合架構中的八大模型門類。

1 MODEL CLASS

Dissection Notes

i. 推理型 LLM 目前仍以雲端為主要棲息地，但量化技術正在改變這個現實——DeepSeek-R1 的蒸餾版已可在消費級硬體上運行。

ii. 嵌入模型與分類模型是本地部署的最佳候選：參數量小、推理快、且不涉及生成式輸出的安全風險。

iii. 「兩棲物種」（標記為 BOTH 的模型）是混合架構的戰略資產——它們允許系統根據當前負載與隱私需求動態遷移推理位置。

PLATE III

路由之術

The Art of Routing

FIG · 3
DECISION ANATOMY

語意路由器是混合 Agent 的神經中樞——它接收每一個傳入的任務訊號，經過多層判斷後，將請求導向最適合的模型端點。這個過程就像是神經系統的反射弧：簡單刺激走脊髓反射（本地快速模型），複雜思考才送上大腦皮層（雲端推理模型）。本圖版解剖三種路由策略的分層結構。

1 DECISION NODE

Annotations

① 規則層是最快的出口——透過正則匹配、關鍵字檢測、或資料分級標籤，在毫秒內完成路由決策。典型規則：包含 PII 的請求強制本地處理。

② 語意層使用預先計算的路由範例（route exemplars）嵌入向量，與輸入的嵌入向量計算餘弦相似度。這種方法不需要訓練分類器，只需維護一組代表性範例。

③ 分類器層是最後的防線。經過微調的 DistilBERT 可以在 2ms 內完成推理，為系統提供一個高精度的兜底路由決策。信心度低於 0.85 時，系統會降級到雲端大模型以確保品質。

PLATE IV

本地推理引擎

Local Inference Engines

FIG · 4
CROSS-SECTION

本地推理引擎是混合架構的骨骼肌系統——它們決定了系統在脫離雲端供氧後，能以多快的速度、多大的力量獨立運作。四大引擎各有其解剖學特徵：Ollama 以簡潔的 API 包裝降低使用門檻，llama.cpp 提供最大的底層操控彈性，MLX 為 Apple 生態系量身打造的神經通路，而 vLLM 則是高吞吐量場景的心臟泵浦。

1 ENGINE

Dissection Notes

① Ollama 是大多數開發者的第一站。它將 llama.cpp 包裝成類似 Docker 的使用體驗——ollama pull 就像 docker pull，一行指令即可開始推理。

② llama.cpp 是本地推理的瑞士刀。當你需要精確控制量化等級、記憶體分配、或 GPU 層級分割時，它是唯一的選擇。GGUF 格式已成為本地模型的事實標準。

③ MLX 利用 Apple Silicon 的統一記憶體架構，消除了 CPU↔GPU 之間的資料複製開銷。對 Mac 使用者而言，這意味著可以將全部可用記憶體都用於模型推理。

④ vLLM 的 PagedAttention 機制如同作業系統的虛擬記憶體——將 KV-cache 分頁管理，幾乎消除記憶體碎片。在高並發場景下，吞吐量可達 llama.cpp 的 2-4 倍。

PLATE V

本地專才

Local Specialists

FIG · 5
SPECIMEN PLATE

本地專才模型是混合架構的特化器官——每一個都演化出高度專精的能力，在其領域內的效能甚至超越通用大模型。它們就像解剖學中的腺體：體積不大，卻在系統的特定功能上扮演不可或缺的角色。本圖版以生物標本版的形式，垂直排列六個關鍵的本地專才物種，並標注其解剖特徵。

1 SPECIMEN

Annotations

① nomic-embed-text 是本地 RAG 管線的基石。137M 參數量意味著它可以在任何現代 CPU 上以個位數毫秒完成嵌入，無需 GPU。其 768 維向量在 MTEB 基準測試中表現優於許多更大的模型。

② Whisper large-v3-turbo 是 OpenAI 開源的語音辨識模型。透過 whisper.cpp 編譯後，可在 MacBook 的 CPU 上實現即時轉錄，延遲低於人類說話速度。這對需要語音輸入的 Agent 系統至關重要。

③ LLaVA 將視覺理解能力帶到本地端。8B 版本僅需 6GB VRAM，即可理解圖表、文件截圖、與照片內容。這讓混合 Agent 在處理敏感圖像時無需將資料送往雲端。

④ Codestral 支援 Fill-in-Middle（FIM）推理模式，特別適合程式碼自動補全場景。在本地運行意味著你的專有程式碼永遠不會離開你的機器。

⑤ DistilBERT 是路由系統的核心分類器。66M 參數、6 層 Transformer，在 CPU 上僅需 1-5ms 即可完成分類。經過任務路由資料集微調後，可以成為語意路由器的高效前哨站。

⑥ bge-reranker 是 RAG 管線的品質放大器。在初步檢索（bi-encoder）之後，使用 cross-encoder 對候選文件進行精細重排序，顯著提升最終答案的相關性。

PLATE VI

本地記憶與工具

Local Memory & Tools

FIG · 6
GEOLOGICAL CROSS-SECTION

地表之下，層層堆疊的記憶地層構成了 Agent 的認知基底。自最深處的檔案系統沉積層，經由 SQLite 結構化岩床、向量資料庫含水層，直至 RAG 管線的地表風化帶——每一層皆承載不同形態的知識礦脈。本圖以地質剖面之法，揭示記憶與工具之間的垂直共生關係。

1 LAYER

地層隱喻：愈深層的記憶愈穩定、延遲愈高；地表 RAG 管線提供即時檢索能力，如同風化作用將深層礦物帶至可及之處。

Embed 策略：使用 sentence-transformers/all-MiniLM-L6-v2 於本地 CPU 即可處理十萬級文件，無需 GPU。 -- keep it local!

Rerank 階段：Cross-encoder 對 top-50 候選重新排序至 top-5，大幅提升精確度。成本：每次約 80ms。

工具安全：所有 shell_exec 呼叫受 seccomp 沙箱限制，file_write 限於白名單目錄，sql_query 強制唯讀模式。

PLATE VII

雲端 Agent

Cloud Backbone

FIG · 7
ARCHITECTURAL SECTION

如同剖開一幢建築以窺其內部構造，本圖以建築截面之法展示雲端 Agent 的內在腔室。左側為本地 Agent（綠色外殼），右側為受管理的雲端 Agent（青色穹頂），兩者之間以金色橋梁貫通——此即 Hybrid 架構的脊柱所在。

1 MODULE

建築截面法：如同剖開牆面觀察管線配置，此圖揭示每一層的內部職責。本地與雲端各自為完整建築，橋梁為唯一連通點。

橋梁設計：所有跨界通訊皆經橋梁——單一控制點實現認證、限流、日誌、脈絡脫敏。 -- chokepoint = safety

故障隔離：雲端不可用時，本地 Agent 仍可獨立運行。橋梁實作 circuit-breaker 模式，自動降級至本地推理。

沙箱安全：雲端沙箱使用 Firecracker microVM，記憶體上限 512MB，CPU 時間上限 30 秒，網路白名單制。

PLATE VIII

多供應商路由

Multi-Vendor Routing

FIG · 8
CLASSIFICATION MATRIX

如同林奈分類法將物種按屬性歸類，此分類矩陣將六大模型供應商與六種任務類型交叉比對。紅圈標示首選搭配，金圈為次選替代，空格代表不建議使用——形成一幅精確的「物種適配圖譜」，指引路由器在每一次調用時選擇最適模型。

1 VENDOR

路由邏輯：根據任務類型、延遲需求、成本預算、可用性狀態四維度加權評分，選出最適供應商。紅圈模型獲最高基礎分。

Fallback 機制：主選模型逾時或返回錯誤時，沿鏈自動切換。每次切換計入 degradation metric，累計超過閾值則發出告警。

成本控制：DeepSeek R1 在推理任務上性價比最高，可作為非關鍵路徑的預設選擇。 -- watch the bill!

延遲分級：即時對話要求 <500ms TTFT，GPT-4o 與 Gemini Flash 為此場景最佳。長文脈絡任務允許 <5s 延遲。

PLATE IX

通訊之橋

The Bridge Protocol

FIG · 9
COMPARATIVE MORPHOLOGY

四種通訊協定如同四個近親物種——外形相似卻各有演化優勢。本圖以比較形態學之法，將 MCP、REST、gRPC、訊息佇列並列展示，解剖其內在結構，標註各自的功能器官與適應特徵。MCP 以紅色剖面線框出，標示為推薦物種。

1 PROTOCOL

物種比較：四種協定如同四個近親屬——共享「訊息傳遞」的基本功能，卻在序列化效率、串流能力、生態支援上各自演化出不同特徵。

MCP 優勢：唯一為 Agent 場景原生設計的協定。工具發現、資源存取、提示模板、取樣回呼四大功能統一於單一協定中。 -- born for agents

混合策略：實務中常以 MCP 為主幹，REST 做對外 API 介面，gRPC 用於微服務間熱路徑，MQ 處理批次或需重試的工作。

延遲預算：MCP (stdio) 延遲約 5ms，REST 約 10-50ms，gRPC 約 2-8ms，MQ 視佇列深度而定。選擇時需考慮端到端 SLA。

PLATE X

脈絡脫敏

Context Sanitization

FIG · 10
ORGAN PIPELINE

如同消化系統將食物逐段分解、過濾、吸收，脈絡脫敏管線將原始資料經由一系列「器官」處理——偵測個資、遮蔽敏感欄位、語意壓縮、最終輸出淨化後的脈絡。管線下方，審計日誌如同神經系統般不間斷地記錄每一次脫敏操作。

1 STAGE

消化隱喻：每個器官執行單一職責——偵測器只偵測不修改，遮蔽器只遮蔽不壓縮。此管線遵循 Unix 哲學：「做好一件事」。

PII 偵測：結合 NER 模型 (spaCy/Presidio) 與正則表達式雙軌偵測。支援中英日韓四語之個資格式。 -- never skip this

遮蔽策略：三種模式——MASK (以 [REDACTED] 替換)、HASH (單向雜湊保留關聯性)、FAKE (合成假資料維持格式)。依合規等級選擇。

審計不可變性：日誌寫入 append-only storage，每筆記錄含 input/output 雜湊值。任何篡改皆可被偵測。GDPR/HIPAA 合規必備。

PLATE XI

編排器設計

Orchestrator Design

FIG · 11
NEURAL PATHWAY

編排器為混合系統的中樞神經——接收使用者請求後，沿三條路徑分派：元代理（Meta-Agent）自主決策、規則引擎（Rule Engine）確定性路由、混合編排器（Hybrid Orchestrator）兼取二者之長。本板以神經通路圖示三種模式，金色水洗標記推薦路線。

1 DECISION UNIT

① 元代理（Meta-Agent）——完全以 LLM 決定路由，彈性最高但成本不可預測。適合探索性任務。
② 規則引擎（Rule Engine）——以預先定義規則決定路由，確定性高但無法處理意外情境。
③ 混合編排器（Hybrid）——先走規則路徑，遇到未知情境時回退至 LLM 推理。兼具效率與彈性，為本書推薦模式。
設計要點：規則覆蓋率目標 ≥ 85%，LLM 回退率控制在 15% 以下以維持成本可控。

PLATE XII

任務分解與整合

Task Decomposition & Aggregation

FIG · 12
DAG ANATOMY

一個安全審查任務被分解為有向無環圖（DAG）：步驟 1 與 2 可平行執行（本地 grep 掃描 + 雲端 CVE 搜尋），步驟 3 與 4 則依序進行（本地嵌入生成 + 雲端報告撰寫）。最終由聚合節點合併全部結果。本板呈現任務拆解的解剖學。

1 TASK UNIT

解剖觀察：透過 DAG 分解，原本需要 10 秒串列執行的安全審查壓縮至 7 秒。關鍵在於識別哪些步驟可平行化（步驟 1+2 無資料相依），哪些必須依序（步驟 3 需要 1+2 的輸出，步驟 4 需要步驟 3 的嵌入向量）。聚合節點負責衝突解決與結果排序。

PLATE XIII

成本工程

Cost Engineering

FIG · 13
COST CURVE

成本曲線揭示混合架構的經濟邏輯：本地 7B 模型為固定低成本（硬體折舊），雲端 Haiku 與 Sonnet 為線性遞增。三條曲線交叉處即為損益兩平點——超過該流量時，本地推理的邊際成本優勢顯著。 90/10 法則：90% 常規任務由本地處理，10% 高價值任務交給雲端。

1 COST UNIT

① 損益兩平點——當每日 Token 量超過約 500K 時，本地 7B 模型的每日固定成本（硬體折舊約 $5/日）低於雲端 Haiku 的線性計費。此時混合架構的成本優勢開始顯現。
90/10 法則：將 90% 的常規推理（程式碼補全、簡單問答、格式轉換）分派至本地模型，僅 10% 的高價值任務（複雜推理、長文生成、多步規劃）使用雲端 Sonnet。實測可降低 60–70% 總成本。

PLATE XIV

資料治理

Data Governance

FIG · 14
CROSS-SECTION

資料分類如同地質剖面——由底層公開資料到頂層機密資料，每層有嚴格的路由規則與合規要求。本板以解剖學橫截面呈現四級金字塔，右側標註各層的路由策略，合規徽章以引線連接對應層級。

1 CLASSIFICATION UNIT

解剖洞見：資料治理金字塔的每一層不只是標籤——它決定了資料可以流經哪些元件。 PUBLIC 層（①）的資料可自由送往雲端 API；INTERNAL 層（②）需經過 TLS 加密與欄位脫敏； RESTRICTED 層（③）嚴格限制在本地推理環境中處理；SECRET 層（④）必須在氣隔（air-gapped）環境中運作，完全切斷外部網路存取。合規框架（GDPR、HIPAA、SOC 2）以引線連接至各自管轄的最低層級。

PLATE XV

參考架構

Reference Architecture — The Grand Plate

FIG · 15
FULL ANATOMY

本板為全書之總成——將十四板中的所有元件組裝為完整的參考架構圖。從使用者層到可觀測性層，每一元件皆標注其所屬板號。最後附上具體案例：以 Codestral 自動補全 + Nomic 嵌入 + Claude 重構 + Web 搜尋組成的 AI 編程助手。

1 ARCHITECTURE UNIT

總覽解剖：完整參考架構由四層構成——使用者層（Plate I）接收請求；編排器層（Plate XI）內含任務路由器（XII）、模型路由器（VII）、成本守衛（XIII）與資料分級器（XIV）；左右兩側分別為本地堆疊（Plates III–VI, VIII–IX）與雲端堆疊（Plates II, VII–X）；中央橋接層以 MCP 協議（VIII）、脫敏管線（IX）、狀態同步（VI）串連兩岸；底層可觀測性（Plate X）提供統一追蹤。

案例剖析：AI 編程助手展示了混合架構在真實場景中的運作——Codestral 7B 在本地以 <50ms 延遲提供即時補全，Nomic Embed 在本地建立語意索引，唯有需要深度推理的重構任務才發送至雲端 Claude，並視需要以 Web 搜尋補充最新文件。整體成本每次互動約 $0.003，僅為純雲端方案的 35%。