混合 Agent 架構全書
Cloud × Local × Specialized Models · Fifteen Plates
混合式 Agent 架構的核心命題,在於承認沒有任何單一模型能夠完美覆蓋所有推理場景。雲端大型語言模型擁有驚人的通用推理能力與豐富的世界知識,但它們受限於延遲、成本、以及資料隱私的邊界。本地推理引擎則在速度、離線可用性與資料主權方面佔據優勢,卻在參數規模與推理深度上有所不足。混合架構正是為了調和這兩個世界而誕生的設計典範。
本書以十五幅解剖圖版(Plates)的形式,逐層剖析混合 Agent 系統的每一個器官:從語意路由器的判斷邏輯、本地模型動物園的物種分類、到 MCP 橋接協定的神經突觸。每幅圖版均以生物解剖學的標注方式呈現,力求在精確與直觀之間取得平衡。讀者可將此書視為一部活體解剖圖譜——每個章節都是一次對系統組織的切片觀察。
我們的目標不僅是描述架構,更是建立一套可操作的設計語彙。當你在設計自己的混合 Agent 時,這些圖版將成為你的解剖學參考手冊。
混合宣言
The Hybrid ManifestoCOMPARATIVE ANATOMY
混合架構的誕生源自一個簡單的觀察:雲端模型與本地模型各有其解剖學上的「器官優勢」。將兩者的優勢組織移植到同一個有機體中,便能創造出一個適應力遠超任何單一物種的混合生命體。本圖版以三欄對照的方式,解剖雲端、本地與混合三種架構形態的結構差異。
Annotations
① 延遲與推理深度的取捨是混合架構的第一原理。簡單查詢無需動用雲端重型火力。
② 成本攤銷的關鍵在於流量分級:將 70% 的常規請求導向本地,僅 30% 高複雜度任務送往雲端。
③ 資料分級制度(PII / PHI / 商業機密)決定了哪些 token 永遠不應離開本地邊界。
模型動物園
The Model ZooSPECIMEN CATALOGUE
一個成熟的混合 Agent 系統並非只仰賴一種模型,而是飼養著一整座動物園。每個物種(模型類別)都有其獨特的生態位——有些是雲端巨獸,有些是本地靈活的小型哺乳動物,還有些則是兩棲物種,能在雲端與本地之間自由遷徙。本圖版以標本卡的形式,分類展示混合架構中的八大模型門類。
Dissection Notes
i. 推理型 LLM 目前仍以雲端為主要棲息地,但量化技術正在改變這個現實——DeepSeek-R1 的蒸餾版已可在消費級硬體上運行。
ii. 嵌入模型與分類模型是本地部署的最佳候選:參數量小、推理快、且不涉及生成式輸出的安全風險。
iii. 「兩棲物種」(標記為 BOTH 的模型)是混合架構的戰略資產——它們允許系統根據當前負載與隱私需求動態遷移推理位置。
路由之術
The Art of RoutingDECISION ANATOMY
語意路由器是混合 Agent 的神經中樞——它接收每一個傳入的任務訊號,經過多層判斷後,將請求導向最適合的模型端點。這個過程就像是神經系統的反射弧:簡單刺激走脊髓反射(本地快速模型),複雜思考才送上大腦皮層(雲端推理模型)。本圖版解剖三種路由策略的分層結構。
Annotations
① 規則層是最快的出口——透過正則匹配、關鍵字檢測、或資料分級標籤,在毫秒內完成路由決策。典型規則:包含 PII 的請求強制本地處理。
② 語意層使用預先計算的路由範例(route exemplars)嵌入向量,與輸入的嵌入向量計算餘弦相似度。這種方法不需要訓練分類器,只需維護一組代表性範例。
③ 分類器層是最後的防線。經過微調的 DistilBERT 可以在 2ms 內完成推理,為系統提供一個高精度的兜底路由決策。信心度低於 0.85 時,系統會降級到雲端大模型以確保品質。
本地推理引擎
Local Inference EnginesCROSS-SECTION
本地推理引擎是混合架構的骨骼肌系統——它們決定了系統在脫離雲端供氧後,能以多快的速度、多大的力量獨立運作。四大引擎各有其解剖學特徵:Ollama 以簡潔的 API 包裝降低使用門檻,llama.cpp 提供最大的底層操控彈性,MLX 為 Apple 生態系量身打造的神經通路,而 vLLM 則是高吞吐量場景的心臟泵浦。
Dissection Notes
① Ollama 是大多數開發者的第一站。它將 llama.cpp 包裝成類似 Docker 的使用體驗——ollama pull 就像 docker pull,一行指令即可開始推理。
② llama.cpp 是本地推理的瑞士刀。當你需要精確控制量化等級、記憶體分配、或 GPU 層級分割時,它是唯一的選擇。GGUF 格式已成為本地模型的事實標準。
③ MLX 利用 Apple Silicon 的統一記憶體架構,消除了 CPU↔GPU 之間的資料複製開銷。對 Mac 使用者而言,這意味著可以將全部可用記憶體都用於模型推理。
④ vLLM 的 PagedAttention 機制如同作業系統的虛擬記憶體——將 KV-cache 分頁管理,幾乎消除記憶體碎片。在高並發場景下,吞吐量可達 llama.cpp 的 2-4 倍。
本地專才
Local SpecialistsSPECIMEN PLATE
本地專才模型是混合架構的特化器官——每一個都演化出高度專精的能力,在其領域內的效能甚至超越通用大模型。它們就像解剖學中的腺體:體積不大,卻在系統的特定功能上扮演不可或缺的角色。本圖版以生物標本版的形式,垂直排列六個關鍵的本地專才物種,並標注其解剖特徵。
Annotations
① nomic-embed-text 是本地 RAG 管線的基石。137M 參數量意味著它可以在任何現代 CPU 上以個位數毫秒完成嵌入,無需 GPU。其 768 維向量在 MTEB 基準測試中表現優於許多更大的模型。
② Whisper large-v3-turbo 是 OpenAI 開源的語音辨識模型。透過 whisper.cpp 編譯後,可在 MacBook 的 CPU 上實現即時轉錄,延遲低於人類說話速度。這對需要語音輸入的 Agent 系統至關重要。
③ LLaVA 將視覺理解能力帶到本地端。8B 版本僅需 6GB VRAM,即可理解圖表、文件截圖、與照片內容。這讓混合 Agent 在處理敏感圖像時無需將資料送往雲端。
④ Codestral 支援 Fill-in-Middle(FIM)推理模式,特別適合程式碼自動補全場景。在本地運行意味著你的專有程式碼永遠不會離開你的機器。
⑤ DistilBERT 是路由系統的核心分類器。66M 參數、6 層 Transformer,在 CPU 上僅需 1-5ms 即可完成分類。經過任務路由資料集微調後,可以成為語意路由器的高效前哨站。
⑥ bge-reranker 是 RAG 管線的品質放大器。在初步檢索(bi-encoder)之後,使用 cross-encoder 對候選文件進行精細重排序,顯著提升最終答案的相關性。
本地記憶與工具
Local Memory & ToolsGEOLOGICAL CROSS-SECTION
地表之下,層層堆疊的記憶地層構成了 Agent 的認知基底。自最深處的檔案系統沉積層,經由 SQLite 結構化岩床、向量資料庫含水層,直至 RAG 管線的地表風化帶——每一層皆承載不同形態的知識礦脈。本圖以地質剖面之法,揭示記憶與工具之間的垂直共生關係。
雲端 Agent
Cloud BackboneARCHITECTURAL SECTION
如同剖開一幢建築以窺其內部構造,本圖以建築截面之法展示雲端 Agent 的內在腔室。左側為本地 Agent(綠色外殼),右側為受管理的雲端 Agent(青色穹頂),兩者之間以金色橋梁貫通——此即 Hybrid 架構的脊柱所在。
多供應商路由
Multi-Vendor RoutingCLASSIFICATION MATRIX
如同林奈分類法將物種按屬性歸類,此分類矩陣將六大模型供應商與六種任務類型交叉比對。紅圈標示首選搭配,金圈為次選替代,空格代表不建議使用——形成一幅精確的「物種適配圖譜」,指引路由器在每一次調用時選擇最適模型。
通訊之橋
The Bridge ProtocolCOMPARATIVE MORPHOLOGY
四種通訊協定如同四個近親物種——外形相似卻各有演化優勢。本圖以比較形態學之法,將 MCP、REST、gRPC、訊息佇列並列展示,解剖其內在結構,標註各自的功能器官與適應特徵。MCP 以紅色剖面線框出,標示為推薦物種。
脈絡脫敏
Context SanitizationORGAN PIPELINE
如同消化系統將食物逐段分解、過濾、吸收,脈絡脫敏管線將原始資料經由一系列「器官」處理——偵測個資、遮蔽敏感欄位、語意壓縮、最終輸出淨化後的脈絡。管線下方,審計日誌如同神經系統般不間斷地記錄每一次脫敏操作。
編排器設計
Orchestrator DesignNEURAL PATHWAY
編排器為混合系統的中樞神經——接收使用者請求後,沿三條路徑分派:元代理(Meta-Agent) 自主決策、規則引擎(Rule Engine)確定性路由、混合編排器(Hybrid Orchestrator)兼取二者之長。 本板以神經通路圖示三種模式,金色水洗標記推薦路線。
② 規則引擎(Rule Engine)——以預先定義規則決定路由,確定性高但無法處理意外情境。
③ 混合編排器(Hybrid)——先走規則路徑,遇到未知情境時回退至 LLM 推理。兼具效率與彈性,為本書推薦模式。
設計要點:規則覆蓋率目標 ≥ 85%,LLM 回退率控制在 15% 以下以維持成本可控。
任務分解與整合
Task Decomposition & AggregationDAG ANATOMY
一個安全審查任務被分解為有向無環圖(DAG):步驟 1 與 2 可平行執行(本地 grep 掃描 + 雲端 CVE 搜尋),步驟 3 與 4 則依序進行(本地嵌入生成 + 雲端報告撰寫)。最終由聚合節點 合併全部結果。本板呈現任務拆解的解剖學。
成本工程
Cost EngineeringCOST CURVE
成本曲線揭示混合架構的經濟邏輯:本地 7B 模型為固定低成本(硬體折舊),雲端 Haiku 與 Sonnet 為線性遞增。三條曲線交叉處即為損益兩平點——超過該流量時,本地推理的邊際成本優勢顯著。 90/10 法則:90% 常規任務由本地處理,10% 高價值任務交給雲端。
90/10 法則:將 90% 的常規推理(程式碼補全、簡單問答、格式轉換)分派至本地模型, 僅 10% 的高價值任務(複雜推理、長文生成、多步規劃)使用雲端 Sonnet。實測可降低 60–70% 總成本。
資料治理
Data GovernanceCROSS-SECTION
資料分類如同地質剖面——由底層公開資料到頂層機密資料,每層有嚴格的路由規則與合規要求。 本板以解剖學橫截面呈現四級金字塔,右側標註各層的路由策略,合規徽章以引線連接對應層級。
參考架構
Reference Architecture — The Grand PlateFULL ANATOMY
本板為全書之總成——將十四板中的所有元件組裝為完整的參考架構圖。從使用者層到可觀測性層, 每一元件皆標注其所屬板號。最後附上具體案例:以 Codestral 自動補全 + Nomic 嵌入 + Claude 重構 + Web 搜尋組成的 AI 編程助手。
案例剖析:AI 編程助手展示了混合架構在真實場景中的運作——Codestral 7B 在本地以 <50ms 延遲提供即時補全,Nomic Embed 在本地建立語意索引,唯有需要深度推理的重構任務才發送至 雲端 Claude,並視需要以 Web 搜尋補充最新文件。整體成本每次互動約 $0.003,僅為純雲端方案的 35%。