[ 當 AI Agent 變成工程解答時 ]

因為 GDE 身份關係,從上週跟 Google 的非公開線上會議、Agent CLI 的提前試用,到今天 Developer Keynote 的發表,自己觀察到幾件事情:

1. AI Agent 的開發架構已經逐漸成熟、標準化與浮出檯面:
當今天你可以使用 Google ADK 作為開發架構,或者是使用 Agent Designer 的自然語言及圖形化介面,搭配著現今的 Coding CLI 工具,都可以幫助你去快速建立起自己的 AI Agent,這在一年前開始推行 Google ADK 的我,其實是很難想像的。

2. Agent 之間,可以更好的溝通:
之前看到 A2A 發表 1.0 時,我就有聞到不尋常的味道,因為 Agent 之間的溝通之前最詬病的就是怎麼很好的進行溝通,但是 A2A 1.0 的到來,讓 Agent 可以更穩定更好的知道自己在跟誰溝通,要怎麼對話,讓 Multi-Agent systems 的可能性和機制往成熟面去做發展。

3. Agent 的可監控性:
企業最擔心的,其實就是 Agent 亂講話,但是當軟體工程開始逐漸去建置監控之後,就有機會知道 Agents, Tools, Skills, Memories 之間的關係,也讓你之間所聽到的所有 AI 技術,都能夠很好地融入在 AI Agent System 中,像是 RAG 就很適合放在 Memory 中做檢索、Context Engineering 中做好上下文控管等等。

4. 任何地方的部署:
透過 DevOps 的經驗,你可以透過 Agent CLI 等,部署到 Google Cloud Run 上,並且推送至雲端環境進行使用,讓你今天做完的 Google ADK AI Agent,能夠很好的被 Infra Team 進行部署工作,而且,你也可以靠著 Github, Gitlab, Terraform 等地方,建立起 CI/CD 的水管,讓開發完成、測試、部署到產品環境這件事情能夠成真。

5. 安全可靠的 AI Agent:
聘僱「員工」就要保護「員工」,在安全的環境下去使用 AI Agent 至關重要,所以擁有資安環境的 AI Agent ,才能夠在安全無虞的狀態下,做好每件事情,也讓公司的員工提升信任度,讓部分事情能夠交給 AI Agent 去做實作。

Agentic AI 時代來臨,也讓 Google Cloud 往下一個大疊代繼續發展,而 APMIC 產品也會持續迭代,讓你在地端開發上,能夠擁有主權模型,也同時讓你可以建立起擁有工作能力的 AI Agent。

不過也要提醒大家,下一世代的工作模式,真的會跟上一代差非常多,可以想像下個十年,當 Agent 原生世代開始進入職場時,可能會讓大家又有一波衝擊,大家要趕快習慣這樣的工作模式了!

#GoogleCloudNext2026 #DeveloperKeynote #AIAgent #GoogleDeveloperExpert

同步發表於我的 Medium: https://lnkd.in/gyBtXjHG
✈️ OpenCLI | 让 AI 直接调用网站和桌面应用,这个 CLI 野心有点大

🏷 检索标签:#OpenCLI #AIAgent #CLI #Playwright #Electron #AI #openclaw

⭐️ 详情介绍:OpenCLI 是个 AI Native 的命令行项目,把原本只能手点的网站、本地工具、Electron 应用,统统改造成 AI 能直接调用的 CLI。它 复用你自己的 Chrome 登录状态 去操作网站,避免风控

  像 B站、知乎、小红书、X、Reddit、YouTube 这些站点,还有 gh、docker 这类本地工具 都支持;再加上 explore 自动摸功能、synthesize 生成适配器、动态注册命令,很多原本得自己慢慢弄得东西接,它先帮你干起来

📖 GitHub · OpenCLI

😌频道 |🙂群聊 |😋中文包 |☺️搜索
所以你真正該問的問題只有一個:「我的一個小時值多少錢?」如果你是開發者、是創作者、是任何用時間換錢的人,請認真算這筆帳。用便宜模型省下的 API 費用,可能還不到你多花的時間值的十分之一。



#我的模型分層策略

基於目前的測試結果,我暫時是這樣分配的:

日常快速回覆:Grok 4.1 Fast。速度快、價格低、品質堪用,適合處理不需要太高智商的日常任務。

需要深度思考的任務:看情況切回 Sonnet 4.5,或者等 DeepSeek V3.2 速度改善後再考慮。有些任務就是需要聰明的腦子,這上面不能省。

最頂級的任務:Claude Sonnet 4.5,甚至 Opus。寫長文、做複雜分析、處理需要高度理解力的工作,頂級模型的品質差距在這些場景最明顯。

核心邏輯就是:用任務的重要程度來決定用哪個等級的模型,而不是一刀切只用最便宜或最貴的。



#給同樣在找替代方案的人的建議

如果你也在考慮從頂級模型往下探索便宜的替代方案,以下是我的幾個建議:

第一,先想清楚你的時間值多少錢。這是所有決策的起點。如果你的時間很值錢,省 API 費用的同時浪費大量時間來引導模型,是一筆虧本的買賣。

第二,Benchmark 分數不等於實際使用體驗。MiniMax M2.5 的跑分看起來不錯,但實際用起來跟頂級模型差很遠。別被數字騙了,自己試過才知道。

第三,不要期待一個模型通吃所有場景。這是我目前最大的心得。不同等級的模型適合不同的任務,學會分層使用才是最有效率的策略。

第四,如果只能試一個,先試 Grok 4.1 Fast。以 Budget 等級來說,它目前是我測過最均衡的選項。速度、價格、品質三個維度都有一定水準。

我還在持續測試更多模型,之後有新的發現會再更新。對了,已經有大神問我 Qwen3 Coder Next 測過了沒,還有最近剛推出自家 Claw 的 MoonshotAI Kimi K2.5 我也還沒試。下一步可能會接著測測看這兩個,目前就先用 Sonnet 4.5 跟 Grok 4.1 Fast 撐著,等有新心得再來更新。

#OpenRouter #OpenClaw #AIAgent #Claude #Grok #DeepSeek #LLM #模型比較 #AI助理
 
 
Back to Top