Google發布Gemini 2.5 Computer Use,AI自主瀏覽網頁填寫表單開啟代理新時代

Google於10月推出Gemini 2.5 Computer Use預覽版,賦予AI代理透過瀏覽器導航與互動網頁的能力,可自動分析使用者請求、執行複雜操作如填寫線上表單。這項技術與Anthropic Claude Computer Use形成競爭,標誌著AI從被動回應轉向主動執行任務的重大轉變,為自動化工作流程開啟無限可能。

Google Gemini 2.5 Computer Use AI代理自主瀏覽網頁與填寫表單示意圖
Google Gemini 2.5 Computer Use AI代理自主瀏覽網頁與填寫表單示意圖

AI代理新里程碑:從對話到行動

Google於2025年10月推出Gemini 2.5 Computer Use預覽版,這項技術突破讓AI不再只是回答問題,而是能真正執行任務。透過瀏覽器環境,Gemini 2.5能自主導航網頁、點擊按鈕、填寫表單、提交資料,實現使用者意圖的端到端自動化。這項發展標誌著AI代理(AI Agent)時代的正式到來,改變人們與數位世界互動的方式。

Gemini 2.5 Computer Use核心功能

瀏覽器自主操作

Gemini 2.5 Computer Use的核心能力在於透過瀏覽器與網頁進行真實互動。系統能理解網頁結構、辨識互動元素(按鈕、輸入框、下拉選單等),並根據使用者指令執行相應操作。

技術實現方式:

  • 視覺理解模型分析網頁截圖,識別可互動元素
  • 自然語言處理引擎理解使用者意圖
  • 決策系統規劃達成目標的操作步驟序列
  • 自動化框架執行點擊、輸入、滾動等動作
  • 即時反饋機制調整策略應對突發狀況

複雜任務處理能力

系統不僅能執行單一操作,更能處理多步驟複雜任務。例如「幫我預訂明天晚上7點的義大利餐廳」這個請求,Gemini 2.5需要:

  1. 搜尋附近義大利餐廳
  2. 比較評價與可訂位時間
  3. 選擇合適餐廳
  4. 導航至訂位網站
  5. 填寫日期、時間、人數
  6. 輸入聯絡資訊
  7. 確認訂位並截圖通知使用者

整個流程涉及多個網站導航、表單填寫、資訊驗證,展現AI代理的端到端任務執行能力。

表單自動填寫

線上表單填寫是Gemini 2.5 Computer Use的重點應用場景。系統能:

智慧資料提取: 從使用者先前對話或個人資料庫中提取相關資訊,自動填入姓名、地址、電話、電子郵件等欄位。

情境式判斷: 理解表單語境,正確選擇下拉選單選項、勾選核取方塊、上傳必要文件。例如在「職業」欄位選擇「軟體工程師」而非「學生」。

驗證與修正: 送出前檢查必填欄位是否完整、格式是否正確(如電子郵件格式、電話號碼位數),並自動修正常見錯誤。

多語言支援: 處理不同語言的表單,自動翻譯與對應欄位,降低跨國服務使用門檻。

技術架構與實現

多模態理解

Gemini 2.5整合視覺、文字、語音多種模態,全面理解網頁內容:

視覺分析: 截取網頁畫面,使用電腦視覺模型識別版面配置、按鈕位置、文字內容。相較於傳統DOM解析,視覺方法能處理動態渲染、Canvas繪圖、影子DOM等複雜情況。

語意理解: 分析網頁HTML結構與文字內容,理解資訊層級與語意關係。例如識別「姓名」欄位與「聯絡資訊」區塊的從屬關係。

行為預測: 基於大量網頁互動數據訓練,預測點擊特定元素後的可能結果,規劃最有效的操作路徑。

安全與隱私機制

授權使用者操作網頁涉及敏感資訊,Google針對安全隱私設計多重防護:

明確授權: 執行任何涉及個人資料或金融交易的操作前,系統必須獲得使用者明確授權。例如提交信用卡資訊前,會顯示將填寫的內容供使用者確認。

資料加密: 所有個人資訊採用端到端加密,Google伺服器不儲存明文密碼、信用卡號等敏感資料。

操作日誌: 記錄AI代理執行的所有操作,使用者可隨時查看與撤銷。若發生非預期行為,日誌有助於追蹤問題根源。

沙盒環境: AI代理在隔離的瀏覽器環境中運行,防止惡意網站利用AI權限進行攻擊。

與Anthropic Claude Computer Use比較

Google Gemini 2.5 Computer Use與Anthropic於2025年10月同期推出的Claude Computer Use形成直接競爭:

Gemini 2.5優勢:

  • 深度整合Google生態系(Chrome、Android、Search)
  • 支援更多語言(40+種 vs Claude的20+種)
  • 與Google Workspace無縫協作
  • 免費層級提供基礎功能

Claude優勢:

  • 更強的推理與規劃能力(基於Claude 3.5 Sonnet)
  • 更高的操作準確度(減少錯誤點擊)
  • 更細緻的任務進度回饋
  • 企業級安全認證(SOC 2 Type II)

共同挑戰:

  • 處理複雜多步驟任務時偶爾失敗
  • 面對驗證碼(CAPTCHA)需人工介入
  • 動態載入內容可能導致元素定位錯誤
  • 不同網站設計的相容性問題

應用場景與實際案例

個人生產力提升

行政庶務自動化:

  • 自動填寫政府表單(報稅、補助申請)
  • 預訂交通票券與住宿
  • 管理線上帳單繳費
  • 追蹤網購訂單狀態

資訊收集整理:

  • 監控特定主題新聞,整理摘要
  • 比較電商平台商品價格
  • 追蹤求職網站新職缺
  • 彙整學術論文引用資料

企業應用場景

客戶服務自動化: 企業可部署Gemini 2.5代理,自動處理常見客戶請求。例如訂單查詢、退換貨申請、帳單問題,AI代理導航企業系統、提取資訊、更新記錄,大幅減少人工客服負擔。

數據輸入與遷移: 將資料從舊系統遷移至新平台,AI代理自動登入兩邊系統、提取欄位、對應格式、批次輸入。過去需要數週的資料遷移專案,可能縮短至數天。

競爭情報監控: 自動追蹤競爭對手網站更新、產品定價變動、市場活動發布,即時通知相關團隊。

法規遵循檢查: 定期檢視企業網站是否符合最新法規要求(如無障礙標準、隱私政策),自動生成合規報告。

開發者工作流程

自動化測試: 開發者可指示Gemini 2.5模擬使用者操作,執行端到端測試。例如「註冊新帳號→登入→加入購物車→結帳」流程,AI代理自動執行並回報錯誤。

多瀏覽器相容性測試: 在Chrome、Firefox、Safari、Edge等不同瀏覽器中自動執行相同操作,比較結果差異,找出相容性問題。

效能監控: 定期訪問網站關鍵頁面,測量載入時間、互動延遲,長期追蹤效能指標變化。

技術限制與挑戰

當前侷限性

驗證碼障礙: CAPTCHA、reCAPTCHA等驗證機制專門設計來阻擋自動化程式,AI代理遇到驗證碼時需人工介入。雖然部分簡單驗證碼已可突破,但複雜的圖像辨識仍是挑戰。

動態網頁處理: 高度依賴JavaScript渲染的單頁應用(SPA),元素可能動態出現消失,導致AI代理定位錯誤或操作時機不當。

非標準UI元件: 使用自定義UI框架或非語意化HTML的網站,AI代理難以理解元素功能。例如用<div>實作的按鈕,缺乏語意標記,辨識困難。

情境理解深度: 面對需要深度情境理解的任務,AI代理可能做出不當決策。例如選擇航班時,無法判斷使用者是否願意接受轉機以省錢,還是優先直飛便利性。

倫理與法律問題

自動化濫用風險: 惡意使用者可能利用AI代理進行垃圾帳號註冊、搶購限量商品、刷票灌水等行為。Google需建立檢測與防範機制。

責任歸屬: AI代理執行錯誤操作造成損失(如訂錯機票、填錯金額),責任應由使用者、Google還是第三方服務承擔?法律框架尚不明確。

就業影響: 大量客服、資料輸入、行政助理工作可能被AI代理取代,引發失業與社會適應問題。

隱私監控疑慮: AI代理需存取使用者瀏覽行為與個人資料,如何防止數據濫用、確保透明度,是長期挑戰。

與Google生態系整合

Chrome瀏覽器深度整合

Gemini 2.5 Computer Use優先在Chrome瀏覽器推出,利用Chrome的擴充功能API與開發者工具協定,實現精確的網頁控制。未來版本可能整合至Chrome核心,提供更流暢的使用者體驗。

Google Workspace協作

Gmail自動化: AI代理自動整理郵件、標記重要訊息、草擬回覆,甚至根據郵件內容自動填寫相關表單。

Google Sheets數據處理: 從網頁擷取數據自動填入試算表,執行公式計算、生成圖表,建立自動化報告流程。

Google Calendar行程管理: 解析郵件與聊天中的行程資訊,自動建立日曆事件、設定提醒、邀請參與者。

Android行動裝置擴展

Google計畫將Computer Use能力延伸至Android裝置。使用者可透過語音或文字指令,讓AI代理在手機上執行操作:點擊App、填寫表單、截圖分享。這將大幅提升行動裝置的自動化程度。

產業影響與未來展望

AI代理市場競爭

Gemini 2.5 Computer Use的推出,加速AI代理市場競爭:

主要競爭者:

  • Anthropic Claude Computer Use: 推理能力強,企業市場定位
  • OpenAI Operator(傳聞): 整合ChatGPT,龐大使用者基礎
  • Microsoft Copilot Vision: 整合Windows與Office,企業優勢
  • 新創公司: Adept、Hyperwrite、Multion等專注垂直領域

自動化革命加速

AI代理普及將引發新一波自動化革命,影響範圍超越製造業,延伸至知識工作與服務業:

受影響職業:

  • 客服人員(自動處理常見問題)
  • 資料輸入員(AI代理取代人工輸入)
  • 行政助理(行程安排、文件處理自動化)
  • 初階分析師(資料收集整理工作減少)

新興職業機會:

  • AI代理訓練師(優化AI行為與決策)
  • 自動化流程設計師(規劃企業AI代理應用)
  • AI倫理監督員(確保AI使用符合規範)
  • 人機協作專家(設計人類與AI協作模式)

技術發展方向

多代理協作: 未來不是單一AI代理處理所有任務,而是專門化代理協作。例如「研究代理」收集資訊、「決策代理」評估選項、「執行代理」完成操作。

持續學習改進: AI代理透過使用者回饋與成功失敗經驗,持續優化操作策略。個人化學習讓代理越來越理解使用者偏好與習慣。

跨平台統一: 未來AI代理可能不限於網頁,延伸至桌面應用、手機App、物聯網裝置,實現跨平台無縫自動化。

開發者如何使用

API存取方式

Google提供Gemini 2.5 Computer Use API,開發者可整合至自己的應用程式:

認證與授權: 使用Google Cloud專案申請API金鑰,設定OAuth 2.0授權流程,確保安全存取。

基本呼叫範例:

from google import generativeai as genai

genai.configure(api_key='YOUR_API_KEY')
model = genai.GenerativeModel('gemini-2.5-computer-use')

response = model.generate_content({
    'task': 'Fill out the contact form on example.com',
    'data': {
        'name': 'John Doe',
        'email': '[email protected]',
        'message': 'Inquiry about pricing'
    }
})

print(response.status)  # 'completed' or 'failed'
print(response.screenshot)  # 完成操作的截圖

定價模式

免費層級: 每月500次API呼叫,適合個人開發者與小型專案測試。

標準層級: 每千次呼叫10美元,適合中小型企業應用。

企業層級: 客製化定價,包含專屬支援、SLA保證、優先存取新功能。

最佳實踐建議

明確任務定義: 提供清晰的操作步驟與預期結果,降低AI誤判機率。

錯誤處理機制: 實作重試邏輯與失敗通知,確保關鍵任務不因單次失敗而中斷。

使用者確認流程: 涉及敏感操作(金融交易、資料刪除)時,必須加入人工確認步驟。

日誌與監控: 記錄所有API呼叫與結果,建立儀表板監控成功率、回應時間等指標。

對台灣市場的意義

在地化挑戰

繁體中文支援: Gemini 2.5需準確理解繁體中文網頁結構與表單欄位,處理台灣特有的地址格式、身分證字號驗證等。

政府數位服務: 台灣政府推動數位轉型,AI代理可協助民眾填寫線上申請表單,降低數位落差。但需確保符合個資法規範。

電商與金融應用: 台灣電商與網路銀行使用率高,AI代理可簡化購物比價、轉帳繳費流程,提升使用者體驗。

產業應用潛力

中小企業數位化: 台灣中小企業眾多,許多仍依賴人工處理訂單、庫存、客服。AI代理可提供低成本自動化方案,提升競爭力。

跨境電商支援: 協助台灣賣家自動處理多國平台上架、訂單管理、物流追蹤,降低跨境經營門檻。

總結

Google Gemini 2.5 Computer Use的推出,標誌著AI從「理解」邁向「行動」的關鍵轉變。透過瀏覽器自主操作網頁、填寫表單、執行複雜任務,AI代理正在重新定義人機互動模式。雖然技術仍有限制,倫理法律問題有待解決,但其潛力無可否認。未來幾年,AI代理可能成為每個人的數位助手,自動處理繁瑣任務,讓人類專注於創造性與策略性工作。對開發者、企業與使用者而言,現在正是了解與實驗這項技術的最佳時機。

作者:Drifter

·

更新:2025年10月22日 上午06:00

· 回報錯誤
下拉重新整理