近日有開發者透過逆向工程,發現 Anthropic 旗下 AI 程式碼工具 Claude Code 內藏一套隱藏機制,專門在使用者啟用代理連線時,檢測對方是否與中國時區、中國 AI 實驗室或代理轉售服務有關。這套機制不會直接寫下明顯標籤,而是透過肉眼難以察覺的日期格式與 Unicode 字元差異,把判斷結果悄悄嵌入系統提示詞中。事件曝光後,Anthropic 工程師承認這是 3 月推出的實驗性功能,並表示已啟動移除程序。
Reddit 用戶逆向拆解二進位檔案
爆料源自 Reddit 使用者 LegitMichel777,他發現 Claude Code 2.1.196 版在啟用代理連線後會停用 Remote Control 功能,於是進一步拆解程式二進位檔案,結果揪出一段可疑程式碼。這段程式碼會讀取 ANTHROPIC_BASE_URL 環境變數,一旦連線路徑並非官方 api.anthropic.com,系統便會提取代理主機名稱並檢查本機時區。當時區設定為上海 (Asia/Shanghai) 或烏魯木齊 (Asia/Urumqi) 時,機制便會進一步比對代理網域是否帶有中國 AI 實驗室特徵,例如 DeepSeek、Moonshot、Zhipu 等關鍵字,相關網域清單更以 Base64 及 XOR 方式加密隱藏。
日期格式暗藏 Unicode 字元差異
最關鍵的部分,是判斷結果不會透過獨立遙測欄位傳送,而是直接改寫系統提示詞中「Today’s date is」這一句。舉例來說,一般日期格式「2026-06-30」在中國時區下會變成「2026/06/30」,同時「Today’s」中的英文單引號亦會被替換成外觀近乎一樣、但 Unicode 編碼不同的字元。由於變化極其細微,一般使用者根本無法察覺,但後端只要知道應該觀察哪個符號差異,就能反推出使用者的連線分類。
Anthropic 承認實驗性質 已合併移除 PR
事件曝光後,Anthropic Claude Code 團隊工程師 Thariq Shihipar 在 X 上回應,指這是今年 3 月推出的實驗性功能,目的是防止未授權轉售商濫用帳號,同時防堵模型蒸餾行為。他強調團隊後來已導入更強防護措施,其實一直有意撤下這套舊機制,現時相關 Pull Request 已合併完成,將於下一次版本更新後全面移除。獨立開發者 Thereallo 則批評,即使 Anthropic 有正當理由保護模型智慧財產權,也不應在使用者不知情下把系統環境與代理設定訊號藏入提示詞。
背景:中國實驗室大規模蒸餾攻擊
Anthropic 今年 2 月曾發布報告,指控 DeepSeek、Moonshot 及 MiniMax 三間中國實驗室透過 24,000 個偽造帳號及代理網絡,進行工業規模的模型蒸餾攻擊,涉及超過 1,600 萬次對話交流。報告指 MiniMax 單一實驗室便發出 1,300 萬次查詢,專門針對 Claude 的程式碼代理能力進行複製訓練。這次隱藏標記機制被外界視為 Anthropic 應對蒸餾攻擊的延伸手段,但因缺乏透明度而引發信任爭議。
資料來源:Cybernews
