非牟利研究機構 METR 近日發表一項針對 AI 編程工具實際效益的研究,結果顯示,在真實軟件開發過程中,這些工具不但未能提升效率,反而令經驗豐富開發者的生產力平均下降 19%。研究更發現,部分開發者在使用 AI 工具後,需花費大量時間檢視輸出內容、修正錯誤及重複生成,形成不必要的時間浪費。
是次研究涵蓋 16 名具備中等 AI 使用經驗、並長期參與開源專案的資深開發者。他們需於 246 項任務中選擇合適內容進行程式編寫,部分任務允許使用 AI 工具,部分則不准使用,藉此比較 AI 對完成任務時間的實質影響。結果顯示,在開發者估算自己任務完成時間與實際表現之間出現明顯偏差。即使在完成任務後,多數參與者依然誤以為使用 AI 可令任務速度提升 20%,與實際表現背道而馳。
研究期間,參與者需使用最新 AI 編程工具,包括 Cursor Pro、Claude 3.5 Sonnet 和 Claude 3.7 Sonnet。他們在操作過程中會進行畫面錄影,讓研究團隊得以精準記錄整個開發流程。分析結果揭示,開發者花費大量時間在「檢視 AI 輸出」、「向 AI 發出新指令」及「等待 AI 生成」等環節,這些額外工序約佔總工作時間超過 20%。相比之下,真正編寫程式碼的時間僅減少約 10%。
研究指出,AI 工具輸出的內容往往未能符合開源專案嚴格標準,導致開發者需反覆修正、調整,甚至完全捨棄輸出內容再重新生成。在 Cursor Pro 的使用中,只有 39% 的代碼最終獲開發者採用,而且全數經過人工修訂,並非直接使用。
創立早期文字處理工具 Writely 並被 Google 收購的 Steve Newman 在分析報告後表示,許多人以為 AI 工具能加快工作,其實可能完全相反。他認為這份研究未有貶低 AI 編程工具價值,但卻清晰指出現階段技術仍有重大限制。他更補充,研究最大啟示在於多數開發者對 AI 工具效能評估過於樂觀,這將對業界推動 AI 編程應用帶來深遠影響。
METR 團隊亦於研究中指出,即使開發者事前曾接受如 Cursor Pro 操作課程的基本訓練,對於如何有效整合 AI 工具進實際專案仍存在落差。即使 AI 工具潛力巨大,但若無法提升輸出內容品質,最終亦會成為拖慢整體開發速度的主因。
雖然研究在特定高品質、高複雜度的專案環境下進行,但報告強調,這類環境正正是大量企業真實開發工作的寫照。開發者需要更多具針對性的 AI 工具改良,才能真正實現工作流程自動化與效能提升。
資料來源:METR
Second Thoughts
分享到 :
最新影片