最近一個研究發現,中國推廣的 AI 手語翻譯虛擬主播存在嚴重問題,2,050 萬聽障人士難以理解其動作。研究顯示,AI 生成的手語版本遺失或扭曲大量關鍵資訊,反映開發過程缺乏聾人參與及對手語特性的理解不足。
中國政府自 2022 年北京冬奧會開始推廣 AI 手語翻譯技術,多個主要電視頻道採用數碼虛擬主播提供即時手語翻譯。阿里巴巴 DAMO Academy 推出名為「小莫」的手語虛擬主播,中國移動和咪咕視頻亦聯合推出虛擬主播為 2022 年世界盃提供手語解說。
北京師範大學教育學院鄭璇教授團隊針對北京冬奧會的手語虛擬主播進行研究,將虛擬主播的手語進行轉錄和回譯,再與原始音頻比較。結果發現 AI 生成版本遺失或扭曲大量關鍵資訊,聾人用戶無論直接觀看影片還是閱讀轉錄記錄,均難以準確理解手語內容。
虛擬主播的動作在手形、位置、方向和移動方面與日常手語差異顯著。更嚴重的問題包括虛擬主播的面部表情和肢體語言不當,口型動作扭曲。受訪用戶表示普遍無法理解虛擬主播的動作,指其詞彙量有限,難以處理多重含義的詞彙。

技術困難源於開發者忽視手語與口語之間的根本差異。許多人將手語視為口語的附屬品,或認為兩者之間的翻譯類似於兩種口語之間的翻譯。然而,口語是聽覺語言,手語則是視覺手勢或視覺空間語言。手語用戶可透過充分利用身體在空間中的表達,僅用一個動作就能表達「一個人走進房間」等完整句子含義。
研究員吳玲指出,中國手語中 50% 的手勢表達含義無法找到對應的中文詞彙。鄭璇團隊測試發現,主要國產手語虛擬主播在表達手語和中文口語詞序相似的句子時表現良好,但在涉及空間方位或同時性的簡單句子(如「魚在水中游泳」)時表現困難。
中國手語的多樣性亦構成障礙。中國手語不僅有不同方言,還區分源於聾人日常生活的「自然手語」和使用手勢表達漢字的「手勢中文」。大多數中國聾人使用的語言介於兩者之間,增加了開發統一虛擬主播的難度。
鄭璇批評中國科技公司在開發過程中未深度參與手語語言學家或聾人。即使包括手語教師或翻譯員,開發者往往只將他們安排在輔助角色,而非以聾人用戶的意見作為產品效果的最終判斷標準。
科技公司慣於先推出有大量錯誤的版本,再透過大量用戶意見進行修改。研究認為,當許多聾人報告「無法理解」的產品在技術賦權名義下匆忙發佈時,實際上損害了聾人社群對技術解決方案的信心。這些問題直接侵犯聾人獲取資訊的權利,污染手語語料庫,阻礙真正手語在聾人社群中的推廣普及。
來源:Sixth Tone
分享到 :
最新影片