人的耳朵其實有一種特技,可以聽見只想聽到的聲音,在嘈吵的環境中,集中接收自己想聽到的資訊,耳朵自自然然會屏敝其他噪音。而近日 Google AI 亦發展出相類似的系統,在嘈吵環境下只專注一個人的聲音,對於日後語音辨識、即時語音翻譯來說都有很大幫助。
以往的電腦語音系統,無法收聽單獨人聲的音訊,如果同時間有兩個人說話,就無法進行語音辨識。Google AI 發表「Looking to Listen」技術,利用深度學習製作視聽模型,從混聲、嘈雜的聲音中,分離出單一音訊,增強特定人聲並降低環境嘈音。Looking to Listen 更能夠透過偵測視訊內容,以辨別說話者的特徵,例如咀形、聲音來源,辨識現在正在說話的人,以協助判斷影片中人的聲音。系統會通過音訊分離模型,輸出個別的聲音資料。
Google 結集了超過 10 萬段演講影片中的 2,000 小時純淨的聲音,把這些聲音混合、結合其他資料庫,作為深度學習視聽模型的學習材料。未來這個技術可用於自動字幕的生成製作,有利於語音辨識系統運作,為會議或嘈雜環境下錄得的影片作後期處理等等。
資料來源:Google
【教學】ChatGPT 視像隔空教你養魚 用相機攝取現場環境 實時 AI 回應用家問題 【教學】冗長文章 AI 變成有趣電台節目 Reader by ElevenLabs「聽」文章不再暈車浪 + 學習外語方便 【教學】MacWhisper 語音轉錄文字 AI 工具 本地 AI 模型處理 + 支援廣東話、多國語言 + 輸出字幕檔