【有片睇】Google AI 新技術　嘈吵+辨論聲音分離人聲

作者

Lawton
發佈日期

2018-04-17
閱讀時間

2分鐘
字體大小

人的耳朵其實有一種特技，可以聽見只想聽到的聲音，在嘈吵的環境中，集中接收自己想聽到的資訊，耳朵自自然然會屏敝其他噪音。而近日 Google AI 亦發展出相類似的系統，在嘈吵環境下只專注一個人的聲音，對於日後語音辨識、即時語音翻譯來說都有很大幫助。

以往的電腦語音系統，無法收聽單獨人聲的音訊，如果同時間有兩個人說話，就無法進行語音辨識。Google AI 發表「Looking to Listen」技術，利用深度學習製作視聽模型，從混聲、嘈雜的聲音中，分離出單一音訊，增強特定人聲並降低環境嘈音。Looking to Listen 更能夠透過偵測視訊內容，以辨別說話者的特徵，例如咀形、聲音來源，辨識現在正在說話的人，以協助判斷影片中人的聲音。系統會通過音訊分離模型，輸出個別的聲音資料。