【有片睇】Google AI 新技術　嘈吵+辨論聲音分離人聲

2018-04-17

Published by

Lawton

人的耳朵其實有一種特技，可以聽見只想聽到的聲音，在嘈吵的環境中，集中接收自己想聽到的資訊，耳朵自自然然會屏敝其他噪音。而近日 Google AI 亦發展出相類似的系統，在嘈吵環境下只專注一個人的聲音，對於日後語音辨識、即時語音翻譯來說都有很大幫助。

以往的電腦語音系統，無法收聽單獨人聲的音訊，如果同時間有兩個人說話，就無法進行語音辨識。Google AI 發表「Looking to Listen」技術，利用深度學習製作視聽模型，從混聲、嘈雜的聲音中，分離出單一音訊，增強特定人聲並降低環境嘈音。Looking to Listen 更能夠透過偵測視訊內容，以辨別說話者的特徵，例如咀形、聲音來源，辨識現在正在說話的人，以協助判斷影片中人的聲音。系統會通過音訊分離模型，輸出個別的聲音資料。

Google 結集了超過 10 萬段演講影片中的 2,000 小時純淨的聲音，把這些聲音混合、結合其他資料庫，作為深度學習視聽模型的學習材料。未來這個技術可用於自動字幕的生成製作，有利於語音辨識系統運作，為會議或嘈雜環境下錄得的影片作後期處理等等。

資料來源：Google

相關文章:

【教學】ChatGPT 視像隔空教你養魚用相機攝取現場環境實時 AI 回應用家問題

【教學】冗長文章 AI 變成有趣電台節目　Reader by ElevenLabs「聽」文章不再暈車浪 + 學習外語方便

【教學】MacWhisper 語音轉錄文字 AI 工具本地 AI 模型處理 + 支援廣東話、多國語言 + 輸出字幕檔