Categories: 科技新聞

Mozilla 製作開源廣東話辨識引擎 網上收集香港人聲音樣本

Published by
藍骨

現在雖然已經有不少智能語音助理的技術,不過也需要有相關的語音辨識系統支撐。對於廣東話而言這樣的資源目前只有大型企業可以做到,有見及此 Mozilla 最近就製作開源廣東話辨識引擎,希望容許中小企和獨立開發者用到這個技術。

Mozilla 的 Common Voice 計劃,本身涵蓋了全球多個語言,透過開源方式希望可以讓語音辨識引擎開發的門檻降低,透過眾包方式收集大量語音數據,讓辨識引擎得以普及,解決目前數據被大公司壟斷的局面。而這個計劃當中,廣東話也有包含在內。Mozilla 指:「要打破這種由「大台」壟斷的局面,讓語音數據能被公開自由地使用,Mozilla 也會創造一套稱為 Deep Speech 的開放原始碼語音辨識引擎。合衆人之力,將語音辨識技術變得更好」。

說到廣東話,固然就是香港人的拿手好戲。因此 Mozilla 就邀請香港人幫忙提供聲音樣本,只要在其網站登記或電郵團隊聯絡就可以參加。參加者需要提供公共領域的廣東話句子、審查句子的正確性;給句子錄音;以及檢驗錄音是否與句子相符。計劃收集到的數據與豐富,就可以製作出越準確的語音變成引擎,為廣東話語音辨識應用帶來更好的效果。

來源:Mozilla

Published by
藍骨