AI 系統的其中一個特色,是它可以透過不斷的訓練和使用來「學習」,提供更準確的運算。除了一般的獎勵模式,Microsoft 最近一個新的研究,就提倡而笑容來作為強化學習的要素,讓系統可以更配合人類的情緒。
Microsoft 的研究人員解釋,強化學習通常是透過在達到特定目標時提供政策特定的獎勵來進行,不過這些外在獎勵範疇相當狹窄而且難以定義,不同於獨立於任務的內在獎勵,因此他們開發了一個由人類反應來觸犯的獎勵系統,採用人類的微笑作為正面獎勵。
他們使用一個立體迷宮作測試,找來 5 個受試者在迷宮內探索,並且捕捉笑容數據作參考,結果發現使用笑容作獎勵機制的學習過程可以帶來更好的效果,覆蓋的範圍提高 46%,撞到障礙物的次數亦減少 29%。
研究人員表示,他們並不是嘗試模仿人類的情感,而是要證明使用情感作為標記的訓練,可以提升運算效果,這種受情感機制引發內在獎勵的學習框架,可以更有效提升覆蓋度和減少失敗次數,獲得的經驗可以有助解決不同應用例如深度估算、場景分割以及草圖變圖像等等。
來源:Venture Beat
相關文章:
【教學】ChatGPT 視像隔空教你養魚 用相機攝取現場環境 實時 AI 回應用家問題 【教學】冗長文章 AI 變成有趣電台節目 Reader by ElevenLabs「聽」文章不再暈車浪 + 學習外語方便 【教學】MacWhisper 語音轉錄文字 AI 工具 本地 AI 模型處理 + 支援廣東話、多國語言 + 輸出字幕檔