Microsoft 提倡以笑容獎勵 AI 系統

AI 系統的其中一個特色，是它可以透過不斷的訓練和使用來「學習」，提供更準確的運算。除了一般的獎勵模式，Microsoft 最近一個新的研究，就提倡而笑容來作為強化學習的要素，讓系統可以更配合人類的情緒。

Microsoft 的研究人員解釋，強化學習通常是透過在達到特定目標時提供政策特定的獎勵來進行，不過這些外在獎勵範疇相當狹窄而且難以定義，不同於獨立於任務的內在獎勵，因此他們開發了一個由人類反應來觸犯的獎勵系統，採用人類的微笑作為正面獎勵。

他們使用一個立體迷宮作測試，找來 5 個受試者在迷宮內探索，並且捕捉笑容數據作參考，結果發現使用笑容作獎勵機制的學習過程可以帶來更好的效果，覆蓋的範圍提高 46%，撞到障礙物的次數亦減少 29%。

研究人員表示，他們並不是嘗試模仿人類的情感，而是要證明使用情感作為標記的訓練，可以提升運算效果，這種受情感機制引發內在獎勵的學習框架，可以更有效提升覆蓋度和減少失敗次數，獲得的經驗可以有助解決不同應用例如深度估算、場景分割以及草圖變圖像等等。

最新影片