AI破13年前超難QWOP小遊戲新演算法打破人類世界紀錄

2021-03-22

Published by

arthur

13 年前風靡一時網上「變態」級小遊戲 QWOP ，玩家需要在100公尺的距離內保持重心避免仆倒，多年後遊戲依然充滿發燒友。近日，波士頓諮詢的數據分析師 Wesley Liao 更用 AI 挑機，綜合之前多種強化學習演算法，亦都失敗而回，最後向「世界級」高手偷師，終於讓AI在上週打破人類玩家的記錄－－快「1秒」。

一個月前，外媒 Gismodo 向該波士頓諮詢的數據分析師Wesley Liao挑機，指「為什麼AI還沒有打破世界紀錄」， Liao 於是重新訓練AI，改用 Prioritized DDQN 演算法，提高學習效率，函數改為前進速度相關，去掉身體高度，膝蓋彎曲角度等參數，最終，新 AI 的「手速」大大提升，每秒動作數由 9 提高至 25，更習得穩定的踢腿技巧，被障礙物影響也無礙。成績提高到47.34秒，比人類最高紀錄48.34秒剛好快1秒。

AI 習得穩定的踢腿技巧，被障礙物影響也無礙

新 AI 的「手速」大大提升，每秒動作數由 9 提高至 25，比人類最高紀錄48.34秒剛好快1秒

「台上一分鐘，台下十年功」，回顧一下 AI 光鮮背後，失敗而回的歷史。Liao 一開始先用 ACER 嘗試了讓 AI 自己學習新經驗和已有的技術，可惜 AI 只學會用「屈膝頭」奇技屈到終點，用最安全、最慢的方法來到達終點。

AI 自學不行，Liao 用自己玩的數據來「教」AI，但由於 Liao 本人的技術和頂級玩家差距太大，他最多也只能跑到28公尺(和小編一樣)，於是教到 AI 一開跑大劈一字馬，向上自由落地仆倒了。

Liao 不服氣，向全球排名前二的玩家 gunmaneko 和Kurodo請教，Kurodo 指，關鍵在於減少遊戲角色的縱向移動，提議 Liao 把保持身體高度加入AI的函數，更分享了以程式碼分享自己50次的遊戲按鍵記錄。

Liao 改變方法，把 Kurodo 的數據注入到 AI 的重播快取（Replay Buffer）中，保證 AI 隨機從記憶中選取一段來學習時選到兩種記憶的概率相同，避免把基本操作忘掉，總訓練時間達到了65小時。 AI 的成績提高達至1分08秒，一度踏進前十，而最後「苦練多時」，終獲破世界紀錄。大家亦可按以下連結： QWOP，向AI 挑機。

資料來源 : Denfaminicogamer

—

unwire.hk Mewe 專頁 : https://mewe.com/p/unwirehk