2019年1月22日火曜日

強化学習アルゴリズムにコーチングをして早く学習させる

https://blog.openai.com/deep-reinforcement-learning-from-human-preferences/

上記の研究ではバックフリップを教えるのに人間が1時間コーチングをした事に対してコーチング無しでバックフリップさせるReward Functionをコーディングするには2時間掛かりましたが、結果的にコーチングした方がよりElegantにバックフリップをできたそうです。

Reward Functionにバグが組み込まれている場合には人命にも危機を与える行動を取る可能性が発生しますので、コーチングは必須かもしれません。


0 件のコメント:

コメントを投稿

My Github repo

In case anyone is interested:   https://github.com/nyck33