https://blog.openai.com/deep-reinforcement-learning-from-human-preferences/
上記の研究ではバックフリップを教えるのに人間が1時間コーチングをした事に対してコーチング無しでバックフリップさせるReward Functionをコーディングするには2時間掛かりましたが、結果的にコーチングした方がよりElegantにバックフリップをできたそうです。
Reward Functionにバグが組み込まれている場合には人命にも危機を与える行動を取る可能性が発生しますので、コーチングは必須かもしれません。
2019年1月22日火曜日
登録:
コメントの投稿 (Atom)
My Github repo
In case anyone is interested: https://github.com/nyck33
-
Deep Q Networkを改善してCartpole-V1を140エピソードで攻略しました(最寄りのスコア10個の平均値が500を達成した時点で終了)。 ソースコードは借りたものですが、Experience Replay用のBufferが十分に埋まるまでEpsilon値を削...
-
https://www.economist.com/technology-quarterly/2015/03/05/silicon-valley-gets-a-taste-for-food
-
まずはRNNの復習を終わったところでRNN及びLSTMをDeep Reinforcement Learningで使えるかどうか調べたら、このようなリサーチペーパーがありました: DRQN?! . They have, however, struggled with learn...
0 件のコメント:
コメントを投稿