https://blog.openai.com/deep-reinforcement-learning-from-human-preferences/
上記の研究ではバックフリップを教えるのに人間が1時間コーチングをした事に対してコーチング無しでバックフリップさせるReward Functionをコーディングするには2時間掛かりましたが、結果的にコーチングした方がよりElegantにバックフリップをできたそうです。
Reward Functionにバグが組み込まれている場合には人命にも危機を与える行動を取る可能性が発生しますので、コーチングは必須かもしれません。
0 件のコメント:
コメントを投稿