Reinforcement Learning: An Introduction (Adaptive Computation and Machine Learning series) (English Edition) の感想
112 人が閲覧しました
参照データ
タイトル | Reinforcement Learning: An Introduction (Adaptive Computation and Machine Learning series) (English Edition) |
発売日 | 2018-10-19 |
製作者 | Richard S. Sutton |
販売元 | A Bradford Book |
JANコード | 登録されていません |
カテゴリ | Computers & Technology » Computer Science » Artificial Intelligence » Human Vision & Language Systems |
購入者の感想
・ドラフト版(2018年2月ぐらいのもの)のパート2までほとんど読み切っていたので購入しました(最後のパート3はほとんどが神経科学や応用のお話です).ざっと見てはドラフト版と大きくは変わっていないようです.
・基本的な方針・雰囲気は初版と同じで図と文章での説明が中心ですが,数式が若干増えたかもしれません.適格度トレースの説明は若干分かりにくくなったかも.
・英語は若干まどろっこしい感じがあって,コード本ほどスラスラとは読めない感じがしました.
・数式の展開・擬似コードの記述は初版と同じく丁寧で分かりやすいと思います.
・タイトルの通り,深層強化学習について直接触れているわけではありません,が,関数近似のパートを読むと,何故近年の深層強化学習においてベルマン方程式に基づくTDバックアップが直接は行われず,SGDを用いているかについて知見が得られるなど,近年の研究のモチベーションを理解するのに役立ちます(他には,ツリーバックアップを見れば,TRPOのVineに対して自然に理解できるようになります).また,n-stepバックアップ(A3Cで使用)・適格度トレース(PPOで使用されていたような…)についてやさしく説明している本が他にあまり見当たらないのでそこも貴重です.
・TD学習の収束性の証明について,一応触れられているものの一箇所論文任せになっています.
・方策ベースの方法,特にアクタークリティックに関してはもう少し詳しく説明があっても良かったかも.また,方策勾配定理の証明は割引率γ=1のケースのみですが,Webで探せば一般的なケースのものも見つかります.
・個人的に,初版でイマイチ歯切れが悪かったように感じた箇所はかなりカットされています.
・基本的な方針・雰囲気は初版と同じで図と文章での説明が中心ですが,数式が若干増えたかもしれません.適格度トレースの説明は若干分かりにくくなったかも.
・英語は若干まどろっこしい感じがあって,コード本ほどスラスラとは読めない感じがしました.
・数式の展開・擬似コードの記述は初版と同じく丁寧で分かりやすいと思います.
・タイトルの通り,深層強化学習について直接触れているわけではありません,が,関数近似のパートを読むと,何故近年の深層強化学習においてベルマン方程式に基づくTDバックアップが直接は行われず,SGDを用いているかについて知見が得られるなど,近年の研究のモチベーションを理解するのに役立ちます(他には,ツリーバックアップを見れば,TRPOのVineに対して自然に理解できるようになります).また,n-stepバックアップ(A3Cで使用)・適格度トレース(PPOで使用されていたような…)についてやさしく説明している本が他にあまり見当たらないのでそこも貴重です.
・TD学習の収束性の証明について,一応触れられているものの一箇所論文任せになっています.
・方策ベースの方法,特にアクタークリティックに関してはもう少し詳しく説明があっても良かったかも.また,方策勾配定理の証明は割引率γ=1のケースのみですが,Webで探せば一般的なケースのものも見つかります.
・個人的に,初版でイマイチ歯切れが悪かったように感じた箇所はかなりカットされています.