ユーザーレビュー

ビジネス関連書籍の紹介日記です

これからの強化学習 牧野貴樹 澁谷長史他

この本は、”強化学習”について書かれた本です。強化学習というのは意外と歴史は古いようですが一般にはあまり馴染みがありませんでした。ところが最近のAIの発達により非常に注目を集めるようになった手法です。昔のAtariのゲームやパックマンをAIが学習して自身で考え攻略することに成功したということもありましたが、やはり一躍世界に強化学習の名を轟かせたのは、やはり囲碁のAlphaGoの登場でしょう。

囲碁においてGoogle傘下のDeep Mind社が開発したAlphaGoが、当時世界最強の囲碁棋士と言われたイ・セドル氏やカケツ氏などを破って世界を驚かせたのは誰でも知っているでしょうが、そのアルゴリズムに使われていたのが強化学習でした。

もちろん、AlphaGoで最も有名になったのはDeep Learning(深層学習)の方でしょうが、Deep Learningは教師あり学習でした。教師あり学習というのは人間が予め膨大な正解データを用意しておかなければならず、その分まだ融通が効かないところもあったのですが、教師なし学習(正解データがいらず、コンピューター自身が経験を重ねていくことで学習を行う)の強化学習をDeep Learningと組み合わせることで、飛躍的に扱いやすく、かつ強くなりました

もともと強化学習は心理学や行動分析学、脳科学などの分野で研究されてきていたもののようですが、人間の脳のより原始的な部位、扁桃体や大脳基底核の学習・経験の仕組みを真似たものです。
この本は、コンピューター科学、工学的な本でターゲットはAI研究者やプログラマーです。同様に強化学習を扱った書籍に、Richard S.SuttonやAndrew G.Bartoの『強化学習』がありましたが、これは2000年頃に出版された、今や古典のようなものでした。残念ながら日本ではこの本ぐらいしか、強化学習を扱った本はまとまったものとしては出版されていませんでした。もう15年以上前に出版されて、それ以来誰にも強化学習を誰も省みなかったのでしょうが、AlphaGoの衝撃的な登場により、一気に強化学習が注目を浴び始め、最近になってようやく強化学習の書籍が出版されるようになってきました。

そういう流れの中で出版されたのが当書籍です。執筆者は20人以上を数えるもので、いずれも大学などの専門家、研究者です。特に浅田稔さんや麻生英樹さんのような、AI関連書籍で時々目にする著者さんたちが分担をして強化学習について深く書かれたのが、この本です。

もともとはある学会誌に連載されたものを集めて1冊の書籍にしたものです。

強化学習の基礎はもとより実装をする上でのノウハウを学べる

この本は4章立てで、最初は強化学習の基礎からはじまります。基礎からの解説もあるので、強化学習のことを何も知らないが興味がある、という人も、なんとかついていけるようにはなっています。AIによる問題解決の基本例として、多腕バンディット問題や三目並べを学習するための解説も1章に書かれています。なお、この本ではプログラムコードは出てきません。あくまで強化学習の理論や考え方を教示するものですので、実装は読者自身で行う必要があります。各章ごとに参考文献も載っていますので、より詳しく知りたい方はこの文献を頼りにより深く進めることもできます。

あらかじめ強化学習の概要についてはもう知っているよ、という方は、2章から本格的な強化学習のきめ細かい理論を学べます。強化学習と言えば、Deep-Q-Leaningなどにも使われたQ学習が最も頻繁に使われているようですが、この本はそれほどQ学習にこだわっていない印象で、色々な発展形のアルゴリズムを紹介しています。特に個人的に良いと思ったのが、""XoL""(経験強化型学習)です。TD学習などはSutton/Bartoの『強化学習』に載っていたと思いますが、XoLは(うろ覚えなので間違っているかも知れませんが)Sutton/Bartoの『強化学習』には記載が無かったように思います。

強化学習で特に問題になりやすいのが、学習過程が膨大になりやすいことです。選択肢の幅が拡がりすぎて、計算量が追いつかなくなる問題ですが、その問題を解決するためにこれまで研究されてきた手法がこの本にいくつか載っています。そのうちの一つがXoLで、試行回数を出来る限り減らすために考えだされた手法です。Deep-Q-Learningで攻略されたAtariのゲームも、このXoLを使うことによって試行回数を減らし、早く学習することに成功したことが書かれています。XoLを使うと、学習が速い上にさらに強くもなっているようです。

最近AlphaGo Zeroが開発され、イ・セドルなどを破ったAlphaGo(Master)などよりも急激に学習が早くなり、しかも最も強く進化しました。さらに囲碁だけでなく将棋やチェスもわずかな時間で学習をして最強の強さを誇るようになっていきそうです。この本はAlphaGo Zeroが開発されるよりも前に書かれたものなので、AlphaGo Zeroについては書かれてはいませんので注意が必要ですが、これまでの強化学習の研究で培われてきたいくつかの手法を万遍なく触れられているので、強化学習の実装をする上で細かいところまで手の届く書籍だと言えると思います。


詳しく本格的に強化学習を知りたい方におすすめ

これまで個人的に強化学習の本は何冊か読んでいるのですが、一般に出版されている強化学習本のほとんどはちょっとさわりだけを扱っただけのものだったり、初心者をターゲットにしたような同じようなことが書いてあるだけのものなど、あまり読んで実になるものは少ないというのが印象です。この本は、より詳しく本格的に強化学習を知りたいという方は手にとってみてもいいのかな、と思います。

AI関連本はだいたいそうだと思いますが、単に技術を学べるだけではなく、人間の脳の仕組みや考え方のクセなども非常に勉強になりますし、未来がこれからどうなっていくのかや哲学的な問題にも関わってしまうのがAI関連の本です。教師がいなくてもコンピューターが自分で学習してしまう強化学習を学んでおくことは、これからの人間の仕事がどうなっていくのか、本当に減っていくのかどうかにも深く関わってきそうなので、強化学習がどんな問題を抱えていて、どこに限界があるのかを把握しておくのも無駄ではありません。
また、この本には""群強化学習法""についても載っていました。本来強化学習は個体のエージェントによる学習過程ですが、群れ(例えばアリのコロニー最適化法)で学習する手法についても(さらっとですが)解説してありました。遺伝的アルゴリズムと強化学習との組み合わせも今後研究が進んでいくと思われますので、組織のような複数のエージェントが複雑に絡み合う分野でも、強化学習AIの波が及んでいくのかも知れません。
一般に出版されている強化学習の本には飽きたらない、という方、もっと深く強化学習のことを知りたいという方には、この本はおすすめです。なお、強化学習に最近興味を持ち始めたけどまだ何も知らない、という方には、第1章が追加されて多少配慮はされているものの、やっぱりこの本だと難しいです。別の初心者向けの本を先に読んでおいてから、より深く学びたいと思うならこの本を2冊目にしたらいいのではないでしょうか。

qiita.com

これからの強化学習

これからの強化学習

  • 作者: 牧野貴樹,澁谷長史,白川真一,浅田稔,麻生英樹,荒井幸代,飯間等,伊藤真,大倉和博,黒江康明,杉本徳和,坪井祐太,銅谷賢治,前田新一,松井藤五郎,南泰浩,宮崎和光,目黒豊美,森村哲郎,森本淳,保田俊行,吉本潤一郎
  • 出版社/メーカー: 森北出版
  • 発売日: 2016/10/27
  • メディア: 単行本(ソフトカバー)
  • この商品を含むブログ (3件) を見る