「N本腕バンディット問題」について興味があり深く学んでみたいと考えているのですが、不慣れな分野のため、どこをとっかかりにしたらいいのかいまいち分かりません。このタスクや関連するタスクについて、今から学び実践するにあたって参考になるであろう資料や論文などを教えてください。


理論的なバックグラウンドに関するものも歓迎ですが、どちらかというと実際にプログラムを書いて実行してみるなどの実践的な内容を主に期待しています。質問者は機械学習に関する研究や技術について専門家ではないものの、初歩的な知識と実践の経験があるものと考えてもらって結構です。レベル感としてはCollapsed Gibbs Samplingとそれを使った基礎的なトピックモデルによる文書分類プログラムを、理解して実装して動かしてみているような感じです。

参考URL: http://d.hatena.ne.jp/aidiary/20020906/1115127790

回答の条件
  • 1人5回まで
  • 13歳以上
  • 登録:2011/11/11 21:23:07
  • 終了:2011/11/18 21:25:03

ベストアンサー

id:cdaotg No.1

cdaotg回答回数86ベストアンサー獲得回数212011/11/11 22:04:29

ポイント200pt

ひょっとしたら既に実験済みかもしれませんが、強化学習の一手法であるソフトマックス方策を実験されると、ε-貪欲法とは違った結果が出て面白いと思います。

日本語の書籍でしたらこちらが参考になるかと思います。

強化学習

強化学習



また、その原著(英語版です)はオンラインで読めます。
http://webdocs.cs.ualberta.ca/~sutton/book/ebook/the-book.html
(セクション2.3でソフトマックス方策の解説がされています。)


更に高度なアルゴリズムですと、UCB1とかUCB1-TUNED等があります。
http://homes.dsi.unimi.it/~cesabian/Pubblicazioni/ml-02.pdf

上記は英語の論文ですが、コンピュータ囲碁の世界ではUCB1を拡張したUCTというアルゴリズムが近年大きな実績をあげていますので、"UCB1"で検索すると日本語の解説も出てくるかと思います。

ちょっと記憶が曖昧なのですが、「N本腕バンディット問題で探査と知識利用の最適なバランスを取るアルゴリズム」が以前からあり、それと同等の性能を、より少ない計算量で実現したのがUCB1だったと記憶しています。

id:yanbe

ご回答ありがとうございます。
こんなに早く期待どおりのご回答をいただけるとは驚きです!全体的にかなり参考になりました。

日本語の書籍のほうは個人で買うにはちょっと値が張りますが、他に類書も無さそうですし、紙媒体でじっくり読んで理解したい内容なので入手しようと思います。

UCB1についても教えてていただきありがとうございます。この手のアルゴリズムが近年コンピュータ囲碁の分野で成果を上げているのは初耳でした。とても興味深いですね。

2011/11/11 22:40:43

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません