人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

「N本腕バンディット問題」について興味があり深く学んでみたいと考えているのですが、不慣れな分野のため、どこをとっかかりにしたらいいのかいまいち分かりません。このタスクや関連するタスクについて、今から学び実践するにあたって参考になるであろう資料や論文などを教えてください。

理論的なバックグラウンドに関するものも歓迎ですが、どちらかというと実際にプログラムを書いて実行してみるなどの実践的な内容を主に期待しています。質問者は機械学習に関する研究や技術について専門家ではないものの、初歩的な知識と実践の経験があるものと考えてもらって結構です。レベル感としてはCollapsed Gibbs Samplingとそれを使った基礎的なトピックモデルによる文書分類プログラムを、理解して実装して動かしてみているような感じです。

参考URL: http://d.hatena.ne.jp/aidiary/20020906/1115127790

●質問者: yanbe
●カテゴリ:経済・金融・保険 科学・統計資料
○ 状態 :終了
└ 回答数 : 1/1件

▽最新の回答へ

1 ● cdaotg
●200ポイント ベストアンサー

ひょっとしたら既に実験済みかもしれませんが、強化学習の一手法であるソフトマックス方策を実験されると、ε-貪欲法とは違った結果が出て面白いと思います。

日本語の書籍でしたらこちらが参考になるかと思います。

強化学習

強化学習



また、その原著(英語版です)はオンラインで読めます。
http://webdocs.cs.ualberta.ca/~sutton/book/ebook/the-book.html
(セクション2.3でソフトマックス方策の解説がされています。)


更に高度なアルゴリズムですと、UCB1とかUCB1-TUNED等があります。
http://homes.dsi.unimi.it/~cesabian/Pubblicazioni/ml-02.pdf

上記は英語の論文ですが、コンピュータ囲碁の世界ではUCB1を拡張したUCTというアルゴリズムが近年大きな実績をあげていますので、"UCB1"で検索すると日本語の解説も出てくるかと思います。

ちょっと記憶が曖昧なのですが、「N本腕バンディット問題で探査と知識利用の最適なバランスを取るアルゴリズム」が以前からあり、それと同等の性能を、より少ない計算量で実現したのがUCB1だったと記憶しています。


yanbeさんのコメント
ご回答ありがとうございます。 こんなに早く期待どおりのご回答をいただけるとは驚きです!全体的にかなり参考になりました。 日本語の書籍のほうは個人で買うにはちょっと値が張りますが、他に類書も無さそうですし、紙媒体でじっくり読んで理解したい内容なので入手しようと思います。 UCB1についても教えてていただきありがとうございます。この手のアルゴリズムが近年コンピュータ囲碁の分野で成果を上げているのは初耳でした。とても興味深いですね。
関連質問

●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ