強化学習の一手法である方策勾配法の勉強をしたいと思っています。

つきましては、オススメの論文・書籍等を紹介して頂けないでしょうか。

出来れば、数式だけではなく具体的な計算例が載っているタイプのものであれば嬉しいです。
論文に関しては、オンラインで閲覧OR購入可能なものをお願いします(大学図書館等でしか借りれないものはNGとさせて下さい)。

回答の条件
  • URL必須
  • 1人2回まで
  • 登録:2010/08/26 18:15:40
  • 終了:2010/09/02 18:20:03

回答(1件)

id:ryuta0120 No.1

ryuta0120回答回数1ベストアンサー獲得回数02010/08/28 07:24:21

マルチエージェント系における行動学習法として方策勾配法を用いる強化学習方式を提案する.本方式では,自律分散的な行動方式を採用することにより,マルチエージェント系の行動決定問題を各エージェント内で定義されたある目的関数の最小化問題に帰着させる.目的関数は,状態の価値,状態・行動ルール,ポテンシャル等の項によって表現することができる.本方式による学習則は,これらの項に含まれるパラメータを,ボルツマン分布による確率的方策から得られる系の行動計画に対する評価関数の期待値が最大となるよう確率的勾配法によって更新するものである.本方式の適用例として,追跡問題に対する実験の結果を合わせて報告する.実験の結果,本方式によって良好な方策が得られることを確認した.さらに,本方式は,方策中への行動制約や目的の変更追加,ヒューリスティクスの利用に柔軟に対応できることを示した.

We propose a method using the policy gradient for reinforcement learning in multi-agent systems. In our approach, motion planning problems in multi-agent systems are formulated as problems that each agent selects its actions to minimize each objective function independently. The objective function can be defined by a state-value function, the sum of weight parameters of state-action rules, and heuristic potentials. The functions include some parameters. The parameters are updated stochastically in order to maximize the expectation of the reward based on a history of states and actions in each episode. The results of experiments for the pursuit problem showed that our method can make short episode plans as Q-learning does, and can easily deal with limitations such as time-window restrictions imposed on the episode length and heuristic knowledge such as an attractive potential to the target.

http://ci.nii.ac.jp/naid/110003176837

id:streakeagle

回答文はリンク先のAbstractのそのままコピペですよね?

おまけに、リンク先自体も"方策勾配法”で検索してトップページに出てくる結果の様です。

総合的に見て不適切な回答だと判断させて頂きました。

2010/08/28 08:46:51

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません