人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

強化学習の一手法である方策勾配法の勉強をしたいと思っています。
つきましては、オススメの論文・書籍等を紹介して頂けないでしょうか。

出来れば、数式だけではなく具体的な計算例が載っているタイプのものであれば嬉しいです。
論文に関しては、オンラインで閲覧OR購入可能なものをお願いします(大学図書館等でしか借りれないものはNGとさせて下さい)。

●質問者: streakeagle
●カテゴリ:科学・統計資料
✍キーワード:NG いもの オススメ オンライン タイプ
○ 状態 :キャンセル
└ 回答数 : 1/1件

▽最新の回答へ

1 ● ryuta0120

マルチエージェント系における行動学習法として方策勾配法を用いる強化学習方式を提案する.本方式では,自律分散的な行動方式を採用することにより,マルチエージェント系の行動決定問題を各エージェント内で定義されたある目的関数の最小化問題に帰着させる.目的関数は,状態の価値,状態・行動ルール,ポテンシャル等の項によって表現することができる.本方式による学習則は,これらの項に含まれるパラメータを,ボルツマン分布による確率的方策から得られる系の行動計画に対する評価関数の期待値が最大となるよう確率的勾配法によって更新するものである.本方式の適用例として,追跡問題に対する実験の結果を合わせて報告する.実験の結果,本方式によって良好な方策が得られることを確認した.さらに,本方式は,方策中への行動制約や目的の変更追加,ヒューリスティクスの利用に柔軟に対応できることを示した.

We propose a method using the policy gradient for reinforcement learning in multi-agent systems. In our approach, motion planning problems in multi-agent systems are formulated as problems that each agent selects its actions to minimize each objective function independently. The objective function can be defined by a state-value function, the sum of weight parameters of state-action rules, and heuristic potentials. The functions include some parameters. The parameters are updated stochastically in order to maximize the expectation of the reward based on a history of states and actions in each episode. The results of experiments for the pursuit problem showed that our method can make short episode plans as Q-learning does, and can easily deal with limitations such as time-window restrictions imposed on the episode length and heuristic knowledge such as an attractive potential to the target.

http://ci.nii.ac.jp/naid/110003176837

◎質問者からの返答

回答文はリンク先のAbstractのそのままコピペですよね?

おまけに、リンク先自体も"方策勾配法”で検索してトップページに出てくる結果の様です。

総合的に見て不適切な回答だと判断させて頂きました。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ