状態空間モデルとは何かを説明してください。

観測方程式と状態方程式の各変数の意味も
説明してください。
線型モデルであるランダムウォークモデルとの
関連も説明してください。
ランダムウォークモデルでの条件付き期待値は、
期待値であり確率変数であるも説明してください。

回答の条件
  • 1人10回まで
  • 登録:2007/01/13 14:32:34
  • 終了:2007/01/20 14:35:03

回答(3件)

id:sadajo No.1

sadajo回答回数4919ベストアンサー獲得回数492007/01/13 16:36:40

ポイント27pt

http://www.jcer.or.jp/research/discussion/discussion66.pdf

>状態空間モデルとは? 潜在変数アプローチでは、状態空間モデルを作成して推計する方法が一般的である。状態空間モ. デルとは、観測できない変数にあるメカニズム(状態)を想定してモデルに取り込んで推計する方. 法である

id:a_b_y No.2

a_b_y回答回数16ベストアンサー獲得回数62007/01/16 09:01:29

ポイント27pt

問題がわりと一般的なこともあって, 詳細や各論については文献にあたって勉強するか, 改めて具体的に質問してもらうしかないので, ここでは勉強などの際に理解の助けになれば, という立場で回答させて頂きます.

質問はある程度独立した内容(1)状態空間モデルとは, (2)状態方程式と観測方程式について, (3)条件付き期待値とは, に分けられると思いますので, この分類に沿って各々回答を考えてみました.


(1)状態空間モデル

数学的に状態空間モデルという用語の明確な定義が存在するわけではないので, 少々漠然とした話になるのは御容赦下さい.

状態空間モデルを強いて定義するならば,

着目しているシステムや力学系の状態を完全に記述可能な変数系をとり, その変数系が満たす(微分方程式などの)力学的方程式によってシステムを記述したモデル

と言うことができるかと思います. 物理(力学)を知っていれば, 状態空間モデルとは位相空間(phase space)で考えることだ, と言ってもいいでしょう.

力学から例を挙げて説明してみます. 質点の運動を考えれば, 時刻tにおける質点の位置x(t)は運動方程式はmx''(t)=F(t,x(t),x'(t))を満たします. これをそのまま解析してもいいのですが, 理論的には速度v(t)=x'(t)を用いて位相空間(x,v)での微分方程式x'(t)=v(t), mv'(t)=F(t,x(t),v(t))として考える方が何かと便利です. 質点の状態は位置と速度(x(t),v(t))で完全に決定されるので, これを状態変数などと呼んで, その時間変化を表わす微分方程式を状態方程式などと呼んで解析の主対象にします.

運動方程式mx''(t)=Fは位置変数の満たす方程式ですが, 質点の力学的状態は位置だけでは定まらないので, これは状態空間モデルとは言えません. 一方, 質点の状態は位置と速度で決定されるので, x'(t)=v(t), mv'(t)=Fは状態空間モデルというわけです.


別な言い方をすれば, 状態空間モデルとは一般に高階導関数を含む微分方程式を(新たな変数を導入することで)一階の微分方程式に書き直したモデルである, という程度の認識でもそれほど問題はないかと思います.


なお, どうでもいい話ですが, 私個人としてはこの質問で初めて状態空間モデルという言葉を聞いたこともあり, 少なくとも数物屋にとって方法論としては一般的であっても用語としては必ずしも一般的ではないと思います. 上記のような方法論は数物屋・理論屋であれば極々当たり前にやっていることなので, 改めて「状態空間モデル」などと言われると逆に「何か特別なことをしているのだろうか…」「なんか普通のことをやっているようにしか見えないが…」とか考えてしまって気が散るような…言っても詮無きことですが.


(2)状態方程式と観測方程式

何らかのシステムの状態(コメントを例にすればエンジンの状態)を観測によって同定したいとき, 次のような状態方程式と観測方程式の連立によって問題を定式化することがよく行われます. (以下の式はあくまでも典型例の一つ.)

\frac{dX}{dt} = f(t,X) 状態方程式

\frac{dY}{dt} = g(t,X,Y) + \epsilon \xi(t) 観測方程式

ここでXがシステムの状態を決定する状態変数で, 状態方程式は観測対象のシステム(例えばエンジンとエンジン音でしょうか)を状態空間モデルで記述したものです. (1)の例で言えば, 状態変数X(t)=(x(t),v(t))の時間変化を表わす方程式です.

Xを何らかの観測装置を通して観測する過程を記述するのが観測方程式で, Yが最終的に得られる観測データを表します. 一般に観測装置それ自体も何らかのシステム(力学系)なので内部状態(状態変数)を持ち, 被観測量(入力)Xに依存して時間発展する様子を(状態空間モデルとして)微分方程式で記述したのが観測方程式です. 観測には普通時々刻々と誤差が混入するので, それを\epsilon\xi(t)という項でモデル化しています. ここで\xi(t)はいわゆるホワイトノイズです.

文脈によっては, 観測装置まで込めた全体のシステムを記述する, 上記連立方程式を指して状態空間モデルと言うこともあるようです.


我々が知り得るのは観測を通して得られるY(t)のみなので, そこから実際のシステムの状態X(t)を推定する必要があるわけですが, 詳細はフィルター理論の本(カルマンフィルターなどで探せばよいでしょう)の本にあたって下さい.


状態方程式や観測方程式の具体形は, 扱う現象やモデル化の方針によります. 例えば上記の方程式では状態方程式にYが含まれないので, 暗黙に, 観測がシステムの挙動に重大な影響を与えることはないと仮定しています. 例えば量子力学のように観測が系の状態に重大な影響をおよぼす場合には, 状態方程式がYを含むようにモデル化を行うべきでしょう.


(3)条件付き期待値

詳しくは確率論の本で勉強してもらうしかないわけですが…

「条件付き期待値」という場合, 文脈によって大きく2つの意味があり得るので, どちらの意味で使われているのか枕詞・形容詞などから認識することが重要かと思います. (まともな本や論文であれば式を見れば一目瞭然のはずですが.)

測度論的確率論(主に数学科で習う現代確率論)を知らない人にとって, 条件付き期待値といえば以下の意味であろうかと思います.

X,Yを確率変数とする. Y=yという条件の下でのXの条件付き分布の平均のことを, 「Y=yという条件の下での」Xの条件付き期待値といいE(X|Y=y)などと書く.

yが決まる毎にE(X|Y=y)はただ一つに確定するので, (yを固定して考えている)E(X|Y=y)は確率変数ではありません. 確率論ではこれを一般化した概念として「XYに関する」条件付き期待値E(X|Y)(専門家にとって条件付き期待値といえば通常こちらの意味)を考えるのですが, その際に重要な視点は, E(X|Y=y)においてyはパラメータであることと, Yは確率変数なのでY=yは確率的事象であることです. これを踏まえて, 条件付き期待値E(X|Y)は次のような確率変数として「定義」されます.

確率P(Y=y)で値E(X|Y=y)をとる確率変数を, XYに関する条件付き期待値といいE(X|Y)などと書く.

フィルター理論などで推定量として現われる条件付き期待値はこの意味で考えているので, 定義から確率変数となります.

基本的なアイディアは, Y=yという事実が確定すればその条件(制約)の下でのXの期待値E(X|Y=y)も確定するのだけれども, Y=yは確率的に起こる事象なので, 条件付き期待値の概念を一般化して上記のように確率変数として定式化しておいた方が理論的に扱いやすくなる, というものです.

なお, 条件付き期待値の意味を直感的に把握するためには次の事実が役立ちます. (関数解析を知っている人間にとっては以下を定義とした方がわかり易いです.)

(\Omega,F,P)を確率空間, G\subset Fを可算加法族とするとき, 確率変数X\in L^2(\Omega,F,P)L^2(\Omega,G,P)への正射影をXGに関する条件付き期待値といい, E(X|G)などと書く. Yが確率変数のとき, E(X|\sigma(Y))E(X|Y)と一致する.


最後に

> 線型モデルであるランダムウォークモデルとの関連も説明してください

について. これについてはどう回答すればよいか判断がつきませんでした.

前提としては, 「線型モデル」であることと「ランダムウォークモデル」であることは独立した概念です.

コメントにも書きましたが, 線型モデルというのは状態方程式や観測方程式が線型の場合, 上記の例で言えば係数関数fgが線型の場合を指します. 非線型モデルに対して, 不動点からの微小変動だけを考えればいいという仮定などの下に, 線型化モデルを考えることはよくあります.

ランダムウォークモデルについては, 上記の説明は全て時間変数が連続的である, すなわち連続時間のモデルとして説明したわけですが, 現象によっては離散時間モデルをたてる場合もあり, その場合に(連続時間モデルと対比して)ランダムウォークモデルとかマルコフ連鎖モデルと呼ぶことがあるかと思います. より狭義には, 状態変数(の一部)をいわゆるランダムウォークとしてモデル化したものをランダムウォークモデルと言うこともあるでしょう.

線型ランダムウォークモデル, 非線型ランダムウォークモデル, 線型確率微分方程式モデル…など色々な可能性が考えられるので, もう少し問題がはっきりしないとどう答えていいのかわからない, というのが正直な所です.

> 状態空間モデルの説明で、エンジンの音を聞いて、その不具合を調べるという事例がありました。 時間の経過とともに、異常音がだんだんと大きくなっていくというケースです。これは、ドリフト正のランダムウォークモデルでも、表せるということでしょうか。

に関して言えば, そのようなモデル化もあり得るかもしれない, としか言いようがありません. 具体的に文献があるならば, (当該分野の素人として)感想を述べることはできますけれども.

id:megaworld

統計の勉強から、その前段階としての確率の勉強をしていて、質問しました。 時間による2階微分を速度vを用いて、連立1階微分方程式にあら

わすと状態空間モデルと呼ぶと理解していいので

しょうか。

2007/01/19 12:32:29
id:tei_wa1421 No.3

tei_wa1421回答回数11ベストアンサー獲得回数02007/01/18 20:24:13

ポイント26pt

前提:対称を線形モデルと仮定して書いてます。

状態空間モデルとは状態方程式と観測方程式を

dx/dt=Ax+B_1w+B_2u

y=C_1x+D_1w+D_2u

と言う形式に表記することを言います((とりあえず、制御工学の分野では))

ここで、変数としてxは状態を、wは外乱、uは入力をそれぞれ表します。

各係数行列A,B_1,B_2,C_1,D_1,D_2の中身はモデルに依存します

このモデルの場合外乱B_1wが離散的な値であろうと確率論的な値であろうとかまわずに線形モデルとなります。

また、エンジンのモデルで言えば適切な制御入力無しに外乱が入っている場合、システムは発散(エンジンの例で言うと異常音の増大)するはずです。

id:megaworld

ありがとうございます。だいぶわかってきました。

Yt=α + βtⅩt + γzt+et(観測方程式)

βt =βt-1 + εt (状態方程式)

において、εt = 0 の場合は、通常の最小二乗法と同じということでいいのでしょうか。 

2007/01/19 12:05:02
  • id:a_b_y
    回答しようと思うのですが、私には問題が不明瞭な部分があるので質問させて下さい。

    >観測方程式と状態方程式の各変数の意味も説明してください。

    方程式の形や変数の意味は分野や具体的なモデルに依存するので、もし分野やモデルが具体的にあるなら挙げて頂いた方が回答しやすいです。
    そうではなくて(数学的に)一般論を、ということであれば典型的な方程式を適当に選んで説明しますが。

    >線型モデルであるランダムウォークモデルとの関連も説明してください。

    違和感があります。線型モデルというのは観測方程式と状態方程式が共に線型なモデルのことで、ランダムウォークモデルというのは一般には方程式の時間変数が離散的なものを指す、というのが私の認識です。従って「非線型モデルと線型モデルの関連」とか「連続時間モデルと離散時間モデルの関連」ならわかるとしても、上の質問だと何を問題にしているのかがはっきりしないのですが、この辺明示することはできるでしょうか。

    >ランダムウォークモデルでの条件付き期待値は、期待値であり確率変数であるも説明してください。

    (測度論的)確率論において「条件付き期待値」は「定義から」確率変数であり、期待値の概念を一般化したものになっています。これでは不十分でしょうか。
    それとも、(おそらく推定の話でしょうから)条件付き期待値が推定量を与える理由あたりを聞いておられるのでしょうか。
  • id:megaworld
    >観測方程式と状態方程式の各変数の意味も説明してください。

     一般論でお願いします。 できるだけ単純な事例を用いて
     お願いします。

    >線型モデルであるランダムウォークモデルとの関連も説明してください。

     状態空間モデルの説明で、エンジンの音を聞いて、その不具合
    を調べるという事例がありました。 時間の経過とともに、
    異常音がだんだんと大きくなっていくというケースです。
    これは、ドリフト正のランダムウォークモデルでも、表せるという
    ことでしょうか。

    >ランダムウォークモデルでの条件付き期待値は、期待値であり確率変数であるも説明してください。

     条件付き分布から計算した平均を条件付き期待値とよぶと
    ありますが、これが、確率変数であるというのが、わかりません。

    どうぞよろしくお願いします。
  • id:a_b_y
    見直してみると、条件付き期待値の定義、回答に書いたものでは問題がありますね。すみません。
    Yが離散型確率変数の場合、E(X|Y)は「Y=yのとき値E(X|Y=y)をとる確率変数」とすればいいのですが、連続型の場合はやはり測度論の言葉を使って定義するしかない。
    まともな確率論(「確率・統計」ではなくて「確率論」)の本であれば定義が載っていると思いますが、web上では英語でよければWikipediaにはきちんと書いてあります。
    http://en.wikipedia.org/wiki/Conditional_expectation
    教科書的な定義だと最初は意味がわかりにくいのですが、ポイントは回答にも書いたように、E(X|Y=y)において「Y=y」という条件は確率事象だから条件付き期待値も確率変数として捉えることができる、という点です。あとは使っているうちにわかってくるかと思います。
  • id:megaworld
    先生、分りやすいですね。 やっとわかりました。
    ありがとうございます。

    条件付き確率関数も確率関数だから、期待値や分散も計算でき、当然に、条件によって値は、変化するということですね。
    複数の確率変数が離散値とる場合ということですね。
    ランダムウォークといい、線形、非線形がごっちゃになっているというのがわかりました。

    でも、時間にたいしての考え方の場合は、時間単位をどんどん小さくしていけば、離散も連続に近似できるように感じますが、わけて考えないといけないのでしょうか。
  • id:a_b_y
    > 時間による2階微分を速度vを用いて、連立1階微分方程式にあらわすと状態空間モデルと呼ぶと理解していいのでしょうか。

    とりあえずその程度だと理解しておけばいいのではないか, と個人的には思います. 研究室のキーワードとして「状態空間モデル」を挙げている教授さんと話をするようなときにはもう少し慎重に考える必要があるでしょうが.

    感覚的には回答に書いた「運動方程式を位相空間で捉えているようなもの」というのが最も端的な説明ではないかと思いますが, ポイントは, 系の状態を完全に記述する変数(質点の例で言えば(x(t),v(t)))の方程式としてモデルを表現する, という点でしょうか. もう少しコメントを追加するならば, 以下も参考になるかもしれません. mx''(t)=F(t,x(t),x'(t)) の解を確定させるためには初期条件 x(0)=x0, x'(0)=x1 が必要です. 初期条件を設定する=時刻0における状態を定める, ですから, 初期条件に現われる変数=状態変数という見方もできるでしょう. 例えば x'''(t)=F(t,x(t),x'(t),x''(t)) という方程式の場合, 初期条件として (x(0),x'(0),x''(0)) が必要なので, これらを状態変数として y=x', z=x''=y' を導入すれば状態空間モデル z'=F,y'=z,x'=y が得られる, といったかんじでしょうか.

    > でも、時間にたいしての考え方の場合は、時間単位をどんどん小さくしていけば、離散も連続に近似できるように感じますが、わけて考えないといけないのでしょうか。

    ・応用上現われる, 確率微分方程式などを用いた連続時間モデルは, たいていの場合数値解法などによって離散時間のMarkov連鎖で近似することが可能である
    ことから, 現象としては連続時間でのモデル化が自然であっても, 研究を進める段階の一つとしてとりあえず近似的な離散時間モデルに落として解析してみることはあります. (なお, 確率微分方程式の数値解法(近似)については今のところ http://www.amazon.co.jp/Numerical-Stochastic-Differential-Equations-Probability/dp/3540540628 が決定版です. 日本語だと小川重義先生が「数学」で書いておられる論説などが初学時の参考になります.) しかし数学的に細かい部分では
    ・確率微分方程式のような連続時間モデルの扱いとMarkov連鎖のような離散時間モデルの扱いとの間にはそれなりの差がある
    ことも事実です. 詳細は省いて感覚的なことを書くと, 離散時間の場合「次の時刻」が定まるのに対して, 連続時間の場合「次の時刻」というものが考えられないので, この辺の事情が原因で連続時間モデルは必然的に離散時間モデルよりも難しくなってしまいます.

    で, モデル化をする際は, (1)着目している現象をより自然にモデル化するのは離散時間モデル・連続時間モデルのどちらか, (2)当面の研究目標を達成するためにはどちらを用いた方がよい(解析が楽)か, などから(私は)判断します.

    > Yt=α + βt Xt + γ zt + et(観測方程式)
    > βt =βt-1 + εt (状態方程式)
    > において、εt= 0 の場合は、通常の最小二乗法と同じということでいいのでしょうか。

    ん〜…質問するなら命題としては「〜の方法による推定は, εt= 0の場合通常の最小二乗法に一致するか」とかなるべきでしょうか. εt=0云々はモデルの話, 最小二乗法は推定方法の話なので, 何というか, 別物なんですよね. だから「○○というモデルに対して△△法で推定を行う. 特にモデルが□□という条件を満たす場合, △△法は××法に一致する.」というような文章ならありえるのですが…

この質問への反応(ブックマークコメント)

トラックバック

  • memomemo 2007-01-19 09:16:29
  • [math]条件付き期待値 memomemo 2007-01-19 09:16:39
    http://q.hatena.ne.jp/1168666353 の回答にて、「測度論を使わないように…」と考えながら書いていたら間違いを書いてしまった。正確にやろうと思ったらやはり(最初はわかりにくいけど)教科書的
  • 山辺雑記 - 勉強会 2008-04-26 03:55:21
    勉強会 今週は都内某所にて勉強会。 病院に行っていたら遅刻しました。 いまだに隠れマルコフモデルと状態空間モデルのところがよくわからない。 HMMとSSM。 更に、Kalman filter。 これは日
「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません