情報科学を専攻しているものです。
最近ひょんなことから多重配列アラインメント(multiple sequence alignment)の研究をすることになったのですが、
バイオ系のことをさっぱり知らないので、どんなデータに対して、どういう評価値に基づいて
実験、解析を行えばいいのかがさっぱりわかりません。
とりあえず線形的なコストの最適化問題として解こうとは思っているのですが。。。
そこで、多重配列アラインメントを実験するときにはどのようなデータに対して、
どのように実験すればいいのかが分かる情報があれば教えていただきたいです。
この分野の教科書か、先行研究のサーベイなんかもあれば教えていただけると助かります。
たぶん後で実際に実験することになるので、
local-multiple-alignmentのアルゴリズムを実際に見てみるべきです。
バイオ系のことをさっぱり知らないので
多重配列アラインメントの研究をするだけ、であるとするなら
対象はバイオインフォマティクスには限らないのですが
こう言っている以上、多分そのようなことをやるのだと思います。
どのようなデータに対して、どのように実験すればいいのか
様々な人が様々なデータに対して先行研究を行って実験用コーパスもたくさん作られていたので、その中には自由に使用できるコーパスがあったはずです。
わかりやすそうですね。探してみることにします。ありがとうございます。
たぶん後で実際に実験することになるので、
local-multiple-alignmentのアルゴリズムを実際に見てみるべきです。
バイオ系のことをさっぱり知らないので
多重配列アラインメントの研究をするだけ、であるとするなら
対象はバイオインフォマティクスには限らないのですが
こう言っている以上、多分そのようなことをやるのだと思います。
どのようなデータに対して、どのように実験すればいいのか
様々な人が様々なデータに対して先行研究を行って実験用コーパスもたくさん作られていたので、その中には自由に使用できるコーパスがあったはずです。
詳しい回答ありがとうございます。
すみません、説明不足でした。
「多重配列アラインメント」という問題自体に興味があって行うので、
バイオインフォマティクスに限るつもりではないのですが、
実験にあたっては実用上のインパクトを考えて研究者で
良く用いられるコーパスを用いた方が良いのではないかと考えています。
このClustalWというのは実際にアラインメントをつくってくれるツール(?)みたいですね。
この業界では評価関数でよく用いられるものというのがあるんでしょうか。
見た感じヒューリスティックで近似解を求めているように見えますが。。。
(まずは厳密アルゴリズムから考えてみたいと思っていたのですが)
詳しい回答ありがとうございます。
すみません、説明不足でした。
「多重配列アラインメント」という問題自体に興味があって行うので、
バイオインフォマティクスに限るつもりではないのですが、
実験にあたっては実用上のインパクトを考えて研究者で
良く用いられるコーパスを用いた方が良いのではないかと考えています。
このClustalWというのは実際にアラインメントをつくってくれるツール(?)みたいですね。
この業界では評価関数でよく用いられるものというのがあるんでしょうか。
見た感じヒューリスティックで近似解を求めているように見えますが。。。
(まずは厳密アルゴリズムから考えてみたいと思っていたのですが)