人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

遺伝子のコーディングにおいては、DNAから転写されたmRNAは、A,G,U,Cの4元の核酸からなる64種類のコドン(デジタル情報)を送り出し、それが細胞質内で、20種類のアミノ酸(アナログ情報)に翻訳されます。

また、ヒト話し言葉の場合は、発声は離散的ですが、聴覚はそれを単語ごとにアナログなシンボルとして処理します。

このデジタル送信、アナログ受信は、軟判定といえ、それによって符号化利得が生まれ、デジタル通信における誤り予防機能を果たします。(つまり回線上で増大するエントロピーが、符号化利得の範囲内であれば、誤りの発生する確率がひと桁下がる)

それを図にしてみました。これについて、ご意見をいただければ幸いです。

1278604623
●拡大する

●質問者: ShinRai
●カテゴリ:コンピュータ 科学・統計資料
✍キーワード:DNA アナログ アミノ酸 エントロピー コーディング
○ 状態 :終了
└ 回答数 : 21/21件

▽最新の回答へ

[1]パッと見で感覚的に理解できない adgt

ので図としては、もっとわかりやすくする必要がある。


[2]>1 図がわからないですか、それとも概念(エントロピー, S/Nなど)がわからないですか ShinRai

概念がわからないのであれば、図以前の問題となりますが


[3]>2 両方ですね adgt

1.まず概念がわかりません。

2.図としては、x軸には数値があるのに、それに対応したy軸の数値が無いので、どのような関係性があるのか分かりません。

3.また、矢印の意味合いがわかりません。一般的にはその軸において、数値がどちらに行くほど大きくなるのかを示すのが矢印です。一体何の方向を示しているのでしょう?

4.2つ登場する自己が一方は右、一方は左になっているように違いをつける意味は何ですか?


図は、基本的に最小限の構成要素で情報をわかりやすく伝達するものだと思っております。


[4]>3 エントロピー ShinRai

1 エントロピーは、信号が雑音のある回線(空間)中を伝搬するときに、雑音のせいで増大します。

2

縦軸は、エントロピー増大(上にいくほど大きくなる)です。

ちなみに横軸は、信号対雑音比で、左にいるときのほうが雑音が強く、右にいくと雑音が弱いことを示しています。

熱力学の法則でエントロピーは、 S= k log W として表現されますが、ここでは、Wの代わりにN/(N+S)を使っています。

3 ⇒の向きが両方に向いているのは、あまり気にしないでください。

4 Dはデジタル送信の自己エントロピー、Aはアナログ受信の自己エントロピーの値です。左右に分けて書いてあるのは、回線の両端にあるという意味で分けていたのですが、これも気にしないでください。


デジタル送信したものを、アナログで受信することによって、符号化利得が取れるために、誤りなく送受信できるということ(図の右上の領域)を表現する図です。


[5]用語が。。。 taka-hr

ものすごく一般的に、通信路のエントロピーの概念の図としてはだいたいこんな感じだとは思います。

ですが、質問文にあるような遺伝子とかデジタル送信・アナログ受信?とのつながりから言うとかなり離れています。

まぁ、質問文にある文章を説明するためのグラフではないならばいいですが。。

細部についていくつか指摘しておくと、"自己S"とかぐぐっても出てこない用語はやめたほうがいいのでは。また、自己エントロピーは情報の測定量なので受信点、送信点にはつけないほうがいいと思います。

コメントの S = k log W = K log N/(S+N) の左辺と右辺のSも同じ記号で意味が違う予感がします。通信路容量との関係式はこちらにありました。

http://ja.wikipedia.org/wiki/SN%E6%AF%94

また、「軟判定」については、送信側が 0 か 1 を送ったとしても、受信側でたぶん1である、ということを確率的に扱って 0.3 とかに判定するような手法ですが、この質問にあるような例は軟判定と呼ばない気がします(たぶん)

> 発声は離散的ですが、聴覚はそれを単語ごとにアナログなシンボル

というのも、「聴覚」が単語を判定しているかというとちょっと無理があるのでは。

もちろん聴覚信号で受けとったものを大脳で言語処理するわけですから、どこまでが聴覚の役割なのかは立場によって異なるのかもしれませんが、たとえば音は聞こえて反応はできるけれど意味がわからない、という場合には聴覚障害とは呼ばずに言語障害と呼ぶんじゃないかと思います。


全体的には、グラフの形としてはだいたい合っているんだと思いますが、説明文なりグラフ内の文字なりが不正確、あるいはかけ離れたことが書いてあるために、いまのままでは説明のためのグラフとしてあまり適切な感じはしないですね。。


[6]>4 見る側が気にする気にしないの判断をできるだけしないように adgt

文字や、線、矢印を配置するのが図作成の仕事だと思います。説明に長文を必要とするのであれば、最初から文章で説明すれば足りるので、そのあたりで修正されれば良いかと思います。


[7]>5 ありがとうございます ShinRai

図の形としては、こんな感じでいけそうですね。

あとは、誤解を与えないように、なるべく余分なことは書きこまないで、作ってみます。

軟判定ということばも不適切ですね。

また、ご指摘のとおり、Sの意味が右辺と左辺で違っていました。


S(エントロピー) = K log Noise / (Signal+Noise)


ぱっと見た感じで、この左上がりの対数カーブと、その右上の通信可能領域(誤りなしでの自動送受信可能領域)がわかってもらえるといいのですが。


オートマトンというためには、なにか少し説明が必要でしょうかね。


[8]図と例の関係が分かりません。 mata8_2009

当たり前のことだったら申し訳ないのですが、符号化利得とはなんでしょう?ネットで調べてもいまいち分かりませんでした。教えてもらっても良いですか?

符号化利得と言うのはエントロピーと同じものなのでしょうか?

デジタル送信、アナログ受信というのがいまひとつ分かりません。

遺伝子のコーディングの例で(デジタル-アナログの意味が曖昧と思いますがデジタルデータだとして。)デジタルからアナログへの変換をしているだけで、回線にはあたらないような気がします。

また、ヒト話し言葉の例では

アナログな話なのでデジタルな信号は関係ないと思います。

図が例の何を表しているか分かりません。


[9]>5 用語を。。。 Eisenblau

この話題は難しいような気もしますが、他の方の回答にも同様のご意見があった様なので用語の定義を確認できればと思います。あまり語義を拡張せずに「デジタル」「アナログ」「エントロピー」あたりの意味を一先ず共有したいです。

ぼくの「デジタル=離散的な数値によるデータ表現」「アナログ=連続量によるデータ表現」という理解で考える限りでは、遺伝子の例も話し言葉の例もちょっとShinRaiさんの仰ることが飲み込みにくく思えます。

各コドンを一つのケタとしてmRNAが離散的な表現をしていると考えるのは「アリかな」と思えますが、だとすれば出来上がるアミノ酸鎖も同様に離散的表現の連続と扱っていいような気がします。(或いは、蛋白質としての機能を考えるならばデータと見做すこと自体が難しいですね。ホルモンなんかは別として、必ずしも全ての蛋白がどこかに情報を伝えているわけではありませんから)コドンとアミノ酸をそれぞれデジタル/アナログと分けて情報と見做したのは、何を基準にしての判断ですか?

話し言葉の発声が離散的、とはどの段階でのお話ですか? フォルマントの連続的な変化が音素を構成している以上、構音の段階で出来る音声はデジタル符号とは言い難いように思います。構音以前の段階を考えるとして、語彙のデータが発話者の中に離散的に蓄積されている…と仮定すると、離散→連続の変換は完全に発話者の内部で行われることになります。この場合を極めて大雑把に抽象化すれば、「話者の中でデジタルからアナログ化」→「アナログデータとして音が空気中を伝わる」→「聞き手の聴覚がアナログデータを受け取る」→「聞き手がアナログデータを語彙を参照してデジタル化」と言えそうな気はしますが…デジタル送信、アナログ受信とはこういうことでしょうか?


あとは「デジタル/アナログに全部帰するのはちょっとどうかな」と思った根拠を示します。普通の発話データを空白で分断したものと、空白で分断した箇所にノイズを重ねて挿入したものでは後者のほうが聴解が簡単です。また、純粋に別々に発声された音を連結するとかなり異様な聞こえ方になることも知られています。(このページの錯聴>マスキング可能性の法則、母音連結にそれぞれのデモがあります。他のデモも面白いので興味があれば聞いてみてください…モザイク音声が一番気に入っています)これを図中の用語で表現すると、前者は「S/N比が減少すると通信可能領域が拡大する」、後者は「アナログ情報を削除すると通信可能領域が縮小する」…ということになってしまいませんか?

言語理解に関しては、視覚情報や前後の文脈からもかなり強い影響を受けています。誤り訂正や補完は確かに行われていますが、それが通常の符号化利得と同じものと決定するにはかなり慎重な議論が必要なのではないかと思います。

ぼくの議論もかなり混乱している箇所がありそうで済みません。間違いや怪しい点があったらご指摘いただければ幸いです。


[10]>9 いくつかの概念について ShinRai

(1)

「デジタル=離散的な数値によるデータ表現」「アナログ=連続量によるデータ表現」という理解で考える限りでは、遺伝子の例も話し言葉の例もちょっとShinRaiさんの仰ることが飲み込みにくく思えます。

⇒ そうだと思います。

私も手探りで、「デジタル」という概念と格闘してきました。はじめは、デジタル=「離散・有限」であったものが、デジタル=「符号化」というふうに発展し、突如として、デジタル=「自動処理」、アナログ=「パターン認識(記憶との照合)」というところに行き着いたわけで、それが正しいのかどうかを知りたくて、はてなの皆様の頭脳を煩わせているのです。

(2)

コドンとアミノ酸をそれぞれデジタル/アナログと分けて情報と見做したのは、何を基準にしての判断ですか?

⇒ コドンにおいてRNAは、信号として機能しています。生化学物質としての機能は期待されていません。

アミノ酸は、生化学物質として機能しています。


(3)

話し言葉のデジタル性が、いちばん難しいところです。

なぜならば、僕達はずっと、話し言葉はアナログ、書き言葉はデジタルと思い込んできたからです。

Nothing as offensive as innocence.

この英語の文を、日本人が読むと、Nothingの「あ」と「as」の「あ」は、同じ音になります。

英語ネイティブが読むと、Nothingの「ア」は音が高く、asの「あ」は音が低く、離散的に発音されています。

これは、日本語は「あ」をひとつにしか区切っていませんが、英語では2つか3つに離散的に使い分けて発声していることを示します。

発声器官の運動制御は、いちいちその都度指示を出すのではなく、無意識・自然にその音が離散的に出ます。

一方で、聞き取りは、離散的に聞き取るメカニズムがないのです。

我々の耳からの信号は、いくつかの神経核を経由して、大脳皮質の一次聴覚野の周波数局在構造(tonotopic structure)へと送り込まれます。そこでは、音声は音韻ではなく、音響信号として処理されます。アナログ受信機しかないということです。

いうならば、聞き取りにおいては、イヌもネコもヒトも、同じメカニズムを使っているのです。

でも、そのアバウトに聞き取ることのおかげで、エントロピーが多少増大しても、聞き取り間違いが起きない構造になっているといえます。ここにデジタル通信の妙味がある。

フォン・ノイマンが、「自己増殖オートマトンの理論」の中で,「オートマトンの形式的研究は,論理学,通信理論,生理学の中間領域に属する問題である.それはこの3分野のどれか一つだけにとらわれた立場で見たのでは片輪なものになってしまうような抽象化を内包している.(略) この理論を正しく取り扱うのは,これら3分野別々の立場からの見方を融和させることが必要である.」そしてオートマトンの存在定理を確立するにあたって,「かなり重要な点に至るまで,熱力学の型と概念形成のあとをたどることになるだろう」と予言したことは,このあたりのことだったのではないかと思うのです.


生理学的には,非常に繊細な発声器官運動制御の結果である音声を,一次聴覚野上の周波数遷移によって識別するシンボルとして取り扱う.

通信工学的には,きめ細かな神経刺激による発声器官運動制御によってデジタル変調された音声を,聴覚がアナログ・シンボルとして処理する.

このために送受信回路間で,ノイズや拡散による音声信号のエントロピー増大がおきてもそれを吸収できる.

論理学的には,復調したシンボルを概念体系に照らしてパターン認識する.

この変復調メカニズムによって,神の存在がなくても,音響信号は誤りなく聞き手に伝わるようになりました.

我々が脳内の言語処理過程に無自覚でいるのは,聴覚から意味の復元まで自動的に行なわれるからではないでしょうか.


[11]エントロピーEX b5600

これがいい


[12]hgsy b5600

これもいいです


[13]用語が b5600

ものすごく一般的に、通信路のエントロピーの概念の図としてはだいたいこんな感じだとは思います。 ですが、質問文にあるような遺伝子とかデジタル送信・アナログ受信?とのつながりから言うとかなり離れています。 ...


[14]rregds.jp b5600

b;t@eaf


[15]用語お b5600

しさそとし


[16]>10 レイヤーがずれてます taka-hr

> なぜならば、僕達はずっと、話し言葉はアナログ、書き言葉はデジタルと思い込んできたからです

これ自体反論がいろいろあるとは思いますがまぁさておくとして。。

> 発声器官の運動制御は、いちいちその都度指示を出すのでは

> なく、無意識・自然にその音が離散的に出ます。

人間が任意の周波数構成の音を発音できる構造にはなっていない(ピアノの音とか出せない)ためにそういう解釈が生まれたのではないかと想像しますが、

ここがまず願望のまじった解釈になっています。

試せばわかることですが、「あ」と「え」の間の音とか、

「ま」なのか「な」なのか区別しづらい音とか、

「きんじ」なのか「きじ」なのか区別しづらい音とか…

いろんな反例があって、"発声器官が離散的"というのがまず誤りだと思います。


> 一方で、聞き取りは、離散的に聞き取るメカニズムがないのです。

また別の観点から言うと、生体に限らず、メタル線を使おうが光ファイバーを使おうが、すべての通信は(物理現象を利用する限りは)あるレイヤにおいてはアナログ情報として扱われます。

たとえばわかりやすいのはフォトトランジスタという素子がありますが、これは光を電流量に変換するもので、アナログ回路であるとも言えます。

なので、生体では鼓膜が音響信号を取り扱うということを指して、この観点から論じても、すべてがアナログシンボルとして取り扱われるというのは特徴になり得ません。

OSI ではこのアナログのレイヤを物理層と呼んでいます。物理層では、どんな線を使うとか電波を使うとかを定義して、周波数帯や変調方式などを定めています。

-----

生体とオートマトンの関係について、あるいは言語の例において"アナログ受信"という言葉で言わんとしていることを勝手に解釈すると、

「きじ」なのか「きんじ」なのか区別しづらい音でも、文脈にあわせて「きじがけいさいされた」「きんじてきにけいさんした」のように区別できる理由

について議論することは考えられます。


オートマトンとか生成文法などにおいては、入力トークン列を与えて受理できるかできないかによって、言語として正しいかどうかを判定する、ということが研究されましたが、『「きじ」か「きんじ」かわからないトークン』、というものを扱うために、「軟受信」という考え方が出てきています。

つまり、『「きじ」である確率30%, 「きんじ」である確率70%』 というトークンを入力として考えて、そのような確率を扱えるオートマトンで処理することによって、文脈とあっているかを判定し、結果として「きんじてきにけいさんした」と発話した確率90%, 「きじてきにけいさんした」と発話した確率10%であるだろう、といった結果を得る、というような種類のオートマトンを考えることができます。

# ただし、こういうものを単に「オートマトン」と呼ぶのは

# 混乱を招くので、通常は「確率オートマトン」とか呼ぶと思います。もっと細かい分類もあると思いますが


ノイマンの論文を読んだわけではないので申し訳ないですが、

「生理学的」というのは、情報を扱うのはすなわち人間であること、そして、人間は創造する能力を持っているのにもかかわらずコンピュータはなぜそれができないのかについて研究が必要であると考えたためです。これを分析するためには、生理学的側面を研究する必要があることを指していると思われます。

そして、人間の思考をコンピュータ上でモデル化するためには、単に信号がアナログ信号であるというだけではなくて、デジタル処理でアナログ処理を近似するにはどうすればいいかの研究が必要で、そのためにたとえばオートマトンに確率を追加して、論理学を確率分布として扱う手法などが研究されました。このような研究成果は、たとえば音声認識であるとか画像における人物判定であるとかに用いることが可能であると思います。実用化? された例としてはファジィ論理なんてものもありましたね。


遺伝子についてはあまり詳しくないですがEisenblauさんのおっしゃるように、そもそもアミノ酸の生化学物質としての働きを情報やエントロピーとしてどう扱うのかの前提が議論されないと、正しいとも正しくないとも言えない話になっていると思います。

20種類と離散的に定義してしまえばそれは離散情報ということになりますし、アミノ酸の組合せによって働きが違うなどのことを指すのであれば、20種類という定義がこのレイヤにおいては適切ではないとも言えます。


[17]>8 いくつかの概念について ShinRai

符号化利得:符号化利得とは、誤り訂正符号化を行うことによって、通信効率がおよそ一桁よくなることです。

符号化すると、誤りの確率が下がるのです。それだけで、通信の効率が10倍よくなる。

これがエントロピーとどこまで同じなのか、うまくいえません。ゴメンなさい。符号化によって、エントロピー増大をうまく吸収するから符号化利得が生まれるのだといえるでしょうね



デジタル通信・アナログ受信がわからないというのも、正直なご感想であり、ありがたいです。僕だって、わからなかったですよ、つい最近まで


遺伝子の場合、送信するのは、コドンです。これはデジタル。RNAの並び方は、単なる信号です。

受信するのは、コドンがアミノ酸に結びつけられるから、アナログです。アミノ酸はそれがペプチド結合するから、生化学物質です。

話し言葉の場合は、送信は発声器官によって離散的に行われますが、受信は大脳皮質一次聴覚野で行われます。それをいっています。


取り急ぎ思ったことを書きました。また、きいてください


[18]>17 うーむ mata8_2009

>通信効率がおよそ一桁よくなることです。

ん?1桁よくなること自体が符号化利得なんですか?

とすると、雑音で符号化利得が取れなくなると10倍から1倍になると言う感じで良いですか?

デジタル通信・アナログ受信と言うのは、

デジタルをアナログで受けるのならば、やはりDA変換なのでは?

遺伝子の場合、通信路と見立てたとしても、雑音が入る余地が無いような気がします。

話し言葉の場合、デジタルの要素がどこにも無いですよね?元々アナログな音がアナログに理解されているのでデジタル通信の意味が分かりません。


[19]>18 縦軸について ShinRai

縦軸は、エントロピーの増大を意味しますが、

これは同時に、1Hzあたりのbpsの逆数になるようです


[20]>17 気になった点を整理。 Eisenblau

ここまでの議論で気になった点を整理してみます。



1.グラフの式について(コメントでの議論より)

コメントでの注釈などで何度か

S(エントロピー)= klog(Noise/(Signal+Noise))

とありますが、

S(エントロピー)= klog(Signal/(Signal+Noise))

ではありませんか?

また、係数のkとKはどんな値で、大文字と小文字に意味上の違いはありますか?



2.デジタル、アナログの定義について

ShinRaiさんが「デジタル」「アナログ」の意味を拡張して再定義したい、

という提案をなさっているところまでは伺えました。

デジタルには「離散的」以外に「自動処理される」という意味を、

アナログには「連続的」以外に「パターン認識で処理される」という意味を

それぞれ仮定するとして、それが妥当かどうかを検討するうえで

まだ少し引っかかる箇所があります。


(1)自動処理とパターン認識の違い

パターン認識と自動化は必ずしも両立しないものではなく、

寧ろ自動的なパターン認識は極めて頻繁に行われるようにぼくは思います。

離散的なものとして送信されたデータを(例えば1か0、というパターンで解釈して)

ノイズを除去して自動処理する仕組みはパターン認識と同じものではないでしょうか。

もしかしたら自動処理、パターン処理という言葉の定義をもう一段さかのぼって

(出来れば簡潔に、しかしこれ以上の誤解の無いように...

難しいですが、なんとか)確認する必要があるのかもしれません。


(2)自動的処理、パターン処理の場?

デジタル情報に関して「自動的に処理される」という表現が発信側と受信側の

双方に出てきているようですが、ここでのデジタルの定義としては発信側と受信側の

どちらが自動的に処理することを想定していますか?

デジタル情報が発信者が自動的に処理するものをさす場合、

アナログ情報の発信としては例えばどんなものが考えられますか?

また、同様にデジタル情報の受信としてはどんなものが考えられますか?


(3)生化学物質=アナログ?

RNAは単なる信号(だからデジタル)、アミノ酸は生化学物質(だからアナログ)という

考え方についてももう少し詳細な説明をいただけると助かります。

RNAはRNAポリメラーゼで、アミノ酸はリボソームでという違いはあるとして、

mRNA合成時のエステル結合とアミノ酸のペプチド結合に生化学反応として

どんな差を想定しているのかぼくには読み取れませんでした。


(4)話し言葉の離散性+あいまい性、自動性

2(1)で考えた「自動の定義」の話題が解決するまでは細かく検討できないのですが、

ある面では言語が自動的に(少なくとも非意識的に)処理されるというのは自明です。

ただし、現時点では実験による実証に基づいて

言語産出と言語理解は大部分が共通する神経ネットワークに依拠していると

考えられています。(聴覚野、運動器等の言語処理以前の段階を除きます)

と、結局その共通部分がどのように情報を処理しているかによって

言語産出と言語理解の両方が同じ性質を持つと考えることがぼくには自然に思えます。

また、単語の発音のルールは一音一音が個別に記憶されている訳ではなく

体系化された発音規則として文法とともに学習されている、と考えるほうが

自然ではないでしょうか。

(例えばHeeeeee said "Nothing [is] as offencive as innocence"!!

「(よりによって)あいつが言ったんだぜ!(冗談だろ!?)」と

Heに強いアクセントを置いた場合、ネイティブであっても二つのshort aの発音は

ともに曖昧化する筈です。この母音の差の消失が意味理解を妨げることもありません)

発音の違いを指して離散性を示すとするのは少し早計ではないでしょうか。



3.例と符号化利得について

DNAの例と符号化利得の関連も、いまひとつぼくには理解しにくいです。

mata8_2009さんが指摘して下さっていますが、RNAの例に関しては

・ノイズが混入しているのか ・ノイズが符号化利得によって除去されているのか

が不明瞭なように思います。遺伝子の乗換えや組み換え、ミスコピーが起こった場合

突然変異が生じることは符号化による誤り訂正が働いていないことを

示すものではないでしょうか?

多少のRNAのミスコピーがあっても生物体全体が損なわれない、ことが

鋳型のDNAが安全に保存されているからだとしたら、これはやはり誤り訂正の仕組みとは

異なるのではないでしょうか?


まだ幾つか腑に落ちない点はありますが、とりあえず上記のことが明確になれば

少し検討がやりやすくなるように思います。


[21]>19 逆数? mata8_2009

エントロピーは単位が無い単なる「5倍」のような値だと思ったのですが、単位がつくんですね。

bitでもなく、bitの逆数になるになる??

エントロピーが大きくなるとbitが少なくなると言うことですね。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ