スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

--.--.-- | | スポンサー広告

プレディクティブ・コーディング

Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects

今日の輪講で同学年のKSくんが紹介してくれた予測符号化の論文を要約します。

視覚野の情報処理は視覚刺激を予測することであるという観点で、視覚野の情報処理の計算モデルを提案しています。我々の視覚野は網膜、LGN、V1、V2、、、というように階層構造を持っていてます。解剖学的には、低次の領野から高次の領野へというフィードフォーワードの結合があるだけでなく、高次の領野から低次の領野へのフィードバックの結合もあります。しかもフィードバックの方が多いと言われています。これまでのモデルでは、フィードフォーワードの結合しか考えられていませんでした。そこでこの論文では、高次の領野が、低次の領野から入ってくる次のステップの視覚情報を予測しているとして、フィードバックの情報はその予測値であるといっています。そして、フィードフォーワードの情報は、高次野で予測された視覚情報と入力された視覚情報の誤差であるとします。結局、上の層に送られるのは予測誤差で、下の層に送られるのは予測値であるというモデルです。これが階層構造を持っているのです。また、上位の層の細胞は複数の下位の層の細胞から入力を受けていて、複数の下位の層にフィードバックを返しているとします。

シミュレーションにより、end-stopped cell(receptive fieldに棒の終端があるような刺激に反応する細胞)の応答を説明できるとしています。つまり、end-stopped cellは予測誤差に反応する細胞(誤差検出細胞)なのです。自然画像には「棒の終端」のような画像よりも縞模様が多く含まれています。ですから上位層は縞模様を予測します。しかし、入力された画像は「棒の終端」だったとします。そうすると予測誤差が大きく生じてend-stopped cellと呼ばれている細胞が応答するのです。さらにextra-classical receptive field effects(receptive fieldの外に何らかの刺激があるときとないときで反応が変わるという現象)を説明できるといっています。上位層はreceptive fieldの中と外に同じような刺激があると予測します。receptive fieldの内と外で刺激が同じなら、誤差検出細胞は発火しません。しかし、内と外が異なっていると発火するのです。

この論文の話と同じことを一般向けに説明した本を紹介しておきます。
ジェフ・ホーキンス 考える脳 考えるコンピューター


この論文のアルゴリズムについて、自分なりにまとめておきます。

下位層と上位層の予測誤差に平均0のガウシアンを仮定して、その対数尤度を最大化する神経活動rと基底Uを求めます。

下位層の予測誤差の確率モデルは、

 P( I | r, U ) ∝ exp [ - 1/σ^2 ( I - f(Ur) )' ( I - f(Ur) ) ]

ここで、Iは視覚入力、rは下位層の神経活動、fはフィードバック関数、σ^2は下位層の予測誤差の分散を表します。'は転置です。

上位層の予測誤差の確率モデルは、

 P( rtd|r ) ∝ exp [ - 1/σtd^2 ( r - rtd )' ( r - rtd ) ]

ここで、rtdは上位層の神経活動、σtd^2は上位層の予測誤差の分散を表します。

さらに、rUに以下の事前分布を仮定します:

 P0(r) ∝ exp [ - g(r) ],

 P0(U) ∝ exp [ - h(U) ].

このとき視覚入力Iと上位層の活動rtdが得られたときの神経活動rと基底Uの同時事後確率は、

P( r, U | I, rtd ) ∝ P( I | r, U ) P( rtd|r ) P0(r) P0(U)

となります。これの対数をとってマイナス符号をつけたものを評価関数とします:

 E = 1/σ^2 ( I - f(Ur) )' ( I - f(Ur) ) + 1/σtd^2 ( r - rtd )' ( r - rtd )
   + g(r) + h(U).

EをrUでそれぞれ偏微分して勾配法によってEを最小化します。

rUが相関しているとき、これはあまり良い方法ではないような気がします。また、実は収束するように徐々にアップデート幅が小さくなるようなヒューリスティックを入れています。ですから、ちょっとずるいなと思ってしまいます。もっときれいな方法があるのではないでしょうか。

スポンサーサイト

テーマ:心・脳・言葉・人工知能 - ジャンル:学問・文化・芸術

2006.03.03 | | Comments(5) | Trackback(0) | 論文の紹介

コメント

ところで

この勾配法はどんな感じで脳にインプリされているんでしょう?

2006-03-04 土 01:36:43 | URL | しろうと #- [ 編集]

> しろうとさん
実際にこの勾配法が脳にインプリされているかどうかはわかりません(たぶん、この形ではインプリされていないでしょう)。重要なのは、上位層が予測を下位層に送り、下位層が上位層に予測誤差を送るという新しい枠組みによって、解剖学的、心理・生理学的なデータを無理なく説明できるということだと思います。その点から見れば、どんなアルゴリズムで評価関数を最適化するかという問題は小さな問題です。まあ、細部はこれから明らかにされていくのでしょう。

2006-03-04 土 12:08:12 | URL | yureisoul #- [ 編集]

そうですね。

そこは、特に大きな問題ではない気がします。
ありがとうございました。

個人的には時間方向を考慮したモデルとどう組み合わせたらいいのかが気になります。でも、時間軸を考えたら動画になるんでしょうか?だれかがもうやってたら助かるんですけどね。

2006-03-04 土 15:47:28 | URL | ドしろうと #- [ 編集]

時間方向

> ドしろうとさん
>
時間方向に関してはこの著者が自分のやつを論文内で引いていて、それを読めと書いてます。カルマンフィルタを使ったモデルだとのこと。

Dynamic model of visual recognition predicts neural response poroperties in the visual cortex.
Rao. RPN and Ballard. DH.
Neural Compt,1997

Rao. RPN
An optimal estimation approach to visual perception and learning.
Vision research, 2000(or 1999)

2006-03-05 日 14:31:53 | URL | KSの人 #- [ 編集]

ベイジアンモデル

> KSさん

ありがとうございます。
私が以前紹介した
Rao RPN
Baysian Computation in Recurrent Neural Circuits
Neural Computation 2004
は、マルコフ遷移する外界の対象を再帰的ニューラルネットで表現できるというものでした。このモデルでも運動する視標を表現できていましたよ。

2006-03-05 日 16:37:39 | URL | yureisoul #- [ 編集]

コメントの投稿


秘密にする

«  | HOME |  »

FC2カウンター

ブロとも申請フォーム

この人とブロともになる

ブログ内検索


上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。