MIGSOM

SOM(自己組織化マップ)は,教師無し学習アルゴリズムの代表例であり,高次元データを低次元データ(通常は2次元マップ)に写像することで,データの可視化やクラスタリング,連想記憶などで利用される.SOMはスケーラビリティの高いアルゴリズムとして広く知られているが,その高いスケーラビリティが発揮できるのは十分に低次元な密データを扱う場合に限定されており,単語文書行列やリンクドデータを表現する隣接行列のような大規模疎行列データの扱いが技術的な課題であった.本研究では,神経細胞移動(Neuronal Migration)という,中枢神経系の効率的な構築に関する現象をモデルにした自己組織化マップアルゴリズム「MIGSOM」を提案する.

神経細胞移動

生物は複雑な動作や知的処理を,計算機に比べると驚くほど小規模な回路で実現し,小さなエネルギーで動作させることが可能である.このような合理性・効率性は何処から来るのであろうか.世界初の汎用計算機が開発されてから半世紀以上経ち,半導体技術の発展により,計算スピードという面ではコンピュータは目覚ましい進化を遂げた.しかし,その一方で生物が持つ情報処理能力の大局性・ロバスト性・自律性・効率性などの面では,未だ遠く及ばないのが現実である.このような背景から,生物の情報処理の仕組みを解析し,合理的・効率的な計算モデルを実現する「{\bfseries 生体模倣技術}(バイオミミクリー: Biomimicry)」に関する研究が注目を集めている.この研究分野では,生体システムが持つ合理的な機能がいかにして実現されているか分析し,その仕組みを模倣することで新しい技術を実現することを目的としている.生物の情報通信の仕組み(特に脳などの中枢神経系)を解明・模倣する取り組みも行われており,最近では蛍の発光の同期現象にヒントを得た情報通信モデルなどの研究が行われている.また,小脳の情報選択の働きを模したローゼンブラッドのパーセプトロンも生体模倣技術の一例と言える. 脳などの中枢神経系は,大量の情報の分類やクラスタリングなどに適した効率的・合理的な構造を持っているが,その構築方法などの詳しい仕組みは長い間研究者の興味の対象であった.その中でも,中枢神経系の形成プロセスは特に注力されてきた分野であり,この10年程度で急速に解明されてきた.その中でも特に,神経細胞移動(Neuronal Migration)が重要な役割を果たすことが判明していている.神経細胞移動とは,個々の神経細胞が自分に適合した場所を探しながら移動し,全体として効率的な情報ネットワークを構築する現象である.

MIGSOMの基本原理

MIGSOMは,KohonenのSOMと同様,反復処理による教師無し学習手法であるが,データの表現方法と学習対象の点で大きく異なる.KohonenのSOMでは,マップ上の各ノードが独自のベクトルを持ち,その値を変更(ベクトル修正)していくことで学習が行われる.この際,マップ上の一つのノードが必ずしも一つの入力レコードに対応するわけではない.これとは対照的に,MIGSOMでは, マップ上のノードが入力レコードに対応する.ノード上に配置された入力レコードをニューロンと呼び,ニューロンがマップ上を移動することでマップ全体の学習が行われる.また,入力レコードが割り当てられないノードには,ランダムに生成されたベクトルを持つ グリア細胞が配置される.グリア細胞は,ニューロンの間を埋める補助的なベクトルであり,ニューロンの移動をガイドする役割を果たす.ニューロンの移動方向は,ランダムに周辺に軸索を伸ばし,自身のベクトルと類似しているノードが多く集まる方向を発見することで決定される.

応用例:WikiSOM

MIGSOMを実際の大規模Webデータに適用した応用例として「WikiSOM」を紹介する。WikiSOMは、Wikipedia英語版のデータのリンク構造を隣接行列(130万X130万)として、MIGSOMを利用して解析したアプリケーションである。 WikiSOM Demo Demo システムの構築手順は以下のとおりである。デモシステムではAjaxズーム機能により、マップの詳細部分と全体を無断階に解析可能である。