どんな研究をするの?

– 複雑系の謎解きはあなたにかかっている!-

 「社長が交代すると倒産寸前の会社が立ち直る」,「プロ野球の監督が変わると優勝できるようになる」 このような話はよく耳にしますが,実はコンピュータも同じです. 知的なコンピュータがあっても勝ち組の社長や監督が行うように適切に指示を与えなければ有効に機能しません.特に,複数台あるときはなおさらです.ちょっとした指示の仕方やタイミングを間違うと平凡な結果しか得られませんが,うまく行うと3人集まれば文殊の知恵のように台数以上の結果を導くことができるのです.

 このような分野は「複雑系」と呼ばれており,本研究室ではその複雑系の謎を解き明かすことを目的としています.

slide

システム指向設計
System-centered design

line



CADのプリント基盤配置

 右図に示す自律分散型最適化によるCADのプリント基盤配置システムの研究は松下電工との共同研究であり、当研究室では部品(抵抗やコンデンサなど)の適切な配置位置を決定するエージェント技術を開発しました.これは、プリント基盤上に配置される複数の部品(エージェントに相当)をシステムが決定するのではなく、部品自らが行動(上下左右の移動、回転、ジャンプなど)を決定しながら、部品間の配線長をできる限り短く、かつ速く配置する技術です.この技術により、商品化されるまでの基盤設計時間を一気に短縮するとともに設計者の手間も省けるようになり、専門家の成果を超える部品配置を見出すことに成功しました.

research1




HTVカーゴインテグレーション

research2

 宇宙航空研究開発機構(JAXA)では、スペースシャトルのかわりに国際宇宙ステーション(ISS)に荷物を輸送する宇宙機(HTV)を開発していますが、当研究室ではそのカーゴインテグレーション業務の実用化に着手しました.具体的には、左図に示すように、HTVに搭載される荷物(クルーの食料や備品など)自らが適切な配置位置を見出すエージェント技術を考案しました.HTVの重心が機体の中心からずれると、適切な姿勢の制御に必要以上の燃料を費やすため、HTVの重心は機体のほぼ中心に収まる必要があります.

 この問題に対し、瞬時に計算できるシステムを開発し、NASAや国際的な発表の場で高い評価を得ています.また、そのシステムは実際のHTVカーゴレイアウト計算に採用され、2009年9月の打ち上げに成功しています。今後10回の打ち上げに使用されることになっています.





災害時におけるバス路線網最適化

 東日本大震災後、当研究室では右図に示す災害時におけるバス路線網最適化に取り組んでいます.災害時は道路の状況が頻繁に変化し、既存路線の運行は確約できないため、道路が寸断されてもバス路線網に大きな影響を与えない路線網最適化技術を考案しました.さらに、この手法を帰宅困難者のためのバス路線網最適化への展開にも成功しています.この研究は電通大のプロジェクトであり、災害を減災に変える技術を数多く生み出しています.

research3



人間指向設計
Human-centered design

line



睡眠段階推定法

 レム睡眠やノンレム睡眠など,睡眠段階を推定することで,睡眠の深さを定量的に評価することができます.しかし,睡眠段階を正確に推定することができるPSG法は,頭や顔にいくつもの電球をつけて寝なければならないため,患者の身体的負担が大きく,質のよい睡眠を妨げてしまいます.また,複数の医師・専門技師による解析を要することから経済的な負担がかかるという問題点があります.

 そこで,当研究室では,マットレスセンサーを用いて,非侵襲的に睡眠段階を精度よく推定するための研究を行っています.



line



高齢者毎にあわせる介護支援

 当研究室では、高齢化社会における介護支援に焦点を当て、右図に示すような介護の質を向上させるケアサポートシステムを構築しています.具体的には、高齢者毎に適切なライフスタイルを設計するケアプラン設計エージェント、高齢者の健康データ(体温や血圧など)から健康状態を能動的に推定し、個々の健康状態に応じた介護を支援する健康モニタリングエージェント、介護データから有用な知識を介護士間で共有させる介護士育成支援エージェントに取り組んでいます.その一例として、非接触で高齢者の心拍データを取得した後、そのデータから睡眠段階を推定する技術を考案し、実際の介護施設への導入をすすめています.



line



教育エージェント

 AIBOやPLEOなど,従来の1ユーザに適応するエージェントとは対照的に,集団に適応するエージェントの設計を探求する研究を行っています.集団は1個人に比べ,個人の集まりからもたらされる複雑な特徴があることから,それに適応するエージェントのモデル化が非常に難しいとされています.

 上記の目的を解決するため,実世界の集団をモデル化しやすい異文化体験ゲームバルンガの被験者実験を行い,その模様を観察することで,不明確である集団適応状態を定義します.その後,実験の結果から集団に適応するエージェントをモデル化し,コンピュータシミュレーションによりそのモデルの効果を検証します.シミュレーションにより,(i)集団には他人の意見を考慮するリーダーが必要であり,(ii)集団がまとまるためには,リーダーに加え,意見を積極的に言うエージェント,周りに意見をあわせるエージェントの3種類のバランスが重要である,という知見が得られました.




エージェント技術
Agent Technology

line



学習分類子システム

 近年の情報技術の発達に伴い,多種多様なセンサーから多様なデータが取れるようになったため,そのデータの特徴や規則性などの有用な知識を発見するデータマイニング技術が求められています. そのような知識はニューラルネットワークをはじめとした様々な機械学習技術によって獲得が可能ですが,なぜそのような知識が得られたのかを人間が解釈する事が難しいという問題があります.

 また,実際のデータにはばらつきがあるため,規則性を見つけるのが難しく,実応用が進まない一つの要因となっています。 ばらつきも考慮して規則性を見つける手法の研究を行っています.



line



進化計算

 止め処無く変化する環境への適応私たちの過ごす現実世界では,株価のように時間などによって周りの環境・状況などが 刻一刻と変化するような問題があります.また,自然界には遺伝・魚の群れなど長い年月をかけて進化させてきた環境に適応するメカニズムが存在します.このようなメカニズムを利用することで,止め処無く変化する環境への適応を目指します.



line



強化学習

 エージェントは代理人という意味を表す英語ですが,人工知能分野におけるエージェントは目的をもって振舞うものを指します.従って,エージェントは自身の状態(State)を知覚し,それに対して行動(Action)を行います.この状態に対して行う行動は様々あり,エージェントはそれを確率的に選択します.それら確率をエージェントの政策(Policy),状態と行動全ての政策を集めて戦略(Strategy)といいます.エージェントは強化学習(知的情報処理)により政策を推定し,状態に対する最適行動を学習します.

・Q学習[Watkins, 89]

 強化学習の一つにQ学習というものがあります.Q学習では報酬を設定し,エージェントはその値(報酬値)に基づき単位時間あたりに得られる報酬が最大になる戦略を獲得します.Q学習は最適性が保証されており,最終的にQ学習エージェントは最短工程で報酬を得ることが出来ます.しかし,Q学習エージェントは自身の利益のためにしか行動しないため,複数になったとき各エージェントの学習を阻害してしまうことがあります.これにより全体として得られる利益は少なくなってしまいます.Q学習更新式

・協調を起こすQ学習エージェント

 上記の問題解決のため私の研究では迷路問題を使い,協調を起こす方法を提案しそれを理論的に示しました.提案した協調を起こすQ学習エージェントは主に以下の二つの手順を踏みます.

  1. 協調のためのゴール選択

     エージェントはゴールした時,それまでに行動した数であるステップ数が今までよりも小さい場合それを記憶する.そしてステップ数が記憶されたとき,そのステップ数を他のエージェントへ送信する.そうしてエージェントは全エージェントの全ゴールに対する最短ステップ数を得ることが出来ます.エージェントは得られたステップ数を基に協調した際の向かうべきゴールを判別します.判別方法は実際にエージェントとゴールの組み合わせを計算し,全エージェントが最短ステップでゴールできるようなゴールを選びます.

  2. 内部報酬に基づくQ学習

     エージェントはゴール選択を己の利益で判断します.それは報酬値を基にQ値を計算すると,スタート地点で一番近くのゴールへ向かう行動のQ値が大きくなるためです.ここでは内部報酬というものを使ってその報酬値を変え,手順1で選んだゴールへ向かうようにします.実際どうするかというと,エージェントが向かうべきゴールの報酬値を大きくしてそのゴールへ向かう行動のQ値を一番大きくしています.

提案手法
提案手法2
協調(1)