右図に示す自律分散型最適化によるCADのプリント基盤配置システムの研究は松下電工との共同研究であり、当研究室では部品(抵抗やコンデンサなど)の適切な配置位置を決定するエージェント技術を開発しました.これは、プリント基盤上に配置される複数の部品(エージェントに相当)をシステムが決定するのではなく、部品自らが行動(上下左右の移動、回転、ジャンプなど)を決定しながら、部品間の配線長をできる限り短く、かつ速く配置する技術です.この技術により、商品化されるまでの基盤設計時間を一気に短縮するとともに設計者の手間も省けるようになり、専門家の成果を超える部品配置を見出すことに成功しました.
詳しくはこちら
宇宙航空研究開発機構(JAXA)では、スペースシャトルのかわりに国際宇宙ステーション(ISS)に荷物を輸送する宇宙機(HTV)を開発していますが、当研究室ではそのカーゴインテグレーション業務の実用化に着手しました.具体的には、左図に示すように、HTVに搭載される荷物(クルーの食料や備品など)自らが適切な配置位置を見出すエージェント技術を考案しました.HTVの重心が機体の中心からずれると、適切な姿勢の制御に必要以上の燃料を費やすため、HTVの重心は機体のほぼ中心に収まる必要があります.
詳しくはこちら
実環境において,地震などで鉄道,道路のインフラが機能停止した場合,早急な路線網構築が求められるが,路線状況は時間と共に変化し,路線のパフォーマンスが低下してしまう.しかし,その路線網を大幅に変更してしまっては利用客の混乱に繋がり,効率的ではない.その他にも,人の勤務シフトを作成した際に,急に勤務が不可能になってしまう場合に,わずかな修正で勤務シフトを再構築することが望まれる.具体的には,求めた解が環境に適応出来なくなった際に,出来るだけ少ない変更で環境に適応出来るような解が求められる.
詳しくはこちら
レム睡眠やノンレム睡眠など,睡眠段階を推定することで,睡眠の深さを定量的に評価することができます.しかし,睡眠段階を正確に推定することができるPSG検査は,頭や顔にいくつもの電極をつけて寝なければならないため,患者の身体的負担が大きく,質のよい睡眠を妨げてしまいます.また,複数の医師・専門技師による解析を要することから経済的な負担がかかるという問題点があります.そこで,当研究室では,マットレスセンサーを用いて,無拘束でに睡眠段階を精度よく推定するための研究をしています.生理学的知見に基づき設計したモデルによる睡眠段階推定と機械学習を用いた睡眠段階推定の2種類のアプローチに取り組んでいます.
健常者のデータだけでなく睡眠時無呼吸症候群の患者の実データを取り扱っているため,病気の推定にも応用できないか模索しています.
詳しくはこちら
当研究室では、高齢化社会における介護支援に焦点を当て、右図に示すような介護の質を向上させるケアサポートシステムを構築しています.具体的には、高齢者毎に適切なライフスタイルを設計するケアプラン設計エージェント、高齢者の健康データ(体温や血圧など)から健康状態を能動的に推定し、個々の健康状態に応じた介護を支援する健康モニタリングエージェント、介護データから有用な知識を介護士間で共有させる介護士育成支援エージェントに取り組んでいます.その一例として、非接触で高齢者の心拍データを取得した後、そのデータから睡眠段階を推定する技術を考案し、実際の介護施設への導入をすすめています.
詳しくはこちら
AIBOやPLEOなど,従来の1ユーザに適応するエージェントとは対照的に,集団に適応するエージェントの設計を探求する研究を行っています.集団は1個人に比べ,個人の集まりからもたらされる複雑な特徴があることから,それに適応するエージェントのモデル化が非常に難しいとされています. 上記の目的を解決するため,実世界の集団をモデル化しやすい異文化体験ゲームバルンガの被験者実験を行い,その模様を観察することで,不明確である集団適応状態を定義します.その後,実験の結果から集団に適応するエージェントをモデル化し,コンピュータシミュレーションによりそのモデルの効果を検証します.シミュレーションにより,(i)集団には他人の意見を考慮するリーダーが必要であり,(ii)集団がまとまるためには,リーダーに加え,意見を積極的に言うエージェント,周りに意見をあわせるエージェントの3種類のバランスが重要である,という知見が得られました.
詳しくはこちら
近年の情報技術の発達に伴い,多種多様なセンサーから多様なデータが取れるようになったため,そのデータの特徴や規則性などの有用な知識を発見するデータマイニング技術が求められています. そのような知識はニューラルネットワークをはじめとした様々な機械学習技術によって獲得が可能ですが,なぜそのような知識が得られたのかを人間が解釈する事が難しいという問題があります. また,実際のデータにはばらつきがあるため,規則性を見つけるのが難しく,実応用が進まない一つの要因となっています。 ばらつきも考慮して規則性を見つける手法の研究を行っています.
詳しくはこちら
止め処無く変化する環境への適応私たちの過ごす現実世界では,株価のように時間などによって周りの環境・状況などが 刻一刻と変化するような問題があります.また,自然界には遺伝・魚の群れなど長い年月をかけて進化させてきた環境に適応するメカニズムが存在します.このようなメカニズムを利用することで,止め処無く変化する環境への適応を目指します.
詳しくはこちら
マルチエージェント強化学習は,人間や自動車などの社会の構成要素をエージェントに置き換え,その最適な振る舞いを強化学習で導く画期的手法です.私たちは,従来協調のために行う通信を廃し,阿吽の呼吸のように通信無しの協調行動学習法を探究しています.
詳しくはこちら
髙玉研究室のページです.
Copyright © 2013-2020 Takadama Laboratory All Rights Reserved.
現実問題のエージェントモデル化
・動的環境に追従する通信なしマルチエージェント強化学習[3,4]
マルチエージェント強化学習では,例えば倉庫ロボットを想定すれば,ロボットがエージェントであり物資を効率よく運ぶことが目的となります.そして各エージェントが協調する上でお互いがそれぞれの位置,行動,目的などを通信により共有すれば適切な行動の学習が可能ですが,通信遅延を想定し,その情報の信頼性を担保しなければならないため,またエージェント数の増加により扱う情報量も増えます.この問題に対して,髙玉研究室に所属しておりました上野は,通信を一切行わずに協調行動を学習する手法(Profit Minimizing Reinforcement Learning: PMRL)を提案し,その合理性を理論的に保証しました[3].これは協調のために必要な情報を通信していた従来手法とアプローチが全く異なり,さらにマルチエージェントの複雑な振舞いを理論的に保証した画期的な手法です.この手法により通信が十分にできない災害地や宇宙,そして巨大な倉庫の物流システムなどへの適用の可能性を高めることに成功しました.
エージェント間協調
また,従来のマルチエージェント強化学習は学習環境が静的であり,例えば物資運搬でいえば物資の受取り,受渡し地点,物資の量は変更できません.私はそれに対し,まず上記PMRL[3]を拡張して,その理論を崩さないように動的環境における協調行動の学習法(Profit Minimizing Reinforcement Learning with Oblivion of Memory: PMRL-OM)を提案しました[4].具体的には,PMRLの学習に,初期に学習した結果を忘却する関数を導入して最新の学習結果を利用し,動的変化にあわせて増減する獲得報酬値(学習の手がかり)の大きさに合わせて目的を制限する学習を行います.これにより,渋滞や通行止めなどの大きく環境が変わり,目的地が変化する災害地の物資運搬システムなどに適用可能となり,また理論的保証のある手法として他の社会問題に対して大きな効果があります.
[1] Ma, J. and Wu, F., Feudal Multi-Agent Deep Reinforcement Learning for Traffic Signal Control, 19th International Conference on Autonomous Agent and Multi-Agent Systems, pp. 816-824, May, 2020.
[2] Singh, A., et al., Hierarchical Multiagent Reinforcement Learning for Maritime Traffic Management, 19th International Conference on Autonomous Agent and Multi-Agent Systems, pp. 1278-1286, May, 2020.
[3] Uwano, F., et al., Mulit-Agent Cooperation Based on Reinforcement Learning with Internal Reward in Maze Problem, SICE Journal of Control, Measurement, and System Integration, Vol.11, No.4, pp.321-330, 2018.
[4] Uwano, F., and Takadama, K., Reward Value-Based Goal Selection for Agents’ Cooperative Route Learning without Communication in Reward and Goal Dynamism, SN Computer Science, Vol. 1, No. 3, Springer, 2020.