エージェント技術の研究例

line  

学習分類子システム

 近年の情報技術の発達に伴い,多種多様なセンサーから多様なデータが取れるようになったため,そのデータの特徴や規則性などの有用な知識を発見するデータマイニング技術が求められています. そのような知識はニューラルネットワークをはじめとした様々な機械学習技術によって獲得が可能ですが,なぜそのような知識が得られたのかを人間が解釈する事が難しいという問題があります. また,実際のデータにはばらつきがあるため,規則性を見つけるのが難しく,実応用が進まない一つの要因となっています。 ばらつきも考慮して規則性を見つける手法の研究を行っています.

line  

進化計算

 止め処無く変化する環境への適応私たちの過ごす現実世界では,株価のように時間などによって周りの環境・状況などが 刻一刻と変化するような問題があります.また,自然界には遺伝・魚の群れなど長い年月をかけて進化させてきた環境に適応するメカニズムが存在します.このようなメカニズムを利用することで,止め処無く変化する環境への適応を目指します.

line  

強化学習

 エージェントは代理人という意味を表す英語ですが,人工知能分野におけるエージェントは目的をもって振舞うものを指します.従って,エージェントは自身の状態(State)を知覚し,それに対して行動(Action)を行います.この状態に対して行う行動は様々あり,エージェントはそれを確率的に選択します.それら確率をエージェントの政策(Policy),状態と行動全ての政策を集めて戦略(Strategy)といいます.エージェントは強化学習(知的情報処理)により政策を推定し,状態に対する最適行動を学習します. ・Q学習[Watkins, 89] 強化学習の一つにQ学習というものがあります.Q学習では報酬を設定し,エージェントはその値(報酬値)に基づき単位時間あたりに得られる報酬が最大になる戦略を獲得します.Q学習は最適性が保証されており,最終的にQ学習エージェントは最短工程で報酬を得ることが出来ます.しかし,Q学習エージェントは自身の利益のためにしか行動しないため,複数になったとき各エージェントの学習を阻害してしまうことがあります.これにより全体として得られる利益は少なくなってしまいます.Q学習更新式 ・協調を起こすQ学習エージェント 上記の問題解決のため私の研究では迷路問題を使い,協調を起こす方法を提案しそれを理論的に示しました.提案した協調を起こすQ学習エージェントは主に以下の二つの手順を踏みます.
  1. 協調のためのゴール選択 エージェントはゴールした時,それまでに行動した数であるステップ数が今までよりも小さい場合それを記憶する.そしてステップ数が記憶されたとき,そのステップ数を他のエージェントへ送信する.そうしてエージェントは全エージェントの全ゴールに対する最短ステップ数を得ることが出来ます.エージェントは得られたステップ数を基に協調した際の向かうべきゴールを判別します.判別方法は実際にエージェントとゴールの組み合わせを計算し,全エージェントが最短ステップでゴールできるようなゴールを選びます.
  2. 内部報酬に基づくQ学習 エージェントはゴール選択を己の利益で判断します.それは報酬値を基にQ値を計算すると,スタート地点で一番近くのゴールへ向かう行動のQ値が大きくなるためです.ここでは内部報酬というものを使ってその報酬値を変え,手順1で選んだゴールへ向かうようにします.実際どうするかというと,エージェントが向かうべきゴールの報酬値を大きくしてそのゴールへ向かう行動のQ値を一番大きくしています.
提案手法
提案手法2
協調(1)




 AIが考えていることを人間が理解するためには 松本和馬

近年、ディープラーニングを始めとする、人工知能(AI)技術の発展により、AIはより賢くなってきています。ある特定の分野においては人間の思考・知識を超えるAIも出現してきました。これからは、賢いAIから人間が知識を学ぶ時代が来るかもしれません。本研究では、AIの思考、すなわち知識を人間が解釈しやすいように学習するシステムを提案します。


 

 人間のような学習システムとは 臼居 浩太郎

・リンケージ型学習分類子システム

 無数にある行動ルールの中から,環境の特徴を表すような行動ルールを獲得するアプローチです.人間も「次の信号を右に曲がれば着きます」というように目的地に辿り着く上で鍵になる情報のみを獲得することを自然とできています.私のシステムでは行動ルールをリンクしていくことで上記のような環境の特徴となる行動ルールを獲得していきます.

 従来の手法であるXCS [Wilson, 95]やXCSAM [Nakata, 12]では,例え小さな環境変化であっても,環境変化前に獲得した知識の多くは再利用できず,始めから知識を学習し直す必要がありました.

 提案手法であるリンケージ型学習分類子XCSL (XCS with Linkage-Classifier)により,環境変化前に獲得した知識を環境変化後にも適用させることができ,従来手法よりも早く新しい環境に適応することを可能としました.




 学習分類子システムにおける学習方針に関する考察 中田雅也

生物の環境への適応過程である進化と学習モデルを組み込んだ学習分類子システム(Learning Classifier System: LCS)は,1)解釈性に優れた知見獲得技術を有し,2)機械学習における幅広い問題(ロボット制御問題等)に適用可能という利点があります.そのため,LCSは有望なマイニング手法として,実問題への適用に向けた研究が盛んに行われています.本研究では,その一環として,学習モデルと進化モデルの相互作用に着目し,マイニング精度の高精度化を目的とした効率的な学習方法について探求します.以下のような課題に取り組んでいます.

・学習方針がマイニング精度や速度に与える影響について

例: Complete map v.s. Best action map

comp_vs_best

・マイニング精度を維持した最適解の抽出法について

抽出過程: video»

complete_best_action

ppsn poster