日本財団 図書館


・宣言的なセマンティクスを持つ(すなわち、処理の手順をインタプリータに教えなくても、表現の意味は理解できる)

・論理的に理解し易い(第一階述語論理演算の任意の表現を提供する)

・知識の表現形式を提供する

・非単調推論規則の表現形式を提供する

・オブジェクト、関数、関連の定義を提供する

などである。

(4) エージェントと学習

エージェントには、自律的に振る舞えるという属性が期待されている。そのためには、エージェントは環境の中でどのような事象が起きるのか、その事象に対してどのように振る舞うべきかという知識を持っている必要がある。それで、エージェントがこのような知識を獲得する学習機能は、エージェントを実現するための重要な要素機能の一つである。

エージェントの学習機能を実現するためのアプローチとして、以下の3つが試みられてきた。

・強化学習システム

・分類(classifier)学習システム

・モデル学習システム

強化学習システムとは、以下の項目が定義されたエージェントが、選択した動作からどのような状況が引き起こされるかということを学習して、選択した動作の結果として得る利潤が最大になるように、動作を決定するという戦略である。

・取り得る動作の集合

・自身のおかれ得る状況の集合

・自身が行った動作に対する利潤としてのスカラー値

具体的な戦略法として、Q-learningというものが提案されている。これは、エージェントがおかれる状況と動作とのペアを作る。このペアに対して、「その状況のときにその動作を取ると、どれだけ多くの利潤を得られるか」ということを定量的に表した値を対応させる。これは具体的には、状況と動作と2つの要素を持つ二次元行列を書き、それぞれ対応する組合せに値を決める。この戦略のゴールは、「ある状況に対して、どの動作を取ったときに最終的な利潤が最大となるか」ということが、全ての状況に対して明らかとなるように、行列の値を求めることである。

この戦略は、ある種の状況下(マルコフプロセスであるということ)では、如何なる状況に対しても利潤を最大にするような行列が求まることが数学的に示されている。しかし、実際のアプリケーションでは、このような理想化された条件はほとんど満たされることがない。

 

 

 

前ページ   目次へ   次ページ

 






日本財団図書館は、日本財団が運営しています。

  • 日本財団 THE NIPPON FOUNDATION