日本財団 図書館


実際、この戦略は、ゴールが経時変化する場合を扱えない、ゴールが変わったら学習をゼロからやり直さなければならないという問題がある。

分類学習システムは、強化学習システムの特別な形式と見ることが出来る。つまり、強化学習システムと同様、状況と動作というペアに対して、利潤の期待値を反映させた値を決め、累積した利潤が最大となるように動作を決定する。ただし、このシステムでは、エージェントは分類化されたある種のルール群と、それに含まれるルールが、どれだけ「良い」かを示す「強度」のようなものが定義されている。この戦略の特徴としては、他の強化学習より収束が速いという点が挙げられる。また、状態を抽象化してルールに表現するための記述法を組み込みで用意しているので、目的に応じて状態表現の抽象化を行える。しかし、やはりゴールが経時変化する場合を扱えない、ルール群をどのように管理するかという問題がある。

モデル学習システムは、ある状態である動作を取ったとき、その動作はどのような効用を持ち、どのような状態に遷移するかを確率モデルとしてエージェントに持たせる、というものである。このモデルの要素となる以下の項目はスキーマ、あるいはモジュールや振る舞いと呼ばれる。

・条件の集合

・単一の動作(あるいはそれらを組み合わせた動作)

・期待される結果(及びそれらの期待値)

ここでは、前の2つにあったような、利潤というパラメータが入っていない。つまり、このモデルそのものはゴール非依存である。このシステムの特徴は、モデルそのものは設定された目的とは別に存在するということで、つまり、一度モデルを獲得したら、そのモデルは別の目的に流用できるし、また途中で目的が変わった場合にも対応できる。また、前述の2つのシステムでは採用した動作が利潤を生むときのみ(ゴールに近付いたときのみ)学習が行われるが、このシステムでは如何なる動作の場合でも学習が行われる。一方、欠点は動作選択に時間がかかることである。

 

 

 

前ページ   目次へ   次ページ

 






日本財団図書館は、日本財団が運営しています。

  • 日本財団 THE NIPPON FOUNDATION