ホームに戻る学会からのお知らせリンクお問い合わせ
 日本赤ちゃん学会未来を育む赤ちゃん研究
日本赤ちゃん学会とは?学術集会国際シンポジウム公開シンポジウム学会誌

 ロボットの認知発達:脳と行動理解の構成論的アプローチ

大阪大学大学院工学部教授 浅田 稔

イントロダクション

 皆さんの発表を聞いていまして、私がメンバーに加わっていることが、赤ちゃん学会のダイナミクスといいますか領野の広さを表すひとつの指標になるのかなと思っています。ロボット屋が赤ちゃんと何の関係があるのかという話ですが、今日は簡単にアウトラインとして私の研究をご紹介します。それから自分が何らかの形でこの学会に貢献できるとしたら、それは何なのかをお話していきたいと思います。

 最初に牧さんが話されたのは、物理生理的現象の客観的計測手法の提供が工学的な貢献になっているということです。多賀さんが話されたのは、例えばカオスとか複雑系がもっている理解手法を物理生理現象の理解手法として提供し、新たなモデルを作っていくということが考えられるというお話でした。

 私がお話しします3つ目は、これが非常に暴力的というと変な言い方なのですが、とにかくモノを作って動かしてみて、その中で何か分かってくるものはないのだろうかという方法です。それを構成論的手法と呼んでいますが、とにかくモノを作って動かしていく過程の中で認知発達のモデルが見えてこないか、そして、そこから新たな人工物の設計論が生まれないかということを考えています。それ以外にも、これからお話になる渡辺さんは人とコミュニケーションの人工的援助というものを介して、人がもっているコミュニケーションの本質を探ろうとされていると感じます。固い話ばっかり多いので、少しブレーク気味に、エンターティメント的に聞いていただきたいと思います。

「ロボカップ」

 私たちは「ロボカップ」というものをやっています。これは何かというと、ロボットにサッカーやらせましょうということです。標準問題を設定することによって知能ロボットの研究を促進する試みをしているわけです。<資料1>は、昨年メルボルンでありました国際大会の様子です。いくつかリーグがあり、私のチームは中型とよばれるリーグと小型4脚とよばれるリーグに参加しています。小型4脚リーグは某S社のロボットを使っているのですが、S社はA、I、B、Oと呼んでくれるなと言っています。しかし、姿を見ればAIBOそのままなので、AIBOリーグと呼んでいます。実際には一般商品というのはプログラムできませんが、われわれは開発環境をもっていますので、自由にプログラミングできます。ですから、通常の商品とは違う動きをしています。

 他にもシミュレーションリーグとかロボカップジュニアとかロボカップレスキューとかいくつかあります。AIBOをお持ちの方はご存知だと思うのですが、ハードウェアは基本的に同じです。鼻の先にしか目の働きをするCCDカメラがないのです。35、6度しか視野がありません。全方位の十分の一しか見えません。ですから、試合中はほとんどボールを探しています。チームワークもへったくれもないですね。とにかくボールを探している。決勝戦でも10対0になるというとてもサッカーと思えない試合だったのですが、すごく工夫して各チームともやっています。このようなロボカップを国際的に進めています。私自身は何のためにロボカップをやっているのかというと、実はロボットの強化学習から認知発達的な要素を見出すのが面白そうなので参加しています。

このページのトップへ戻る

生物を意識したロボット研究

 本日の話というのは生き物、生ものといいますか、実際の赤ちゃんだったり、それからチンパンジーだったりお猿さんだったり、ある種の生き物を扱っています。私たちはロボットという機械を扱っているので、それは生き物ではないだろうという言い方もできるのですが、では生き物とは何だろうという問いかけも逆にできるわけです。私たちはそういう認知発達ロボティクスというパラダイムを提案できないか、生き物のような現象が再現できないか、再現することによって生き物がもっている本質を何らかのアナロジーで見出せないかというのが、基本的な考え方です。

 従来のロボットの設計論はどうするかというと、基本的には設計者が全部作ってしまいます。ですから、知能ロボットと呼ばれるもののほとんどの知能は設計者側の知能であって、ロボットの知能ではないわけです。ところが、私たちは映画などで、非常に賢いロボットについて知っています。スターウォーズであるとか、鉄腕アトムであるとか、こういったアニメとかSF映画に出てくるロボットたちというのは私たちとコミュニケーションが十分に成立するわけです。

 現状のロボットというのは表層的な音声認識、音声合成のチップはもっていますが、実際自ら語るということはしてくれません。私たちが最終的にSFに出てくるロボットを目指そうとすると、従来のロボットの設計論ではなくて、もう少し生き物を意識し、生き物がもっている構造を何らかの形で作りこんでいって、そこから何か出てこないかということを狙っています。当然そのことによって新たな人間理解の手法ができないかとも考えています。脳科学、神経学、生理学はどちらかというとミクロスコピックになりがちで、その一方、社会学、教育学、関連学はマクロスコピックになりがちです。その間を結んでいこうというのが私たちです。

 最近、マーク・ジョンソンという研究者が、発達認知神経科学、Developmental Cognitive Science という、いわゆる認知神経科学と発達を合わせたような問題を扱おうとしています。私たちはかなり共通の概念、つまり発達と認知神経、認知発達の問題を捉えたいと思っています。私たちの強力な武器は、物理的実体であるロボットです。それを使った検証のプロセスを通して新たな人理解の手法を提言できないかという希望的観測をもっています。これは希望的観測にすぎませんので、結局その認知発達ロボティクスの中身が一体何かということが重要になります。

このページのトップへ戻る

自律的発達機構と環境設計

 環境か遺伝子かというネーチャーVSナーチャー問題があるのですが、現在は非常に複雑な相互作用によって私たちはできているということがわかっています。それで設計論的には大まかに2つに分けます。ひとつはロボットの中に埋め込まれているある種の構造、機構設計、例えばその学習能力。もうひとつは環境設計です。認知発達ロボティクスで何に重きを置くかというと環境設計です。認知発達ロボティクスは環境がうまく整うことによって初めてなんらかの知的行動が出てくる。これらの2つの設計論をどううまく組み合わせるかという問題を取り扱いたいというのが私たちの主張のひとつです。環境とのインタラクションとは一体何か。embodimentとかinteractionとか言っているのですが、結局これは必要条件です。主に<資料2>に示す3つぐらいが必要だろうと思っています。

 知覚と行動の密結合というのは生き物では当たり前なのですが、ロボットの場合にはビジョンはビジョン屋さん、機構と制御は別にやってくださいというのがほとんどだったのです。しかし、センサー系とモーター系をちゃんと密に結合しましょうと、その上で身体的拘束があるので、何らかの形で学習しないとまずいだろうということになります。でも、全部は覚えられないのだから、何らかの抽象能力はいるだろう。そしてさらに学習結果を新たな状況に適応していく適応能力。これを学習、発達能力と呼びたいんですが、こういった3つを考えてみると、自律的な発達機構のもっている重要さと、環境が持っている重要さの相対的な重要度を表しているのがこの三角形の図です。

 とにかく自律的な発達機構・学習機構と環境がうまくカップリングしないといけません。その例を簡単に紹介していきます。

このページのトップへ戻る

強化学習

 われわれは強化学習<資料3>という考え方を使っています。これはスキナーというアメリカの行動心理屋さんがスキナーボックスというのでよくやるのですが、コンピュータ屋さんがそれを計算論的にフォーマライズしてできた手法です。要はある状態である行動をとったら、ご褒美が出ましたよ。それも偶然ね。その偶然の結果をこのロボットが覚えて学習して、蓄積しながら所望の行動をとっていく。ロボットを使って環境の状態をセンスして、あるアクションを取って、その帰結により報酬を与えると。これはソフト的にエミュレートしているのですが、与えることによって所望の行動をとっていくと。例えば簡単に示しますと、これは実際ボールをゴールにシュートするという非常に単純なタスクです。<資料4>

 結構環境の作りこみをやってはいるのですが、最初ロボットは何の意味も知りません。前進、後退という物理的な意味も何も知りませんから、あるモーターコマンドの実行に対して画像がどう変わるかという対応だけを見ています。しかも報酬もゴールに入るまで与えないことにしていますので、最初はランダムです。しかし、徐々に学習していくことによってこうやってボールに突っ込んでいくという形になります。

このページのトップへ戻る

強化学習のメカニズム

 実際はどういうメカニズムかが<資料5>に出ています。
 これはイメージとして、フィールドになっていますが、ロボットの頭の中にある学習によって蓄えるデータのストアの場所だと思ってください。たまたまゴールにボールが入ったので、報酬がもらえるとうれしいよというので、この中に行動価値を蓄えるデータストレージがあって、そこがどんどん書き変わっていきます。結局学習というのは行動変容を表しますから、ロボット内部に経験によってある種の行動価値が生まれて、その結果行動が変わっていくのが学習ということです。

 私たちが使っている学習で強化学習の方法があるのですが、この中で面白いパラメータが2つあります。今日は時間の都合上1つだけお知らせします。言いたいのは1つだけなのですが、もっている報酬が時間的にどれぐらい意味があるかということを表すパラメータがあります。これはγという減衰係数ですが、γが1に近いと減衰しません。だから非常になだらかな坂ができます。それに対してγが非常に小さいとストンと落ちます。

このページのトップへ戻る

ロボットの個性

 <資料6>は何を表しているかというと、同じタスク、同じロボット、同じ学習アルゴリズムでありながら、出発点は同じですが、γの値を少し変えるだけで行動が大きく変わるということです。シュートしなさいというと、γが1に近いと報酬が減りませんから、これは要するに現金もらったようなものですから、自分が安全にシュートできる場所に腰を振っていって何ステップもかけてシュートしようとする。一方、γが非常に小さいとすぐ報酬が落ちてしまう。ちょうど刺身のようなもので今日食べないと明日食べると危ないというので、早くシュートしようとする。危ないかもしれないけどとにかく早くシュートしようとする。

 同じロボット、同じタスク、同じ学習アルゴリズムでありながら、パラメータをひとつ変えるだけで、性格が変わっていくということです。ですから、ロボットでやるのだから、唯一無比なものができるだろうといわれるんですが、学習パラメータをちょっと変えるだけでいろいろなキャラクターが出てくる。これはある意味での価値観、明らかに報酬に対する価値観が違いますから、個性を生み出す可能性を示しています。

このページのトップへ戻る

複数ロボットの学習

 私たちは複数のロボットでやっているのですが、複数のロボットで学習するとなかなか難しいです。この場合でも自律的に発達する機構としては強化学習を使い、環境設計としては学習のスケジュールを使います。環境の複雑さというのをちょうどロボット自身が自分でクラス分けします。そういう学習をしますと、自分の身体とそうでないもの、アクティブに動くものというのは切り分けることができます。例えば自分の身体は、自分が発生したモーターコマンドを裏切られないような知覚が得られるものが自分の身体であることになります。

 道具を持つと道具は自分のコントロールの範囲にありますから、そういうことから道具であるとか、静止環境といったものがカテゴリー1となります。予測範囲、われわれはレベル1と呼んでいますが、それに対して、こういう物というのは放り投げると動いたり、人が取ることによって止まったり、そういった受動的な動きをします。それに対して、能動的エージェント、他者がありまして、これならばクラス分けすることによって学習が可能になります。

 それから、学習のスケジューリングですが、初心者二人がテニス場に行っても全然うまくなりません。なぜかというと、2人とも学習者だからまったくランダムな動きにしかならないのです。その場合には大抵コーチをつけますが、コーチはどういう意味があるかというと、常に同じ行動方策、つまりいつも同じところにボールを返してくれる。だから学習ができるわけですね、我々の学習もある種の学習者を一方にして、他者は固定政策にして、交互に、交互に学習していくことによって、初めて学習ができる。やさしいタスクからやっているとある程度中級者になれば、結果として同時学習可能になるんです。

 その例をパッサーとシューター、パスする仕事とシュートする仕事で見てみます。<資料7>

 ここが今パッサーでパッサーは赤いボールをシューターにやります。シューターはそのパスされたボールをゴールするというタスクです。これはタミヤの一番大きなラジコンカーです。これはパッサーからの画像、これはシューターからの画像ですが、実際ロボットは、このように見ています。これは生画像ですが、画像処理した特徴画像が出てきまして、これから先ほど言った状態ベクトルを推定して、それを使って学習した結果で動きます。こういう形で2台が協調的に学習する。そのときに強化学習というロボットに埋め込まれた学習機構以外に、学習のスケジューリングというのをわれわれが神の立場、親の立場でやってやることによって、2台がお互いどんどんスキルアップしながら学習できることになります。

 ときたま失敗することもあります。パッサーが滑ったりしてうまくパスできないのですが、シューターがリカバリーに行ったり来たりして前後します。こういうことは私たちは明示的には何も教えてないのですが、二人が同時に学習する過程の中でそういった失敗例もあったので、こういう行為を繰り返しながら学習をしていくことになります。

 今の学習の過程ですが、先ほど多賀さんが述べたU字学習と似ていますね。これは強制的にお互いに学習を交互にやっているので、うまくなったり下手になったり、うまくなったり下手になったりということを繰り返しながらやっていく。こういうことが学習のスケジュールの効果になっています。

 このようなことを考えると、2台の場合には、観測がメッセージを受けている、それから行動を起こすということが、メッセージを送っている。非明示的なコミュニケーションがそこで成立していると取れます。これはとくに連想学習の域を出ない、つまり、ある種の状態に対してある行動を起こすことの複雑さが高くなっただけで、まだ明示的なコミュニケーションにいたっていない。そういう意味では他者の行動予測はできているのですが、他者の行動理解であるとか、他者の意図理解をしようと思うと、もう少し表象能力が、シンボル学習がいるのではなかろうかと思われます。とくに最近、ミラーニューロンというのが評判になっていますが、そういう模倣の重要性にもわれわれアタックしています。

このページのトップへ戻る

模倣ロボット

 <資料8>は実際認知発達的にやったのではなく、ロボビーと呼ばれるATRで開発されたロボットです。これはまったくの作りこみですが、作りこみだけを見ていても、何となくイミテーションしている雰囲気があってなかなか面白いと思います。これは今ラジオ体操をやっている例です。

 これはあっち向いたらあっち、これは完全に作りこみというか、設計者が明示的に書いているのですが、これをわれわれが見るとあたかもジョイントアテンションが成立したかのごとく印象を受けます。そこらへんの工学的な作りこみと、実際ジョイントアテンションがどう成立するかということをもう少し真剣に考えないといけないのですが、こういう例を通しながら、われわれもロボットの実際の検証を行っていこうと思っています。

まとめ

 今日お話したことは、ロボットは最初から難しいことはできないのでやさしいところからやりましょう、親の立場で指図するのではなくてちゃんとロボットの身になって考えてみましょうということです。「ロボット」のところに「子ども」といれると、そのまま通じるのです。適度にアドバイスを与えて、適度にアドバイスを与えない。私たちのロボットの学習でも同じことが言えて、過渡に与えるとやる気をなくしてしまいます。だけど、ほったらかしにしていると、何もできない。そこでどううまく環境設計するかがロボットの学習でも非常に大事になってきます。



前のページに戻る このページのトップへ戻る
Copyright(c)2001-2016, Child Research Net and The Japanese Society of Baby Science, All rights reserved.このサイトに掲載する文章、イラスト、画像等の無断転載を禁じます。
チャイルド・リサーチ・ネットのホームページへ
日本赤ちゃん学会サイトは、チャイルド・リサーチ・ネットが運営を応援しています。