ABEJA でデータサイエンティストをしている岩城です。
先日弊社は、京都大学大学院情報学研究科教授 谷口 忠大先生に顧問としてご参画いただきました。谷口先生は、記号創発システム分野において広範な研究を推進する第一人者でいらっしゃいます。
本記事では、谷口先生が取り組まれている記号創発ロボティクスについて、自身の解釈も交えながら解説していこうと思います。参考にした中心的な論文は以下です。
記号創発
まず、ここでの記号とはそれ自体が何か意味を持つものではなく、それを通して何かの意味を表現する媒体とします。例えば、「バナナ」という記号は「バ」と「ナ」と「ナ」が連なった文字列自体がア・プリオリに意味を持っているのではなく、一般にバショウ科バショウ属に分類され東南アジア原産のトロピカルフルーツと結びつくことで、その果物を表現する記号として成り立っています。
言語や記号がボトムアップにその体系をなす様子を記号創発と呼びます 1 。
人は成長とともに言語能力も発達していきます。色々なものを通じて語彙を獲得します。言語を習得する目的の一つは他人とコミュニケーションをとることだと思います。このとき、コミュニケーションを通じて単語(記号)の意味が自分の中で変わるということも考えられます。 これをより大きいスケールで考えると、社会の中で記号の意味を擦り合わせているようにも思えます。
この視点に立つと、言語が人間社会の中で発展・形成されているように見えます。集団の中で個々人同士が記号を使い合う(お互いに同意したり訂正したりする)ことで、その意味が立ち現れ、移り変わっていきます。これが、「言語や記号がボトムアップにその体系をなす」ことだと解釈できます。
創発とは複雑系の文脈で、個々の性質にはない性質が、それら個々の相互作用によって全体を見た時に初めてあらわれることを言います。例えば人の脳です。近年では、個々の神経細胞それ自体は比較的単純な振る舞いをしていることがわかっていますが、脳全体の知能について未だに解明されていないことが多いです。このように、何らかのシステムの性質を解き明かすために、その構成要素の性質を理解しても、全体の性質の理解には至らないとき、そこに創発性を感じることができます。
記号というものをこの創発現象として捉え、社会の中で記号が創発するメカニズムを明らかにするのが記号創発の分野です 2。
記号創発システム
上述のように言語は人間社会の中で変容します。
私たちが社会の中で言語を使うことで言語はボトムアップに形成されますが、逆に形成された言語から私たちはトップダウンに影響を受けます。例えば、私が「やばい」という記号をかなり狭い意味(ネガティブな意味のみ)で使っていたとします。しかし、社会で形成された記号「やばい」の意味はそれより広かった(ポジティブな意味もある)とします。私がこの社会を受け入れたとき、私は記号「やばい」をより広い意味で使うことになります。これは、社会の中で形成された言語からトップダウンに個人が制約を受けているということになります。
このような記号システムが、個々人の社会への適応によって創発し、機能する様子のモデルが記号創発システムです 3。
記号創発システムは多数のエージェントにより形成される自律分散システムであるとされています。エージェントが記号を分散的に保持し、エージェント集団が記号を使うことで集団の中での記号の意味が形成されます。そして、形成された記号から各エージェントが制約を受けます。つまり、ボトムアップに形成された記号システムが、エージェントにトップダウンな制約を与え、これがエージェント集団に記号的/言語的コミュニケーションという新たな機能を与えます(これをミクロ・マクロ・ループと呼びます) 4。
記号創発ロボティクス
記号創発ロボティクスは、記号創発システムへのアプローチの一つです。
従来は主に、身体性を持つロボットがどう世界を認識するかについて議論がされてきました。どのようにロボットが世界を切り分け、どのように感覚運動系からの知覚をもとに概念を形成し、どのように言語を獲得するかというようなことが研究されてきました。近年では、深層学習の発展により Variational Auto-Encoder (VAE) などを利用した感覚情報の表現学習が可能になりました。
記号創発ロボティクスの分野でも、確率的生成モデルを用いたロボットのマルチモーダル概念形成や言語獲得の研究が進められてきました。 さらに、メトロポリス・ヘイスティング名付けゲームと呼ばれる言語ゲームを導入することで、生成モデル的なアプローチにより創発的コミュニケーションを実現しました 5。
場所概念獲得モデル
ロボットの空間認識についての研究で環境地図に意味的な情報を付加するSemantic mappingという領域が存在します。
この領域に関する記号創発ロボティクスの研究では、自己位置推定の手法であるSimultaneous Localization And Mapping (SLAM) を拡張したSpCoSLAMが提案されています 6, 7。本研究は、Vision-Language Model (VLM) などの活用以前に先駆的に行われた研究です。
SpCoSLAMでは、ロボットが環境や語彙の事前知識なしで、場所の空間的な広がり、場所のカテゴリ、場所に関する語彙を学習することができます。そして、地図上の場所の情報を場所概念として理解します。さらに、場所と単語の対応関係も学習することができます。
- SLAM
- 自己位置推定モデル
- 自己位置
を介して場所概念形成モデルと接続
- マルチモーダルカテゴリゼーション
- 場所概念形成モデル
- Dirichlet Process Mixture (DPM) をマルチモーダル拡張した Multimodal DPM
- 位置情報、画像情報、単語情報から場所をカテゴライズし、場所概念を得る
- 画像特徴
は Places365 などの訓練済み CNN の最終層またはその手前の中間層の出力を使用
- 音声認識・語彙獲得
- 音声から単語を認識するためのモデル
- 単語情報
、音声信号
を介して場所概念形成モデルと接続
- 音声認識器には音素や音節の単位のみを認識するよう調整した Julius を使用
- 単語分割には教師なし単語分割器である latticelm を使用
従来は場所のカテゴリなどを事前に用意し、それを地図の場所と対応させることに焦点が当てられてきました。しかし、SpCoSLAMは事前に場所に関するラベルを準備することなく、音声教示から単語を切り取り、地図に記号を接地することができます。
例えば、ロボットに「ここがミーティングルームだよ」と教えたとき、ロボットは「ミーティングルーム」という単語を切り取り、推定された自己位置にその単語を割り当て、場所概念とすることができます。位置情報に対して単語を推定し、それを逐次的に学習することができます。
SpCoSLAMの応用として、音声命令が与えられたときに目的地までの軌道計画を行うSpCoNaviというモデルも提案されています 9 。
確率的生成モデルによる記号創発システムのモデル化
集団による表現学習のモデルとして Inter-PGM が提案されています。
これは、確率的生成モデル (PGM) をエージェントとして、それらが共有する高次の潜在変数で結合したモデルとなっています。
複数のエージェントが、それぞれ対象 の観測を感覚入力
,
として受け取り、各々の潜在表現
,
を経て、それらを
で統合します。
このとき、エージェントらは互いに相手の潜在変数 を参照できません。その上で、両エージェントの観測を統合する
が推論可能となっています。
このモデルは、エージェントらが各々で推論し、エージェント集団という社会の中でその推論を結合したような表現学習をあらわしています。
推論の結合は、エージェント間の何らかのコミュニケーションによってなされると考えられます。
これは、各エージェントの潜在表現からボトムアップに社会的な潜在表現が形成され、各々がトップダウンに集団の影響を受けその内的表象が変容するという、記号創発システムの営みをモデル化したものです。
この一連の流れを実際に言語ゲームの形で実現したものがメトロポリス・ヘイスティング名付けゲームです。
2体のエージェントをそれぞれエージェントA、エージェントBとします。
- エージェントAとBは、同一の対象
に対してそれぞれ観測
,
を得ます。
- エージェントAは
をもとに、内的表象(固有の潜在表現)を形成・推論します。そして、この内的表象
をもとに、そのサイン
(名前などの記号)を事後分布に基づきサンプリングします。
- エージェントBは、エージェントAが出力したサイン
を自らの信念に基づく確率
に従って受け入れます。これがコミュニケーションに相当します。
- エージェントBはコミュニケーションの結果をもとに、パラメータ
,
を更新します。
- 役割交代し上の手続きを行います。
これを交互に繰り返します。
論文内では、対象の認識にVAE、サインの推論にガウス混合モデル (GMM) を使用しています。データセットには、 MNIST という手書き文字のデータと fruits 360 という果物の画像データを用いて検証しています。
以下はMNISTの実験結果で、各エージェントがサイン から復元した手描き文字の画像になります。
論文内では結果の一つとして、コミュニケーションを行わない場合よりコミュニケーションを行った場合の方が、個々のエージェントの推論精度が高いことが示されています。また、相手のサインを全て受け入れるより、信念に基づいて確率的に受け入れる方が精度が高いことも示唆されてます。この結果は非常に面白いと思いました。エージェント同士がコミュニケーションをとることで、各エージェントの対象の認識精度が向上することがシミュレーションで示されています。
ここで、人間がメトロポリス・ヘイスティング名付けゲームのような振る舞いをどの程度しているかが気になると思います。その問いに対しても一定の示唆が出されています。
二人の実験参加者による共同注意名付けゲームを実施し、二者間のサインの承諾・棄却の確率をメトロポリス・ヘイスティング名付けゲームで使用した信念の確率 で予測した研究が報告されています 11。ここでは詳しく説明していないですが、信念の確率
はメトロポリス・ヘイスティング・アルゴリズムで逐次計算されるもので、タイムステップで値が更新されます。実験結果では、静的な信念の確率に比べ、この動的な確率の方が人の行動を予測できることが示されました。
集合的予測符号化に基づく記号創発ロボティクスの新展開
予測符号化とは、内的表象を用いながら感覚情報を予測することで世界を認識し、またそれを予測できるように内部状態を更新していくという考え方です。単一エージェントの言語学習・獲得は一般的に予測符号化として表現できると述べられています。
これを一般化したものは自由エネルギー原理と呼ばれます。自由エネルギー原理は、生物の知覚や学習、行動は変文自由エネルギーと呼ばれるコスト関数を最小化するように決まり、そうすることで生物は適応できるという理論です。この理論は生物の知能をベイズ推論により統一的に記述し理解することを目的としています 12。
集合的予測符号化とは、この予測符号化を集合的に行うことです。これにより記号創発が生じうると考えられています。集合的に予測符号化するとは、複数エージェントが認識を共有しながら予測符号をすることだと考えられます。つまり、各エージェントが「世界はこうあるだろうな」という内的な認識を、予測というアウトプットとしてエージェント間で共有し、それをもとに各エージェントが内的な認識を更新するということです。
集合的予測符号化は記号創発システムの全体像を初めて理論的に統一的に捉えられる枠組みであると述べられています。
先に紹介したメトロポリス・ヘイスティング名付けゲームでは、複数エージェントが高次の潜在変数 で接続されていました。この
は各エージェントがその内的表象
から推論します。これは「全エージェントの感覚情報を統合して、社会全体として集合的に表現学習する」ということであると述べられています。この表現学習を、複数エージェントの内的表象を直接共有することなく分散的に実現可能であることが示唆されました。
集合的予測符号化の枠組みにより記号創発システムが計算論的に整理されれば、ロボット同士の自律的な共創や人間とロボットのインタラクションの発展が期待されます。筆者は、自律ロボット同士が協力しながら柔軟にタスクをこなしたり、人間の相棒になるというようなことを想像しています。
記号創発ロボティクスの展望
記号創発ロボティクスの展望として、集合的予測符号化のモデル化が考えられています。
集合的予測符号化では、社会的な側面を含んだ記号創発システムの全体像をモデル化できると考えられています。しかし、現状提案されているモデルでは複雑性が低いため、よりマルチモーダルな個体の感覚運動系を豊かにする必要があることが主張されています。
また、メトロポリス・ヘイスティング名付けゲームについても現状は2エージェントでの実験に留まっているため、複数エージェントへの展開も考えられているようです。
最後に
本記事では、谷口先生が精力的に研究を進めていらっしゃる記号創発ロボティクスについて解説してみました。最近ではVLMやVLAなどのマルチモーダルモデルの発展が見られるため、この記号創発ロボティクスの展望も明るいのではないかと思いました!
個人的に非常に面白く興味深い分野だと感じたため、これからも随時情報を追っていこうと思います。直近では人工知能学会2025でオーガナイズドセッションを開かれるようです。
さらに、谷口先生ご本人が解説してくださっている動画もこちらからご視聴いただけます!
We Are Hiring!
株式会社ABEJAでは共に働く仲間を募集しています!
ロボティクスやLLMに興味ある方々!機械学習プロダクトに関わるフロントエンド開発バックエンド開発に興味ある方々! こちらの採用ページから是非ご応募くださいませ!
- 谷口 忠大 (2014). 「記号創発ロボティクス 知のメカニズム入門」講談社↩
- 記号創発スタディノート#2 記号創発システム論は何を問う? ~記号接地問題から「記号創発問題」へ~|記号創発システム論↩
- 谷口 忠大 (2020). 「心を知るための人工知能:認知科学としての記号創発ロボティクス」 日本認知科学会 (編) 越境する認知科学5 共立出版↩
- 谷口 忠大 (2010). 「コミュニケーションするロボットは創れるか:記号創発システムへの構成論的アプローチ」 叢書コムニス 13 NTT出版↩
- T. Taniguchi, Y. Yoshida, A. Taniguchi and Y. Hagiwara. (2022). "Emergent communication through MetropolisHastings naming game with deep generative models." Advanced Robotics, 37 (19), 1266–1282. https://www.tandfonline.com/doi/full/10.1080/01691864.2023.2260856.↩
- A. Taniguchi, Y. Hagiwara, T. Taniguchi and T. Inamura. (2017). "Online spatial concept and lexical acquisition with simultaneous localization and mapping" Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 811818.↩
- A. Taniguchi, Y. Hagiwara, T. Taniguchi and T. Inamura. (2020). "Improved and scalable online learning of spatial concepts and language models with mapping" Autonomous Robots, Vol. 44, No. 6, pp. 927–946.↩
- 谷口 彰, エル ハフィ ロトフィ, 萩原 良信, 谷口 忠大, 記号創発ロボティクスにおける場所概念の形成と応用, システム/制御/情報, 2022, 66 巻, 4 号, p. 133-138, 公開日 2022/10/15, Online ISSN 2424-1806, Print ISSN 0916-1600, https://doi.org/10.11509/isciesci.66.4_133↩
- A. Taniguchi, Y. Hagiwara, T. Taniguchi and T. Inamura. (2020). "Spatial concept-based navigation with human speech instructions via probabilistic inference on Bayesian generative model" Advanced Robotics, Vol. 34, No. 19, pp. 1213–1228.↩
- J. Inukai, T. Taniguchi, A. Taniguchi, and Y. Hagiwara. (2023). "Recursive Metropolis-Hastings naming game: Symbol emergence in a multi-agent system based on probabilistic generative models." Frontiers in Artificial Intelligence, Vol 6, https://doi.org/10.3389/frai.2023.1229127.↩
- R. Okumura, T. Taniguchi, Y. Hagiwara, A. Taniguchi. (2023). "Metropolis-Hastings algorithm in joint-attention naming game: experimental semiotics study." Frontiers in Artificial Intelligence, Vol. 6, https://doi.org/10.3389/frai.2023.1235231.↩
- 自由エネルギー原理 - 脳科学辞典↩