人を再現? 耳目で言葉学ぶAI、言語習得の謎に迫るか
https://www.nikkei.com/article/DGXZQOUC146CE0U4A310C2000000/



『2024年3月30日 2:00
人はどのように言語を習得するのか。言語学者が長年追い続ける謎に、人工知能(AI)が新たなアプローチで迫ろうとしている。幼子の見る映像と聞いた言葉を学習したAIは、言葉の指す物を判別できるようになった。人は少ないデータでも言語が獲得できるといわれるが、その秘密に迫れるのかもしれない。
チョウチョウ、ボール、ネコ――。赤ちゃんが眺める景色は多くの物であふれている。親の話す言葉を聞くうちに、その中から…
この記事は会員限定です。登録すると続きをお読みいただけます。』
『チョウチョウ、ボール、ネコ――。赤ちゃんが眺める景色は多くの物であふれている。親の話す言葉を聞くうちに、その中からその物体の名前を自然と覚えていく。なぜ必死に勉強しようとしなくても、このように簡単に幼い子は言語を習得できるのだろう。』
『その謎に迫ろうと米ニューヨーク大学は最新のAI技術を使った。一人の子の頭部にカメラを取り付け、生後6〜25カ月のときに見た映像と耳にした声を集め、60万フレームの画像情報と3万7500の発話をおこした文字情報をAIに学ばせた。すると「ボール」「ネコ」など22種類の言葉を6割以上の精度で見分けられるようになった。
低くみえるかもしれないが決して悪くない性能だ。大量のデータで訓練した「CLIP」という既存のAIに迫る数値だった。同大学のワイ・キーン・ボン博士は「学習中に見ていない対象でも理解できる汎用性を示せた」と言う。』
『人の言語習得の仕組みは長く論争になっている。有名なのは米国の著名言語学者のノーム・チョムスキー氏が提唱した「生成文法」という考え方だ。
子どもたちはあまり言葉に触れていなくても文法や構文などを学べるのは、生まれながらにそれを理解できる「普遍文法」が備わっているという考え方を柱にしている。それをもとに英語や日本語など様々な言語を習得できるという。』
『近年のAIに近いアプローチもある。生まれつきのものは特になく、大量の言葉や表現に接することで後発的に習得するという考え方だ。AIが発展し、2018年ごろに大規模言語モデル(LLM)が登場するとにわかに活気づいた。』
『LLMは人のように自在に文法や構文を駆使して言語を操る。そうした存在は人類以外では初めてになる。ただ「生得的なものがなくても学べる」というには大きな課題があった。LLMは学習に必要なデータ量が多すぎるからだ。』
『LLMは数十億〜数兆語も学ぶのに対し、人は数億語ですむともいわれる。人が少ない刺激で学べる点をチョムスキー氏は「刺激の貧困」といい、普遍文法があるためだと主張するポイントになっている。』
『このデータ量の論点に一石を投じたのが今回の論文になる。画像と音声という異なる形式のデータをもとに学べる「マルチモーダルAI」を使うことで、幼子が普通に見聞きするものだけで物を識別してみせた。「人の言語習得の初期の段階では、強力な生得的な仕組みを考える必要はないのではないか」(ボン氏)』
『ただ、今回の成果は完全に人を再現しているわけではなく、違いはたくさんある。AIの専門家で自然言語処理にも詳しいプリファード・ネットワークスの岡野原大輔・代表兼最高研究責任者は「例えば、この研究では400回学習を繰り返している。人の学習はより効率的だ」と指摘する。人は一度の経験で学ぶこともあるし、ふと思い出して理解することもある。』
『判別精度も人に比べて低いという指摘もある。今回の成果は「人に近い振る舞いができるAI」であり、大量のデータを使わずに文法や構文などを習得する人の仕組みはまだ見えない。』
『ただ、人の謎が解けなくてもAIはさらに人に近い振る舞いができるようになるかもしれない。岡野原氏は「人は能動的に行動することで世界を知る。好奇心も合わさると効率的に知る。さらに主体的に世界に介入して実験することで、物事にどんな因果関係があるのか分かるようになる」と指摘する。』
『AIはどこまで人に近づくのだろう。言語の先には心の再現も期待されるが、実現の見通しはたっていない。人の気持ちを読み取り、自分の意志や気持ちに合う言葉を選んで伝えるところは、人が磨かなくてはいけないのだろう。(サイエンスエディター 松田省吾)』
『マルチモーダルAI
文章だけでなく画像や音声、動画など様々な形式のデータを入力して処理できるAI技術。
複数の形式を組み合わせることで、推論できる範囲や精度が高まる。文や画像などを生成して出力する「生成AI」にも活用されており、今後のAIの進化の鍵になると考えられている。
今回のAIも別のデータを取り込む発展が考えられる。加速度や移動の情報などを入れれば、自分の位置や周囲の空間が分かり、世界との関わりが分かる。また、人は見えるものに等しく注意を払うのではなく、一部に注目して見ている。目線を追うセンサー技術も役立つかもしれない。』