Google「万能AI」の威力 数百万タスク・多言語対応

Google「万能AI」の威力 数百万タスク・多言語対応
https://www.nikkei.com/article/DGXZQOUC185010Y2A410C2000000/

 ※ 『PaLMのニューラルネットワークのパラメーター数は5400億にも達する。』…。

 ※ 『グーグルは5400億パラメーターのPaLMをトレーニングするために、自社開発した専用AIチップである「TPU v4」を6144個搭載した巨大スーパーコンピューターを使用している。』…。

 ※ 現状は、まだ、そういうものだ…。

 ※ そういう「巨大システム」を動かすための、「電力消費」は、どのくらいのものなんだろう…。

『米グーグルが数年にわたって開発を進めてきた人工知能(AI)「Pathways(パスウェイズ)」の実力が明らかになった。Pathwaysは1つの機械学習モデルが最大数百万種類のタスクに対応できるという「万能」もしくは「汎用」のAIだ。従来のAIが1モデル1タスクの専用品であるにもかかわらず、タスクを処理する性能は汎用であるPathwaysが上回った。驚くべき威力だ。

グーグルは4月4日(米国時間)、自然言語処理に関する複数種類のタスクを処理できる「Pathways Language Model(PaLM)」を発表した。自然言語による質問応答や文章生成などができる言語モデルと呼ばれるAIをPathwaysによって実装した。言語モデルは近年、BERT(バート)やGPT-3などがめざましい成果をあげたことで注目されている。

1モデル1タスクの専用品である従来の言語モデルで別のタスクを処理させるには、それ用の機械学習モデルを改めてトレーニング(訓練)し直す必要があった。

それに対してPaLMは1つの機械学習モデルで、質問応答や文書生成、多段階の論理的な思考、翻訳、ソースコード生成、ソースコード修正、さらにはジョークの解説といった様々なタスクを処理できる。さらに1つのモデルで、英語だけでなく多言語によるタスクに対応可能だ。

グーグルはPaLMのトレーニングに、7800億単語(トークン)からなる文章を使用した。これらはウェブページや書籍、ウィキペディア、ニュース記事、ソースコード、ソーシャルメディア上の会話などから収集した。このうち書籍とニュース記事は英語だけだが、それ以外については多言語の文章が含まれる。

GPT-3を上回るベンチマーク性能

PaLMは多芸であるだけでなく、1つひとつのタスクの処理性能も高い。グーグルが29種類の自然言語処理に関するベンチマークを試したところ、29種類中の28種類でこれまでの最高(SOTA)を上回る成績を収めたという。

グーグルが倒したライバルとして挙げた言語モデルの中には、同社自身が2021年12月に発表したこれまでで最高成績の言語モデルであるGLaMや、米オープンAIが20年に発表して世界に衝撃を与えたGPT-3、米マイクロソフトと米エヌビディアが共同開発して22年1月に発表したMegatron-Turing(メガトロン・チューリング)NLGなどが含まれる。

従来の言語モデルも、大量の文章によってモデルをトレーニングした後は、数十~数百文例の「わずかな訓練(Few-shot training)」を加えることで、他のタスクにも対応できる。

しかしPaLMの場合は追加のトレーニングがない「0-shot」の状態であっても、多くのタスクで高性能を発揮できる。またタスクによっては、PaLMにFew-shotのトレーニングを追加すると、性能が向上することがある。

PaLMの特徴は機械学習モデルの巨大さだ。PaLMはBERTやGPT-3と同様に、自己注意機構(SA)であるTransformer(トランスフォーマー)を多段に積み重ねるニューラルネットワーク構造を採用する。

PaLMのニューラルネットワークのパラメーター数は5400億にも達する。BERTのパラメーター数は3億4000万、20年の発表当時では巨大といわれたGPT-3は1750億であり、過去最大級の規模だ。マイクロソフトとエヌビディアによるMegatron-Turing NLGは5300億パラメーターだったので、それよりもさらに大きい。

グーグルは5400億パラメーターのPaLMをトレーニングするために、自社開発した専用AIチップである「TPU v4」を6144個搭載した巨大スーパーコンピューターを使用している。

Pathwaysが示した「規模の力」

グーグルはPaLMに関して、ニューラルネットワークの規模が大きくなればなるほど性能が向上する「規模の力」が働くと説明する。

グーグルは今回、5400億パラメーターのPaLMモデル(PaLM 540B)だけでなく、80億パラメーターのPaLM 8Bと620億パラメーターのPaLM 62Bも用意し、それぞれの性能を比較した。するとPaLM 8BよりもPaLM 62Bの方が、PaLM 62BよりもPaLM 540Bの方がベンチマーク性能は向上するとの成果が得られた。

またグーグルは620億パラメーターのPaLM 62Bのベンチマーク性能が、1750億パラメーターであるGPT-3の性能を上回ったとも主張している。ライバルに比べて性能が高いのは、単にパラメーター数が大きいだけではなく、アーキテクチャーそのものが優れているからだとの主張である。

グーグルがPathwaysの開発を明らかにしたのは、19年7月のことだ。同社におけるAI開発を統括するジェフ・ディーン氏が来日した際の記者会見で、「1つの機械学習モデルで数百~100万種類のタスクを処理できるようにする研究が現在進んでいる。私はその研究の方向性に非常に興奮している」と明かしていた。

そしてディーン氏は21年10月に公表したブログ記事で、グーグルが最大数百万種類のタスクを処理できるAIアーキテクチャーであるPathwaysを完成させたと発表した。しかしこの時点では、Pathwaysで何ができるのかは明かされていなかった。そして今回PaLMの成果を発表することで、自然言語処理の領域におけるPathwaysの実力を明かした。

PathwaysはAIの応用領域を大きく広げる存在になるだろう。これまでの専用型AIの場合は、新しいタスクに対応するにはそれ用の学習データを大量に用意する必要があり、それがAI応用の課題になっていた。様々なタスクに対応できるPathwaysは、この課題を解消できる可能性がある。その威力は計り知れない。

Pathwaysにも苦手なタスク

もっともグーグルが公表した論文からは、PaLMの課題もうかがえる。まずPaLMの「規模の力」が機能しなかったタスクもあった。

グーグルが公表した論文によれば、PaLMではパラメーター数が増えるにつれタスクを処理する性能が上がる傾向があるものの、試したタスクの中にはパラメーター数を増やしても性能があまり向上しなかったものもあった。

つまりPaLMには苦手なタスクがあったということだ。具体的には質問応答のタスクの中でも、行き先案内に関するタスクである「navigate(ナビゲート)」や、数学的証明手法を実世界に応用するタスクである「mathematical_induction(数学的帰納法)」などが苦手だった。

また今回PaLMが示したのは、自然言語処理という範囲に限定した万能さだ。実はディーン氏は21年10月のブログ記事で、Pathwaysは様々な感覚(senses)に1つのモデルで対応できると予告していた。テキストデータを扱う自然言語処理だけでなく、画像や音声といった様々なタスクで高性能を発揮してこそ、Pathways本来の万能さが示されたといえるだろう。

Pathwaysはどこまで万能なのか。Pathwaysの行く先に「汎用人工知能(AGI)」が存在するのか。これからの進歩が楽しみだ。

(日経クロステック/日経コンピュータ 中田敦)

[日経クロステック2022年4月15日付の記事を再構成]

【関連記事】
・大規模言語AIにGoogleやMicrosoft覇権争い 日中に波及
・AIで言語処理、競争激化 カナダ新興も大型調達
・メール文、6秒で自動生成 東大発新興が日本語AI開発
・Microsoft、クラウドで言語AI「GPT-3」 企業利用弾み 』