大規模言語モデル(LLM:Large Language Model)とは?
https://atmarkit.itmedia.co.jp/ait/articles/2303/13/news013.html

『用語解説
大規模言語モデル(LLM:Large Language Models)とは、大量のテキストデータを使ってトレーニングされた自然言語処理のモデルのことである。一般的には大規模言語モデルをファインチューニングなどすることによって、テキスト分類や感情分析、情報抽出、文章要約、テキスト生成、質問応答といった、さまざまな自然言語処理(NLP:Natural Language Processing)タスクに適応できる(図1)。大規模言語モデルの代表例としては、2018年にGoogleが発表した「BERT」や、2020年にOpenAIが発表した「GPT-3」などが挙げられる。2022年12月に発表された「ChatGPT」は、2022年初頭にトレーニングした「GPT-3.5シリーズ」をチャット(対話)向けにファインチューニングしたものであり、大規模言語モデルの応用例の一つだ。
図1 大規模言語モデル(LLM)のイメージ
大規模言語モデルの「大規模」に明確な基準はないが、BERTとGPT-3を参考値として示しておく。BERTは、28億語のWikipediaデータと8億語のGoogle BookCorpusデータで合計33億語のデータからトレーニングされている。GPT-3は、45TB(テラバイト)のデータ(最終的に合計4990億トークン)からトレーニングされている。GPT-3.5のデータセットについては筆者が調べた限り発表されていない。
大規模言語モデルは、その内部のニューラルネットワークに含まれるパラメーターの数も非常に多い。BERTは3億4千万、GPT-3は1750億、GPT-3.5は3550億ものパラメーターを持っている。
ちなみに、GPT-3やGPT-3.5は基盤モデル(Foundation Model)であり、かつ大規模言語モデルでもある。ただし、「テキスト以外のデータ」(例えば“画像”データ)を使ってトレーニングした基盤モデルは、当然ながら「大規模“言語”モデル」とは言えないことに注意してほしい。つまり、必ずしも「基盤モデル = 大規模言語モデル」ではない。』