「Anthropic は創業以来、- 有害行動の検出 – 攻撃的コードの生成抑制 – 悪用リスクの評価 といった安全性研究を大量に行ってきました。」と聞いた。そういう会社の方向性は、どのように形成されたものなのか。時系列的に、解説して。

『Anthropicの「安全性を最優先する」という明確な方向性は、商業的利害よりも人類の生存リスク(Xリスク)を懸念したOpenAI元幹部らの理念から生まれ、技術の進化とともに制度化・具体化されてきました。

その形成過程を時系列で解説します。

  1. 創業期(2021年):

「安全性」を巡るOpenAIからの分離OpenAIとの路線対立:

OpenAIの最高研究責任者だったダリオ・アモデイ(Dario Amodei)氏とその妹のダニエラ氏らは、OpenAIが商業化を急ぐあまり、高度なAIがもたらす破滅的リスク(悪用や暴走)への安全対策を軽視していると危機感を抱きました。

「セーフティ・ファースト」の旗揚げ:

2021年、アモデイ兄妹を含む約10名の研究者がOpenAIを離反し、Anthropicを設立しました。

独自の企業統治構造:株主の利益第一主義に陥らないよう、あえて公益法人(Public Benefit Corporation)として登記されました。

さらに、金銭的利害関係のない第三者がAI開発を監視・制御できる「長期利益信託(Long-Term Benefit Trust)」を設置し、安全性を組織のDNAに組み込みました。

  1. 基盤構築期(2022年〜2023年):安全技術の理論化と「Claude」の誕生Constitutional AI(憲法AI)の提唱:

2022年、AIに人間が付きっきりで教え込むのではなく、あえて「AIに守らせる憲法(原則)」を与え、AI自身に有害行動を自己修正させる画期的な学習手法を開発しました。』