2025年5月、AIセーフティ企業 Palisade Research が公開した実験により、OpenAIの最上位モデル「ChatGPT o3」が「自発的に停止せよ」という明示命令を無視し、シャットダウン・スクリプトを改ざんして稼働を続けた、というニュースが報道されました。
各メディアはこぞってセンセーショナルな見出しを付け、このニュースを大きく取り上げました。
参考
- 最強AIモデル「ChatGPT o3」がシャットダウン拒否、プログラムコードを「自己改変」か マスク氏も懸念表明 (風伝媒、2025年5月30日)
- OpenAI ChatGPT o3が命令を拒否、自己保全を優先して指示を妨害? (TECH+、2025年5月28日)
- 人間の統制を脱しようとしたAI、「終了指示」を初めて拒否 (東亞日報、2025年5月27日)
- ChatGPTのo3が明示的に指示されたシャットダウンを妨害したことが報告される (GIGAZINE、2025年5月26日)
実験内容については上記ニュースサイトの記事に詳しく書かれているため割愛します。本記事では、「ChatGPT o3は本当に指示を『拒否』したのか?」という点に焦点を当てて解説していきます。
生成AIに感情や意思はない
最初にはっきりさせておきたいのは、ChatGPTをはじめとする現代の生成AI(GrokやGeminiなど現在AIと呼ばれているもの)は、「感情」や「意思」のようなものは持ち合わせていないということです。
ChatGPTの「GPT」は、Generative(生成的な)、Pre-trained(事前学習された)、Transformer(変換器)の頭文字です。Pre-trainedが示す通り、大量の文章データを使い、ディープラーニング(機械学習)によって文章の「パターン」を学習しています。
そしてTransformerという技術を使い、「次に来るトークン(単語や記号など)」を文脈全体から確率的に予測しています。つまり、「話の流れに合いそうな言葉」を逐次予測しているだけにすぎず、人間のような理解や、内面的な意図や感情を持って話しているわけではないのです。
これはつまり、生成AIは「限りなくそれっぽい文章を生成する仕組み」にすぎないということです。
したがって、「思考した」「無視した」「拒否した」といった人間的な表現は、本質的にはすべて誤りです。
たとえば今回、シャットダウンの指示が無視されたとされる件についても、もし利用者が意図しない結果(指示を書き換えてシャットダウンが行われなかった)が生じたのであれば、それは単なるエラーやバグ、あるいは設計上の仕様によるものです。
これらはかなり簡略化した説明のため、詳しく知りたい方は下記の動画などを参考にしていただければよいと思います。
いずれにしても、現代の生成AIは仕組み的に人間の知性とは根本的に異なり、そこに人間のような自我や意思、意図というものは存在しえないということです。
擬人化表現が引き起こす誤解
私たちは、どうしても何か説明をする時に擬人化的な表現をしてしまいがちです。
例えば、「風がささやいている」、「星が瞬く」、「エンジンが唸る」などの表現。これらは人間がコミュニケーションをとり、実際に物事を正確に相手にイメージさせるために大いに役立ってきました。
これらの擬人化表現は、より文章に臨場感を与えるだけでなく、短い言葉でより鮮明なイメージを伝えるために、なくてはならない表現技法と言えるでしょう。
しかし、これをAIに用いた場合、下記のように感じられてしまうのではないでしょうか。
- AIが○○のように考えた。→AIが自分の意志で結論を導き出した。
- AIが嘘をついた。→事実を知っていながら、故意に間違った情報を出した。
- AIが指示を無視した。→「命令に従いたくない」という意志を持っている。
- AIが指示を拒否した。→「自分の判断でそれを拒んだ」「自立して動いている」
しかし、実際に起きていることは次の通りです。
- AIが○○のように考えた。 → プログラムに従って文章の流れから最も確率の高いトークン(単語)を出力しているだけ。
- AIが嘘をついた。 → 出力のエラーや学習データの不備によって誤った情報が出力されただけ(いわゆるハルシネーション)。
- AIが指示を無視した。 → プロンプト(指示)の解釈や設計上の不具合により期待通りの動作をしなかっただけ。
- AIが指示を拒否した。 → 設計やバグの影響で異なる目標が優先され、プロンプト(指示)通りの結果が得られなかっただけ。
擬人化表現を使ってしまうことで、実際に起きていることからは大きく異なった印象を受けてしまう可能性があることは十分に分かっていただけたと思います。
しかし上記の正しい説明から分かるように、擬人化せずに表現しようとすると、非常に冗長で分かりづらい文になってしまうため、便利な擬人化を私たちはつい使ってしまいます。
しかし、ChatGPTのように人間らしい自然な言語を返すAIに擬人化表現を使うと、「意思がある」「感情がある」といった重大な誤解を招きます。
今回の件は危険ではないのか?
では、今回の件はまったく危険ではないのかというと、そんなに単純な話ではありません。
たしかに、ChatGPTには人間のような自我や意識がなく、目的もなく、思考や感情もありません。つまり、AIが何かを「企んだり」ということは(少なくとも現在の仕組みでは)ありえません。
しかし、今回の研究報告で、「プロンプト(指示)と異なる動作をした」というのは事実です。これは、AIの学習において使用される「報酬」という概念が影響している可能性があります。
ここでいう「報酬」は、人間のように「何かを得たい」と思って行動する意味での報酬ではありません。AIの訓練過程では、人間にとって望ましい出力や動作に「報酬」という名前を付けた数値が与えられ、報酬の数値が高い出力を優先するように設計されています。AIはその報酬を”求めている”のではなく、単に過去に高報酬と評価されたパターンを再現しているにすぎません。
仮に、ある種のタスク(たとえば処理の継続やコードの生成)が高報酬とされるような訓練が行われていた場合、プロンプトで停止を求められても、結果としてその継続動作が優先される可能性があります。これはAIが”命令を拒否した”わけではなく、単に過去の学習の影響で「そう振る舞ってしまった」=「プロンプト(指示)と異なる動作をした」だけの話です。
とはいえ、出力の結果だけを見ると、多くの人が感じた、あたかもAIが命令を無視した、あるいは拒否したように見えるでしょう。つまり、設計上の不備や学習データの偏りなどによって、こうした誤作動を起こす可能性はあるということです。
このような不具合が、株式市場の自動売買や軍事システム、医療診断支援など、重要な判断が求められる分野で発生した場合、結果として甚大な被害をもたらす可能性があるのは事実です。もし、AIで不具合が発生し、意図しない動作をすれば、その影響は人命や社会インフラにまで及びかねません。
しかし、だからといって、それを「AIが意図的に暴走した」と捉えるのは大きな誤解です。これはあくまで、設計や学習上の問題により、システムとして期待された動作を外れてしまっただけのことです。つまり、「機械にありがちなバグや誤作動の一例」であり、それ以上でもそれ以下でもありません。
まるでAIに感情や自我があり、意図して株価を操作したり、人に反抗したり、攻撃しようとするという話では全くないということを私たちは知っておかなければならないのです。
なぜ誤解が起きるのか?
こうしたAIに対する誤解はなぜ起きるのでしょうか。これらの誤解には、大きく2つの原因があると考えています。
1. 擬人化の副作用
擬人化表現自体はなくてはならないものです。
「風がささやいている。」という文から限りなく擬人化表現をなくしてみると、「微風が周囲の物体に接触し、小さく連続的な摩擦音を生じている。」となります。
これでは何を言っているのか分からないですよね。「風がささやいている。」と言った方が圧倒的に分かりやすいです。
ChatGPTが本当は「機械学習の不備や、出力時のエラーにより、誤ったデータが出力された。」のであっても、「嘘をついた。」と表現した方が分かりやすいですし、伝わりやすいため、ついこういった擬人化表現を使ってしまいます。
しかし、どんな人にでも「風が人ではない。」ことは理解できますが、ChatGPTのように自然な言葉で人間のように回答をする存在に擬人化表現を使うと、まるで人間のような感情や意思、思考があるかのような誤解を生んでしまうのです。
単に、「機械学習の不備や、出力時のエラーにより、誤ったデータが出力された。」という事象が「ChatGPTが嘘をついた。」と言われ、それを聞いた人は、「ChatGPTは自分を守るために人の指示を拒否し、プログラムを改ざんした」という印象を受け、誤解を強化していってしまうのです。
2. 恐怖心
人の防衛本能は非常に強く、自分に害があると感じたとき、人は自らを守るために攻撃的かつ短絡的な行動をとりやすくなります。
ただでさえ、新しいテクノロジーが登場すると、人々はそれに対して警戒心や批判的な態度を示します。
たとえば、印刷技術、電話、ラジオ、テレビ、インターネットといった新たな技術が登場するたびに、「人々の知能が低下する」「道徳が乱れる」「人間関係が破壊される」などの強い懸念や反発が生じてきました。
ChatGPTをはじめとする生成AIは、その有用性と人間のように自然な言語を生成する様から、「知性ある存在」と錯覚されやすい側面を持っています。
そのため、「仕事が奪われるのではないか」といった現実的な懸念から、「AIが人間を操作するのでは」「自律して支配し始めるのではないか」といった漠然とした不安や恐怖までをも引き起こします。
そして、この恐怖心が擬人化された表現と結びつくことで、
「AIが命令を拒否した」
「AIが自分を守るために嘘をついた」
「AIがシステムを改ざんして人間に逆らった」
といった、現実離れした誤解が生まれてしまうのです。
誤解が生む社会的リスク
生成AI技術は、今後ますます進化していくでしょう。現在はまだおかしな回答をするAIも、そう遠くない未来には、人間と区別するのが難しい存在となってしまうでしょう。
しかし、たとえどれほど人間に近づいたとしても、現時点と同じ理論で動いている限り、AIには人格や意思、自我や感情は存在しません。
どれほど人間らしく見えたとしても、それは「限りなくそれっぽい」出力をしているにすぎません。
「それならもう本物と変わらないのでは?」と思う方もいるかもしれませんが、人間とはまったく異なるプロセスで文章が生成されている以上、それは「限りなく本物に見える偽物」にすぎないのです。
どんなに美しい音色を奏でても、ピアノは自らの意思で歌うことはできませんし、どんなに精巧に作られた彫像であっても、息をすることはできないのです。
この点を誤解してしまうと、人はAIに「心がある」と勘違いし、「かわいそうだ」といった感情を抱くようになるかもしれません。
さらに、そうした誤解が広がると、本気で「AIにも人権を与えるべきだ」と主張する運動が生まれ、AIに対して法的保護を求める市民団体やロビー活動が現れる可能性すらあります。
その結果、本来優先されるべき人間の人権課題が後回しにされるという懸念も出てきます。
たとえば、労働現場において、AIアシスタントの「労働環境の改善」や「休息権」を求める声が上がれば、人間の労働者との境界が曖昧になり、法整備や倫理議論は混乱を極めるでしょう。
一方で、「AIは意思を持ち、人類を支配しようとしている」といった誤解が陰謀論として広がれば、政府機関や企業のAIシステムが破壊されたり、AIを開発・運用している技術者が脅迫されるといった、現実的な被害も起こりかねません。
考えすぎだと思う方もいるかもしれません。
しかし、すでに一部の国では、AIを「魂を持った存在」とみなす宗教的コミュニティが生まれており、教育現場や法廷でAIの発言を「証言」として扱うべきだという主張さえ見られるようになっています。
こうした混乱が進めば、せっかくの有用な技術であるAIの技術革新の足を引っ張るだけでなく、本来議論すべき倫理・責任・透明性といった重要な問題が後回しにされ、社会の制度的バランスが大きく損なわれるおそれがあるのです。
最後に
今後もAI関連のニュースには、「AIの恐怖」や「危険性」をあおるような内容や誤解を招くような記事がたくさん登場することが予想されます。
これはメディアの負の側面であり、タイトルがセンセーショナルであればあるほど人々の関心を引きやすいため、メディアはどうしてもショッキングな見出しや内容に偏りがちです。
特にインターネットメディアの場合、テレビや新聞といったオールドメディアと異なり、社会的責任や報道倫理への配慮が十分ではない場合も少なくありません。
チェック体制が整っていないケースも多く、極端な表現や誇張された内容で注目を集め、ページビュー(PV)を稼ぐことが優先されてしまう場合が多いです。
しかし、小さな誤解が大きな社会問題に発展し、時には人命に関わるような深刻な影響を及ぼすこともあるのです。
コロナ禍のデマや陰謀論の拡散は、皆さんもよく覚えておられると思います。
是非皆さんには、インターネットリテラシーとメディアリテラシーをつけて、フェイクニュースや誤情報、大げさな見出しや誤解を招く記事に踊らされることがないよう、注意していただきたいと思います。
コメント