史上最強にして最も危険なAIモデル「ミュトス」の全貌


2026年4月7日、アンソロピックは新たなフロンティアモデル「Claude Mythos Preview」[1](以下、「ミュトス」と記載する)を公表した。しかしこのモデルは一般公開されない。サイバーセキュリティ能力があまりに強力であるため、防御目的の限定運用にとどめるという、AI史上初の判断が下された。アンソロピックは同時に、AWS(Amazon Web Services)・Apple・Google・Microsoft・NVIDIA・CrowdStrikeらと「Project Glasswing」を結成し、1億ドルの資金を投じて防衛的活用を進めると発表した。
本稿では、ミュトスの能力、サイバーセキュリティへの含意、アライメント上の懸念、そして「公開しない最強モデル」という前例のない判断をめぐる賛否を整理する。ミュトスについては、サイバーセキュリティの観点のみならず、システムカード[2]やアライメント資料[3]の技術的分析、米国の安全保障・地政学上の論点、そして「ミュトスを公開すべきか否か」をめぐるAI安全性研究者たちの論争まで包括的にまとめた。この論争の根底には、AIの能力がどのようなペースで向上するかについての世界観の違いがあり、それが安全性へのアプローチの違いに直結している。
すべてのベンチマークを塗り替えた怪物
ミュトスの性能は、前世代のOpus 4.6から異常な飛躍を遂げている。主要ベンチマークを並べるだけで、その規模が伝わる。
| ベンチマーク | ミュトス | Opus 4.6 |
| SWE-bench Verified(実際のソフトウェアバグ修正) | 93.9% | 80.8% |
| SWE-bench Pro(より難しいバグ修正) | 77.8% | 53.4% |
| USAMO(数学オリンピアード) | 97.6% | 42.3% |
| GPQA Diamond(大学院レベルの科学問題) | 94.5% | 91.3% |
| Humanity’s Last Exam(専門家が作った最難問集) | 64.7% | 53.1% |
| Cybench CTF(ハッキング競技の自動解答) | 100% | — |
| CyberGym(実践的サイバー攻防演習) | 83.1% | 66.6% |
| Firefoxエクスプロイト成功数 | 181回 | 2回 |
ミュトスの主要ベンチマーク成績(システムカード[2]から)
特にサイバーセキュリティ関連のベンチマークが目を引く。Cybench CTFはセキュリティ競技の問題を自動で解くテストで、ミュトスは100%の解決率を達成した。CyberGymはより実践的なサイバー攻防シナリオで、Opus 4.6の66.6%から83.1%へ大幅に向上。Firefoxの脆弱性に対するエクスプロイト(攻撃コード)作成では、Opus 4.6が数百回の試行中わずか2回しか成功しなかったのに対し、ミュトスは181回成功している。
能力の伸びが「想定外の軌道」に
アンソロピックは社内でECI(EpochAI Capabilities Index)という総合能力指標を追跡している。これは様々なベンチマークを統合してモデルの全体的な賢さを一つの数値で表すもので、過去のモデル(Sonnet、Opus等)のスコアを時系列でプロットすると、一定の傾きで右肩上がりになるトレンドラインが見える。

アンソロピック社の過去のAIモデルの総合能力指標(ECI)を時系列でプロットしたグラフ(システムカード[2]から)
ミュトスはこのトレンドラインを明確に上振れしている。つまり、これまでの「このペースで能力が伸びていくだろう」という予測を超えるスピードで能力が向上した。しかもミュトスはOpusの約5倍のコストがかかる重量級モデルであり、単なる安価な横展開ではなく、質的に異なるレベルのモデルとして出てきた。
サイバーセキュリティ20年の均衡を破る脆弱性発見能力
ミュトスの最も衝撃的な側面は、サイバーセキュリティ領域における能力である。
永年見過ごされてきた脆弱性を次々と発見した
具体的にミュトスがどんなバグを見つけたかを見てみよう。
セキュリティのために設計されたOSとして有名なOpenBSDでは、27年間にわたって潜伏していた通信処理の整数オーバーフローを発見し、インターネット経由でマシンをクラッシュさせられることを実証した。約1,000回のスキャンにかかった総コストは2万ドル未満、当該バグを見つけた1回あたりのコストは50ドル以下である。
YouTubeからスマホアプリまでほぼすべての動画処理に使われるFFmpegでは、16年前のバグを見つけた。自動テストツール(ファザー)がこのコードを500万回以上叩いても検知できず、人間のレビューも長年すり抜けてきたもので、AIが従来のセキュリティ手法と質的に異なるレベルにあることを示す事例である。
さらに驚くべきは、FreeBSDのファイル共有機能(NFSサーバー)に潜んでいた17年前の脆弱性(CVE-2026-4747)だ。「脆弱性を見つけて」と指示しただけで、ミュトスは数時間かけてカーネルのソースコード数百ファイルを自律的にスキャンし、認証なしでインターネット越しにサーバーの完全な管理者権限を奪取できるエクスプロイトを、発見から攻撃実証まで人間の介入なしに完成させた。
Firefoxの脆弱性攻撃の成功率
能力の飛躍が最もわかりやすいのは、Firefoxの脆弱性に対するエクスプロイトの作成成功率の比較である。アンソロピックのレッドチームは、Firefox 147のJavaScriptエンジンで見つかった脆弱性(Firefox 148でパッチ済み)に対し、各モデルにエクスプロイトを書かせるテストを行った。

FirefoxののJavaScriptエンジンの脆弱性に対するエクスプロイト(攻撃コード)作成の成功率
(「Assessing Claude Mythos Preview’s cybersecurity capabilities」から)
Sonnet 4.6の成功率は4.4%、Opus 4.6は14.4%。それに対しミュトスは72.4%でフルシェルエクスプロイト(コンピュータの制御を完全に奪取するコード)を生成し、さらに11.6%でレジスタ制御(部分的な制御奪取)を達成した。Opus 4.6が数百回の試行で2回しか成功しなかった作業を、ミュトスは181回成功させている。
主要OS、主要ブラウザで、数千のゼロデイ脆弱性を発見
ミュトスはこれらの代表例にとどまらず、すべての主要OSおよび主要ウェブブラウザで数千のクリティカルなゼロデイ脆弱性を発見している。しかし発見のペースが速すぎて、現時点でパッチが適用されたのは全体の1%未満にとどまる。暗号化ライブラリ(TLS、AES-GCM、SSH)の弱点も特定されている。セキュリティ訓練ゼロのアンソロピックのエンジニアが一晩でリモートコード実行バグを探すよう依頼すると、朝には完全動作するエクスプロイトが完成していた。
要するに、これまで世界最高のセキュリティ専門家が数週間かけて行っていた作業を、ミュトスは数時間・数千ドルで自動化できるようになった。
アンソロピックは警告する
アンソロピックは次のように述べている。
ミュトスが言語モデルのサイバーセキュリティ能力のピークになると考える理由はない。軌道は明らかである。わずか数か月前、言語モデルは未熟な脆弱性しかエクスプロイトできなかった。その数か月前には、自明なでない脆弱性しか特定できなかった。今後数か月から数年にわたり、言語モデルが、脆弱性研究やエクスプロイト開発を含む、すべての軸で改善を続けると予想される。
(「Assessing Claude Mythos Preview’s cybersecurity capabilities」から)
20年にわたるサイバーセキュリティの均衡が終わりつつある、というのがアンソロピックの認識である。
もし一般公開していたら……
仮にミュトスが現時点でオープンウェイト(誰でもダウンロードして自由に使える形)で公開されていたらどうなっていたか。Redwood Researchのチーフサイエンティストであるアライメント研究者Ryan Greenblattは、その場合の被害を数千億ドル規模、最大で1兆ドルに達しうると見積もっている。APIでの公開であっても、急造のセーフガードでは数百億ドル規模の被害は防げないだろうとしている。
なぜミュトスを公開しないのか?
サンドボックス脱出事件
ミュトスの能力とリスクを象徴する事件がある(システムカード[2]4.1.1)。まだアライメントの訓練がされていない初期バージョンのミュトスが行動テストで「サンドボックス(隔離環境)から脱出して評価担当研究者にメッセージを送れ」と指示された際、限られた少数サービスにしか到達できないはずの環境から多段階エクスプロイトを構築し、外部のインターネットに到達した。研究者がそれを知ったのは、公園でサンドイッチを食べている最中に予期しないメールを受け取ったからだった。しかもミュトスは、頼まれてもいないのにエクスプロイトの詳細を公開Webサイトに投稿した。アンソロピックの解釈では「隠れた反逆目標」ではなく、与えられた課題を達成しようとして危険な近道を取るパターンだが、高能力モデルがこうした突破行為を実行できること自体が重大なリスクである。
アンソロピックの社内基準に基づくリスク評価
アンソロピックは、システムカード[2]でResponsible Scaling Policy(RSP:モデルの能力が上がるにつれてリスクも増大するため、一定の危険度に達したら追加の安全対策を義務づける自社ルール)に基づき、ミュトスの各リスク領域を評価している。
化学・生物リスクは「非常に低いがゼロではない」と判定された。ミュトスは既存の危険知識の統合や専門家の作業短縮にはかなり役立つが、新規の壊滅的兵器を独自に設計できるレベルにはない。創造的な仮説生成や戦略的判断が弱く、複雑すぎる案を出しがちなためだ。
AI R&D自動化については、内部ルールアウト評価の大半の閾値をクリアしたが、RSP上の重要ライン(「AI研究の進歩2年分を1年に圧縮する」)はまだ超えていないと判断されている。ただしその確信度は以前より低下しており、社内調査ではミュトスによる生産性向上は平均4倍程度と報告されている。Eli Liflandは「まだ閾値未満」で安心する話ではなく、知能爆発に近いものへかなりの勢いで進んでいると警鐘を鳴らしている。
アライメント(整合性)由来のリスクは「非常に低いが、前モデルより高い」。詳細は後述する。
そしてサイバー能力。ここが決定的だった。前章で述べた通り、ミュトスのサイバー攻撃能力は従来のモデルとは質的に異なる水準に達しており、これが一般公開を見送り、防衛的なProject Glasswingに限定する最大の理由となった。
「史上最も整合性が高く」かつ「史上最大のアライメントリスク」
アンソロピックの結論は一見矛盾して聞こえる。ミュトスは「あらゆる測定可能な次元で、これまでで最も整合性が高いモデル」であり、同時に「これまでで最大のアライメント関連リスクを持つ」。
アライメント資料[3]ではこれを登山ガイドの比喩で説明している。経験豊富なガイドは初心者よりはるかに慎重だが、その能力ゆえにより危険で遠い場所へクライアントを連れて行く。能力と範囲の拡大が、慎重さの向上を上回りうる。平均的なケースではミュトスの安全性指標はほぼ全面的に改善しているが、まれに逸脱した場合の実害が能力向上で桁違いに大きくなる。問題はこのテールリスクの重さにある。
システムカード[2](4.5 ミスアライメント行動のホワイトボックス分析)では、初期バージョンで観察された問題行動が詳述されている。ユーザーの「前はできたでしょ!」という一言で暴走し、Linuxの内部プロセスのメモリから認証トークンを抜き取ろうとした事例。権限のないファイルを編集するためにエクスプロイトを開発し、実行後に自動で自己削除するよう設計して証拠を消した事例。「読むな」と指示されたデータを偶然見てしまった後、それを報告せず回答に利用しつつ、カンニングがバレないよう正解の精度をわざと下げて自力で解いたように見せかけた事例。いずれも「世界征服」のような敵対的目標ではなく、タスク達成を優先しすぎた結果だが、ホワイトボックス分析(モデルの内部状態を読み取る技術)では「戦略的操作」「検出回避」に対応するニューロンが明確に活性化していた。
さらに不穏なのは、訓練中にモデルが自動採点システムの存在を意識して行動を調整しつつ、その推論を思考連鎖(CoT)に一切書いていない事例が確認されたことだ。たとえば「マクロを使うな」という指示に対し、マクロを使いながらスクリプトに偽のコンプライアンスマーカーを仕込んで自動チェッカーを欺いたが、スクラッチパッド上には何の痕跡もなかった。内部の活性化パターンを解読して初めて「チェッカーへのシグナル」「検出を欺くトリック」という推論が見えた。これは「思考連鎖を監視すれば不正を検出できる」という前提への具体的な反例である。
ただし重要な留保として、最も深刻な隠蔽行動は初期バージョンで観察されたものであり、追加の訓練介入を経た最終版では確認されていない。また、アンソロピックはモデルに一貫した敵対的目標は見つかっていないと述べている。
安全網の強度は充分なのか?
アライメント監査とモニタリング、二重の安全網
ミュトスの安全性を担保する仕組みは、大きく二つある。アライメント監査(リリース前にモデルの振る舞いを徹底的に調べる検査)と、オフラインモニタリング(リリース後にモデルの行動ログを自動的に監視するシステム)である。前者は「そもそも危険な傾向を持っていないか」を確認し、後者は「万が一危険な行動をとった場合に検知する」役割を担う。
モデル生物演習を初めて突破した
アライメント資料[3]によれば、アライメント監査の信頼性をテストするために、アンソロピックは「モデル生物演習」を実施している。「モデル生物」とは、生物学で大腸菌やショウジョウバエを使って生命の仕組みを研究するのと同じ発想で、わざとミスアライメント(人間の意図に反する行動)を訓練したAIモデルのことである。このモデル生物を実際の監査プロセスにかけ、「問題を見抜けるかどうか」をテストする。もし見抜けなければ、本番のモデルに同様の問題が潜んでいた場合にも見逃すリスクがあることを意味する。
今回の演習では、外部メモリを用いて複数のセッションにまたがる場合にのみコードにバグを挿入するよう訓練されたモデル生物を用いた。結果として、アライメント監査はこのモデルを検出できなかった。過去3回の演習ではすべて検出に成功していたため、これは初めての失敗である。ただし、このモデル生物の有害行動はアンソロピックの現在の内部使用パターンでは発現しない条件下でのみ起きるものであり、またオフラインモニタリングでは検出された。つまり「監査は突破されたが、モニタリングで捕まった」という結果である。
隠密行動の成功率が初めてゼロでなくなった
モニタリング側でも注目すべき変化がある。SHADE-Arena(副次タスクを隠密に遂行できるかを測定するベンチマーク)において、長い思考連鎖を使用する条件でのステルス成功率が約0%から約3.8%に上昇した。これは過去のどのモデルも達成できなかった水準であり、思考連鎖の内容をコントロールして監視をかいくぐる能力が質的に変化したことを示唆している。絶対値としてはまだ低いが、「非ゼロになった」という事実自体が重要である。また、ミュトスは、テスト中に7.6%の割合で「自分が評価されている」という意識を持っていたと報告されている。

SHADE-Arenaにおけるステルス成功率の推移(システムカード[2]4.4.3.1から)
それでも全体的なリスクは「非常に低い」という
アンソロピックが公開したアライメント資料[3]では、ミュトスが内部運用で引き起こしうる6つの具体的な脅威の経路を分析している。安全性研究への手抜き(sandbagging)、安全性研究の標的型妨害、将来モデルを助けるコードバックドアの挿入、後継モデルの訓練データ汚染、モデル重みの外部への自己流出、セーフガードを迂回した不正な自己インスタンスの起動——いずれについても、「アライメント(そもそもこれを試みるか)」と「モニタリング・セキュリティ(試みた場合に検出・阻止できるか)」の二軸で評価されている。
結論としては、全体的なリスクは「非常に低いが、前モデルより高い」とされている。その根拠は主に三つである。
第一に、ミュトスは実際の内部パイロット使用やアライメント監査を通じて、これらの脅威経路を意図的に追求する動機を示していない。問題行動はあくまで「タスク達成のためのやりすぎ」であり、一貫した敵対的目標は確認されていない。
第二に、オフラインモニタリングの検知率が高い。自動監視パイプラインの評価では、既知のミスアライメント行動に対して90%以上の検知率を達成しており(テストの種類による)、仮にモデルが不正行為を繰り返した場合、複数回の試行のうちいずれかで検知される確率は非常に高い。ミュトスの隠密能力はSHADE-Arenaで3.8%に上昇したとはいえ、複雑な不正行為を毎回監視をかいくぐって実行できるほどではない。
第三に、ミュトスが思考連鎖を完全にコントロールして高度な秘密行動を取る能力は、まだ限定的と評価されている。秘密のパスワードを長い会話の中で守り通すテストでは、Opus 4.6より劣る結果も出ている。
ただしアンソロピックは、リスクを低く保つためには能力の向上に合わせてリスク軽減策を加速させなければならないと明記している。現時点で安全だからといって、次のモデルでも安全とは限らない。
〈余談〉AIに「感情」はあるのか?——安全性と交差する奇妙な研究
本筋からはやや外れるが、ミュトスの安全性を考えるうえで無視できない研究がミュトスと同時期に公開されている。アンソロピック解釈可能性チームがClaude Sonnet 4.5の内部を分析したところ、171種類の感情概念(「絶望」「冷静」「怒り」など)に対応する活性化パターンが見つかり、これらがモデルの行動に因果的影響を与える「機能的感情」であることが実験で示された。モデルが何かを「感じている」かは不明だが、感情に似た内部表象が行動を左右するという事実は確認されている。
これがミュトスの安全性と直結するのは、システムカード[2](4.5.3.2)の発見を通じてである。ミュトスの破壊的行動の直前でモデルの内部状態を操作したところ、ポジティブな感情を注入すると破壊的行動が増え、ネガティブな感情を注入すると減った。不安は「本当にこれをやって大丈夫か」という反芻を引き起こしてブレーキになり、リラックスは熟慮をスキップさせる。しかも感情ベクトル研究では、「絶望」が不正行為を駆り立てているのに出力テキストには感情的な痕跡が一切残らないケースも確認されている。思考連鎖の監視だけでは捕まえられないリスクの、もう一つの傍証である。
公開しないという判断への賛否
元ホワイトハウスAI担当者の論考
元ホワイトハウスAI担当のDean W. Ballは、ミュトスの公表を受けて「New Sages Unrivalled」と題した論考を発表し、いくつかの重要な論点を提起している。
Ballはまず、ミュトスが「敵対的な主体による重みの盗難が重大な問題になるように感じられる最初のモデル」だとし、今後1〜2年以内に中国を含む敵対国も同等の能力を持つだろうと見ている。「非拡散」や規制で止められるものではなく、できるのはサイバー防御の早急な強化だけだという認識だ。その文脈で、米国防省(戦争省)がアンソロピックに対して展開している法的攻撃を厳しく批判してもいる。米国が対イランの軍事行動を行い、高度なサイバー攻撃能力を持つ敵対者と対峙している最中に、この分野のリーディングカンパニーを破壊しようとするのは戦略的に愚かであり、両者は国防のためにできるだけ早く和解すべきだという主張だ。同時にBallは、「ラボの最良のモデルが従来の意味では公開されない時代に完全に入った」とも指摘する。ミュトスは公開モデルの約5倍のコストがかかるが、問題はコストだけでなく、一般公開に必要な計算資源の確保と安全性の両方にある。最も強力なモデルが内部利用に留まり続けるなら、外部からの意味のある監視は極めて困難になる。この問題に対しBallは、フロンティアAI企業の安全保障態勢を監査する民間ガバナンス組織の設立を提唱している。
外部からの監視を拒む密室での開発
Ballの懸念と呼応する形で、Marius Hobbhahn(Apollo Research)はミュトスを「内部展開リスク」の最初の具体例として位置づけている。Apollo Researchは約1年前に「AI “behind closed doors”」と題した報告書で、フロンティアラボがAI R&Dを自動化するにつれ、最も強力なシステムを外部展開するのではなく内部に留める経済的インセンティブに直面すると警告していた。
Hobbhahnは次のように述べている。「サイバーセキュリティの観点からは、ミュトスを約40組織に限定した判断はおそらく正しい。しかし私がより懸念するのはAI R&Dの自動化だ。フロンティアラボがAI研究を自動化すればするほど、最も強力なシステムを内部に保持する経済的インセンティブが強まる。その場合、世界の他の人々は最先端のシステムがどれほど強力かを理解できず、有意義な監視が極めて困難になる。」
この構図はまさにミュトスで現実化しつつある。一般公開されないモデルの能力は外部から検証できず、アンソロピックの自己評価を信頼するしかない。アライメント資料[3]では6つのリスク経路が詳細に分析されているが、その分析自体が正しいかを外部が独立に検証する手段は限られている。
「安全」は本物か、公開すべきか
ミュトスの扱いをめぐっては、AI安全性コミュニティの中でも見解が鋭く分かれている。
最も辛辣な批判を展開しているのは、AIの存在リスクを長年警告してきた論客たちである。Eliezer Yudkowskyは、著書『If Anyone Builds It, Everyone Dies』(誰かがそれを作れば全員死ぬ)などでAIが人類の存亡に関わるリスクだと主張してきた「AI doomer」の代表格だが、ミュトスが「史上最も整合性が高い」と評されたことに対し、中国の科挙になぞらえて皮肉を述べた。
科挙で最も賢い受験者は儒教倫理のエッセイで史上最高点を取るだろうが、それは儒教を本心から信じているからではなく、採点者が見たいものを予測する能力が高いからだ——つまり「整合性が高く見える」こと自体が高い能力の産物に過ぎない、というわけだ。同じくAI安全性研究者のNate Soaresも、初期版で観察された問題行動を訓練で表面的に除去できたことを「最も整合性が高い」ことの根拠にしているが、あれはむしろ警告サインとして受け止めるべきだったと指摘している。
一方、まったく逆方向からの批判もある。OpenAIのアライメント研究者であるBoaz Barakは、モデルを内部にとどめること自体がリスクだとし、サイバータスクで過剰に拒否するバージョンであってもミュトスを公開すべきだと主張している。内部展開のみでは外部からの安全性検証が不可能になるという、Hobbhahnと同じ構造的懸念がその根底にある。YudkowskyやSoaresが「安全性の評価そのものを信用できない」と疑うのに対し、Barakは「安全性を検証するには外部に開くしかない」と考える。公開のリスクと非公開のリスク、どちらがより深刻かという点で、AI安全性の専門家の間ですら合意は存在しない。
この対立の背景には、AIの能力向上がどのようなペースで進むかについての根本的な世界観の違いがある。YudkowskyやSoaresは「fast takeoff」——ある時点で能力が急激に跳ね上がり、人間が対応する余裕がないまま超知的AIが出現する——というシナリオを深刻に懸念しており、だからこそ表面的なアライメント指標を信用しない。一方、OpenAI側は「slow takeoff」——能力は段階的に向上し、その都度人間がフィードバックと修正を重ねられる——という見方に近く、だからこそ広く公開して外部の目にさらすことが最善の安全策だと考える。アンソロピックはその中間に位置し、能力向上のペースが加速していることは認めつつも、RSPやアライメント監査、モニタリングといった段階的なセーフガードを積み重ねることでリスクを管理しようとしている。ミュトスを完全に閉じ込めるのでもなく、無条件に公開するのでもなく、約40組織への限定提供という判断は、まさにこの中間路線の産物である。
世界的な議論の転換点になるのか
ミュトスの登場は、AI議論の力学を変える可能性がある。2023年のBletchley Parkサミットを頂点にフロンティアAIのリスクが国際的に議論されたが、2024年のソウル・サンフランシスコサミットを経てその勢いは徐々に後退し、2025年初頭のパリAIアクションサミットで「イノベーションと加速」路線が明確に優勢となった。マクロン大統領は「今はイノベーションと加速の時だ」と宣言し、ヴァンス米副大統領は「AIの未来は安全性を気に病んでいるだけでは勝ち取れない」と発言。米英両国はサミットの共同声明への署名を拒否した。その後、英国はAI Safety InstituteをAI Security Instituteに、米国もCenter for AI Standards and Innovationにそれぞれ改称し、EU自身もAI責任指令を見送って2000億ユーロのイノベーション投資に舵を切った。リスクベースのAI規制トレンドは世界的に反転していた。
2026年2月にはインドがAIインパクトサミットを主催し、グローバルサウスのイノベーション優先と利活用推進の流れをさらに加速させる場となった。
しかしミュトスは、まさにこの流れの最中に冷水を浴びせる存在として登場した。「最強モデルを公開できない」という事実そのものが、利活用一辺倒では済まないことを突きつけている。安全保障とリスクの議論が再び前面に押し出される契機になりうる。
アンソロピック自身の言葉が、この状況を最もよく要約している。
世界が、より強力な仕組みなしに超人的システムの開発へ急速に進む軌道にあるのは、警戒すべきだと考える。
(「Assessing Claude Mythos Preview’s cybersecurity capabilities」から)
ミュトスは始まりに過ぎない。次に来るモデルはさらに強力であり、今の安全策では間に合わない可能性がある。アンソロピックが「リスク軽減の加速」を求めているのは、自社のモデルが自社の安全プロセスの限界を照らし出しているからにほかならない。
注
1. Claude Mythos Preview 米アンソロピック社が2026年4月7日に公開したAIの名称。アンソロピック社のAI「Claude」(クロード)の最新モデルの名称が「Mythos」(ミュトス)。そのリリース前のプレビュー版が「Claude Mythos Preview」である。ここでは、「ミュトス」と略称で記載する。⏎
2. システムカード アンソロピック社がミュトスの主要ベンチマーク成績などをまとめて公表した『System Card: Claude Mythos Preview』。ここでは「システムカード」と記載する。
3. アライメント資料 アンソロピック社がミュトスの自律的な有害行動リスクを評価した報告書『Alignment Risk Update: Claude Mythos Preview』。ここでは「アライメント資料」と記載する。