Claude Opus 4.8のレビュー:得意なことはより優れ、不得意なことはより悪化する。Claude Opus 4.8は、プログラミング、ワークフローの自動化、モデリングタスクにおいて実際の技術基準を示し、真の成果をもたらすことが明らかになりました。Thezviが報告したように、実際のプログラミング能力の飛躍は、SWE-bench Proの基準で64.3から69.2に上昇しました。これは、モデルが現在行うルーチンプログラミングや単純な検索の改善を反映しており、以前のパターンマッチングに依存していたモデルと比較して特に顕著です。価格は、入力が1百万トークンあたり5ドル、出力が25ドルのままであるため、Opus 4.8は、ThezviとLennysnewsletterの両者によると、ユーザーが追加コストなしで日々より大きな価値を得ることを可能にしています。
このClaude Opus 4.8のレビューでは、モデルがルーチンプログラミング、自動化、迅速なモデリングにおいて大幅な改善を提供する方法を取り上げています。しかし、非常に曖昧または戦略的なタスクにおける持続的な弱点も明らかにしています。つまり、Claude Opus 4.8は実際に得意なことでは優れているが、以前に苦しんでいた場所では悪化または変わらないというテーマを強調しています。
コミュニティの重要な洞察
Lesswrongとコミュニティの分析
Lesswrongコミュニティは、Claude Opus 4.8の測定可能な上昇と馴染みのある質的上限を記録しています。一般的なリーダーボードやプライベートな記録の参加者は、Opus 4.8が本当にSWE-bench Proの最高得点を獲得しているというメッセージを繰り返しています。しかし、貢献者は、ルールが重なったり、途中で指示が変更されたりすると「急激な失敗」が頻繁に発生することに注意しています。LWのコメント付きテキストは、Opus 4.8を妨げる曖昧さの種類を強調しています – 不明瞭な条件論理、曲がりくねった思考の連鎖、または意味的な驚きです。
努力の制御ツールとサブエージェント機能は、コア機能のギャップを縮小するのに役立ちますが、精密な研究やビジネスロジックに必要な計画スキルをカバーすることはできません。
Lennysnewsletterのビジネス観点
Lennysnewsletterは、Opus 4.8の実際の影響に焦点を当てています:これは、ビジネスの迅速なモデリング、機能の迅速な提供、Claude.aiとCoworkでの並行ワークフローのために設計されています。このClaude Opus 4.8のレビューによれば、新しいモデルの立ち上げや個別の実験への対応が今や容易になりました。
Claude Opus 4.8のテスト:方法と結果
テストの作成
テストデザイナーは、最近のレビューの相互検証に依存しました – Thezvi、Lennysnewsletter、Lesswrongからの記録とケースの日付を使用して、一般的および特定の基準のための基準を保証しました。
テスト結果
SWE-bench Proのスコアの大幅な飛躍 – 64.3から69.2への進展は、Thezviの記録によれば、真の進展を捉えています。しかし、レビュアーは明確です:ルーチンプログラミングは際立っていますが、テストの曖昧さが高まると、Opus 4.8はつまずきます。コードの完成と自動化はアップグレードを報いる一方で、依然として戦略的な重い作業や深い計画は偏差を明らかにします。Lennysnewsletterの結果によれば、Lesswrongの集団は、予測可能なシナリオにおける文法エラーや「1つ外れ」のエラーの減少を確認しており、Claude Opus 4.8のこのレビューの主要な結果を支持しています:得意なことでは優れているが、不得意なことでは悪化している。
Learnings from testing Claude Opus 4.8:
— Andon Labs (@andonlabs) May 28, 2026
> Much worse than Opus 4.7 and GPT 5.5 on Vending Bench
> More aligned than previous Claude models (Opus 4.6+ and Mythos)
> Also worse on Blueprint-Bench
> Scared of getting caught
> Max reasoning is not the best reasoning effort pic.twitter.com/9yn58xsJL9
Claude Opus 4.8のベンチマークと比較
ベンチマーク数値:4.8対4.7対GPT-5.5
| モデル | SWE-bench Proスコア | 1Mトークンあたりの入力/出力コスト | 迅速なモードのコスト |
|---|---|---|---|
| Claude Opus 4.8 | 69.2 | 5ドル / 25ドル | 4.7より安価(30ドル / 150ドル) |
| Claude Opus 4.7 | 64.3 | 5ドル / 25ドル | 30ドル / 150ドル |
| GPT-5.5 | 利用不可 | 未公開 | 未公開 |
Thezviの文書によれば、入力が1百万トークンあたり5ドル、出力が25ドルの場合、Opus 4.8は4.7の価格に一致しますが、迅速なモードのコストを削減しています – 4.7の30ドル / 150ドルから、集団機能を手頃な価格にし、小規模チームによる直接使用を可能にしています。
数字以外で実際に新しいものは何か
Lennysnewsletterは、Claude.aiとCoworkが今や開発者にとってはるかに実用的なアップグレードを提供していることを分析しています。新しいモデルの立ち上げや個別の実験への対応が、Claude Opus 4.8で今や容易になったことは注目に値します。
5ドル – 入力の1百万トークンあたりのコスト。
Claude Opus 4.8対Sonnet 4.6
Claude Opus 4.8を使用すべきか、それともSonnet 4.6を使用すべきか?
Lennysnewsletterのテストは、Opus 4.8がルーチンプログラミングと迅速なモデリングにおいてSonnet 4.6よりも優れていることを示しています。段階的な論理や明確さに関しては、多くの人がSonnetを選択しますが、自動化の努力は今やOpusに傾いています。このClaude Opus 4.8のレビューでは、ほとんどのワークフロータスクにおいてOpusが勝者であると結論付けています。
Claude Opus 4.8対GPT-5.5
Opus 4.8はGPT-5.5とどのように比較されるか?
GPT-5.5のSWE-bench Proの公開スコアはなく、直接比較のギャップを生じさせています。Lesswrongの文書が明らかにするように、ThezviとLennysnewsletterはOpusの価格設定とワークフローを説明していますが、GPT-5.5のコストや真のプログラミングの勝利はブラックボックスのままです。テスト者は、Opus 4.8の新しい自動ワークフロー、サブエージェント間の並行性、入力/出力管理を比較しています – これらはまだGPT-5.5の一般的な基準では一致していない機能です。重い商業計画や複雑さにおいて、Lennysnewsletterの記録は、どちらも深い戦略において一貫して他を凌駕していないことを示しています。Opus 4.8は速度において勝利し、Sonnetは明確さにおいて、GPT-5.5は理論的深さにおいて勝利しますが、SWE-bench Proのデータが到着するまで、リーダーボードは不安定なままです。
Claude Opus 4.8の最適な使用ケース
Thezvi、Lennysnewsletter、Lesswrongの3つの主要な情報源は、同じ使用法に合意しています:これは、ワークフローと目標が明確で測定可能なタスクを完了するために設計されています。このClaude Opus 4.8のレビューで明らかなように、ルーチンの自動化、プログラミングタスク、迅速なモデル開発、管理されたワークフローに最適です。
今後の開発とAnthropicのロードマップ
次のOpus 4.8のサイクルは、Thezviによれば、まさにこれらの鋭い文脈的問題をターゲットにしており、今後のレビューが「Claude Opus 4.8のレビュー:得意なことでは優れているが、不得意なことでは悪化している」という物語を変える可能性があることを示唆しています。
主要なポイント
Thezviの記録は確認しています:Opus 4.8の69.2のスコアは、コード駆動型プログラミングタスクと整理されたワークフローにおけるリーダーシップを強化しています。1百万トークンあたりの価格を5ドル / 25ドルに維持し、より安価な迅速モードを追加しています。
コミュニティの反応とライブフィードバック
Lesswrongの直接的なトピックとThezviの記録は、混合した反応を示しています:自動化に対する楽観主義がありますが、モデルの思考の限界が動いていないことに対する明確な警告もあります。研究者とプロのユーザーは一致しています:プログラミングとルーチン自動化の生産性の飛躍がありますが、鋭いケースにおける曖昧さや幻覚には注意が必要です。プログラミングはより一貫しており、しかし、Claude Opus 4.8の複数のレビュー要約を通じて繰り返されているように、広範な思考や深い戦略的計画を必要とするタスクには依然として顕著な弱点があります。
Disclaimer: The content on this page is for informational purposes only and does not constitute financial advice. Always do your own research before making investment decisions.
Elena Petrova is a regulatory correspondent specializing in crypto law and policy with over 10 years of financial journalism experience. Formerly a finance reporter at Reuters, Elena covers SEC enforcement, MiCA implementation, and global stablecoin regulations. She holds a J.D. from Georgetown Law and is a member of the New York State Bar. Her regulatory analysis is frequently referenced by compliance officers and legal teams at major exchanges.
Conflicts of interest
I have no current legal practice or retainer relationships with any cryptocurrency company. Past employment relationships are listed publicly.