Claude Opus 4.8 評価：強化された強み、減少した弱み

“`html

Claude Opus 4.8の評価：得意なことはさらに良く、不得意なことは悪化していることを示しており、Claude Opus 4.8は、Thezviが報告するように、コード、ワークフロー、プロトタイピングタスクにおける実際の進展を示す実際の技術ベンチマークを提供しています。このプログラミング能力の飛躍は、SWE-bench Proベンチマークで64.3から69.2に上昇し、特に以前のパターンマッチングに重点を置いたLLMと比較して、モデルが現在どれだけ多くのルーチンプログラミングや小規模なリサーチを処理できるかを反映しています。また、入力が1百万トークンあたり5ドル、出力が25ドルに固定されているため、Opus 4.8はユーザーに追加コストなしで日々より多くの価値を提供することを可能にしています。これは、ThezviとLennysnewsletterの両方が指摘しています。

このClaude Opus 4.8の評価では、モデルがルーチンプログラミング、ワークフロー自動化、迅速なプロトタイピングにおいて重要な改善を提供する方法について説明しています。しかし、あいまいなまたは高度に戦略的なタスクにおける持続的な弱点も詳細に説明されています。これは、Claude Opus 4.8が既に得意なことではより良く、以前に苦労した場所では悪化または変わらないというテーマを確認しています。

主要なコミュニティの洞察

Lesswrongとコミュニティ分析

Lesswrongコミュニティは、Claude Opus 4.8に対して測定可能な進展とともに、馴染みのある定性的な上限を記録しています。公的なランキングやプライベートなプロトコルに参加している人々は、Opus 4.8が本当にその高いSWE-bench Proスコアを獲得しているというメッセージを反映しています。しかし、貢献者たちは、ルールがあいまいになったり、プロセスの途中で指示が変更されたりする際に「エッジケース」の問題を頻繁に指摘しています。注釈付きのLWトランスクリプトは、Opus 4.8が行き詰まるタイプのあいまいさを強調しています — 明白でない条件付きロジック、複雑な思考過程、または意味的な驚きです。

努力の管理とサブエージェント機能は、基本的なタスクのギャップを埋めるのに役立ちますが、厳密な研究やビジネスロジックに必要な計画能力をカバーすることはできません。

Lennysnewsletterのビジネス視点

Lennysnewsletterは、Opus 4.8の実際の影響に焦点を当てています：これは、Claude.aiとCoworkでの迅速なビジネスプロトタイピング、機能の迅速な展開、並列化されたワークフローのために設定されています。このClaude Opus 4.8の評価によれば、グリーンフィールドプロトタイプの立ち上げや一回限りの実験の実施が現在は簡単になっています。

Claude Opus 4.8のテスト：方法と結果

テストの作成

テストデザイナーは、Thezvi、Lennysnewsletter、Lesswrongのプロトコルとケーススタディを使用して、公共およびプライベートベンチマークの基準を確保するためにクロスバリデーションに依存しました。

テスト結果

SWE-bench Proスコアの大きな飛躍 — 64.3から69.2への上昇 — は、Thezviのプロトコルによって実際の段階的な進展を捉えています。しかし、レビュアーたちは一致して言っています：ルーチンプログラミングは優れていますが、テストのあいまいさが高まると、Opus 4.8は行き詰まります。コード補完と自動化はアップグレードを報いる一方で、戦略的な作業や深い計画は依然としてドリフトポイントを明らかにしています。Lesswrongのクラウドソーシングは、予測可能なシナリオにおける構文エラーやオフバイワンエラーの減少を確認し、このClaude Opus 4.8の評価における主要な発見を支持しています：得意なことはより良く、不得意なことは悪化しています。

Claude Opus 4.8のテストからの学び：

> Vending BenchでOpus 4.7およびGPT 5.5よりもはるかに劣る
> 前のClaudeモデル（Opus 4.6+およびMythos）よりも整合性が高い
> Blueprint-Benchでも劣る
> 捕まるのが怖い
> 最大の推論は最良の推論努力ではない pic.twitter.com/9yn58xsJL9
— Andon Labs (@andonlabs) 2026年5月28日

Claude Opus 4.8のベンチマークと比較

ベンチマーク数値：4.8 vs 4.7 vs GPT-5.5

モデル	SWE-bench Proスコア	1Mトークンあたりの入力/出力コスト	高速モードコスト
Claude Opus 4.8	69.2	$5 / $25	4.7よりも安価（$30/$150）
Claude Opus 4.7	64.3	$5 / $25	$30 / $150
GPT-5.5	利用不可	未公開	未公開

Thezviの文書は、1百万トークンあたりの入力が5ドル、出力が25ドルの場合、Opus 4.8が4.7のリスト価格に達するが、現在はその高速モードを下回っていることを明確にしています — 4.7のための$30/$150 — これによりバッチジョブを手頃に保ち、小規模なチームのためにライブ利用を可能にします。

数字を超えて実際に新しいものは何か

Lennysnewsletterは、Claude.aiとCoworkが現在、開発者向けにより実用的なアップグレードを備えている方法を説明しています。特に、グリーンフィールドプロトタイプの立ち上げや一回限りの実験の実施が、Claude Opus 4.8を使用することで現在は簡単になっています。

$5 — 入力トークン1百万あたりのコスト。

Claude Opus 4.8 vs. Sonnet 4.6

Claude Opus 4.8またはSonnet 4.6を使用すべきか？

Lennysnewsletterのテストは、Opus 4.8がルーチンコードと迅速なプロトタイピングにおいてSonnet 4.6よりも優れていることを示しています。段階的なロジックや明確さが必要な場合、多くの人がSonnetを選択しますが、自動化の努力は現在Opusに傾いています。ほとんどのワークフロータスクにおいて、このClaude Opus 4.8の評価は、Opusが勝者であると結論付けています。

Claude Opus 4.8 vs. GPT-5.5

Opus 4.8はGPT-5.5とどのように比較されるか？

GPT-5.5に対する公開されたSWE-bench Proスコアはなく、Lesswrongの文書が示すように、直接比較のためのギャップを生じさせています。そして、ThezviとLennysnewsletterがOpusの価格とワークフローを明確にする一方で、GPT-5.5のコストと実際のプログラミングの利益はブラックボックスのままです。テスターは、彼らができることを比較しています：Opus 4.8の新しい自動ワークフロー、サブエージェントの並列化、入力/出力管理 — これらは公共のGPT-5.5ベンチマークではまだ達成されていない機能です。厳密なビジネス計画と複雑さにおいて、Lennysnewsletterのプロトコルは、どちらも深い戦略において他を一貫して上回ることはないと示唆しています。Opus 4.8は速度において勝利し、Sonnetは明確さにおいて、GPT-5.5は理論的な幅において勝利していますが、SWE-bench Proデータが到着するまで、ランキングは未決のままです。

Claude Opus 4.8の最適な使用ケース

Thezvi、Lennysnewsletter、Lesswrongの3つの主要な情報源は、Opus 4.8が明確で測定可能なワークフローと目標を持つタスクを処理するために設計されていることに同意しています。このClaude Opus 4.8の評価が示すように、ルーチン自動化、プログラミングタスク、迅速なプロトタイプ開発、管理されたワークフローに最適です。

将来の開発とAnthropicのロードマップ

Opus 4.8の次のサイクルは、Thezviによれば、まさにこれらのエッジケースやコンテキストの問題を狙っており、将来の評価が「Claude Opus 4.8の評価：得意なことはより良く、不得意なことは悪化している」という物語を変える可能性があることを示唆しています。

主要なポイント

Thezviの記録は確認しています：Opus 4.8の69.2のSWE-bench Proスコアは、コード駆動型および構造化されたワークフロータスクにおけるリーダーシップを確立しています。価格は$5/$25で安定しており、より安価な高速モードが追加されます。

コミュニティの反応とライブフィードバック

LesswrongのライブスレッドとThezviの共同プロトコルは、混合した反応を示しています：自動化に対する楽観主義がある一方で、モデルの論理の限界が変わっていないという明確な警告もあります。研究者やパワーユーザーは一致して言っています：プログラミングと自動化されたルーチンにおける生産性の飛躍がありますが、エッジケースや幻覚に対する

検索