Claude Opus 4.8の評価：強化された強み、減少…

Claude Opus 4.8のレビュー：良いものはさらに良く、悪いものは悪化したという内容は、Claude Opus 4.8がコーディング、ワークフロー、プロトタイピングの実世界での成果を示す実際の技術ベンチマークを備えていることを示しています。これは、Thezviが報告しています。このコーディング能力の飛躍は、SWE-bench Proのベンチマークで64.3から69.2に向上しました。これは、日常的なコーディングや小規模なリサーチが、特に以前のパターンに焦点を当てたLLMと比較して、このモデルによって支配されていることを反映しています。また、価格が1百万トークンあたりの入力が$5、出力が$25に固定されているため、Opus 4.8はユーザーが追加コストなしで日々より多くの価値を得ることを可能にします。これはThezviとLennysnewsletterによるものです。

このClaude Opus 4.8のレビューでは、モデルが日常的なコーディング、ワークフローの自動化、迅速なプロトタイピングにおいて重要な改善を提供する方法をカバーしています。しかし、あいまいなタスクや高度に戦略的なタスクにおける持続的な弱点も詳述しています。Claude Opus 4.8は、すでに良いものはさらに良くなるが、以前に困難を抱えていたところでは悪化または変わらないというテーマを確認しています。

コミュニティの主要な見解

Lesswrongとコミュニティの分析

コミュニティLesswrongは、Claude Opus 4.8に対して測定可能な増加と質的な上限を記録しています。公開リーダーボードやプライベートな記録の参加者は、Opus 4.8がSWE-bench Proでの高得点に値するというメッセージを反響させています。しかし、コラボレーターはしばしば「境界の欠陥」に気づきます。ルールが混乱したり、指示が途中で変更されたりする場合です。LWの注釈付きのトランスクリプトは、Opus 4.8を困難にするあいまいさの種類を強調しています—明白でない条件論理、複雑な推論の連鎖、または意味のひねりです。

努力のコントロールとサブエージェントのリソースは、基本的な作業のギャップを埋めるのに役立ちますが、厳密なリサーチやビジネスロジックに必要な計画能力をカバーすることはできません。

Lennysnewsletterのビジネス視点

Lennysnewsletterは、Opus 4.8が実世界に与える影響に焦点を当てています：ビジネスの迅速なプロトタイピング、機能の迅速な提供、Claude.aiおよびCoworkでの並列化されたワークフローに備えています。このClaude Opus 4.8のレビューによれば、フィールドでプロトタイプを立ち上げたり、スポット実験を扱ったりすることが今や容易になっています。

Claude Opus 4.8のテスト：方法と発見

テストの作成

テストデザイナーは、最近のレビューのためにクロスバリデーションに基づいています—Thezvi、Lennysnewsletter、Lesswrongの記録とケースの履歴を使用して、公共およびプライベートのベンチマークの基準を確保しています。

テスト結果

SWE-bench Proのスコアの大きな飛躍—64.3から69.2への上昇—は、Thezviの記録によると、実際の進展を捉えています。しかし、レビュアーは明確です：日常的なコーディングは輝いていますが、テストのあいまいさが増すと、Opus 4.8はつまずきます。コードの結論と自動化はアップデートを報いる一方で、戦略的な重作業や深い計画は依然として逸脱点を明らかにします。Lennysnewsletterの発見によると、Lesswrongのクラウドソーシングは、予測可能なシナリオにおける構文エラーとオフバイワンの減少を確認し、Claude Opus 4.8のこのレビューの主要な発見を支持しています：良いものはさらに良く、悪いものは悪化した。

Claude Opus 4.8のテストからの学び：

> Opus 4.7およびGPT 5.5よりもはるかに悪い
> 以前のClaudeモデル（Opus 4.6+およびMythos）よりも整合性が高い
> Blueprint-Benchでも悪化
> 捕まるのが怖い
> 最大の推論は最良の推論努力ではない pic.twitter.com/9yn58xsJL9
— Andon Labs (@andonlabs) 2026年5月28日

Claude Opus 4.8のベンチマークと比較

ベンチマーク数値：4.8 vs 4.7 vs GPT-5.5

モデル	SWE-bench Proスコア	1Mトークンあたりの入力/出力コスト	クイックモードのコスト
Claude Opus 4.8	69.2	$5 / $25	4.7より安い（$30/$150）
Claude Opus 4.7	64.3	$5 / $25	$30 / $150
GPT-5.5	利用不可	未発表	未発表

Thezviの文書によると、1百万トークンあたりの入力が$5、出力が$25であるため、Opus 4.8は4.7のラベル価格と同等ですが、クイックモードのコストを削減しています—4.7の$30/$150から—バッチ作業を手頃に保ち、小規模なチームのライブ使用を可能にしています。

実際に新しいもの（数値を超えて）

Lennysnewsletterは、Claude.aiとCoworkが今や開発者にとってはるかに実用的な更新を提供していることを詳述しています。特に、フィールドでプロトタイプを立ち上げたり、スポット実験を扱ったりすることがClaude Opus 4.8でより容易になっています。

$5 — 入力トークン1百万あたりのコスト。

Claude Opus 4.8 vs. Sonnet 4.6

Claude Opus 4.8を使うべきか、それともSonnet 4.6を使うべきか？

Lennysnewsletterのテストは、Opus 4.8が日常的なコーディングと迅速なプロトタイピングにおいてSonnet 4.6よりも優れていることを示しています。ステップバイステップのロジックや明確さに関しては、多くの人がSonnetを選びますが、自動化の努力は今やOpusに傾いています。ワークフローのほとんどのタスクにおいて、このClaude Opus 4.8のレビューは、Opusが勝者であると結論付けています。

Claude Opus 4.8 vs. GPT-5.5

Opus 4.8はGPT-5.5とどのように比較されるか？

GPT-5.5のSWE-bench Proの公開スコアは存在せず、直接比較のギャップを生じさせています。Lesswrongの文書が明らかにしています。そして、ThezviとLennysnewsletterがOpusの価格とワークフローを明確にする一方で、GPT-5.5の実際のコーディングコストと利益はブラックボックスのままです。テスターは比較できるものを比較します：Opus 4.8の新しい自動ワークフロー、サブエージェントの並列化、入出力管理—これらの機能は、GPT-5.5の公共ベンチマークではまだ対等にされていません。重いビジネス計画と複雑さにおいて、Lennysnewsletterの記録は、どちらも深い戦略において一貫して他を上回ることはないことを示唆しています。Opus 4.8は速度で勝ち、Sonnetは明確さで、GPT-5.5は理論的な幅で勝ちますが、SWE-bench Proのデータが到着するまで、リーダーボードは不安定なままです。

Claude Opus 4.8の最適な使用ケース

Opus 4.8に関する主要な3つの情報源—Thezvi、Lennysnewsletter、Lesswrong—は、同じ使用法に収束しています：ワークフローと目標が明確かつ測定可能な作業を排除するために構築されています。このClaude Opus 4.8のレビューで示されているように、日常的な自動化、コーディングタスク、迅速なプロトタイプ開発、管理されたワークフローに最適です。

今後の開発とAnthropicのロードマップ

Opus 4.8の次のサイクルは、Thezviによると、まさにこれらの極端なケースとコンテキストの問題を目指すことになるでしょう。将来のレビューが「Claude Opus 4.8のレビュー：良いものはさらに良く、悪いものは悪化した」という物語を変える可能性があることを示唆しています。

主要な結論

Thezviの記録は確認しています：Opus 4.8のSWE-bench Proでの69.2のスコアは、構造化されたコード指向のワークフロータスクにおけるリーダーシップを強化しています。標準価格の$5/$25を堅持し、より安価なクイックモードを追加しています。

コミュニティの反応とライブフィードバック

LesswrongのライブスレッドとThezviの共同記録は、混合した反応を示しています：自動化に対する楽観主義がある一方で、モデルの推論の限界は変わっていないという明確な警告があります。研究者や高度なユーザーは同意します：コーディングと機械的自動化の生産性の飛躍がありますが、極端なケースにおけるあいまいさや幻覚が警戒を生んでいます。コーディングはより一貫していますが、Claude Opus 4.8の

検索

Claude Opus 4.8の評価：強化された強み、減少した弱み