Claude Opus 4.8 評価：強みの向上、弱みの減少

“`html

Claude Opus 4.8のレビュー：得意なことはより良く、不得意なことはより悪く、は、Claude Opus 4.8が実際の技術ベンチマークを伴って登場し、コード、ワークフロー、プロトタイピングタスクにおける実世界での成果を示していることを示しています。Thezviが報告しています。この実際のコーディング能力の向上は、SWE-bench Proベンチマークで64.3から69.2へのジャンプを反映しており、特に以前のよりパターンマッチングに依存したLLMと比較して、モデルが日常的なコーディングや軽微なリサーチをどれだけうまくこなすようになったかを示しています。また、価格は入力が100万トークンあたり5ドル、出力が25ドルに固定されているため、Opus 4.8はユーザーが追加コストなしで日々より多くの価値を得ることを可能にしています。これはThezviとLennysnewsletterの両方が述べています。

このClaude Opus 4.8のレビューでは、モデルが日常的なコーディング、ワークフローの自動化、迅速なプロトタイピングにおいて重要な改善を提供する方法を取り上げています。しかし、あいまいなまたは高度に戦略的なタスクにおける持続的な弱点も詳述されています。Claude Opus 4.8は得意なことではより優れているが、以前に苦しんでいた領域では悪化または変わらないというテーマを確認しています。

主なコミュニティの洞察

Lesswrongとコミュニティ分析

Lesswrongコミュニティは、Claude Opus 4.8における測定可能な向上とおなじみの質的な限界の両方を記録しています。公のリーダーボードやプライベートログの参加者は一つのメッセージを反響させています：Opus 4.8は本当にその高いSWE-bench Proスコアを得ています。しかし、貢献者はしばしばルールがあいまいになったり、指示が途中で変更されたりすると「エッジ失敗」を見つけます。注釈付きのLWトランスクリプトは、Opus 4.8を困惑させるあいまいさのタイプを強調しています—明白でない条件論理、複雑な思考の連鎖、または意味的な曲がり角です。

努力制御とサブエージェント機能は基本的な仕事のギャップを縮小するのに役立ちますが、厳密なリサーチやビジネスロジックに必要な計画スキルをカバーすることはできません。

Lennysnewsletterのビジネス視点

Lennysnewsletterは、Opus 4.8の実世界での影響に焦点を当てています：これは、Claude.aiとCowork上での迅速なビジネスプロトタイピング、迅速な機能提供、並列化されたワークフローのために設定されています。このClaude Opus 4.8のレビューによれば、グリーンフィールドプロトタイプの立ち上げや一回限りの実験の処理が今や容易になっています。

Claude Opus 4.8のテスト：方法と結果

テストの作成

テストデザイナーは最近のレビューのためにクロスバリデーションに依存し、Thezvi、Lennysnewsletter、Lesswrongからのログやケースヒストリーを使用して、公的および私的ベンチマークの基準を確保しました。

テスト結果

SWE-bench Proスコアの大きなジャンプ—64.3から69.2への上昇—は、Thezviのログによると、実際の段階的な進歩を捉えています。しかし、レビュアーは明確です：日常的なコーディングは際立っていますが、テストのあいまいさが高まると、Opus 4.8はつまずきます。コードの完成と自動化はアップグレードを報いる一方で、戦略重視の作業や深い計画は依然として漂流のポイントを明らかにします。Lennysnewsletterの調査によれば、Lesswrongのクラウドソーシングは、予測可能なシナリオにおける構文エラーやオフバイワンエラーの減少を確認しており、Claude Opus 4.8のレビューの主な発見を支持しています：得意なことはより良く、不得意なことはより悪く。

Claude Opus 4.8のテストからの学び：

> Opus 4.7およびGPT 5.5よりもはるかに悪いVending Benchで
> 前のClaudeモデル（Opus 4.6+およびMythos）よりも整合性が高い
> Blueprint-Benchでも悪化
> 捕まるのが怖い
> 最大の推論は最良の推論努力ではない pic.twitter.com/9yn58xsJL9
— Andon Labs (@andonlabs) 2026年5月28日

Claude Opus 4.8のベンチマークと比較

ベンチマーク数値：4.8 vs 4.7 vs GPT-5.5

モデル	SWE-bench Proスコア	1Mトークンあたりの入力/出力コスト	ファストモードコスト
Claude Opus 4.8	69.2	$5 / $25	4.7より安い（$30/$150）
Claude Opus 4.7	64.3	$5 / $25	$30 / $150
GPT-5.5	利用不可	未開示	未開示

Thezviの文書は、100万トークンあたりの入力が5ドル、出力が25ドルであることを明確にし、Opus 4.8は4.7の定価と一致しますが、今やそのファストモードを下回っています—4.7の$30/$150—バッチジョブを手頃に保ち、小規模チームのライブ使用を可能にしています。

実際に新しいこと（数値を超えて）

Lennysnewsletterは、Claude.aiとCoworkが開発者にとってはるかに実用的なアップグレードを提供するようになったことを分析しています。特に、グリーンフィールドプロトタイプの立ち上げや一回限りの実験の処理が、Claude Opus 4.8で今や容易になっています。

5ドル — 1百万入力トークンあたりのコスト。

Claude Opus 4.8 vs. Sonnet 4.6

Claude Opus 4.8またはSonnet 4.6を使用すべきか？

Lennysnewsletterのテストでは、Opus 4.8が日常的なコードと迅速なプロトタイピングにおいてSonnet 4.6を上回っています。段階的な論理や明確さにおいては多くの人がSonnetを選びますが、自動化の努力は今やOpusに傾いています。ほとんどのワークフロータスクにおいて、このClaude Opus 4.8のレビューはOpusが勝者であると結論付けています。

Claude Opus 4.8 vs. GPT-5.5

Opus 4.8はGPT-5.5とどのように比較されるか？

GPT-5.5のSWE-bench Proスコアは公開されておらず、直接比較のためのギャップを生じています。Lesswrongの文書が明らかにするように、ThezviとLennysnewsletterはOpusの価格設定とワークフローを明確にしていますが、GPT-5.5のコストと実際のコーディングの成果は依然としてブラックボックスのままです。テスターは比較できるものを比較します：Opus 4.8の新しい自動ワークフロー、サブエージェントの並列化、入力/出力管理—これらはまだ公のGPT-5.5ベンチマークでは一致していない機能です。重いビジネス計画と複雑さにおいて、Lennysnewsletterのログは、どちらも深い戦略において一貫して他を上回ることはないことを示唆しています。Opus 4.8は速度で勝ち、Sonnetは明確さで、GPT-5.5は理論的な幅で勝っていますが、SWE-bench Proデータが到着するまで、リーダーボードは不安定です。

Claude Opus 4.8の最適な使用ケース

Thezvi、Lennysnewsletter、Lesswrongの3つの主要な情報源は、Opus 4.8の使用法が一致しています：これは、ワークフローと目標が明確で測定可能な仕事をこなすために構築されています。このClaude Opus 4.8のレビューで示されているように、日常的な自動化、コーディングタスク、迅速なプロトタイプ開発、管理されたワークフローに最適です。

今後の開発とAnthropicのロードマップ

Opus 4.8の次のサイクルは、Thezviによれば、まさにこれらのエッジケースとコンテキストの問題をターゲットにする予定であり、「Claude Opus 4.8レビュー：得意なことはより良く、不得意なことはより悪く」という物語が今後のレビューで変わる可能性を示唆しています。

主なポイント

Thezviの記録は確認します：Opus 4.8の69.2のSWE-bench Proスコアは、コード駆動型および構造化されたワークフロータスクにおけるリードを強化します。5ドル/$25の標準価格を維持し、より安価なファストモードを追加しています。

コミュニティの反応とライブフィードバック

ライブのLesswrongスレッドとThezviの共同ログは、混合した反応を示しています：自動化に対する楽観主義はありますが、モデルの推論の限界が変わっていないという明確な警告もあります。研究者やパワーユーザーは同意します：コーディングや単純な自動化における生産性の向上はありますが、エッジケースのあいまいさや幻覚が慎重さを促します。コーディングはより一貫していますが、複数のClaude Opus 4.8レビューの要約で

検索