Claudeの評価 4.8: 強みを強化し、弱みを軽減する

“`html

Claude Opus 4.8のレビュー：得意なことはより優れ、不得意なことはより悪化する。Claude Opus 4.8は、プログラミング、ワークフローの自動化、モデリングタスクにおいて実際の技術基準を示し、真の成果をもたらすことが明らかになりました。Thezviが報告したように、実際のプログラミング能力の飛躍は、SWE-bench Proの基準で64.3から69.2に上昇しました。これは、モデルが現在行うルーチンプログラミングや単純な検索の改善を反映しており、以前のパターンマッチングに依存していたモデルと比較して特に顕著です。価格は、入力が1百万トークンあたり5ドル、出力が25ドルのままであるため、Opus 4.8は、ThezviとLennysnewsletterの両者によると、ユーザーが追加コストなしで日々より大きな価値を得ることを可能にしています。

このClaude Opus 4.8のレビューでは、モデルがルーチンプログラミング、自動化、迅速なモデリングにおいて大幅な改善を提供する方法を取り上げています。しかし、非常に曖昧または戦略的なタスクにおける持続的な弱点も明らかにしています。つまり、Claude Opus 4.8は実際に得意なことでは優れているが、以前に苦しんでいた場所では悪化または変わらないというテーマを強調しています。

コミュニティの重要な洞察

Lesswrongとコミュニティの分析

Lesswrongコミュニティは、Claude Opus 4.8の測定可能な上昇と馴染みのある質的上限を記録しています。一般的なリーダーボードやプライベートな記録の参加者は、Opus 4.8が本当にSWE-bench Proの最高得点を獲得しているというメッセージを繰り返しています。しかし、貢献者は、ルールが重なったり、途中で指示が変更されたりすると「急激な失敗」が頻繁に発生することに注意しています。LWのコメント付きテキストは、Opus 4.8を妨げる曖昧さの種類を強調しています – 不明瞭な条件論理、曲がりくねった思考の連鎖、または意味的な驚きです。

努力の制御ツールとサブエージェント機能は、コア機能のギャップを縮小するのに役立ちますが、精密な研究やビジネスロジックに必要な計画スキルをカバーすることはできません。

Lennysnewsletterのビジネス観点

Lennysnewsletterは、Opus 4.8の実際の影響に焦点を当てています：これは、ビジネスの迅速なモデリング、機能の迅速な提供、Claude.aiとCoworkでの並行ワークフローのために設計されています。このClaude Opus 4.8のレビューによれば、新しいモデルの立ち上げや個別の実験への対応が今や容易になりました。

Claude Opus 4.8のテスト：方法と結果

テストの作成

テストデザイナーは、最近のレビューの相互検証に依存しました – Thezvi、Lennysnewsletter、Lesswrongからの記録とケースの日付を使用して、一般的および特定の基準のための基準を保証しました。

テスト結果

SWE-bench Proのスコアの大幅な飛躍 – 64.3から69.2への進展は、Thezviの記録によれば、真の進展を捉えています。しかし、レビュアーは明確です：ルーチンプログラミングは際立っていますが、テストの曖昧さが高まると、Opus 4.8はつまずきます。コードの完成と自動化はアップグレードを報いる一方で、依然として戦略的な重い作業や深い計画は偏差を明らかにします。Lennysnewsletterの結果によれば、Lesswrongの集団は、予測可能なシナリオにおける文法エラーや「1つ外れ」のエラーの減少を確認しており、Claude Opus 4.8のこのレビューの主要な結果を支持しています：得意なことでは優れているが、不得意なことでは悪化している。

Andon Labs@andonlabs

Learnings from testing Claude Opus 4.8:

> Much worse than Opus 4.7 and GPT 5.5 on Vending Bench
> More aligned than previous Claude models (Opus 4.6+ and Mythos)
> Also worse on Blueprint-Bench
> Scared of getting caught
> Max reasoning is not the best reasoning effort pic.twitter.com/9yn58xsJL9

May 28, 2026View on X

Claude Opus 4.8のベンチマークと比較

ベンチマーク数値：4.8対4.7対GPT-5.5

モデル	SWE-bench Proスコア	1Mトークンあたりの入力/出力コスト	迅速なモードのコスト
Claude Opus 4.8	69.2	5ドル / 25ドル	4.7より安価（30ドル / 150ドル）
Claude Opus 4.7	64.3	5ドル / 25ドル	30ドル / 150ドル
GPT-5.5	利用不可	未公開	未公開

Thezviの文書によれば、入力が1百万トークンあたり5ドル、出力が25ドルの場合、Opus 4.8は4.7の価格に一致しますが、迅速なモードのコストを削減しています – 4.7の30ドル / 150ドルから、集団機能を手頃な価格にし、小規模チームによる直接使用を可能にしています。

数字以外で実際に新しいものは何か

Lennysnewsletterは、Claude.aiとCoworkが今や開発者にとってはるかに実用的なアップグレードを提供していることを分析しています。新しいモデルの立ち上げや個別の実験への対応が、Claude Opus 4.8で今や容易になったことは注目に値します。

5ドル – 入力の1百万トークンあたりのコスト。

Claude Opus 4.8対Sonnet 4.6

Claude Opus 4.8を使用すべきか、それともSonnet 4.6を使用すべきか？

Lennysnewsletterのテストは、Opus 4.8がルーチンプログラミングと迅速なモデリングにおいてSonnet 4.6よりも優れていることを示しています。段階的な論理や明確さに関しては、多くの人がSonnetを選択しますが、自動化の努力は今やOpusに傾いています。このClaude Opus 4.8のレビューでは、ほとんどのワークフロータスクにおいてOpusが勝者であると結論付けています。

Claude Opus 4.8対GPT-5.5

Opus 4.8はGPT-5.5とどのように比較されるか？

GPT-5.5のSWE-bench Proの公開スコアはなく、直接比較のギャップを生じさせています。Lesswrongの文書が明らかにするように、ThezviとLennysnewsletterはOpusの価格設定とワークフローを説明していますが、GPT-5.5のコストや真のプログラミングの勝利はブラックボックスのままです。テスト者は、Opus 4.8の新しい自動ワークフロー、サブエージェント間の並行性、入力/出力管理を比較しています – これらはまだGPT-5.5の一般的な基準では一致していない機能です。重い商業計画や複雑さにおいて、Lennysnewsletterの記録は、どちらも深い戦略において一貫して他を凌駕していないことを示しています。Opus 4.8は速度において勝利し、Sonnetは明確さにおいて、GPT-5.5は理論的深さにおいて勝利しますが、SWE-bench Proのデータが到着するまで、リーダーボードは不安定なままです。

Claude Opus 4.8の最適な使用ケース

Thezvi、Lennysnewsletter、Lesswrongの3つの主要な情報源は、同じ使用法に合意しています：これは、ワークフローと目標が明確で測定可能なタスクを完了するために設計されています。このClaude Opus 4.8のレビューで明らかなように、ルーチンの自動化、プログラミングタスク、迅速なモデル開発、管理されたワークフローに最適です。

今後の開発とAnthropicのロードマップ

次のOpus 4.8のサイクルは、Thezviによれば、まさにこれらの鋭い文脈的問題をターゲットにしており、今後のレビューが「Claude Opus 4.8のレビュー：得意なことでは優れているが、不得意なことでは悪化している」という物語を変える可能性があることを示唆しています。

主要なポイント

Thezviの記録は確認しています：Opus 4.8の69.2のスコアは、コード駆動型プログラミングタスクと整理されたワークフローにおけるリーダーシップを強化しています。1百万トークンあたりの価格を5ドル / 25ドルに維持し、より安価な迅速モードを追加しています。

コミュニティの反応とライブフィードバック

Lesswrongの直接的なトピックとThezviの記録は、混合した反応を示しています：自動化に対する楽観主義がありますが、モデルの思考の限界が動いていないことに対する明確な警告もあります。研究者とプロのユーザーは一致しています：プログラミングとルーチン自動化の生産性の飛躍がありますが、鋭いケースにおける曖昧さや幻覚には注意が必要です。プログラミングはより一貫しており、しかし、Claude Opus 4.8の複数のレビュー要約を通じて繰り返されているように、広範な思考や深い戦略的計画を必要とするタスクには依然として顕著な弱点があります。

Google で読む

STnews を優先する情報源に追加

Google で stnews.live の横にあるチェックボックスをオンにすると、トップニュースで当サイトの記事が上位に表示されます。

Disclaimer: The content on this page is for informational purposes only and does not constitute financial advice. Always do your own research before making investment decisions.

About the author

Verified

Elena Petrova

Regulation Correspondent · 10+ years experience

Elena Petrova is a regulatory correspondent specializing in crypto law and policy with over 10 years of financial journalism experience. Formerly a finance reporter at Reuters, Elena covers SEC enforcement, MiCA implementation, and global stablecoin regulations. She holds a J.D. from Georgetown Law and is a member of the New York State Bar. Her regulatory analysis is frequently referenced by compliance officers and legal teams at major exchanges.

Education

J.D. Georgetown Law, B.A. International Relations, LSE

Previously at

Skadden Arps ↗ Reuters Compliance ↗

Beats MiCA (EU) ↗ SEC enforcement ↗ CFTC oversight ↗

Full profile & all articles →

Conflicts of interest

I have no current legal practice or retainer relationships with any cryptocurrency company. Past employment relationships are listed publicly.

検索

Claudeの評価 4.8: 強みを強化し、弱みを軽減する

コミュニティの重要な洞察

Lesswrongとコミュニティの分析

Lennysnewsletterのビジネス観点

Claude Opus 4.8のテスト：方法と結果

テストの作成

テスト結果

Claude Opus 4.8のベンチマークと比較

ベンチマーク数値：4.8対4.7対GPT-5.5

数字以外で実際に新しいものは何か

Claude Opus 4.8対Sonnet 4.6

Claude Opus 4.8を使用すべきか、それともSonnet 4.6を使用すべきか？

Claude Opus 4.8対GPT-5.5

Opus 4.8はGPT-5.5とどのように比較されるか？

Claude Opus 4.8の最適な使用ケース

今後の開発とAnthropicのロードマップ

主要なポイント

コミュニティの反応とライブフィードバック

Related Articles

DATに問題発生：Satsumaがビットコイン財務を解消し、BTCを売却へ

ビットコイン価格が抵抗に直面、株式市場は「記録的」な売りに苦戦

ビットコイン価格、イランの攻撃圧力で反落

カルダノが急騰、ネットワークがさらなる開発の分散化に向けたステップを踏む

Crypto.comの評価額が大規模な投資を受けて急上昇

英国、1億1500万ドルの暗号ランサム計画に関与した2人のハッカーに対して判決を下す

ステーブルコインのブリーフをメールでお届けします。