Évaluation de Claude Opus 4.8 : Forces Améliorées, Fai…

La Révision de Claude Opus 4.8 : Meilleur dans ce qui est bon, pire dans ce qui ne l’est pas montre que Claude Opus 4.8 arrive avec des benchmarks techniques réels qui montrent des gains dans le monde réel pour des tâches de codage, de flux de travail et de prototypage, comme le rapporte Thezvi. Ce saut dans la capacité de codage réel—de 64,3 à 69,2 dans le benchmark SWE-bench Pro. Réflète à quel point le codage routinier et la recherche mineure sont désormais dominés par le modèle, surtout par rapport aux LLMs précédents, plus axés sur les modèles. Et, puisque les prix restent fixes à 5 $ pour l’entrée et 25 $ pour la sortie par million de tokens, l’Opus 4.8 permet aux utilisateurs d’obtenir plus de valeur quotidiennement sans coûts supplémentaires, selon Thezvi et Lennysnewsletter.

Cette révision de Claude Opus 4.8 couvre comment le modèle apporte des améliorations significatives dans le codage routinier, l’automatisation des flux de travail et le prototypage rapide. Cependant, elle détaille également des faiblesses persistantes dans des tâches ambiguës ou hautement stratégiques. Confirmant le thème selon lequel Claude Opus 4.8 est meilleur dans ce qui est déjà bon, mais pire ou inchangé là où il avait précédemment des difficultés.

Principales Perspectives de la Communauté

Analyse de Lesswrong et de la Communauté

La communauté Lesswrong enregistre à la fois des augmentations mesurables et un plafond qualitatif familier pour Claude Opus 4.8. Les participants dans des tableaux de leaders publics et des enregistrements privés font écho à un message : l’Opus 4.8 mérite vraiment ses scores les plus élevés dans le SWE-bench Pro. Mais les contributeurs notent souvent des “défaillances de bord” lorsque les règles deviennent confuses ou que les instructions changent en cours de route. Les transcriptions annotées du LW mettent en évidence les types d’ambiguïté qui compliquent l’Opus 4.8—logique conditionnelle non évidente, chaînes de raisonnement complexes ou retournements sémantiques.

Des contrôles d’effort et des ressources de sous-agent aident à réduire les lacunes pour des travaux de base, mais ne parviennent tout simplement pas à couvrir la compétence de planification nécessaire pour une recherche rigoureuse ou une logique commerciale.

Perspective Commerciale de Lennysnewsletter

Lennysnewsletter se concentre sur l’impact de l’Opus 4.8 dans le monde réel : il est prêt pour le prototypage rapide d’entreprises, la livraison rapide de fonctionnalités et des flux de travail parallélisés dans Claude.ai et Cowork. Selon cette révision de Claude Opus 4.8, lancer des prototypes sur le terrain ou gérer des expériences ponctuelles est désormais plus facile.

Tester Claude Opus 4.8 : Méthodes et Découvertes

Création des tests

Les concepteurs de tests se sont basés sur la validation croisée pour des révisions récentes—utilisant des enregistrements et des historiques de cas de Thezvi, Lennysnewsletter et Lesswrong pour garantir des normes tant pour les benchmarks publics que privés.

Résultats des tests

Le grand saut dans les scores du SWE-bench Pro—de 64,3 à 69,2—capture un progrès réel et graduel, selon les enregistrements de Thezvi. Cependant, les réviseurs sont clairs : le codage routinier brille, mais une fois que l’ambiguïté du test augmente, l’Opus 4.8 vacille. La conclusion de code et l’automatisation récompensent la mise à jour, tandis que les travaux lourds en stratégie ou en planification profonde révèlent encore des points de déviation, selon les découvertes de Lennysnewsletter. Le crowdsourcing de Lesswrong confirme une baisse des erreurs de syntaxe et des erreurs off-by-one dans des scénarios prévisibles, soutenant les principales découvertes de cette Révision de Claude Opus 4.8 : Meilleur dans ce qui est bon, pire dans ce qui ne l’est pas.

Apprentissages du test de Claude Opus 4.8 :

> Bien pire que l’Opus 4.7 et GPT 5.5 dans le Vending Bench
> Plus aligné que les modèles Claude précédents (Opus 4.6+ et Mythos)
> Également pire dans le Blueprint-Bench
> Avec peur d’être pris
> Raisonnement maximal n’est pas le meilleur effort de raisonnement pic.twitter.com/9yn58xsJL9
— Andon Labs (@andonlabs) 28 mai 2026

Benchmarks et Comparaisons de Claude Opus 4.8

Nombres de Benchmark : 4.8 vs 4.7 vs GPT-5.5

Modèle	Score SWE-bench Pro	Coût d’Entrée/Sortie par 1M Tokens	Coût du Mode Rapide
Claude Opus 4.8	69.2	5 $ / 25 $	Moins cher que 4.7 (30 $/150 $)
Claude Opus 4.7	64.3	5 $ / 25 $	30 $ / 150 $
GPT-5.5	Indisponible	Non divulgué	Non divulgué

La documentation de Thezvi précise qu’à 5 $ pour l’entrée et 25 $ pour la sortie par million de tokens, l’Opus 4.8 égalise le prix d’étiquette du 4.7, mais réduit désormais son mode rapide—30 $/150 $ pour 4.7—maintenant que les travaux en lot sont accessibles et l’utilisation en direct possible pour des équipes plus petites.

Qu’est-ce qui est vraiment nouveau (Au-delà des Nombres)

Lennysnewsletter détaille comment Claude.ai et Cowork viennent maintenant avec des mises à jour beaucoup plus pratiques pour les développeurs. Notamment, lancer des prototypes sur le terrain ou gérer des expériences ponctuelles est désormais plus facile avec Claude Opus 4.8.

5 $ — Coût par million de tokens d’entrée.

Claude Opus 4.8 vs. Sonnet 4.6

Devez-vous utiliser Claude Opus 4.8 ou Sonnet 4.6 ?

Les tests de Lennysnewsletter placent l’Opus 4.8 devant le Sonnet 4.6 pour le codage routinier et le prototypage rapide. Pour la logique étape par étape ou la clarté, beaucoup choisissent le Sonnet, tandis que les efforts d’automatisation s’orientent désormais vers l’Opus. Pour la plupart des tâches de flux de travail, cette révision de Claude Opus 4.8 conclut que l’Opus est le gagnant.

Claude Opus 4.8 vs. GPT-5.5

Comment l’Opus 4.8 se compare-t-il au GPT-5.5 ?

Il n’existe pas de score publié du SWE-bench Pro pour le GPT-5.5, créant un vide pour une comparaison directe, révèle la documentation de Lesswrong. Et tandis que Thezvi et Lennysnewsletter clarifient les prix et les flux de travail de l’Opus, les coûts et les gains réels de codage du GPT-5.5 restent dans une boîte noire. Les testeurs comparent ce qu’ils peuvent : les nouveaux flux de travail automatiques de l’Opus 4.8, la parallélisation des sous-agents et la gestion d’entrée/sortie—des fonctionnalités qui n’ont pas encore été égalées dans les benchmarks publics du GPT-5.5. En planification commerciale lourde et en complexité, les enregistrements de Lennysnewsletter suggèrent qu’aucun ne surpasse systématiquement l’autre en stratégie profonde. L’Opus 4.8 l’emporte en vitesse, le Sonnet en clarté, le GPT-5.5 en amplitude théorique—mais jusqu’à ce que les données du SWE-bench Pro arrivent, le tableau des leaders reste instable.

Meilleurs Cas d’Utilisation pour Claude Opus 4.8

Les trois principales sources—Thezvi, Lennysnewsletter et Lesswrong—pour l’Opus 4.8 convergent sur les mêmes usages : il est construit pour éliminer les travaux où son flux de travail et ses objectifs restent clairs et mesurables. Comme le montre cette révision de Claude Opus 4.8, il est meilleur pour l’automatisation routinière, les tâches de codage, le développement rapide de prototypes et les flux de travail gérés.

Développements Futurs et la Feuille de Route d’Anthropic

Le prochain cycle de l’Opus 4.8—selon Thezvi—visera exactement ces problèmes de cas extrêmes et de contexte, suggérant que de futures révisions pourraient potentiellement changer la narration dans “Révision de Claude Opus 4.8 : Meilleur dans ce qui est bon, pire dans ce qui ne l’est pas.”

Principales Conclusions

Les enregistrements de Thezvi confirment : le score de 69,2 de l’Opus 4.8 dans le SWE-bench Pro renforce sa position de leader pour des tâches de flux de travail structurées et orientées par le code. Se maintenant fermement au prix standard de 5 $/25 $ et ajoutant un mode rapide moins cher.

Réaction de la Communauté et Retours en Direct

Des fils en direct de Lesswrong et les enregistrements collaboratifs de Thezvi montrent des réactions mitigées : optimisme concernant l’automatisation, mais des avertissements clairs que les limites de raisonnement du modèle n’ont pas changé. Les chercheurs et utilisateurs avancés s’accordent à dire : des sauts de productivité pour le codage et l’automatisation mécanique, mais l’ambiguïté dans des cas extrêmes et des hallucinations suscitent de la prudence. Le codage est plus cohérent, cependant, comme répété dans plusieurs résumés de révisions de Claude Opus 4.8, des faiblesses notables demeurent pour des tâches nécessitant un raisonnement large ou une planification stratégique profonde.

Comparaison avec d’Autres Modèles d’IA

L’analyse comparative directe de Lesswrong et de Lennysnewsletter montre que l’Opus 4.8 surpasse le Sonnet 4.6 pour des tâches quotidiennes de codage et de flux de travail—mais la différence varie selon les détails du travail. Le GPT-5.5, avec des métriques et des prix clés absents, n’a pas encore prouvé ses forces dans de grandes équipes. Claude Opus 4.8 gagne non pas parce qu’il est le meilleur dans tout, mais parce qu’il surpasse ses rivaux dans des travaux bien définis et répétables dont les entreprises ont besoin maintenant. Dans certaines tâches de logique de niche, le Sonnet 4.6 remporte encore la médaille d’or, tandis que le GPT-5.5 peut avoir une amplitude inexplorée (bien que sans résultats du SWE-bench, il ne peut vraiment défier l’Opus pour le titre de codage).

Opus 4.8 Livré—Mais Pas Universellement

L’Opus 4.8 signale un progrès constant—pas une réinvention radicale—en se concentrant sur ce qu’il fait déjà bien : l’automatisation

Rechercher

Évaluation de Claude Opus 4.8 : Forces Améliorées, Faiblesses Réduites