Claude Opus 4.8 Évaluation : Forces améliorées, faible…

“`html

La critique de Claude Opus 4.8 : Meilleur dans ce qu’il fait bien, moins bon dans ce qu’il ne peut pas faire, montre que Claude Opus 4.8 arrive avec des benchmarks techniques réels qui montrent des progrès concrets dans les tâches de code, de flux de travail et de prototypage, comme le rapporte Thezvi. Ce saut dans la capacité de programmation réelle – de 64,3 à 69,2 dans le benchmark Pro SWE-bench – reflète combien de programmation de routine et de recherches mineures le modèle gère désormais, surtout par rapport aux LLM précédents, plus axés sur la correspondance de motifs. Et avec des prix fixés à 5 $ pour les entrées et 25 $ pour les sorties par million de tokens, Opus 4.8 permet aux utilisateurs d’obtenir plus de valeur quotidiennement sans coûts supplémentaires, selon Thezvi et Lennysnewsletter.

Cette critique de Claude Opus 4.8 traite de la manière dont le modèle fournit des améliorations significatives dans la programmation de routine, l’automatisation des flux de travail et le prototypage rapide. Cependant, des faiblesses persistantes dans les tâches ambiguës ou hautement stratégiques sont également décrites en détail. Cela confirme le thème selon lequel Claude Opus 4.8 est meilleur dans ce qu’il sait déjà bien faire, mais moins bon ou inchangé là où il avait auparavant des difficultés.

Principales perspectives de la communauté

Analyse de Lesswrong et de la communauté

La communauté Lesswrong enregistre à la fois des progrès mesurables et une limite qualitative familière pour Claude Opus 4.8. Les participants aux classements publics et aux protocoles privés transmettent un message : Opus 4.8 mérite vraiment ses scores Pro SWE-bench plus élevés. Mais les contributeurs notent souvent des “erreurs marginales” lorsque les règles sont floues ou que les instructions changent en cours de processus. Les transcriptions annotées de LW mettent en évidence les types d’ambiguïté qui bloquent Opus 4.8 – logique conditionnelle non évidente, raisonnements tortueux ou surprises sémantiques.

Les contrôles d’effort et les fonctions de sous-agents aident à combler les lacunes dans les tâches de base, mais ils ne peuvent tout simplement pas couvrir les capacités de planification nécessaires pour une recherche rigoureuse ou une logique commerciale.

Perspective commerciale de Lennysnewsletter

Lennysnewsletter se concentre sur les impacts réels d’Opus 4.8 : il est configuré pour le prototypage commercial rapide, le déploiement rapide de fonctionnalités et les flux de travail parallélisés sur Claude.ai et Cowork. Selon cette critique de Claude Opus 4.8, le lancement de prototypes Greenfield ou la réalisation d’expériences ponctuelles est désormais plus facile.

Tester Claude Opus 4.8 : Méthodes et résultats

Création des tests

Les concepteurs de tests se sont appuyés sur la validation croisée pour les évaluations actuelles – en utilisant des protocoles et des études de cas de Thezvi, Lennysnewsletter et Lesswrong pour garantir des normes tant pour les benchmarks publics que privés.

Résultats des tests

Le grand saut dans les scores Pro SWE-bench – de 64,3 à 69,2 – capture un véritable progrès étape par étape, selon les protocoles de Thezvi. Cependant, les examinateurs s’accordent à dire : la programmation de routine brille, mais dès que l’ambiguïté du test augmente, Opus 4.8 se bloque. L’achèvement de code et l’automatisation récompensent la mise à niveau, tandis que les travaux lourds en stratégie ou la planification approfondie continuent de révéler des points de dérive, selon les résultats de Lennysnewsletter. Le crowdsourcing de Lesswrong confirme une diminution des erreurs de syntaxe et des erreurs de type “off-by-one” dans des scénarios prévisibles, ce qui soutient les principales conclusions de cette critique de Claude Opus 4.8 : meilleur dans ce qu’il fait bien, moins bon dans ce qu’il ne peut pas faire.

Learnings from testing Claude Opus 4.8:

> Much worse than Opus 4.7 and GPT 5.5 on Vending Bench
> More aligned than previous Claude models (Opus 4.6+ and Mythos)
> Also worse on Blueprint-Bench
> Scared of getting caught
> Max reasoning is not the best reasoning effort pic.twitter.com/9yn58xsJL9
— Andon Labs (@andonlabs) May 28, 2026

Benchmarks et comparaisons de Claude Opus 4.8

Chiffres de benchmark : 4.8 vs 4.7 vs GPT-5.5

Modèle	Score Pro SWE-bench	Coûts d’entrée/sortie par 1M de tokens	Coûts du mode rapide
Claude Opus 4.8	69.2	5 $ / 25 $	Moins cher que 4.7 (30 $ / 150 $)
Claude Opus 4.7	64.3	5 $ / 25 $	30 $ / 150 $
GPT-5.5	Non disponible	Non divulgué	Non divulgué

La documentation de Thezvi précise qu’avec 5 $ pour les entrées et 25 $ pour les sorties par million de tokens, Opus 4.8 atteint le prix de liste de 4.7, mais le sous-cote désormais en mode rapide – 30 $ / 150 $ pour 4.7 – rendant ainsi les travaux par lots abordables et permettant une utilisation en direct pour les petites équipes.

Qu’est-ce qui est réellement nouveau (au-delà des chiffres)

Lennysnewsletter explique comment Claude.ai et Cowork sont désormais dotés de mises à jour beaucoup plus pratiques pour les développeurs. En particulier, le lancement de prototypes Greenfield ou la réalisation d’expériences ponctuelles est désormais plus facile avec Claude Opus 4.8.

5 $ — Coût par million de tokens d’entrée.

Claude Opus 4.8 vs. Sonnet 4.6

Devriez-vous utiliser Claude Opus 4.8 ou Sonnet 4.6 ?

Les tests de Lennysnewsletter montrent qu’Opus 4.8 est supérieur à Sonnet 4.6 en matière de code de routine et de prototypage rapide. Pour une logique progressive ou de la clarté, beaucoup choisissent Sonnet, tandis que les efforts d’automatisation tendent désormais vers Opus. Pour la plupart des tâches de flux de travail, cette critique de Claude Opus 4.8 conclut qu’Opus est le gagnant.

Claude Opus 4.8 vs. GPT-5.5

Comment Opus 4.8 se compare-t-il à GPT-5.5 ?

Il n’y a pas de scores Pro SWE-bench publiés pour GPT-5.5, ce qui crée une lacune pour la comparaison directe, comme le montre la documentation de Lesswrong. Et tandis que Thezvi et Lennysnewsletter clarifient les prix et les flux de travail d’Opus, les coûts et les gains de programmation réels de GPT-5.5 restent dans une boîte noire. Les testeurs comparent ce qu’ils peuvent : les nouveaux flux de travail automatiques, la parallélisation des sous-agents et la gestion des entrées/sorties d’Opus 4.8 – des fonctionnalités qui n’ont pas encore été atteintes dans les benchmarks publics de GPT-5.5. Dans la planification commerciale intensive et la complexité, les protocoles de Lennysnewsletter suggèrent qu’aucun des deux ne surpasse constamment l’autre dans des stratégies profondes. Opus 4.8 gagne en termes de vitesse, Sonnet en termes de clarté, GPT-5.5 en termes de largeur théorique – mais jusqu’à ce que les données Pro SWE-bench arrivent, le classement reste indécis.

Meilleurs cas d’utilisation pour Claude Opus 4.8

Toutes les trois principales sources – Thezvi, Lennysnewsletter et Lesswrong – pour Opus 4.8 s’accordent sur les mêmes applications : il est conçu pour accomplir des tâches où votre flux de travail et vos objectifs restent clairs et mesurables. Comme le prouve cette critique de Claude Opus 4.8, il est le mieux adapté pour l’automatisation de routine, les tâches de programmation, le développement rapide de prototypes et les flux de travail gérés.

Développements futurs et feuille de route d’Anthropic

Le prochain cycle d’Opus 4.8 – selon Thezvi – visera précisément ces cas limites et problèmes de contexte, ce qui suggère que les évaluations futures pourraient déplacer le récit dans “Critique de Claude Opus 4.8 : Meilleur dans ce qu’il fait bien, moins bon dans ce qu’il ne peut pas faire”.

Principales conclusions

Les enregistrements de Thezvi confirment : le score de 69,2 de Pro SWE-bench d’Opus 4.8 consolide sa position de leader dans les tâches de flux de travail structurées et contrôlées par le code. Le prix reste stable à 5 $ / 25 $ et un mode rapide moins cher est ajouté.

Réaction de la communauté et retours en direct

Les fils en direct de Lesswrong et les protocoles collaboratifs de Thezvi montrent des réactions mitigées : optimisme concernant l’automatisation, mais avertissements clairs que les limites du modèle en matière d’argumentation n’ont pas changé. Les chercheurs et les utilisateurs avancés s’accordent à dire : des sauts de productivité dans la programmation et la routine automatisée, mais des incertitudes dans les cas limites et les hallucinations suscitent la prudence. La programmation est plus cohérente, mais, comme le répètent plusieurs résumés des critiques de Claude Opus 4.8, des faiblesses notables subsistent dans les tâches nécessitant une pensée large ou une planification stratégique approfondie.

Comparaison avec d’autres modèles d’IA

Les analyses comparatives directes de Lesswrong et Lennysnewsletter montrent qu’Opus 4.8 surpasse Sonnet 4.6 dans les tâches de code et de flux de travail quotidiens – mais l’écart varie selon les détails des tâches. GPT-5.5, dont les chiffres clés et les prix manquent, n’a pas encore prouvé ses forces dans les grandes équipes. Claude Opus 4.8 ne gagne pas parce qu’il est le meilleur dans tout, mais parce qu’il surpasse ses concurrents dans des tâches étroitement définies et répétables dont les entreprises ont maintenant besoin. Dans certaines tâches de logique de niche, Sonnet 4.6 a encore l’avantage, tandis que GPT-5.5 pourrait avoir une largeur inutilisée (bien qu’il ne puisse pas vraiment défier Opus dans le domaine de la programmation sans résultats Pro SWE-bench).

Opus 4.8 livre – mais pas universellement

Opus 4.8 signale un progrès constant – pas une réinvention radicale – en se concentrant sur ce qu’il fait déjà bien : automatisation des processus, génération de code et prototypage rapide pour des équipes soucieuses des coûts. Le modèle surpasse sans effort les versions précédentes et les principaux concurrents dans la programmation de masse et les opérations routinières. Des lancements éclair, tout en restant abordable et en se développant proprement, selon Thezvi

Rechercher

Claude Opus 4.8 Évaluation : Forces améliorées, faiblesses réduites