Evaluación de Claude 4.8: Potenciando los puntos…

“`html

Revisión de Claude Opus 4.8: mejor en lo que hace bien, peor en lo que no hace. Claude Opus 4.8 llega con estándares técnicos reales que muestran ganancias tangibles en el mundo de la programación, la automatización de flujos de trabajo y tareas de modelado, como informó Thezvi. Este salto en la capacidad de programación real – de 64.3 a 69.2 en el estándar SWE-bench Pro – refleja cuánto ha mejorado la programación rutinaria y la búsqueda simple que ahora realiza el modelo, especialmente en comparación con modelos anteriores que dependían más de la coincidencia de patrones. Y dado que los precios se mantienen fijos en 5 dólares por entrada y 25 dólares por salida por cada millón de tokens, Opus 4.8 permite a los usuarios obtener más valor diariamente sin costo adicional, según Thezvi y Lennysnewsletter.

Esta revisión de Claude Opus 4.8 aborda cómo el modelo ofrece mejoras significativas en programación rutinaria, automatización de flujos de trabajo y modelado rápido. Sin embargo, también destaca las debilidades persistentes en tareas ambiguas o altamente estratégicas. Esto enfatiza el tema de que Claude Opus 4.8 es mejor en lo que realmente hace bien, pero es peor o no cambia en los lugares donde anteriormente tenía dificultades.

Principales perspectivas de la comunidad

Análisis de Lesswrong y la comunidad

La comunidad de Lesswrong registra tanto aumentos medibles como un techo cualitativo familiar para Claude Opus 4.8. Los participantes en las tablas de clasificación públicas y los registros privados repiten un mensaje: Opus 4.8 realmente obtiene las puntuaciones más altas en SWE-bench Pro. Pero los contribuyentes notan repetidamente “fracasos agudos” cuando las reglas se superponen o las instrucciones cambian a mitad de camino. Los textos comentados de LW destacan los tipos de ambigüedad que obstaculizan a Opus 4.8: lógica condicional poco clara, cadenas de pensamiento erráticas o sorpresas semánticas.

Los controles de esfuerzo y las características de agentes secundarios ayudan a reducir las brechas para las funciones básicas, pero no pueden cubrir las habilidades de planificación necesarias para la investigación precisa o la lógica empresarial.

Perspectiva empresarial de Lennysnewsletter

Lennysnewsletter se centra en el impacto real de Opus 4.8: está diseñado para modelado rápido de negocios, entrega rápida de características y flujos de trabajo paralelos en Claude.ai y Cowork. Según esta revisión de Claude Opus 4.8, lanzar nuevos modelos o manejar experimentos individuales es ahora más fácil.

Pruebas de Claude Opus 4.8: métodos y hallazgos

Creación de las pruebas

Los diseñadores de pruebas se basaron en la verificación cruzada de revisiones recientes – utilizando registros y fechas de casos de Thezvi, Lennysnewsletter y Lesswrong para garantizar estándares tanto para criterios generales como específicos.

Resultados de la prueba

El gran salto en las puntuaciones de SWE-bench Pro – de 64.3 a 69.2 – captura un avance real, paso a paso, según los registros de Thezvi. Sin embargo, los revisores son claros: la programación rutinaria destaca, pero una vez que aumenta la ambigüedad de la prueba, Opus 4.8 tropieza. Completar el código y la automatización recompensa la mejora, mientras que las tareas estratégicas pesadas o la planificación profunda aún revelan puntos de desviación, según los hallazgos de Lennysnewsletter. La colectividad de Lesswrong confirma la disminución de errores gramaticales y errores de “uno fuera” en escenarios predecibles, respaldando los hallazgos clave en esta revisión de Claude Opus 4.8: mejor en lo que hace bien, peor en lo que no hace.

Andon Labs@andonlabs

Learnings from testing Claude Opus 4.8:

> Much worse than Opus 4.7 and GPT 5.5 on Vending Bench
> More aligned than previous Claude models (Opus 4.6+ and Mythos)
> Also worse on Blueprint-Bench
> Scared of getting caught
> Max reasoning is not the best reasoning effort pic.twitter.com/9yn58xsJL9

May 28, 2026View on X

Estándares de Claude Opus 4.8 y comparaciones

Números de referencia: 4.8 vs 4.7 vs GPT-5.5

Modelo	Puntuación SWE-bench Pro	Costo de entrada/salida por 1M tokens	Costo de modo rápido
Claude Opus 4.8	69.2	5 dólares / 25 dólares	Más barato que 4.7 (30 dólares / 150 dólares)
Claude Opus 4.7	64.3	5 dólares / 25 dólares	30 dólares / 150 dólares
GPT-5.5	No disponible	No revelado	No revelado

La documentación de Thezvi muestra que a 5 dólares por entrada y 25 dólares por salida por cada millón de tokens, Opus 4.8 se iguala al precio de 4.7, pero ahora reduce su costo en modo rápido – 30 dólares / 150 dólares para 4.7 – lo que hace que las funciones colectivas sean asequibles y el uso directo sea posible para equipos pequeños.

¿Qué hay de nuevo realmente (más allá de los números)?

Lennysnewsletter analiza cómo Claude.ai y Cowork ahora vienen con actualizaciones mucho más prácticas para los desarrolladores. Es notable que lanzar nuevos modelos o manejar experimentos individuales ahora es más fácil con Claude Opus 4.8.

5 dólares – costo por cada millón de tokens de entrada.

Claude Opus 4.8 vs Sonnet 4.6

¿Deberías usar Claude Opus 4.8 o Sonnet 4.6?

Las pruebas de Lennysnewsletter colocan a Opus 4.8 por delante de Sonnet 4.6 en programación rutinaria y modelado rápido. Para la lógica escalonada o la claridad, muchos eligen Sonnet, mientras que los esfuerzos de automatización ahora tienden hacia Opus. Para la mayoría de las tareas de flujo de trabajo, esta revisión de Claude Opus 4.8 concluye que Opus es el ganador.

Claude Opus 4.8 vs GPT-5.5

¿Cómo se compara Opus 4.8 con GPT-5.5?

No hay una puntuación publicada para SWE-bench Pro para GPT-5.5, lo que crea una brecha para la comparación directa, como revela la documentación de Lesswrong. Y mientras Thezvi y Lennysnewsletter explican la fijación de precios de Opus y los flujos de trabajo, los costos de GPT-5.5 y las victorias en programación real permanecen en una caja negra. Los evaluadores comparan lo que pueden: el nuevo flujo de trabajo automatizado de Opus 4.8, el paralelismo entre agentes secundarios y la gestión de entrada/salida – características que aún no se han igualado en los estándares generales de GPT-5.5. En planificación comercial pesada y complejidad, los registros de Lennysnewsletter indican que ninguno de los dos supera consistentemente al otro en estrategia profunda. Opus 4.8 gana en velocidad, Sonnet en claridad, y GPT-5.5 en profundidad teórica – pero hasta que lleguen los datos de SWE-bench Pro, la tabla de clasificación seguirá siendo inestable.

Mejores casos de uso para Claude Opus 4.8

Las tres fuentes principales – Thezvi, Lennysnewsletter y Lesswrong – coinciden en los mismos usos: está diseñado para realizar tareas donde los flujos de trabajo y los objetivos permanecen claros y medibles. Como se evidencia en esta revisión de Claude Opus 4.8, es el mejor para la automatización rutinaria, tareas de programación, desarrollo de modelos rápidos y flujos de trabajo gestionados.

Desarrollos futuros y hoja de ruta de Anthropic

El próximo ciclo de Opus 4.8 – según Thezvi – abordará exactamente estas cuestiones agudas y contextuales, lo que sugiere que las revisiones futuras podrían cambiar la narrativa en “Revisión de Claude Opus 4.8: mejor en lo que hace bien, peor en lo que no hace”.

Conclusiones clave

Los registros de Thezvi confirman: la puntuación de 69.2 de Opus 4.8 en SWE-bench Pro refuerza su liderazgo en tareas de programación impulsadas por código y flujos de trabajo organizados. Manteniendo un precio estándar fijo de 5 dólares / 25 dólares y añadiendo un modo rápido más barato.

Reacciones de la comunidad y comentarios en vivo

Los temas en vivo en Lesswrong y los registros de Thezvi muestran interacciones mixtas: optimismo sobre la automatización, pero advertencias claras de que los límites del pensamiento del modelo no se han movido. Investigadores y usuarios profesionales coinciden: saltos productivos en programación y automatización rutinaria, pero la ambigüedad en casos agudos y alucinaciones genera cautela. La programación es más consistente, y sin embargo, como se ha reiterado en los múltiples resúmenes de la revisión de Claude Opus 4.8, aún hay debilidades notables en tareas que requieren pensamiento amplio o planificación estratégica profunda.

Comparación con otros modelos de IA

Los análisis comparativos directos de Lesswrong y Lennysnewsletter muestran que Opus 4.8 supera a Sonnet 4.6 en tareas de programación diarias y flujos de trabajo – pero la brecha cambia según los detalles de la tarea. GPT-5.5 no ha demostrado, con la ausencia de métricas clave y precios, ni siquiera sus puntos fuertes para equipos grandes. Claude Opus 4.8 gana no porque sea el mejor en todo, sino porque supera a los competidores en tareas específicas y repetibles que las empresas necesitan ahora. En algunas tareas de lógica especializada, Sonnet 4.6 aún se lleva el oro, mientras que GPT-5.5 puede tener profundidad no explotada (aunque sin resultados de SWE-bench, realmente no puede desafiar a Opus por el título de programación).

Opus 4.8 entrega – pero no de manera universal

Opus 4.8 indica un progreso constante – no una reinvención radical – al centrarse en lo que realmente hace bien: automatización de procesos, generación de código y modelado rápido para equipos que se preocupan por el costo. El modelo supera fácilmente a versiones anteriores y competidores clave en grandes códigos y procesos rutinarios. Lanzamientos extremadamente rápidos, todo mientras mantiene un costo razonable y se expande de manera…

“`

Buscar

Evaluación de Claude 4.8: Potenciando los puntos fuertes y reduciendo los puntos débiles