Bewertung von Claude Opus 4.8: Verbesserte Stärken, verr…

“`html

Die Kritik zu Claude Opus 4.8: Besser in dem, was er gut macht, schlechter in dem, was er nicht macht, zeigt, dass Claude Opus 4.8 mit echten technischen Referenzen kommt, die konkrete Fortschritte in den Bereichen Codierung, Workflow und Prototyping zeigen, wie Thezvi berichtet. Dieser Sprung in der tatsächlichen Codierungsfähigkeit — von 64,3 auf 69,2 im SWE-bench Pro — offenbart, wie viel besser das Modell jetzt mit Routine-Codierung und geringfügiger Recherche umgeht, insbesondere im Vergleich zu früheren LLMs, die stärker auf Mustererkennung fokussiert waren. Und da die Preise bei 5 $ für den Eintritt und 25 $ für den Ausgang pro Million Tokens festgelegt bleiben, ermöglicht Opus 4.8 den Nutzern, täglich mehr Wert ohne zusätzliche Kosten zu erhalten, so Thezvi und Lennysnewsletter.

Diese Kritik zu Claude Opus 4.8 behandelt, wie das Modell signifikante Verbesserungen in der Routine-Codierung, der Automatisierung von Workflows und dem schnellen Prototyping bringt. Sie beschreibt jedoch auch anhaltende Schwächen bei mehrdeutigen oder hochgradig strategischen Aufgaben. Dies bestätigt das Thema, dass Claude Opus 4.8 besser in dem ist, was er bereits gut macht, aber schlechter oder unverändert dort, wo er zuvor Schwierigkeiten hatte.

Hauptperspektiven der Community

Analyse von Lesswrong und der Community

Die Community Lesswrong verzeichnet sowohl messbare Fortschritte als auch eine vertraute qualitative Obergrenze für Claude Opus 4.8. Die Teilnehmer an öffentlichen Rankings und privaten Journals geben ein einheitliches Feedback: Opus 4.8 verdient wirklich seine höheren Punktzahlen im SWE-bench Pro. Aber die Mitwirkenden erkennen häufig “Randfehler”, wenn die Regeln verschwommen werden oder sich die Anweisungen im Verlauf ändern. Die annotierten Transkripte von LW heben die Arten von Mehrdeutigkeit hervor, die Opus 4.8 blockieren: nicht offensichtliche bedingte Logik, verschlungene Gedankenketten oder semantische Wendungen.

Die Anstrengungskontrollen und die Funktionen von Unteragenten helfen, die Lücken bei grundlegenden Aufgaben zu schließen, aber sie können einfach nicht die Planungsfähigkeiten abdecken, die für rigorose Forschung oder Geschäftslogik erforderlich sind.

Geschäftsperspektive von Lennysnewsletter

Lennysnewsletter konzentriert sich auf die tatsächlichen Auswirkungen von Opus 4.8: Es ist für schnelles kommerzielles Prototyping, die schnelle Bereitstellung von Funktionen und parallelisierte Workflows auf Claude.ai und Cowork konzipiert. Laut dieser Kritik zu Claude Opus 4.8 ist das Starten von Prototypen im Freifeld oder das Management von einmaligen Experimenten jetzt einfacher.

Testen von Claude Opus 4.8: Methoden und Ergebnisse

Erstellung der Tests

Die Testdesigner haben sich auf Cross-Validation für die aktuellen Kritiken gestützt — unter Verwendung von Protokollen und Fallhistorien von Thezvi, Lennysnewsletter und Lesswrong, um Standards sowohl für öffentliche als auch private Referenzen sicherzustellen.

Testergebnisse

Der große Sprung in den SWE-bench Pro-Punkten — von 64,3 auf 69,2 — erfasst einen echten schrittweisen Fortschritt, so die Protokolle von Thezvi. Die Prüfer sind sich jedoch einig: Routine-Codierung glänzt, aber sobald die Mehrdeutigkeit des Tests zunimmt, schwächelt Opus 4.8. Die Code-Vervollständigung und Automatisierung belohnen das Upgrade, während schwere strategische Arbeiten oder tiefgehende Planung weiterhin Abweichungspunkte aufzeigen, so die Schlussfolgerungen von Lennysnewsletter. Das Crowdsourcing von Lesswrong bestätigt einen Rückgang von Syntaxfehlern und Verschiebungsfehlern in vorhersehbaren Szenarien, was die Hauptschlussfolgerungen dieser Kritik zu Claude Opus 4.8 unterstützt: Besser in dem, was er gut macht, schlechter in dem, was er nicht macht.

Learnings from testing Claude Opus 4.8:

> Much worse than Opus 4.7 and GPT 5.5 on Vending Bench
> More aligned than previous Claude models (Opus 4.6+ and Mythos)
> Also worse on Blueprint-Bench
> Scared of getting caught
> Max reasoning is not the best reasoning effort pic.twitter.com/9yn58xsJL9
— Andon Labs (@andonlabs) May 28, 2026

Referenzen und Vergleiche von Claude Opus 4.8

Benchmark-Zahlen: 4.8 vs 4.7 vs GPT-5.5

Modell	Score SWE-bench Pro	Kosten für Eintritt/Ausgang pro 1M Tokens	Kosten im Schnellmodus
Claude Opus 4.8	69.2	5 $ / 25 $	Günstiger als 4.7 (30 $/150 $)
Claude Opus 4.7	64.3	5 $ / 25 $	30 $ / 150 $
GPT-5.5	Nicht verfügbar	Nicht offengelegt	Nicht offengelegt

Die Dokumentation von Thezvi stellt klar, dass bei 5 $ für den Eintritt und 25 $ für den Ausgang pro Million Tokens Opus 4.8 den Preis von 4.7 ausgleicht, aber nun im Schnellmodus unterbewertet — 30 $/150 $ für 4.7 — wodurch Batch-Arbeiten erschwinglich bleiben und die Nutzung in Echtzeit für kleine Teams möglich ist.

Was ist Neu (Über die Zahlen hinaus)

Lennysnewsletter zerlegt, wie Claude.ai und Cowork jetzt mit viel praktischeren Updates für Entwickler kommen. Insbesondere das Starten von Prototypen im Freifeld oder das Management von einmaligen Experimenten ist jetzt einfacher mit Claude Opus 4.8.

5 $ — Kosten pro Million Tokens für den Eintritt.

Claude Opus 4.8 vs. Sonnet 4.6

Sollten Sie Claude Opus 4.8 oder Sonnet 4.6 verwenden?

Die Tests von Lennysnewsletter platzieren Opus 4.8 vor Sonnet 4.6 für Routine-Codierung und schnelles Prototyping. Für schrittweise Logik oder Klarheit wählen viele Sonnet, während die Automatisierungsbemühungen jetzt eher zu Opus tendieren. Für die meisten Workflow-Aufgaben kommt diese Kritik zu Claude Opus 4.8 zu dem Schluss, dass Opus der Gewinner ist.

Claude Opus 4.8 vs. GPT-5.5

Wie vergleicht sich Opus 4.8 mit GPT-5.5?

Es gibt keinen veröffentlichten SWE-bench Pro-Score für GPT-5.5, was eine direkte Vergleichbarkeit erschwert, wie die Dokumentation von Lesswrong offenbart. Und während Thezvi und Lennysnewsletter die Preise und Workflows von Opus klären, bleiben die tatsächlichen Kosten und Gewinne in der Codierung von GPT-5.5 in einer Blackbox. Die Tester vergleichen, was sie können: die neuen automatischen Workflows von Opus 4.8, die Parallelisierung von Unteragenten und das Management von Ein- und Ausgaben — Funktionen, die in den öffentlichen Referenzen von GPT-5.5 noch nicht erreicht werden. In der schweren kommerziellen Planung und Komplexität deuten die Protokolle von Lennysnewsletter darauf hin, dass keiner der beiden systematisch den anderen für eine tiefgehende Strategie übertrifft. Opus 4.8 gewinnt an Geschwindigkeit, Sonnet an Klarheit, GPT-5.5 an theoretischer Breite — aber bis die SWE-bench Pro-Daten eintreffen, bleibt das Ranking instabil.

Beste Anwendungsfälle für Claude Opus 4.8

Die drei Hauptquellen — Thezvi, Lennysnewsletter und Lesswrong — für Opus 4.8 konvergieren in den gleichen Anwendungen: Es ist darauf ausgelegt, Aufgaben zu eliminieren, bei denen Ihr Workflow und Ihre Ziele klar und messbar bleiben. Wie diese Kritik zu Claude Opus 4.8 zeigt, ist es ideal für Routineautomatisierung, Codierungsaufgaben, schnelles Prototyping und verwaltete Workflows.

Zukünftige Entwicklungen und Fahrplan von Anthropic

Der nächste Zyklus von Opus 4.8 — so Thezvi — wird gezielt diese Grenzfall- und Kontextprobleme angehen, was darauf hindeutet, dass zukünftige Kritiken möglicherweise die Erzählung in “Kritik zu Claude Opus 4.8: Besser in dem, was er gut macht, schlechter in dem, was er nicht macht” weiterentwickeln könnten.

Hauptschlussfolgerungen

Die Aufzeichnungen von Thezvi bestätigen: Der Score von 69,2 für Opus 4.8 im SWE-bench Pro verstärkt seinen Vorsprung bei strukturierten Codierungs- und Workflow-Aufgaben. Bleibt konstant bei 5 $/25 $ Standardpreis und fügt einen günstigeren Schnellmodus hinzu.

Reaktion der Community und Live-Feedback

Die Live-Threads von Lesswrong und die kollaborativen Protokolle von Thezvi zeigen gemischte Reaktionen: Optimismus in Bezug auf die Automatisierung, aber klare Warnungen, dass die Denkgrenzen des Modells sich nicht verändert haben. Forscher und fortgeschrittene Nutzer sind sich einig: Die Produktivitätssprünge für Codierung und repetitive Automatisierung sind vorhanden, aber die Mehrdeutigkeit von Grenzfällen und Halluzinationen schüren Vorsicht. Die Codierung ist konsistenter, jedoch, wie in mehreren Zusammenfassungen der Kritiken zu Claude Opus 4.8 wiederholt, bestehen bemerkenswerte Schwächen bei Aufgaben, die breites Denken oder tiefgehende strategische Planung erfordern.

Vergleich mit anderen KI-Modellen

Eine direkte vergleichende Analyse von Lesswrong und Lennysnewsletter zeigt, dass Opus 4.8 Sonnet 4.6 bei Codierungs- und täglichen Workflow-Aufgaben übertrifft — aber der Abstand variiert je nach den Details des Einsatzes. GPT-5.5, mit fehlenden Schlüsselmetriken und Preisen, hat noch nicht einmal seine Stärken für große Teams bewiesen. Claude Opus 4.8 gewinnt nicht, weil es das Beste in allem ist, sondern weil es seine Konkurrenten bei eng definierten und wiederholbaren Aufgaben übertrifft, die Unternehmen jetzt benötigen. In einigen Nischenlogikaufgaben gewinnt Sonnet 4.6 immer noch Gold, während GPT-5.5 möglicherweise eine ungenutzte Breite hat (obwohl es ohne SWE-bench-Ergebnisse Opus nicht wirklich herausfordern kann).

Opus 4.8 liefert — aber nicht universell

Opus 4.8 signalisiert einen stetigen Fortschritt — keine radikale Neuerfindung — indem es sich auf das konzentriert, was es bereits gut macht: Prozessautomatisierung, Codegenerierung und schnelles Prototyping für kostenbewusste Teams. Das Modell übertrifft problemlos frühere Versionen und Hauptkonkurrenten bei Massenkodierung und Routineoperationen. Schnelle Starts, während sie erschwinglich bleiben und sauber skalieren, gemäß

“`

Suche

Bewertung von Claude Opus 4.8: Verbesserte Stärken, verringerte Schwächen