Оценка Claude Opus 4.8: Лучше в том, что он умеет, хуже в том, что не умеет, показывает, что Claude Opus 4.8 приходит с реальными техническими бенчмарками, которые демонстрируют реальные достижения в задачах кодирования, рабочего процесса и прототипирования, как сообщает Thezvi. Этот скачок в реальных программных возможностях — с 64,3 до 69,2 в SWE-bench Pro Benchmark — отражает, насколько больше рутинного программирования и мелких исследований модель теперь может обрабатывать, особенно по сравнению с предыдущими LLM, которые были более ориентированы на сопоставление шаблонов. И поскольку цены остаются на уровне $5 за ввод и $25 за вывод на миллион токенов, Opus 4.8 позволяет пользователям ежедневно получать больше ценности без дополнительных затрат, как отмечают как Thezvi, так и Lennysnewsletter.
Эта оценка Claude Opus 4.8 рассматривает, как модель предоставляет значительные улучшения в рутинном программировании, автоматизации рабочего процесса и быстром прототипировании. Однако также подробно описаны продолжающиеся слабости в неоднозначных или высокостратегических задачах. Это подтверждает тему о том, что Claude Opus 4.8 лучше в том, что он уже умеет, но хуже или без изменений там, где он ранее испытывал трудности.
Основные выводы сообщества
Lesswrong и анализ сообщества
Сообщество Lesswrong фиксирует как измеримые достижения, так и знакомый качественный предел для Claude Opus 4.8. Участники публичных рейтингов и частных протоколов передают одно сообщение: Opus 4.8 действительно заслуживает своих высоких баллов SWE-bench Pro. Но участники часто отмечают “пограничные ошибки”, когда правила становятся размытыми или инструкции меняются посреди процесса. Аннотированные LW-транскрипты подчеркивают виды неоднозначности, которые ставят Opus 4.8 в затруднительное положение — неочевидная условная логика, запутанные рассуждения или семантические сюрпризы.
Контроль затрат и функции субагентов помогают закрыть пробелы в базовых задачах, но они просто не могут покрыть планировочные способности, необходимые для строгих исследований или бизнес-логики.
Бизнес-перспектива Lennysnewsletter
Lennysnewsletter сосредоточен на реальных последствиях Opus 4.8: он предназначен для быстрого бизнес-прототипирования, быстрой реализации функций и параллелизации рабочих процессов на Claude.ai и Cowork. Согласно этой оценке Claude Opus 4.8, запуск Greenfield-прототипов или проведение одноразовых экспериментов теперь стало проще.
Тестирование Claude Opus 4.8: методы и результаты
Создание тестов
Дизайнеры тестов полагались на перекрестную проверку для текущих оценок — используя протоколы и кейс-стадии от Thezvi, Lennysnewsletter и Lesswrong, чтобы обеспечить стандарты как для публичных, так и для частных бенчмарков.
Результаты тестов
Большой скачок в баллах SWE-bench Pro — с 64,3 до 69,2 — фиксирует реальный, поэтапный прогресс, согласно протоколам Thezvi. Однако рецензенты согласны: рутинное программирование блестяще справляется, но как только неоднозначность теста возрастает, Opus 4.8 начинает буксовать. Завершение кода и автоматизация вознаграждают обновление, в то время как стратегически нагруженные работы или глубокое планирование продолжают выявлять точки дрейфа, согласно результатам Lennysnewsletter. Краудсорсинг от Lesswrong подтверждает снижение синтаксических и off-by-one ошибок в предсказуемых сценариях, что поддерживает основные выводы в этой оценке Claude Opus 4.8: лучше в том, что он умеет, хуже в том, что не умеет.
Learnings from testing Claude Opus 4.8:
— Andon Labs (@andonlabs) May 28, 2026
> Much worse than Opus 4.7 and GPT 5.5 on Vending Bench
> More aligned than previous Claude models (Opus 4.6+ and Mythos)
> Also worse on Blueprint-Bench
> Scared of getting caught
> Max reasoning is not the best reasoning effort pic.twitter.com/9yn58xsJL9
Бенчмарки и сравнения Claude Opus 4.8
Числа бенчмарков: 4.8 против 4.7 против GPT-5.5
| Модель | Баллы SWE-bench Pro | Стоимость ввода/вывода на 1M токенов | Стоимость быстрого режима |
|---|---|---|---|
| Claude Opus 4.8 | 69.2 | $5 / $25 | Дешевле, чем 4.7 ($30/$150) |
| Claude Opus 4.7 | 64.3 | $5 / $25 | $30 / $150 |
| GPT-5.5 | Недоступно | Не раскрыто | Не раскрыто |
Документация Thezvi уточняет, что при $5 за ввод и $25 за вывод на миллион токенов, Opus 4.8 достигает ценового уровня 4.7, но теперь предлагает более дешевый быстрый режим — $30/$150 для 4.7 — и тем самым делает пакетные задания доступными и позволяет использовать в реальном времени для небольших команд.
Что на самом деле нового (за пределами чисел)
Lennysnewsletter объясняет, как Claude.ai и Cowork теперь оснащены гораздо более практичными обновлениями для разработчиков. Особенно запуск Greenfield-прототипов или проведение одноразовых экспериментов теперь стало проще с Claude Opus 4.8.
$5 — стоимость за миллион входных токенов.
Claude Opus 4.8 против Sonnet 4.6
Стоит ли использовать Claude Opus 4.8 или Sonnet 4.6?
Тесты Lennysnewsletter показывают, что Opus 4.8 превосходит Sonnet 4.6 в рутинном коде и быстром прототипировании. Для пошаговой логики или ясности многие выбирают Sonnet, в то время как усилия по автоматизации теперь склоняются к Opus. Для большинства задач рабочего процесса эта оценка Claude Opus 4.8 приходит к выводу, что Opus является победителем.
Claude Opus 4.8 против GPT-5.5
Как Opus 4.8 сравнивается с GPT-5.5?
Нет опубликованных баллов SWE-bench Pro для GPT-5.5, что создает пробел для прямого сравнения, как показывает документация Lesswrong. И пока Thezvi и Lennysnewsletter проясняют цены и рабочие процессы Opus, затраты и реальные программные достижения GPT-5.5 остаются в черном ящике. Тестировщики сравнивают то, что они могут: новые автоматические рабочие процессы, параллелизацию субагентов и управление вводом/выводом Opus 4.8 — функции, которые еще не достигнуты в публичных бенчмарках GPT-5.5. В области интенсивного бизнес-планирования и сложности протоколы Lennysnewsletter указывают на то, что никто не превосходит другого в глубоких стратегиях. Opus 4.8 выигрывает по скорости, Sonnet — по ясности, GPT-5.5 — по теоретической широте, но пока данные SWE-bench Pro не поступят, рейтинг остается неопределенным.
Лучшие случаи использования для Claude Opus 4.8
Все три основных источника — Thezvi, Lennysnewsletter и Lesswrong — согласны в отношении тех же приложений для Opus 4.8: он предназначен для выполнения задач, где ваш рабочий процесс и цели остаются ясными и измеримыми. Как показано в этой оценке Claude Opus 4.8, он лучше всего подходит для автоматизации рутинных задач, программирования, быстрой разработки прототипов и управляемых рабочих процессов.
Будущие разработки и дорожная карта Anthropic
Следующий цикл Opus 4.8 — по словам Thezvi — будет нацелен именно на эти пограничные случаи и проблемы контекста, что предполагает, что будущие оценки могут изменить нарратив в “Оценке Claude Opus 4.8: лучше в том, что он умеет, хуже в том, что не умеет”.
Основные выводы
Записи от Thezvi подтверждают: 69,2 балла SWE-bench Pro для Opus 4.8 укрепляют его лидерство в задачах, управляемых кодом и структурированным рабочим процессом. Цена остается стабильной на уровне $5/$25, и добавляется более дешевый быстрый режим.
Реакция сообщества и обратная связь в реальном времени
Живые обсуждения от Lesswrong и совместные протоколы от Thezvi показывают смешанные реакции: оптимизм по поводу автоматизации, но четкие предупреждения о том, что пределы модели в аргументации не изменились. Исследователи и активные пользователи согласны: скачки производительности в программировании и автоматизированной рутине, но неопределенности в пограничных случаях и галлюцинациях вызывают осторожность. Программирование стало более последовательным, однако, как повторяется в нескольких резюме оценок Claude Opus 4.8, остаются заметные слабости в задачах, требующих широкого мышления или глубокого стратегического планирования.
Сравнение с другими ИИ-моделями
Прямые сравнительные анализы от Lesswrong и Lennysnewsletter показывают, что Opus 4.8 превосходит Sonnet 4.6 в повседневном коде и задачах рабочего процесса — но разрыв варьируется в зависимости от деталей задачи. GPT-5.5, чьи ключевые показатели и цены отсутствуют, еще не продемонстрировал свои сильные стороны в большой команде. Claude Opus 4.8 не выигрывает, потому что он лучший во всем, а потому что он превосходит конкурентов в узко определенных, повторяемых задачах, которые сейчас нужны компаниям. В некоторых нишевых логических задачах Sonnet 4.6 все еще впереди, в то время как GPT-5.5 может иметь неиспользуемую широту (хотя без результатов SWE-bench он не может действительно бросить вызов Opus в области программирования).
Opus 4.8 приносит результаты — но не универсально
Opus 4.8 сигнализирует о постоянном прогрессе — никакой радикальной переосмысленности — сосредоточившись на том, что он уже умеет: автоматизация процессов, генерация кода и быстрое прототипирование для экономных команд. Модель без труда превосходит предыдущие версии и основных конкурентов в массовом программировании и рутинных операциях. Молниеносные старты, оставаясь доступными и чисто масштабируемыми, по словам Thezvi и Lennysnewsletter.
Эта оценка Claude Opus 4.8 иллюстрирует его силь
Disclaimer: The content on this page is for informational purposes only and does not constitute financial advice. Always do your own research before making investment decisions.
Elena Petrova is a regulatory correspondent specializing in crypto law and policy with over 10 years of financial journalism experience. Formerly a finance reporter at Reuters, Elena covers SEC enforcement, MiCA implementation, and global stablecoin regulations. She holds a J.D. from Georgetown Law and is a member of the New York State Bar. Her regulatory analysis is frequently referenced by compliance officers and legal teams at major exchanges.
Conflicts of interest
I have no current legal practice or retainer relationships with any cryptocurrency company. Past employment relationships are listed publicly.