🚬 Claude 4.0 хуже чем Claude 3.5 — неуверенно думал я, раз за разом получая… — @strangedalle

🚬 Claude 4.0 хуже чем Claude 3.5 — неуверенно думал я, раз за разом получая галлюцинации и слабую работу с текстом. Затем нашел тред на Реддите. Короткая выжимка ниже (разверните цитату). Пост-инициатор Автор приводит два бытовых примера: 4-ка неверно подсчитала наценку на продукты (перепутала количество позиций) и неправильно интерпретировала скриншот с макросами блюда, тогда как 3.7 ответила без ошибок. Кодинг-кейсы (основной вал жалоб) Sonnet 4 не нашёл баг, порождённый им же, а 3.7 обнаружила мгновенно. Icy-Way3920 / hotsev2k / Dry_Impact_2484 и др.: 4-ка чаще галлюцинирует, не читает переданный код, циклически повторяет одну и ту же ошибку, забывает контекст. Aider-benchmark и личные тесты davewolfs показали нулевой прирост точности; Gemini 2.5 и GPT-4 опережают. Падение памяти на длинных диалогах Dr_Karminski цитирует результаты Fiction.LiveBench: у 4-ки «длинная» память ощутимо слабее. Пользователи жалуются, что «200k контекста» на деле рвёт чат уже на ~30–40 k токенах. Гипотезы, почему так offlinesir: Anthropic «переобучилась» на код, просадив прочие навыки. Dmitrygm1 и vegcharli: ставка на разработчиков объясняется бизнес-моделью (API → стабильная выручка). coinclink: по внутренним метрикам Sonnet 4 лучше в «агентных» сценариях и коде, но проигрывает по «общему IQ». Практические ограничения Ограничение на сообщения в 4-ке куда строже: GregoryfromtheHood получил лишь 2–3 ответа до «rate limit». Стоимость Opus 4/API (до $70) кажется несоразмерной по сравнению с Grok Mini ($0.5) или Gemini Flash. Как у вас? 😑

Из этого канала