Большую часть последних 3 лет люди жалуются, что LLM тупеют: вот на релизе Opus… — @seeallochnaya

Большую часть последних 3 лет люди жалуются, что LLM тупеют: вот на релизе Opus 4.6 был ого-го! а сейчас! еле-еле пишет 5 строчек. Я в такие сказки не верю и на себе эффект не ощущаю (по крайней мере в моделях OpenAI, но я уверен, что Anthropic не нерфят модели намеренно. В сентябре, например, была пара багов, которые зацепили от 2-3% до 20% сессий, но их исправили, а Anthropic про это честно рассказали). В основном потому, что вижу, как тестируют люди: ни о какой контролируемости процесса речи не идёт. Чисто на вайбах и без методологии. Из свежего — померили что-то на 30 вопросах месяц назад, а сейчас померили на 6 из них и увидели падение 😕 даже если были бы те же 30 — доверительные интервалы были бы очень широкими, чтобы что-то поймать. Но вот с изменениями квот интереснее. Anthropic много чего поменяли и запустили за последние пару месяцев, и вероятность изменения паттернов поведения / функциональности у пользователей высокая. Включил Opus 4.6 с 1М токенов контекста? Естественным образом каждый запрос стал дороже, квота сжирается быстрее. На GitHub интересная находка — в начале марта Anthropic поменяли время кеширования запросов по умолчанию. Само по себе такое кэширование дешевле (наценка в 100% за часовой кэш против 25% за 5-минутный), но... если вы запускаете агента, и он вызывает инструменты, например, тестирования или компиляции, которые работают больше 5 минут — то следующее сообщение после этого придётся оплачивать по полной, без скидки. А если это происходит ещё и на окне в 1М токенов — то будет стоить очень дорого. Разработчики пишут, что это сделано потому, что многие запросы — разовые и без длинных вызовов, и 5-минутный кэш для них лучше. В целом в это можно поверить, что средний пользователь действительно выиграл (а компания сократила расходы на диски), но получается, что это бьёт по прошаренным пользователям, которые добавляют инструменты и отпускают агента наподольше.

Из этого канала