Большую часть последних 3 лет люди жалуются, что LLM тупеют: вот на релизе Opus 4.6 был ого-го! а сейчас! еле-еле пишет 5 строчек. Я в такие сказки не верю и на себе эффект не ощущаю (по крайней мере в моделях OpenAI, но я уверен, что Anthropic не нерфят модели намеренно. В сентябре, например, была пара багов, которые зацепили от 2-3% до 20% сессий, но их исправили, а Anthropic про это честно рассказали). В основном потому, что вижу, как тестируют люди: ни о какой контролируемости процесса речи не идёт. Чисто на вайбах и без методологии. Из свежего — померили что-то на 30 вопросах месяц назад, а сейчас померили на 6 из них и увидели падение 😕 даже если были бы те же 30 — доверительные интервалы были бы очень широкими, чтобы что-то поймать. Но вот с изменениями квот интереснее. Anthropic много чего поменяли и запустили за последние пару месяцев, и вероятность изменения паттернов поведения / функциональности у пользователей высокая. Включил Opus 4.6 с 1М токенов контекста? Естественным образом каждый запрос стал дороже, квота сжирается быстрее. На GitHub интересная находка — в начале марта Anthropic поменяли время кеширования запросов по умолчанию. Само по себе такое кэширование дешевле (наценка в 100% за часовой кэш против 25% за 5-минутный), но... если вы запускаете агента, и он вызывает инструменты, например, тестирования или компиляции, которые работают больше 5 минут — то следующее сообщение после этого придётся оплачивать по полной, без скидки. А если это происходит ещё и на окне в 1М токенов — то будет стоить очень дорого. Разработчики пишут, что это сделано потому, что многие запросы — разовые и без длинных вызовов, и 5-минутный кэш для них лучше. В целом в это можно поверить, что средний пользователь действительно выиграл (а компания сократила расходы на диски), но получается, что это бьёт по прошаренным пользователям, которые добавляют инструменты и отпускают агента наподольше.
Большую часть последних 3 лет люди жалуются, что LLM тупеют: вот на релизе Opus…
Из этого канала
- #3543Скорее всего на этой неделе получим новую версию генератора картинок от OpenAI,…
Скорее всего на этой неделе получим новую версию генератора картинок от OpenAI, Images v2.
- #3545Достаточно давно я писал про «Move 37» — ход 37 в одной из партий, сыгранных…
Достаточно давно я писал про «Move 37» — ход 37 в одной из партий, сыгранных AlphaGo против чемпиона.
- #3546И вот часть комментария самого Terrence Tao: В любом случае, я бы действительно…
И вот часть комментария самого Terrence Tao: В любом случае, я бы действительно сказал, что это та ситуация, когда сгенерированная ИИ статья непреднамеренно…
- #3535Andon Labs, известные по экспериментам с подключением LLM к вендинговым…
Andon Labs, известные по экспериментам с подключением LLM к вендинговым автоматам, дали AI $100'000 и трёхгодовой контракт аренды в Сан-Франциско и попросили…
- #3531Я несколько раз, начиная с декабря, писал, что Anthropic закупает мало…
Я несколько раз, начиная с декабря, писал, что Anthropic закупает мало мощностей: То есть CEO говорит, что их ставка настолько неамбициозна, что даже если…