Anthropic запустили Opus 4.6-Fast: теперь модель работает в 2.5 раза быстрее (примерно 100 токенов в секунду), но и стоит в 6 раз больше. В подписку на Claude Code не добавили — нужно платить самому за API. Но! Они раздают $50 в API-кредитах подписчикам на Claude вот тут — так что можно попробовать 🚀Чтобы включить модель, нужно написать `/fast` в Claude Code. В твиттере уже начали гадать, мол, что это за оптимизации, а как так, а неужели они используют Groq/Cerebras, или же это TPU от Google такие крутые, что можно в 2.5 раза разогнать. На самом деле я почти уверен, что с точки зрения железа ничего не менялось, и математика тут понятна: можно уменьшить размер батча (количество одновременно обрабатываемых сессий), что приведёт к быстрой генерации для каждого отдельного пользователя. Но тогда и выручка с единицы GPU падает, и нужно повысить цену для компенсации. Semianalysis с осени поддерживают InferenceMAX, в котором запускают разные модели на разных видеокартах. И, например, DeepSeek R1 при генерации 100 токенов в секунду на сессию выдаёт в среднем 6000 токенов в секунду на GPU , а при разгоне в 2.5 раза до 250 т/с — падает до 1000 токенов в секунду на GPU. Таким образом количество токенов падает в 6 раз, цена растёт, выручка и маржинальность не меняются. Ждём, пока OpenAI наконец-то запустятся на Cerebras, чтобы давать 150+ токенов в секунду.
Anthropic запустили Opus 4.6-Fast: теперь модель работает в 2.5 раза быстрее…
Из этого канала
- #3366На что только не пойдешь из-за дефицита памяти и роста цен: Недавно…
На что только не пойдешь из-за дефицита памяти и роста цен: Недавно продемонстрировали передачу данных по 200-километровому оптоволокну на скорости 256 Тбит/с.
- #3367Сегодня ночью, уже через 3 часа, пройдет Суперкубок — самое просматриваемое…
Сегодня ночью, уже через 3 часа, пройдет Суперкубок — самое просматриваемое событие в США.
- #3368готовимся смотреть
готовимся смотреть
- #3364[про кодинг] В чате канала описали ситуацию, мол, надо запускать разные…
[про кодинг] В чате канала описали ситуацию, мол, надо запускать разные скрипты, которые долго ждать, и агент всё пытается по разному это обойти, не всегда…
- #3362Новая 5.3-Codex была задизайнена, натренирована и развёрнута на стойках…
Новая 5.3-Codex была задизайнена, натренирована и развёрнута на стойках GB200-NVL72 с чипами Blackwell (которые начали поступать в середине прошлого года).