Claude Opus 4.5 Anthropic выпустили Claude Opus 4.5. Я ей уже успел попользоваться, мне понравилось. Модель SOTA на всех бенчах связанных с кодом — обходит и Sonnet 4.5 и Gemini 3 Pro и GPT 5.1 Codex Max (OpenAI всего за пару месяцев умудрились опять испортить нейминг). Самое интересное —цена, токены Opus 4.5 стоят в 3 раза дешевле чем у прошлых моделей — $5 за миллион токенов на вход и $25 на выход. Это первый раз когда Anthropic напрямую снижает цену на свои модели, при том что другие провайдеры делают это регулярно. Видимо Opus, при цене $15/$75, всё таки использовали меньше чем хотелось и пришлось поумерить аппетиты. Компания заявляет что Opus 4.5 использует на 76% меньше токенов на SWE-bench Verified чтобы сравняться с Sonnetи на 48% меньше чтобы полностью его побить. Но тесты Artificial Analysis показывают иную ситуацию — судя по ним Opus 4.5 использует больше токенов на ризонинг по сравнению и с Opus 4.1 и с Sonnet 4.5. Но повышенного использования токенов не хватает чтобы перебить снижение цены, Opus 4.5 в два раза дешевле в использовании чем 4.1. В API добавлен параметр effort для управления сложностью рассуждений. Кроме этого улучшили тулколинг — добавили инструмент для поиска инструментов и нативный способ показывать примеры использования тулов. А Programmatic Tool Calling даёт возможность вызывать инструменты через код в песочнице, обрабатывая промежуточные результаты без их попадания в контекстное окно модели. Фронтирные лабы запустили апдейты своих основных моделей, теперь месяц-другой должно быть потише. Ну это, конечно, если Google не решит выпустить Gemini Ultra. @ai_newz
Claude Opus 4.5 Anthropic выпустили Claude Opus 4.5. Я ей уже успел…
Из этого канала
- #4276😮 Black Forest Labs выпустили FLUX.2 Теперь решает возможность быстро, без…
😮 Black Forest Labs выпустили FLUX.2 Теперь решает возможность быстро, без заморочек, а главное, консистентно редактировать изображения.
- #4277Илья дал большое интервью: https://www.youtube.com/watch?v=aR20FWCCjAs Вот…
Илья дал большое интервью: https://www.youtube.com/watch?v=aR20FWCCjAs Вот главное: – Сейчас модели выглядят намного умнее на тестах, чем в реальных задачах:…
- #4278Пока Google всё ещё раскатывает свои AI-фишки для шоппинга вроде Virtual…
Пока Google всё ещё раскатывает свои AI-фишки для шоппинга вроде Virtual Try-On, Яндекс выкатил свой ответ — агента в приложении Маркета (работает только в…
- #4274Новое поколение синтеза речи в ГигаЧате Разрабочики команды синтеза речи в…
Новое поколение синтеза речи в ГигаЧате Разрабочики команды синтеза речи в Сбере запустили новое поколение голосового режима Гигачата.
- #4273OpenAI сделали DeepResearch для шоппинга С высоты птичьего полёта shopping…
OpenAI сделали DeepResearch для шоппинга С высоты птичьего полёта shopping research это тот же Deep Research — система задает уточняющие вопросы, после чего…