"Google продолжает эксперименты с reasoner моделями. Компания обновила свою Gemini Flash Thinking (доступна бесплатно в AI Studio) - она теперь умнее, имеет миллион токенов контекста и может выполнять код (нужно отдельно включать). Вообще раздражает, что в AI studio не всегда понятно, когда именно модель пользуется поиском или исполнением кода, Моделька сейчас занимает первое место на чатбот арене, обгоняя o1, Sonnet 3.6 и другие модели, что доказывает бесполезность этой самой арены - у модели очень сильный ""small model smell"". Она уходит в думлупы, не знает многих вещей и в целом часто тупит. Но, хоть и от Gemini-Exp-1206 впечатления часто были приятнее, на кодинге с математикой Flash Thinking всё же показывает себя лучше (но слабее o1 и R1). Что мне не нравится в поведении Google в последний год - концентрация на маленьких модельках. Сначала с радаров пропала Gemini Ultra, а теперь уже и Pro не так часто появляется. Выглядит это, честно говоря, странно - как будто бы команде дают только компьют на эксперименты, но не на скейлинг. Flash Thinking, для маленькой модели, показывает себя прекрасно. Но всё же хочется посмотреть, насколько хорошей будет Gemini Pro/Ultra Thinking. И, учитывая тот факт, что дистилляция из большей модели, работает намного лучше чем RL напрямую на маленькой модели, насколько похорошеет Flash от дистилляции из моделей побольше. @ai_newz"
"Google продолжает эксперименты с reasoner моделями. Компания обновила свою…
Из этого канала
- #3631Последний экзамен человечества Новый бенчмарк, на котором все наилучшие LLM…
Последний экзамен человечества Новый бенчмарк, на котором все наилучшие LLM набирают меньше 10%.
- #3634"OpenAI показали Operator - своего первого агента Он может полноценно…
"OpenAI показали Operator - своего первого агента Он может полноценно пользоваться браузером и заказывать билеты, еду, столики и т.д.
- #3635"Kling Elements: есть ли смысл? Я уже писал про генерацию видео с заданныит…
"Kling Elements: есть ли смысл? Я уже писал про генерацию видео с заданныит объектами, когда вышла пика 2.0. Но пика, мягко говоря, слабовата.
- #3629"😮Трамп анонсировал проект Stargate по построению AI инфраструктуры в США на…
"😮Трамп анонсировал проект Stargate по построению AI инфраструктуры в США на $500 млрд Инвестиции в размере $500B – это очень много денег, и составляет 1.7%…
- #3628Забавная возможность R1 - генерировать видосы объясняющие математические…
Забавная возможность R1 - генерировать видосы объясняющие математические концепты по одному запросу. Алмазный век с его букварём все ближе.