За первые сутки с момента релиза Gemini 3.0 меня поразило 3 вещи: — во-первых, гугл смог СОБРАТЬСЯ и не запускать 5 версий превью, растягивая релизы и глобальный релиз. Всё очень собрано, как и полагается большой корпорации: модель сразу доступна в AI Overview (вкладка поиска), сразу подключена к Gmail / Docs, даже новую IDE выкатили под модель. Цена известна, лимиты адекватные, не придраться. Две другие вещи связаны с бенчмарками, о них поговорим с картинками:
За первые сутки с момента релиза Gemini 3.0 меня поразило 3 вещи: — во-первых,…
Из этого канала
- #3111Первая категория бенчмарков — это на знания, насколько много мелких сложных…
Первая категория бенчмарков — это на знания, насколько много мелких сложных фактов и нюансов зашито внутри модели.
- #3112Вторая категория — агентские, с итерациями и обратной связью. Тут пока только…
Вторая категория — агентские, с итерациями и обратной связью. Тут пока только два бенчмарка, про один, Vending Bench, я писал вчера.
- #3113Иииии OpenAI установили рекорд! По самому быстрому объявлению модели устаревшей…
Иииии OpenAI установили рекорд! По самому быстрому объявлению модели устаревшей — GPT-5.1-Codex, представленный 13-го ноября (6 дней назад), теперь уходит в…
- #3108Первая картинка — результат отдельных запусков Вторая — результаты арены на 4…
Первая картинка — результат отдельных запусков Вторая — результаты арены на 4 модели
- #3107Vending-Bench 2 (+ Arena) Долгосрочная согласованность действий агентов сейчас…
Vending-Bench 2 (+ Arena) Долгосрочная согласованность действий агентов сейчас важна как никогда.