Gemini 3.0 маячит на горизонте, в твиттере всё больше слухов, на сайте в коде страницы появились первые упоминания, а пользователям AI Studio предлагает выбрать как ответ из двух лучше, где один из них __явно__ выделяется по качеству. Ответ гугла на недавние релизы OpenAI и Anthropic очень ждем. Для вас выцепил несколько примеров работы модели в режиме single-shot, то есть когда за раз генерируется весь ответ. В данном случае автор просил сгенерировать разные приложения и операционные системы — для приставок, компьютеров, айфона. И в каждом есть несколько мини-игр и/или функциональных приложений, хоть и самых простых. В среднем в коде примерно 1000-1200 строк, включая все графические элементы. Я был удивлён, что так мало кода может давать столько контента, если честно. Почему важно отметить, что генерации получены за раз? Потому что сейчас основной фокус фронтир-моделей направлен на увеличение горизонта работы, чтобы за множество шагов в режиме агента выполнять задачи на час-два-пять. Может быть так, что модель хороша в генерации сходу, но не улучшается при предоставлении большего количества времени, что плохо. В чате посравнивали с генерациями GPT-5 и Claude, выглядит сильно лучше, и предоставляет больше рабочего функционала. Очень интересно через годик будет почитать в опенсурсе о том, как сделать подобное. Моя догадка — RL с наградой через оценку функциональности агентом. То есть модель пишет код, другая модель выступает в роли тестировщика, пишет себе отчёт о работоспособности, сама выделяя ключевые пункты, и затем это кормится как фидбек в обучаемую модель.
Gemini 3.0 маячит на горизонте, в твиттере всё больше слухов, на сайте в коде…
Из этого канала
- #2998В FT вышло две колонки (раз и два) про OpenAI, описывающие текущее состояние и…
В FT вышло две колонки (раз и два) про OpenAI, описывающие текущее состояние и ближайшее будущее компании.
- #2999«CEO OpenAI Sam Altman оказывает давление на TSMC, чтобы та освободила больше…
«CEO OpenAI Sam Altman оказывает давление на TSMC, чтобы та освободила больше производственных мощностей для выпуска ИИ-чипа стартапа, разработанного совместно…
- #3001Грустно видеть, что несмотря на то, что про бенчмарк я пиал два раза за…
Грустно видеть, что несмотря на то, что про бенчмарк я пиал два раза за последние 10 дней (7 и 11 октября), всё равно половина отметила «нет, не знаем».
- #2990Недавно писал про то, что видеокарты Nvidia становятся лучше буквально с каждой…
Недавно писал про то, что видеокарты Nvidia становятся лучше буквально с каждой неделей, так как команда инженеров дописывает ПО и улучшает производительность…
- #2987Уже пару недель думаю над следующим лонгом про мою точку зрения на…
Уже пару недель думаю над следующим лонгом про мою точку зрения на беспрецедентные инвестиции в OpenAI и инфраструктуру.