Вот и Google написали, что тоже выиграли золотую медальку (PR коммитет одобрил вординг): https://deepmind.google/discover/blog/advanced-version-of-gemini-with-deep-think-officially-achieves-gold-medal-standard-at-the-international-mathematical-olympiad/ Их результаты, в отличии от OpenAI, отсмотрены, оценены и одобрены координаторами IMO. Получилось тоже 5 задач из 6, и столько же баллов: 35 / 42. Решения были получены продвинутой версией Gemini Deep Think (аналог o3-pro у OpenAI) — режим рассуждений для решения сложных задач, включающий некоторые из новейших исследовательских методов, включая распараллеливание генерации цепочек рассуждений. Это позволяет модели одновременно исследовать и комбинировать несколько возможных решений, прежде чем дать окончательный ответ, а не следовать единой линейной цепочке рассуждений. Google дополнительно обучили эту версию Gemini новым методом RL, который позволяет использовать больше данных для многошагового рассуждения и доказательства теорем. А ещё модели/системе также предоставили доступ к тщательно отобранному корпусу высококачественных решений задач и добавили в промпт несколько отдельных инструкций специально для IMO. К сожалению, из текста не ясно, использовались ли инструменты (кроме поиска по базе ответов), от поиска в интернете до Python и Lean-движков. Хорошая новость: Google планирует сделать эту версию Deep Think доступной для группы доверенных тестировщиков, включая математиков, а после распространить ее среди подписчиков Google AI Ultra. (Текст в скобках удалить, оплата по реквизитам после публикации)
Вот и Google написали, что тоже выиграли золотую медальку (PR коммитет одобрил…
Из этого канала
- #2684«оценщики IMO находили решения Gemini понятными, точными и лёгкими для…
«оценщики IMO находили решения Gemini понятными, точными и лёгкими для следования/понимания» Решения доступны тут:…
- #2685"Anthropic меняет свою позицию по инвестициям из стран Персидского залива — CEO…
"Anthropic меняет свою позицию по инвестициям из стран Персидского залива — CEO Дарио Амодеи в служебном сообщении сообщил сотрудникам, что компания будет…
- #2686Subliminal Learning: Language Models Transmit Behavioral Traits via Hidden…
Subliminal Learning: Language Models Transmit Behavioral Traits via Hidden Signals in Data Давненько не было разборов статей про алайнмент, и вот свежий блог +…
- #2682«Миссионеры победят наёмников» — детали бифа за таланты между META и OpenAI от…
«Миссионеры победят наёмников» — детали бифа за таланты между META и OpenAI от WSJ.
- #2681Потратил утро на то, чтобы почитать эссе + вайтпейпер mechanize.work . Это…
Потратил утро на то, чтобы почитать эссе + вайтпейпер mechanize.work . Это новая компания Tamay Besiroglu и Ege Erdil, двух бывших сотрудников Epoch.AI, эссе,…