"🍓o1 — Новая прорывная модель для кодинга от OpenAI Не успел я выступить на DotNext с докладом про использование LLM в разработке (слайды тут) и хвалами в адрес Claude Sonnet 3.5, как OpenAI выпустили новую модель для программирования, которая по их же описанию оставила далеко позади все остальные модели в задачах на программирование и математику. Результаты у этих моделей, судя по анонсу OpenAI, действительно прорывные. Я не буду здесь пересказывать анонс OpenAI, т. к. это уже многие сделали (раз, два, три). Результаты моделей o1 в задачах на программирование Собственно, перейду сразу к результатам. Я предлагаю сразу смотреть на мой любимый LiveCodeBench, т. к. кажется, что остальные бенчмарки по программированию с выходом Sonnet 3.5 и o1 уже не очень показательны (например, HumanEval). Сосредоточим внимание на колонке Hard и Medium (т. к. в. категории Easy там уже почти некуда соревноваться). Если включить все задачки (оттянуть ползунок влево), то мы увидим картинку как на скриншоте. Видно, что в категории задач уровня Hard (требующих наилучшего reasoning), модель O1-Preview опережает Sonnet 3.5 почти на 30%, а вот модель O1-Mini на сложных задачах оказалось умнее, чем Sonnet 3.5 аж более, чем в 3 раза! Кроме того, на свеженькие вопросы со StackOverflow новые модели отвечают на 30% лучше. Отмечу, что размер контекстного окна на output существенно расширен (для o1-preview до 32к токенов, а для o1-mini до 65к). При этом, общий размер контекстного окна (вход + выход) 128к токенов (тут, увы, не удивили). Как это работает? Есть такой интересный прием CoT (Chain of thought) - это когда в конце промпта мы просто добавлявляем ""Думай шаг за шагом"". Удивительно, но этот подход существенно улучшает способности модели к решению сложных задач - он универсален, т. е. применим чуть ли не к любым LLM. Так вот, OpenAI каким-то образом приучили свои новые модели всегда использовать этот подход, наделив их, по сути, нативными способностями к декомпозиции и подробному, многошаговому анализу задачу. Примечательно, что новые модели даже иногда могут прийти к некому промежуточному выводу, затем поймать себя на ошибке исправиться. Всю инфу по o1 OpenAI собрали в хабе o1. А еще, ребята из GitHub Copilot тоже подсуетились и, похоже, совсем скоро мы увидим новые модели и там. Как попробовать? 1) В интерфейсе ChatGPT с подпиской ChatGPT Plus. 2) Через API OpenAI (но для этого пока нужен ~~аж 5-й tier~~ upd: уже 3-й tier) 3) Через API OpenRouter - я тестировал именно так, работает действительно отлично. 4) Через API Azure OpenAI (но сначала нужно оставить заявку на доступ) 5) Бесплатно из плагина Double для VSCode (спасибо автору канала Not Boring Tech за инструкцию) 6) Через телеграм-бот Ильи Гусева (бесплатно всего 2 запроса в день) P.S. Рад видеть новых подписчиков в своем канале - спасибо всем, кто присоединился! Чуть позже будет пост-навигатор по самым интересным материалам канала, а также мощный воркшоп про смысл асинхронности в .NET. — Пробелов.NET. Спасибо, что читаете :)"
"🍓o1 — Новая прорывная модель для кодинга от OpenAI Не успел я выступить на…
Источник
https://t.me/ai_driven/29Канал AI-Driven Development. Родион Мостовой · опубликовано 13 сент. 2024 г.
Из этого канала
- #31"Актуальная картина по LLM для разработки на октябрь Звезда недели — Claude…
"Актуальная картина по LLM для разработки на октябрь Звезда недели — Claude Sonnet 3.5 v2 — самая практичная модель для кодинга Многие ждали новую Opus, но…
- #37"Как устроен лучший автономный AI-разработчик на сегодня (публично доступный)…
"Как устроен лучший автономный AI-разработчик на сегодня (публично доступный) Anthropic сделали большое дело — опубликовали статью о том, как им удалось…
- #38"SearchGPT для задач программирования Новая функция поиска в ChatGPT — вещь…
"SearchGPT для задач программирования Новая функция поиска в ChatGPT — вещь потрясающая и для задач на программирование тоже.
- #28aider — AI-Junior разработчик, доступный из вашей любимой IDE Друзья, совместно…
aider — AI-Junior разработчик, доступный из вашей любимой IDE Друзья, совместно с клубом Эволюция Кода публикуем воркшоп по (субъективно) наиболее удобному и…
- #24"Текущая картина по моделькам для кодинга, мое грядущее выступление на DotNext…
"Текущая картина по моделькам для кодинга, мое грядущее выступление на DotNext и...