Помните новость о том, что исследователи во главе с Алеком Рэдфордом создали винтажную LLM? Если кратко, она обучена исключительно на данных до 1930 года, ничего не знает о современных технологиях и о том, что происходило последние 90+ лет. Так вот, какие-то студенты из Германии взяли эту модель и ради эксперимента зафайнтюнили ее на кодинг. И она, внезапно, нарешала SWE bench на 4.5%! Еще раз: это модель, у которой в претрейне не было абсолютно никакого программирования. И всего лишь после 250 тренировочных примеров, с нуля, она смогла правильно решить первую задачу бенчмарка. После того, как ей показали еще ~75к примеров, она выбила 4.5% решений за один проход. На секундочку, Claude Opus 3, когда вышел, скорил на SWE bench примерно столько же. То есть: некрупная модель без знаний после 1930 года с небольшим дообучением превзошла SOTA начала 2024 года. Кстати, разработчики провели еще один эксперимент: взяли ту же модель, переобучили ее на современном вебе, и затем также зафайнтюнили на код. Прирост составил скромный 1%. «Удивительно, как мало чего теряется, если мы выбрасываем интернет. Что сдерживает модель 1930 года – так это просто ее серьезная недообученность (всего 260B токенов), а не сами данные, на которых она училась.» Если хотите покодить с 90-летней моделью, то вот здесь выложили веса и код 👴
Помните новость о том, что исследователи во главе с Алеком Рэдфордом создали…
Из этого канала
- #9157Приглашаем послушать, как ИИ троллил техногигантов 😏 Поговорим на такие темы,…
Приглашаем послушать, как ИИ троллил техногигантов 😏 Поговорим на такие темы, которые обычно не обсуждают на публике.
- #9158DeepSeek предложили новый способ улучшить мультимодальные модели Сейчас модели…
DeepSeek предложили новый способ улучшить мультимодальные модели Сейчас модели нормально “видят” изображение, но рассуждают о нем через текст.
- #9161В Москве пройдет большой офлайн-квест для разработчиков, где нужно будет…
В Москве пройдет большой офлайн-квест для разработчиков, где нужно будет «починить» сломанную реальность 23 мая Яндекс запускает «Рекурсию по городу» –…
- #9155Ричард Докинз (известный биолог и популяризатор науки) утверждает, что Claude…
Ричард Докинз (известный биолог и популяризатор науки) утверждает, что Claude может быть сознателен Он выпустил статью, в которой рассказывает, как провел три…
- #9154Доказательство 60-летней задачи Эрдеша, которое сделала GPT-5.4 Pro, внезапно…
Доказательство 60-летней задачи Эрдеша, которое сделала GPT-5.4 Pro, внезапно начало переноситься и на другие его задачи В середине апреля появилась новость о…