Помните новость о том, что исследователи во главе с Алеком Рэдфордом создали винтажную LLM? Если кратко, она обучена исключительно на данных до 1930 года, ничего не знает о современных технологиях и о том, что происходило последние 90+ лет. Так вот, какие-то студенты из Германии взяли эту модель и ради эксперимента зафайнтюнили ее на кодинг. И она, внезапно, нарешала SWE bench на 4.5%! Еще раз: это модель, у которой в претрейне не было абсолютно никакого программирования. И всего лишь после 250 тренировочных примеров, с нуля, она смогла правильно решить первую задачу бенчмарка. После того, как ей показали еще ~75к примеров, она выбила 4.5% решений за один проход. На секундочку, Claude Opus 3, когда вышел, скорил на SWE bench примерно столько же. То есть: некрупная модель без знаний после 1930 года с небольшим дообучением превзошла SOTA начала 2024 года. Кстати, разработчики провели еще один эксперимент: взяли ту же модель, переобучили ее на современном вебе, и затем также зафайнтюнили на код. Прирост составил скромный 1%. «Удивительно, как мало чего теряется, если мы выбрасываем интернет. Что сдерживает модель 1930 года – так это просто ее серьезная недообученность (всего 260B токенов), а не сами данные, на которых она училась.» Если хотите покодить с 90-летней моделью, то вот здесь выложили веса и код 👴