Мне кажется, одним из следующих больших майлстоунов в обучении фронтирных… — @gonzo_ML

Мне кажется, одним из следующих больших майлстоунов в обучении фронтирных моделей будет обучение на большом, актуальном и курируемом массиве учебной и научной литературы. Это всё в целом как бы не новая идея. Модели и сейчас уже весьма неплохо отвечают на разные актуальные вопросы, решают сложные задачи уровня вплоть до олимпиадного и прогрессируют крайне быстро. Какие-то модели откровенно на книгах и обучаются, см. “Textbooks Are All You Need” (https://arxiv.org/abs/2306.11644, разбирали тут https://t.me/gonzo_ML/1871). Злые языки правда утверждают, что обучаются они на тест сете, отсюда развитие концепции до “Pretraining on the Test Set Is All You Need” (https://arxiv.org/abs/2309.08632). Другие авторы моделей очень не любят раскрывать состав своих трейн сетов, и не факт, что из-за наличия там тест сетов, может также из-за сложностей с авторским правом. То есть мы вроде как бы и так уже там или по крайней мере идём. Но я думаю, что до реально масштабного обучения на учебниках, нам ещё надо сколько-то пройти. И попутно надо решить несколько вопросов: 1) Авторское право. Хорошие учебники кому-то принадлежат, защищены авторским правом и они не в опенсорсе с удобной лицензией. И нескоро там будут. Это сложная и многогранная тема и проблема требует системного решения, которое должно включать и экономические стимулы. Пользы от того, что кто-то сделал хороший учебник, а прибыль потом извлекает автор обученной на нём модели, тоже немного. Как-то должна перестроиться вся экономика вокруг таких моделей и данных. 2) Реально большой эффективный контекст, достаточный чтобы модель смогла интернализировать большие области знаний ничего не теряя, а также по ходу дела подтягивать свежие результаты, идеально без переобучения модели. Учебники скорее всего должны быть какого-то нового формата. Возможно частью решения будут являться knowledge graphs, но возможно не будут, большого их количества по разным областям как-то не появилось. 3) Зрелый RAG и иные тулы для работы с новой информацией. Тут вроде ничего нового, будет нужна верификация и оценка качества, оркестрация для регулярных обновлений и предобработки новых книг, статей и прочего, и в целом выстраивание системы, где интеграция старого и нового знания происходит более-менее автоматически. 4) Мультимодальность как минимум для текста + картинок, которых везде миллион и их надо хорошо понимать -- диаграммы, графики, схемы, математические и другие формулы. Видео тоже может быть полезно, но начать можно и без него. Интересно как бы могло выглядеть хорошее обучающее видео не для человека, а для модели? На выходе получится модель, или даже скорее агент-помощник учёного, обладающий недюжинными способностями в разных областях знаний. Copilot для учёного, а со временем и авто-учёный, куда многие и так идут. А также заодно и тьютор или Букварь для благородных девиц. Где-то рядом находится вопрос про safety, misuse, dual use и прочие опасные способности моделей. Тестирования моделей на такие способности уже давно есть (https://www.aisi.gov.uk/work/pre-deployment-evaluation-of-anthropics-upgraded-claude-3-5-sonnet) и описанное здесь обучение риски безусловно поднимет. Но бенефиты, я уверен, велики, и явно будет разделение на модели для людей проверенных и для всех остальных. Большая и самая значимая часть проблем здесь, как видно, не совсем техническая.

Из этого канала