В дополнение к посту о следующем майлстоуне — обучении LLM на актуальной… — @gonzo_ML

В дополнение к посту о следующем майлстоуне — обучении LLM на актуальной учебной литературе — хочу обсудить конкретное проявление тренда: доменно-специфичные модели (DLLM). DLLM могут стать самым заметным дизрапшном. По разным оценкам ежегодно выходит 2,8-3,3 млн новых научных статей — человек их не прочтёт, а копилот-модель сможет. Вероятнее всего, в большинстве значимых областей появятся модели-эксперты, способные отвечать на вопросы по этой области, помогающие решать текущие задачи и дать человеку буст уровня x10 к текущей производительности. Можно будет иметь эксперта по современной физике, супер-интеллектуального помощника в области материаловедения, глубокого эксперта в software engineering, советника в медицине или сельском хозяйстве и так далее. Между собой модели много чем будут отличаться — разные типы знаний, про многие из которых другим моделям знать не обязательно (физика твёрдого тела не требуется компилятору; медицинской модели не критично знание лицензий ПО), разные требования к лицензиям и безопасности, разные процедуры оценки качества и так далее. Будет и везде своя регуляторика, проверки и сертификации. Нужна мультимодальность, но на более детальном уровне она будет разной — даже для картиночной модальности объекты будут сильно разными: 3D молекулы, медснимки, UML-диаграммы, фазовые графики — под каждую дисциплину своя суб-модальность. Не думаю, что DLLM будут покрыты текущими производителями универсальных моделей. Их не хватит, чтобы глубоко копнуть во все эти области и заниматься постоянным обновлением и контролем качества. Но вероятно они предоставят хорошие базовые модели и инфраструктуру для их тюнинга и использования. А другие люди и организации, обладающие уникальными данными и экспертизой, будут DLLM создавать. Этот процесс, вероятно, придётся организовывать самим. Важными измерениями здесь будут scale-диапазон (on-device → GPU-кластер), и открытая или закрытая (что и как ты контролируешь). В edge и on-device, думаю, будет особенно много интересного в ближайшие годы. Во многих местах надо уметь работать без интернета, особенно если это какой-то непрерывный техпроцесс. Траектория с самостоятельным предобучением модели (уровня сотен миллиардов — триллионов токенов) останется для избранных и самых богатых, а совсем массовым сценарием будет адаптация базовой модели, в облаке или локально. Данные по сути распадаются на три разных слоя: 1. Core corpus — стабилизированные источники (учебники, ГОСТы, review-статьи). 2. Dynamic feed — preprints, патенты, свежая пресса (auto-RAG-pipeline). 3. Telemetry (приватные логи и фидбек) — чтобы модель постепенно училась на контексте конкретной организации. Особая ценность: способность держать эти слои в актуальном состоянии (а это уже SaaS-ниша под названием «DataOps for DLLM»). Core обновляется раз в квартал, Dynamic feed — ежедневный (или даже streaming) ingest препринтов и патентов через RAG-пайплайн, Telemetry — online fine-tuning / RLHF. Отдельно поверх этих слоёв лежит слой комплаенса: для Core-корпуса важна лицензия, для Dynamic — проверка авторских прав, для Telemetry — GDPR/локальные законы. Ну и в реальности это будет не просто DLLM, а агент с DLLM внутри, обвешанный специальными дополнительными инструкциями, тулами, да и другими агентами. Большая тема — доменные бенчмарки, а может в пределе и сертификация. С одной стороны без бенчмарков доверия не будет, с другой стороны всё равно надо проверять на своих данных и задачах, так или иначе у каждой компании своя специфика и свои требования, и разные модели могут вести себя по-разному. У DLLM профиль рисков отличается от общей модели — хорошая доменная модель ошибается реже, но цена ошибки выше: неправильная дозировка, некорректный отчёт. Отсюда — необходимость доменного аудита, traceable citations, где-то explainability. Вероятно, появится рынок независимого red-team-аудита, который регуляторы и страховщики будут учитывать при выводе модели в прод.

Из этого канала