Больше фундаментальных моделей, хороших и разных, и за пределами языка. Две недавние работы: * Physics Foundation Model (https://t.me/gonzo_ML_podcasts/1055) — обучен General Physics Transformer (GPhyT) на симуляцию широкого спектра совершенно разных физических систем — от несжимаемых потоков и тепловой конвекции до ударных волн и многофазной динамики. Модель выучивает физические принципы из данных, обходит специализированные модели и умеет обобщать в режиме zero-shot — на новые граничные условия или физические явления, которые она не видела, например, сверхзвуковой поток. * AION-1: Omnimodal Foundation Model for Astronomical Sciences (https://t.me/gonzo_ML_podcasts/1067) — семейство крупных (от 300 млн до 3.1 млрд параметров) омнимодальных фундаментальных моделей для астрономии. Обучены энкодеры из 39 модальностей, модель хорошо перформит на малом количестве данных, даёт хорошие эмбеддинги, которые позволяют сделать высокоэффективный zero-shot поиск редких явлений типа сильных гравитационных линз, и умеет в кросс-модальную генерацию. Интересный движ!
Больше фундаментальных моделей, хороших и разных, и за пределами языка. Две…
Из этого канала
- #4163Датасет для файнтюнинга агентности... из 78 примеров. LIMI: Less is More for…
Датасет для файнтюнинга агентности... из 78 примеров. LIMI: Less is More for Agency https://t.me/gonzoMLpodcasts/1083
- #4164Je suis Markov Прикольная работа, как делать долгие цепочки рассуждений, не…
Je suis Markov Прикольная работа, как делать долгие цепочки рассуждений, не растягивая контекст, а постоянно его сбрасывая и храня небольшое состояние.
- #4166Психология ризонинга LRM в динамических ситуациях: прерывания с ограничением по…
Психология ризонинга LRM в динамических ситуациях: прерывания с ограничением по времени (требование немедленного ответа или ускорения) и динамический контекст…
- #4155"Ещё про диффузионные LLM, теперь подход Soft Masking. Здесь вместо того, чтобы…
"Ещё про диффузионные LLM, теперь подход Soft Masking. Здесь вместо того, чтобы принимать бинарное решение ""заменить `[MASK]` на реальный токен"" или нет, мы…
- #4154Интересная работа про Planned Diffusion: сначала авторегрессионно генерим план…
Интересная работа про Planned Diffusion: сначала авторегрессионно генерим план ответа, потом диффузионно впараллель заполняем его отдельные части.