Мы уже писали про варианты JEPA, например, JEPA для time series (https://t.me/gonzo_ML_podcasts/513) или для видео, типа V-JEPA (https://t.me/gonzo_ML/3501) и V-JEPA 2 (https://t.me/gonzo_ML/3953). Теперь JEPA доехала до LLM и есть LLM-JEPA! https://t.me/gonzo_ML_podcasts/880 Результат интересный. Главный челлендж, как для языковых данных создавать различные view.
Мы уже писали про варианты JEPA, например, JEPA для time series…
Из этого канала
- #4055Когда же уже R2 наконец?! DeepSeek-V3.1 → DeepSeek-V3.1-Terminus ✨ What’s…
Когда же уже R2 наконец?! DeepSeek-V3.1 → DeepSeek-V3.1-Terminus ✨ What’s improved? 🌐 Language consistency: fewer CN/EN mix-ups & no more random chars.
- #4057Что почитать в дороге
Что почитать в дороге
- #4058Что-то интересное: Happy to release Meta Code World Model (CWM), a…
Что-то интересное: Happy to release Meta Code World Model (CWM), a 32-billion-parameter dense LLM that enables novel research on improving code generation…
- #4040 Самодистилляция: Ещё более удивительно, что авторы показывают, как…
Самодистилляция: Ещё более удивительно, что авторы показывают, как самодистилляция (тоже упоминалась в канале не раз, один из интересных кейсов тут…
- #4039Хотя регуляризация решает проблему масштабирования одной модели, авторы…
Хотя регуляризация решает проблему масштабирования одной модели, авторы задаются вопросом, есть ли лучший способ потратить бесконечные вычислительные ресурсы.