Агенты ИИ | AGI_and_RL@AGI_and_RL· 5 852 subs

Ребятки из HF выкатили небольшой постик по текущему прогрессу с Open-R1…

3 февр. 2025 г.7 558 views63 forwardsОткрыть в Telegram →

Ребятки из HF выкатили небольшой постик по текущему прогрессу с Open-R1 https://huggingface.co/blog/open-r1/update-1

Источник

https://t.me/AGI_and_RL/955

Канал Агенты ИИ | AGI_and_RL · опубликовано 3 февр. 2025 г.

Из этого канала

#956Первая экспериментальная Ruadapt ризонинг модель:…
Первая экспериментальная Ruadapt ризонинг модель: RuadaptQwen2.5-14B-R1-distill-preview-v1 Это адаптация модели deepseek-ai/DeepSeek-R1-Distill-Qwen-14B с SFT…
#957Претренить нужно в INT4 Выпустили статью где задизайнили новый способ обучения…
Претренить нужно в INT4 Выпустили статью где задизайнили новый способ обучения в низкой битности: QuEST.
#958Тут потюнили 1.5B модельку и авторы пишут, что на некоторых бенчах смогли…
Тут потюнили 1.5B модельку и авторы пишут, что на некоторых бенчах смогли выбить результы больше чем у O1-Preview.
#954Инженер LLM (Оптимизация и RL Alignment) Стартап в области безопасности ИИ Чем…
Инженер LLM (Оптимизация и RL Alignment) Стартап в области безопасности ИИ Чем предстоит заниматься: Дообучение и Оценка Sota llm, аттаки на blackbox модели…
#950А вот есть у нас SFT (Supervised fine-tuning) и RL (reinforcement learning) на…
А вот есть у нас SFT (Supervised fine-tuning) и RL (reinforcement learning) на посттрейне ллмов.