Мнение DeepSeek просто респект за то, что могут вот так шуму навести. Мне стало казаться, что никто и не собирается уже. Основной кайф что многое опенсорсят. Остальные могут повторять и ресечить мощно. Кроме них есть Qwen, Mistral которые очень большие молодцы, много выкладывают. Mistral Nemo вон какой крутой, квены постоянно тюнят и делают локальные модельки. OpenAI - локомотив. У них суперребятки (хотя чот в последнее время куча народу ушло, да? Зачем?), у них много ресурсов, старгейт вон. Кажется, что они смогут в любом случае. Часто цены снижают, модельки обновляют на более новые, RL двигают (это кстати они в очередной раз сделали RL великим). Но вот в РФ допустим они просто так не работают... Мне лично гораздо ценнее иметь крутую локальную модельку, чем где-то там в облаке. Кажется, что для всех лучше если они будут там друг друга поджимать, выкладывать модельки и цены снижать. Поэтому просто кайфуем. Я кстати за DeepMind 😃 (Что у них там вообще происходит?) Где можно просто початиться: Дипсик - https://www.deepseek.com/ (но щас им плохо, толком не работает, надеюсь полегчает) Квен - https://chat.qwenlm.ai/ Mistral - https://chat.mistral.ai/
Мнение DeepSeek просто респект за то, что могут вот так шуму навести. Мне стало…
Из этого канала
- #948Самый интересный и популярный алгоритм для тренировки ллмок GRPO заехал в trl…
Самый интересный и популярный алгоритм для тренировки ллмок GRPO заехал в trl https://github.com/huggingface/trl/blob/main/docs/source/grpotrainer.md Вообще…
- #949Ребята, я зашел на сайт дипсиков и они и правда упоминают в коде OpenAI 😱😱😱 Вот…
Ребята, я зашел на сайт дипсиков и они и правда упоминают в коде OpenAI 😱😱😱 Вот так вот верь им теперь.
- #950А вот есть у нас SFT (Supervised fine-tuning) и RL (reinforcement learning) на…
А вот есть у нас SFT (Supervised fine-tuning) и RL (reinforcement learning) на посттрейне ллмов.
- #945"🚀 @SBERLOGASCI webinar on data science: 👨🔬 Алексей Трепецкий ""Введение в RL…
"🚀 @SBERLOGASCI webinar on data science: 👨🔬 Алексей Трепецкий ""Введение в RL алгоритм Actor-Critic"" ⌚️ Среда (29 января 2025) 19.00 (по Москве) Actor-Critic…
- #944А Дэвид Сильвер (лидил в DeepMind ресеч по AlphaGo, AlphaZero и ко-лидил…
А Дэвид Сильвер (лидил в DeepMind ресеч по AlphaGo, AlphaZero и ко-лидил AlphaStar) кстати показывал вот такие слайдики на RL Conference в августе.