Вышла приятная обзорка по методам посттренинга LLMов и по ризонингу. С красивыми табличками, схемками. Много про разного вида RL который можно применять, цепочки рассуждений, test-time scaling и вот это все Читаем! LLM Post-Training: A Deep Dive into Reasoning Large Language Models https://arxiv.org/abs/2502.21321 И конечно же листик пособирали, тоже приятный. https://github.com/mbzuai-oryx/Awesome-LLM-Post-training PS собираемся и собираем все крутое по нейронкам тут https://t.me/researchim
Вышла приятная обзорка по методам посттренинга LLMов и по ризонингу. С…
Из этого канала
- #979reinforcementlearningreinforcementlearningreinforcementlearning Ну шьто? Эндрю…
reinforcementlearningreinforcementlearningreinforcementlearning Ну шьто? Эндрю Барто и Ричард Саттон получают премию Тьюринга за RL 🥳🕺🥰…
- #980Квены дают QwQ-32B. Моделька с размышлениями, которую можно у себя развернуть.…
Квены дают QwQ-32B. Моделька с размышлениями, которую можно у себя развернуть. Контекст 131,072 токенов https://qwenlm.github.io/blog/qwq-32b/…
- #981AMD выложили 3B модельки трененые на MI300X…
AMD выложили 3B модельки трененые на MI300X https://rocm.blogs.amd.com/artificial-intelligence/introducing-instella-3B/README.html…
- #975Member of Technical Staff LLM (Оптимизация и RL Alignment) Стартап в области…
Member of Technical Staff LLM (Оптимизация и RL Alignment) Стартап в области безопасности ИИ Чем предстоит заниматься: Дообучение и Оценка Sota llm, аттаки на…
- #974Ребятки, не забываем про квен (он в России работает) https://chat.qwen.ai/ Там…
Ребятки, не забываем про квен (он в России работает) https://chat.qwen.ai/ Там вроде как апдейтик с думающим Qwen2.5-Max подвезли. Нравится.