Ммм, там датасетик на 250к семплов под RL над LLMками и __ризонинге__ подвезли. Все по матеше конечное Это сборка из других открытых датасетов (на скринах) + 47к своих новых (назвали Big-Math-Reformulated). Мол в открытых датасетах не всегда прям качественные данные, поэтому вот авторы хорошее пособирали и своего долили. Big-Math-RL-Verified https://huggingface.co/datasets/SynthLabsAI/Big-Math-RL-Verified Как все это дело компилировали читаем здесь: Big-Math: A Large-Scale, High-Quality Math Dataset for Reinforcement Learning in Language Models https://arxiv.org/abs/2502.17387 PS собираемся и cобираем все крутое по нейронкам тут: https://t.me/researchim
Ммм, там датасетик на 250к семплов под RL над LLMками и ризонинге подвезли. Все…
Из этого канала
- #974Ребятки, не забываем про квен (он в России работает) https://chat.qwen.ai/ Там…
Ребятки, не забываем про квен (он в России работает) https://chat.qwen.ai/ Там вроде как апдейтик с думающим Qwen2.5-Max подвезли. Нравится.
- #975Member of Technical Staff LLM (Оптимизация и RL Alignment) Стартап в области…
Member of Technical Staff LLM (Оптимизация и RL Alignment) Стартап в области безопасности ИИ Чем предстоит заниматься: Дообучение и Оценка Sota llm, аттаки на…
- #976Вышла приятная обзорка по методам посттренинга LLMов и по ризонингу. С…
Вышла приятная обзорка по методам посттренинга LLMов и по ризонингу. С красивыми табличками, схемками.
- #971У нас тут бегущий по ризонингу Ребята потренили Qwen 1.5B на то чтобы проходить…
У нас тут бегущий по ризонингу Ребята потренили Qwen 1.5B на то чтобы проходить не сильно сложные лабиринты 5x5. Но исходная моделька и этого не умела.
- #970сори, тупанул, вот правильный скрин 🤨 кроме 03-mini есть claude 3.5 и Gemini 2…
сори, тупанул, вот правильный скрин 🤨 кроме 03-mini есть claude 3.5 и Gemini 2 По лимитам я пока не понял. Но блин, с такой штукой очень удобно статейки читать