Ученые из Японии выложили 2 датасета для трена по которым изначально прошлись ллмками Llama-3.3-70B-Instruct SwallowCode ~ 16 Billion tokens https://huggingface.co/datasets/tokyotech-llm/swallow-code (питон из The-Stack-v2 обработанный в 4 стадии - 2 фильтрации и 2 переписывания ллмкой) SwallowMath ~ 2.3 Billion tokens https://huggingface.co/datasets/tokyotech-llm/swallow-math (математика из FineMath-4+) Потом дотюнили на них Llama-3.1-8B ну и сравнили с другими способами обработки. Все на скринах, переписывание ллмкой докидывает Rewriting Pre-Training Data Boosts LLM Performance in Math and Code https://arxiv.org/abs/2505.02881 https://www.alphaxiv.org/ru/overview/2505.02881 PS собираемся и собираем инфу по ии в https://t.me/researchim
Ученые из Японии выложили 2 датасета для трена по которым изначально прошлись…
Из этого канала
- #1087Хм, там Хуавей выложили статью как тренили свою PanguUltraMoE с 718 миллиардов…
Хм, там Хуавей выложили статью как тренили свою PanguUltraMoE с 718 миллиардов параметров Модельку саму не выкладывают Интересного тут 1. моделька от хуавея 2.
- #1090Полный ноль в ризонинге В смысле, что для обучению ризонингу не надо…
Полный ноль в ризонинге В смысле, что для обучению ризонингу не надо заготовленных данных. Моделька сама формулирует задачи, сама пытается их решать.
- #1091просто double DQN проходит простой уровень из марио…
просто double DQN проходит простой уровень из марио https://www.reddit.com/r/reinforcementlearning/comments/1kidoi3/mario/
- #1083AI модерацию очень сложно мерить — нужно учитывать разные виды контента, быстро…
AI модерацию очень сложно мерить — нужно учитывать разные виды контента, быстро отвечать, не false positiвить.
- #1082HF 🤗 выложили nanoVLM учебный проект по трену и тюну небольших VLMок…
HF 🤗 выложили nanoVLM учебный проект по трену и тюну небольших VLMок https://github.com/huggingface/nanoVLM