Ученые из Японии выложили 2 датасета для трена по которым изначально прошлись… — @AGI_and_RL

Ученые из Японии выложили 2 датасета для трена по которым изначально прошлись ллмками Llama-3.3-70B-Instruct SwallowCode ~ 16 Billion tokens https://huggingface.co/datasets/tokyotech-llm/swallow-code (питон из The-Stack-v2 обработанный в 4 стадии - 2 фильтрации и 2 переписывания ллмкой) SwallowMath ~ 2.3 Billion tokens https://huggingface.co/datasets/tokyotech-llm/swallow-math (математика из FineMath-4+) Потом дотюнили на них Llama-3.1-8B ну и сравнили с другими способами обработки. Все на скринах, переписывание ллмкой докидывает Rewriting Pre-Training Data Boosts LLM Performance in Math and Code https://arxiv.org/abs/2505.02881 https://www.alphaxiv.org/ru/overview/2505.02881 PS собираемся и собираем инфу по ии в https://t.me/researchim

Из этого канала