Ребятки захотели сделать свою опенсорсную ризонинговую ллмку.… — @AGI_and_RL

Ребятки захотели сделать свою опенсорсную ризонинговую ллмку. https://novasky-ai.github.io/posts/sky-t1/ Взяли Qwen2.5-32B-Instruct , еще взяли QwQ-32B-Preview. Обе эти модельки от Qwen, QwQ - ризонящая. Собственно ребята пособирали траекторий размышлений решения задач с QwQ, затем подправили (приводили в нужный формат) их с помощью GPT-4o-mini. Ну и потом тюнили на этом Qwen2.5 32B. Наши финальные данные содержат 5 тысяч данных по программированию из APPs и TACO, а также 10 тысяч математических данных из подмножеств AIME, MATH и Olympiads датасета NuminaMATH. Кроме того, мы добавили 1 тысячу данных по науке и головоломкам из STILL-2. Тюнили с помощью Llama-Factory за 19 часов на 8 H100. Главное что они все заопенсорсили (данные, веса, репортик вот написали). https://github.com/NovaSky-AI/SkyThought https://huggingface.co/NovaSky-AI/Sky-T1-32B-Preview

Из этого канала