Qwen2.5-7B-Instruct-Tool-Planning-v0.1 Первый vikhr обученный на Function Calling а так же Tool planing! Модель обучена преимущественно на английском и это экспериментальный чекпоинт, используйте и пишите отзывы! 🔗модель 🔗датасет
Qwen2.5-7B-Instruct-Tool-Planning-v0.1 Первый vikhr обученный на Function…
Из этого канала
- #965HuggingFace 🤗 выложили The Ultra-Scale Playbook: Training LLMs on GPU Clusters…
HuggingFace 🤗 выложили The Ultra-Scale Playbook: Training LLMs on GPU Clusters https://huggingface.co/spaces/nanotron/ultrascale-playbook - это интерактивный…
- #966Там это... Ребята из Саканы выложили своего оптимизатора торч кода для…
Там это... Ребята из Саканы выложили своего оптимизатора торч кода для видеокарт. The AI CUDA Engineer: Agentic CUDA Kernel Discovery, Optimization and…
- #967"🌸MLGym – открытый фреймворк и бенчмарк для Агентов в автоматизации ML-задач🌸…
"🌸MLGym – открытый фреймворк и бенчмарк для Агентов в автоматизации ML-задач🌸 #nlp #проnlp #nlppapers Сегодня, под конец этой насыщенной недели, мы с коллегами…
- #963Кстати, Сэм Альтман проводил опрос, чего бы опенсурснуть следующим - модельку…
Кстати, Сэм Альтман проводил опрос, чего бы опенсурснуть следующим - модельку типа o3-mini (небольшую рассуждалку) или вообще мелкую модельку которую можно…
- #962Ребята из Open-R1 продолжают рассказывать о том, что сейчас делают.…
Ребята из Open-R1 продолжают рассказывать о том, что сейчас делают. https://huggingface.co/blog/open-r1/update-2 Нагенерили датасетов (трейсы с R1 к решению…