Learning to Reason in 13 Parameters https://www.alphaxiv.org/ru/overview/2602.04118 Исследователи разработали TinyLoRA – метод эффективной тонкой настройки параметров, который позволяет большим языковым моделям приобретать сложные навыки математического рассуждения, обучаясь всего на 13 параметрах. Этот подход, в сочетании с обучением с подкреплением, достиг 91% точности на GSM8K, демонстрируя значительный прогресс в адаптации моделей со сверхнизкой емкостью.
Learning to Reason in 13 Parameters…
0 viewsОткрыть в Telegram →
Из этого канала
- #5981Maximum Likelihood Reinforcement Learning https://www.arxiv.org/abs/2602.02710…
Maximum Likelihood Reinforcement Learning https://www.arxiv.org/abs/2602.02710 https://www.alphaxiv.org/overview/2602.02710…
- #5982QuantaAlpha: An Evolutionary Framework for LLM-Driven Alpha Mining…
QuantaAlpha: An Evolutionary Framework for LLM-Driven Alpha Mining https://arxiv.org/abs/2602.07085 https://github.com/QuantaAlpha/QuantaAlpha
- #5983Weak-Driven Learning: How Weak Agents make Strong Agents Stronger…
Weak-Driven Learning: How Weak Agents make Strong Agents Stronger https://arxiv.org/abs/2602.08222 https://github.com/chenzehao82/Weak-Driven-Learning
- #5979Вчера весь вечер долбился с lean сервером для генережки данных Он в ray при…
Вчера весь вечер долбился с lean сервером для генережки данных Он в ray при многопоток падает, переполняется Сегодня хочу починить
- #5978amp https://ampcode.com/ агент на всех популярных моделях, есть как cli…
amp https://ampcode.com/ агент на всех популярных моделях, есть как cli вариант, так и IDE extensions подписки нет, оплата только по токенам - но есть 10$ free…