"Чуваки из Сakana AI (это японский стартап, основанный исследователями из… — @NeuralShit

"Чуваки из Сakana AI (это японский стартап, основанный исследователями из Google) напилили Text-to-LoRA. Суть: создание адаптера LoRA на лету по текстовому описанию задачи. Обычно, чтобы настроить языковую модель на конкретную задачу, требуется пердолинг с датасетом (сбор данных, разметка), дообучение и дрочба с подбором гиперпараметров. Вместо этого T2L использует гиперсеть, которая генерирует матрицы адаптации LoRA по обычному текстовому описанию задачи. Самое интересное — разработчики обещают, что оно может работать с незнакомыми типами задач. Получается эдакий вайбкодинг для файнтюна моделек. Работает с Mistral, Llama и Gemma. В пейпере пишут, что стоимость запуска этого ништяка в среднем в 4 раза ниже, чем стандартное обучение на примерах. Но есть и ложка дегтя: работает оно более-менее нормально только с хорошо расписанным промптом, просто написать ""сделай, чтоб задача решилась быстро, хорошо и заебись"" не получится — на выходе будет лора, которая делает красиво, но не то, что хотелось. Тут статья. Тут код"

Из этого канала