Может кому-то интересны локальные ллмки с длинными контекстами. Нвидия потюнили лламы 3.1 8B аж до 4м контекста как они пишут. С одной стороны это круто. С другой стороны я чот ни одной хорошей ллмки от нвидии не видел. Все что не щупал, ну оно прям чот не оч. Но времена-то меняются, да? Самому мне негде такой контекст инферить и тестить. Если потестите - отпишитесь в комменты пж) Насчет русского языка - хз Ну и если кому интересно - можно статью почитать From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models https://arxiv.org/abs/2504.06214 https://ultralong.github.io/ Модельки https://huggingface.co/collections/nvidia/ultralong-67c773cfe53a9a518841fbbe PS собираемся и собираем все крутое по АИшке (и проектики делаем, да) тут https://t.me/researchim
Может кому-то интересны локальные ллмки с длинными контекстами. Нвидия потюнили…
Из этого канала
- #1034В майкрософте озаботились окружением в котором модельке было бы удобнее править…
В майкрософте озаботились окружением в котором модельке было бы удобнее править проекты с кодом с использованием pdb (питон дебагер) Т.е.
- #1035Ребят, если кто смотреть будет (или смотрит)…
Ребят, если кто смотреть будет (или смотрит) https://www.youtube.com/watch?v=kA-P9ood-cE напишите в коментах если чего интересного увидите
- #1036Я буду кидать очередной имплемент GRPO когда вы меньше всего этого ждете. Я и…
Я буду кидать очередной имплемент GRPO когда вы меньше всего этого ждете. Я и сам не ждал https://github.com/policy-gradient/GRPO-Zero
- #1032Там кстати говорят что Safe Superintelligence Inc. Ильи Суцкевера оценивается в…
Там кстати говорят что Safe Superintelligence Inc. Ильи Суцкевера оценивается в $32B…
- #1031Какая локальная моделька лучшая для кодинга? Это прям вопрос, я сам ищу. Я…
Какая локальная моделька лучшая для кодинга? Это прям вопрос, я сам ищу. Я думал что может Gemma 3 27B или QwQ.