"Пара приятных и полезных находок Введение в диффузионки Step-by-Step Diffusion: An Elementary Tutorial https://arxiv.org/abs/2406.08929 И обзор методов скрытых рассуждений в ллмках (т.е. когда ллмы ""рассуждают"" не текстом в лицо, а во внутренних представлениях модельки) В целом какие подходы бывают, как тренируют и про интерпретируемость A Survey on Latent Reasoning https://arxiv.org/abs/2507.06203 https://www.alphaxiv.org/ru/overview/2507.06203v1 https://github.com/multimodal-art-projection/LatentCoT-Horizon"
"Пара приятных и полезных находок Введение в диффузионки Step-by-Step…
Из этого канала
- #1176Как насчет опенсурсной агенточной модельки на 1Т параметров? Kimi K2…
Как насчет опенсурсной агенточной модельки на 1Т параметров? Kimi K2 https://moonshotai.github.io/Kimi-K2/ https://huggingface.co/moonshotai/Kimi-K2-Instruct…
- #1177Для тех кому куда и гпу прог интересен чел выложил решения ко всем задачкам из…
Для тех кому куда и гпу прог интересен чел выложил решения ко всем задачкам из известной книжки Programming Massively Parallel Processors…
- #1178"Кстати Kimi K2 это раздутый DeepSeek V3/R1. Меньше хедов в мульти-хеде, больше…
"Кстати Kimi K2 это раздутый DeepSeek V3/R1. Меньше хедов в мульти-хеде, больше экспертов https://x.com/rasbt/status/1944056316424577525 Еще померили на…
- #1174Ну шьто, как вам грок 4 кто уже трогал?
Ну шьто, как вам грок 4 кто уже трогал?
- #1171Вышел Grok-4 По бенчмаркам SOTA, понятное дело, как обычно, в принципе. Его…
Вышел Grok-4 По бенчмаркам SOTA, понятное дело, как обычно, в принципе. Его почти сразу завезли в курсор, поэтому я немного потыкался и поспрашивал.