Читая статью DeepSeek v4, я выписал себе больше 90 вопросов. Большинство обзоров упускают детали, хотя именно разбираясь в них можно по-настоящему чему-то научиться. Поэтому вместо лонга с фокусом на 5-7-10 аспектов я решил опробовать новый формат: Annotated Paper Walkthrough. Суть в том, что вы всё так же читаете оригинальную статью как исходник, но как только материал становится сложным или запутанным, я буквально провожу вас за руку. Вы получаете подробные сноски с визуализациями, кусками кода, ссылками и — самое главное — необходимым контекстом, чтобы не чувствовать себя потерянным. Сегодня я выпускаю v1 с первыми 50 заметками. Кое-что из того, что я разбираю: • Почему Softmax и Sigmoid в MoE-роутере заменили на Sqrt-Softplus? • Что вообще такое этот Birkhoff polytope? • Правда ли, что attention обрабатывает некоторые токены по 3 раза? • Что такое split-KV и split-K, и почему DeepSeek от них отказались? • Зачем используется Reverse KL, и откуда она вообще берется? ...и многое другое. Даже самые требовательные читатели найдут здесь для себя что-то новое. Опенсорс-модели всё ещё активно заимствуют идеи из DeepSeek v3, и нет сомнений, что детали из v4 скоро станут стандартной темой в обсуждениях и на ML-собеседованиях. Надеюсь, этот гайд поможет вам быть на шаг впереди. Как пошутил мой приятель, прочтение этого материала сделает вас не только лучше как инженера, но и как человека 😏 Верить этому или нет — не знаю, но вы попробуйте: https://dsv4.interactive.ikot.blog
Читая статью DeepSeek v4, я выписал себе больше 90 вопросов. Большинство…
Из этого канала
- #3615Надеюсь, многие из вас помнят бенчмарк FrontierMath по оценке моделей на очень…
Надеюсь, многие из вас помнят бенчмарк FrontierMath по оценке моделей на очень сложных математических задачах около-исследовательского уровня (то есть…
- #3616"Немного обновлений по ходу судебного дела Musk v Altman. Я частично слушаю…
"Немного обновлений по ходу судебного дела Musk v Altman. Я частично слушаю разговоры на стриме из суда на YouTube, полностью послушал допрос Ilya Sutskever,…
- #3618Маленькое обновление по свежему бенчмарку ProgramBench (писал о нем неделю…
Маленькое обновление по свежему бенчмарку ProgramBench (писал о нем неделю назад тут).
- #3613🚀📸Красота
🚀📸Красота
- #3612В предстоящем полете (оптимистично — на следующей неделе) нас ждёт всё новое: —…
В предстоящем полете (оптимистично — на следующей неделе) нас ждёт всё новое: — новый корабль версии v3 — новый ускоритель версии v3 — новая башня, вторая на…