Читая статью DeepSeek v4, я выписал себе больше 90 вопросов. Большинство… — @seeallochnaya

Читая статью DeepSeek v4, я выписал себе больше 90 вопросов. Большинство обзоров упускают детали, хотя именно разбираясь в них можно по-настоящему чему-то научиться. Поэтому вместо лонга с фокусом на 5-7-10 аспектов я решил опробовать новый формат: Annotated Paper Walkthrough. Суть в том, что вы всё так же читаете оригинальную статью как исходник, но как только материал становится сложным или запутанным, я буквально провожу вас за руку. Вы получаете подробные сноски с визуализациями, кусками кода, ссылками и — самое главное — необходимым контекстом, чтобы не чувствовать себя потерянным. Сегодня я выпускаю v1 с первыми 50 заметками. Кое-что из того, что я разбираю: • Почему Softmax и Sigmoid в MoE-роутере заменили на Sqrt-Softplus? • Что вообще такое этот Birkhoff polytope? • Правда ли, что attention обрабатывает некоторые токены по 3 раза? • Что такое split-KV и split-K, и почему DeepSeek от них отказались? • Зачем используется Reverse KL, и откуда она вообще берется? ...и многое другое. Даже самые требовательные читатели найдут здесь для себя что-то новое. Опенсорс-модели всё ещё активно заимствуют идеи из DeepSeek v3, и нет сомнений, что детали из v4 скоро станут стандартной темой в обсуждениях и на ML-собеседованиях. Надеюсь, этот гайд поможет вам быть на шаг впереди. Как пошутил мой приятель, прочтение этого материала сделает вас не только лучше как инженера, но и как человека 😏 Верить этому или нет — не знаю, но вы попробуйте: https://dsv4.interactive.ikot.blog

Из этого канала