Интересные инсайды о китайском ИИ от фаундера компании, с которой мы общаемся на тему инвестиций. Он жил в одной комнате в общаге с фаундером Qwen, привожу тезисно его мысли: Модель V3 обеспечивает огромный прирост эффективности (до 90%) благодаря Multi-head Latent Attention и Mixed Precision Training. Во время инференса экономия около 15% благодаря кешированию матрицы K-V. R1 Zero - это прорыв в использовании RL без supervised fine-tuning. Их модель вознаграждения на основе правил и эксперименты с дистилляцией демонстрируют четкий, воспроизводимый путь к улучшению производительности, показывая, что LLM+RL — это следующая мега-волна. С плоской, гибкой структурой и достаточным количеством вычислительных ресурсов, команда DeepSeek, состоящая в основном из недавних выпускников, движется быстро. Они самофинансируются крупной квантовой фирмой, свободны от давления инвесторов и бесконечных питчей, поэтому сосредоточены на создании лучшей модели. Они доказали, что модель 7B может соперничать с моделями в 70B параметров. Эффективность - это новый рубеж, как в инженерии, так и в использовании данных, а LLM+RL открывает неизученный потенциал масштабирования. Хотя DeepSeek пока не превосходит внутренние модели OpenAI, это звоночек: большие прорывы больше не требуют исследователей с громкими именами или больших инвестиционных бюджетов.
Интересные инсайды о китайском ИИ от фаундера компании, с которой мы общаемся…
Из этого канала
- #2224Как фаундеру привлечь инвестиции и выйти на рынок? Стартап — дело рисковое.…
Как фаундеру привлечь инвестиции и выйти на рынок? Стартап — дело рисковое. Создать продукт с нуля, чтобы клиенты за него платили, а инвесторы дали денег —…
- #2225Шаг 1 – природа эволюционирует, создаёт людей Шаг 2 – люди изобретают…
Шаг 1 – природа эволюционирует, создаёт людей Шаг 2 – люди изобретают математику, транзисторы и диплернинг Шаг 3 – люди используют RL, чтобы улучшать модели и…
- #2226"Поговорили с Медузой о том куда катится ИИ и зачем нам кибернетическая…
"Поговорили с Медузой о том куда катится ИИ и зачем нам кибернетическая экономика.
- #2222Китайский робобалет. А после выступления им выдать плётки для погони за теми…
Китайский робобалет. А после выступления им выдать плётки для погони за теми кто недостаточно рьяно лайкал.
- #2221"В конечном счёте, паника вокруг DeepSeek не означает, что кто-то проигрывает.…
"В конечном счёте, паника вокруг DeepSeek не означает, что кто-то проигрывает. Это означает, что у нас нет рва (конкурентного преимущества), для любого…