"Нейродайджест за неделю (#71) LLM - DeepSeek R1 обновили — теперь обходит Qwen… — @ai_newz

"Нейродайджест за неделю (#71) LLM - DeepSeek R1 обновили — теперь обходит Qwen 3 235B, но всё ещё за Gemini 2.5 Pro и o3. Больше размышляет и меньше галлюцинирует. Есть дистиллированная 8B версия. - Grok интегрируют в Telegram — по заявлению Павла Дурова, летом появится глубокая интеграция Telegram получит $300m и долю в xAI. Сделка ещё не подписана, но вроде её собираются скоро подписать. - GPT-3 стукнуло 5 лет — большой разбор того, как далеко шагнули LLM за эти годы: от 175B параметров и 2k контекста до мультимодальности, агентов, RLHF, и опенсорса, доступного каждому. Железо - NVIDIA готовит китайские GPU — B40/6000D на Blackwell, но с порезанными спеками, чтобы обойти санкции США. Ликбез - Стэнфордский курс по LLM — CS336 ""Language Modeling from Scratch"": от сбора данных до развертывания. Все материалы, код и лекции в открытом доступе. Практика с Transformer, FlashAttention 2 и RL. Интересное - Snitch Bench: кто из LLM стучит чаще? — после истории с Claude 4, который уведомлял власти, создали шуточный бенчмарк. Проверяет, как часто модели сообщают о (мнимых) правонарушениях. o4-mini самый лояльный, а последние Claude и Gemini 2.0 Flash — самые бдительные. > Читать дайджест #70 #дайджест @ai_newz"

Из этого канала