Llama 4 вышла - MoE по 17B на эксперта Пока в мире гадают, что это за модель Quasar на OpenRouter, Meta выпустила четвертую версию Llama Читать тут. Любоваться тут. Модели Llama 4 — это мультимодальные MoE модели, оптимизированные для многоязычных задач, программирования, вызова инструментов и создания автономных систем (агентов). Знания - по август 2024. Llama 4 Scout: - Поддерживается ввод текста и до 5 изображений. - Поддерживает арабский, английский, французский, немецкий, хинди, индонезийский, итальянский, португальский, испанский, тагальский, тайский и вьетнамский языки (понимание изображений — только на английском). - 16 экспертов по 17B - Может работать на одном GPU (при использовании INT4-квантованной версии на одном GPU H100). - Максимальная длина контекста: 10 млн токенов. Llama 4 Maverick: - Мультимодальность - Поддерживает те же языки, что и Scout (понимание изображений — только на английском). - 128 экспертов по 17B параметров - Максимальная длина контекста: 1 млн токенов. Хотя общее число параметров составляет 109B и 400B, во время вычислений активны только 17B, что уменьшает задержки при выводе и обучении. Это очень неплохо должно лечь на Apple Silicon! Ваш, @llm_under_hood 🤗