LLM Benchmarks - прогресс у Google За месяц накопились новые бенчмарки. Поэтому вот сразу пачка обновлений. Gemini-2.5-pro-preview - это платная и самая большая модель Google. Она так хороша, как про нее говорят. В моем LLM бенчмарке на продуктовых задачах она побила OpenAI o1 и Anthropic Claude 3.7 Sonnet, заняв второе место. При этом она работала без Structured Outputs (ибо у Google он пока реализован шиворот навыворот) DeepSeek-V3-0324 - это новая версия DeepSeek Chat (не путать с r1). Они смогли последовательно улучшить качество предыдущей chat версии. Прогресс не стоит на месте. Посмотрим, как у них будет дальше с новыми моделями. Llama 4 модели - появились на радаре, но пока не обладают выдающимися способностями. Но это типичная картина, которая повторялась со всеми версиями Llama. Meta выпускает мощные foundational модели, которые потом тюнятся под конкретные задачи. Ждем r1 distill. Gemma-3-27B-it - а вот тут уже очень интересно становится. Эта локальная мультимодальная модель от Google Deepmind. Это первая модель такого небольшого размера, которая забралась так высоко. Заявляется контекст 128k, поддержка 140 языков и function calling. Возможно благодаря последнему модель смогла вытянуть достойный результат без поддержки Structured Output. Лучше всего она показала себя в инженерных задачах на работу со сложным кодом. Ее младшая сестренка - gemma-3-12b-it тоже отличилась и заняла место на уровне лучших моделей в пару раз больше. Что-то такое интересное Google DeepMind нащупали, что дает им возможность клепать хорошие модели по всем уровням (еще и на TPU). Будем ждать от них новых релизов. Ваш, @llm_under_hood 🤗 PS: Прочитать про мой подход к бенчмаркам можно тут. Там есть и FAQ со всеми вопросами, которые задают последние полтора года. Пожалуйста, прочитайте его, прежде чем оставлять свой первый комментарий.
LLM Benchmarks - прогресс у Google За месяц накопились новые бенчмарки. Поэтому…
Из этого канала
- #552Исключительный повод написать про квантизацию (сжатие) моделей Про квантизации…
Исключительный повод написать про квантизацию (сжатие) моделей Про квантизации я обычно не пишу, т.к. в бизнес задачах их практически не используют [1].
- #553Google: Agent2Agent Protocol (A2A) Google захотела сделать свой MCP протокол,…
Google: Agent2Agent Protocol (A2A) Google захотела сделать свой MCP протокол, только с крупными компаниями. Готово. Назвали его A2A (Agent2Agent).
- #554Cекретная Quasar Alpha модель довольно неплоха. Погадаем, кто это? У модели 8…
Cекретная Quasar Alpha модель довольно неплоха. Погадаем, кто это? У модели 8 место в моем бенчмарке на текущий момент.
- #550А как решалось AI+Coding упражнение про парсер? (см описание тут) Да все просто…
А как решалось AI+Coding упражнение про парсер? (см описание тут) Да все просто и быстро. Самое главное - думать как опытный и ленивый специалист.
- #549"Как заставить AI писать качественный код? Нужно просто мыслить масштабно.…
"Как заставить AI писать качественный код? Нужно просто мыслить масштабно. Сейчас объясню) Я знаю, что модели уже давно способны писать качественный код.