LLM Benchmark - December 2024 Вышел полный отчет по бенчмаркам моделей в business automation за декабрь 2024. Там написано про DeepSeek v3, o1 pro, Gemini 2.0 Flash и еще много других моделей. English / Deutsch Содержание: - Benchmarking Llama 3.3, Amazon Nova - nothing outstanding - Google Gemini 1206, Gemini 2.0 Flash Experimental - TOP 10 - DeepSeek v3 - Manual benchmark of OpenAI o1 pro - Gold Standard. - Base o1 (medium reasoning effort) - 3rd place - Our thoughts about recently announced o3 - Our predictions for the 2025 landscape of LLM in business integration - Enterprise RAG Challenge will take place on February 27th Ваш, @llm_under_hood 🤗 PS: Для тех, кто видит бенчмарки впервые, подробнее про них написано тут.
LLM Benchmark - December 2024 Вышел полный отчет по бенчмаркам моделей в…
Из этого канала
- #480Sam Altman недавно написал, что ChatGPT pro при цене в 200$ в месяц внезапно…
Sam Altman недавно написал, что ChatGPT pro при цене в 200$ в месяц внезапно оказался убыточен для OpenAI.
- #481Кейс - поиск ошибок в строительных заказах на покупку Давно не было разборов…
Кейс - поиск ошибок в строительных заказах на покупку Давно не было разборов кейсов. Давайте расскажу про один из текущих.
- #482Enterprise RAG Challenge round 2 - открыт прием заявок! > Это дружеское…
Enterprise RAG Challenge round 2 - открыт прием заявок! > Это дружеское соревнование по построению RAG-систем, которое открыто для всех.
- #478NVIDIA Project Digits - персональный AI сервер на ладошке. NVIDIA показала…
NVIDIA Project Digits - персональный AI сервер на ладошке. NVIDIA показала компактную AI платформу стоимостью в 3k USD, которая может запускать модели размером…
- #477"Как тестировать систему с LLM под капотом? Как бенчмаркать разные LLM? Давайте…
"Как тестировать систему с LLM под капотом? Как бенчмаркать разные LLM? Давайте попробуем разобраться.