Наглядно о том, как быстро сейчас идет прогресс в LLM и как быстро насыщаются бенчмарки. Но это нормальная история, что более простые начинают решаться под сотню, в том числе и потому что они просачиваются в тренировочные выборки, им на смену приходят более подковыристые. Я в своей карьере такое видел уже не раз, как минимум на бенчмарках по Visual Recognition. Напомню, что Humanity's last exam сейчас решается на 26% моделью DeepResearch от OpenAI, тогда как GPT-4o выдает 3.3% на нем. А я все также не могу доверять LLM важные задачи, где критична точность – в основном из-за галлюцинаций. Но все равно прогресс огромный, и многие вещи получается автоматизировать. Графиком поделился ресерчер из OpenAI. @ai_newz
Наглядно о том, как быстро сейчас идет прогресс в LLM и как быстро насыщаются…
Из этого канала
- #3676Маск продолжает вставлять палки в колёса OpenAI Группа инвесторов, во главе с…
Маск продолжает вставлять палки в колёса OpenAI Группа инвесторов, во главе с Илоном, предложила 97,4 миллиарда долларов за OpenAI.
- #3677Европа уже какой день подряд говорит про АИ на самом верхнем уровне – последнее…
Европа уже какой день подряд говорит про АИ на самом верхнем уровне – последнее выступление Урсулы фон дер Ляйен от сегодня уже с конкретными шагами, включая…
- #3678Прогресс по VLM В то время как LLM бенчи насыщаются довольно быстро, прогресс…
Прогресс по VLM В то время как LLM бенчи насыщаются довольно быстро, прогресс по VLM, которые требует мультимодального ризонинга (то есть нужно понимать что-то…
- #3674😮 Французский ответ Stargate На AI Action Summit, президент Эммануэль Макрон…
😮 Французский ответ Stargate На AI Action Summit, президент Эммануэль Макрон анонсировал гигантские инвестиции во французскую ИИ индустрию - 109 миллиардов…
- #3673Нейродайджест за неделю (#55) LLM - Deep Research – самый умный поиск от…
Нейродайджест за неделю (#55) LLM - Deep Research – самый умный поиск от OpenAI, основанный на еще не релизнутой O3.