Наглядно о том, как быстро сейчас идет прогресс в LLM и как быстро насыщаются… — @ai_newz

Наглядно о том, как быстро сейчас идет прогресс в LLM и как быстро насыщаются бенчмарки. Но это нормальная история, что более простые начинают решаться под сотню, в том числе и потому что они просачиваются в тренировочные выборки, им на смену приходят более подковыристые. Я в своей карьере такое видел уже не раз, как минимум на бенчмарках по Visual Recognition. Напомню, что Humanity's last exam сейчас решается на 26% моделью DeepResearch от OpenAI, тогда как GPT-4o выдает 3.3% на нем. А я все также не могу доверять LLM важные задачи, где критична точность – в основном из-за галлюцинаций. Но все равно прогресс огромный, и многие вещи получается автоматизировать. Графиком поделился ресерчер из OpenAI. @ai_newz

Из этого канала