Китайский исследователь создал специальный бенчмарк, с помощью которого можно оценить количество параметров в любой модели Как мы знаем, закрытые лаборатории не раскрывают количество параметров своих моделей. Есть стандартный метод оценки через экономику инференса, но он дает погрешность в 2× и более из-за неизвестных деталей об инфре. Так вот: позавчера на архиве появилась статья, в которой автор предлагает принципиально иной подход, через оценку количества знаний модели. Речь именно о знании фактов, а не интеллекте в целом, потому что способность к рассуждению можно дистиллировать и сжимать в меньшие модели, а фактические знания – нет, они ограничены энтропией Шеннона. Методология такая: автор создал бенчмарк из 1400 фактических вопросов, разбитых на 7 уровней редкости, от широко известных фактов до крайне малоизвестных. Его откалибровали на 89 открытых моделях с известным числом параметров, и оказалось, что есть явная (R²=0.917) лог-линейная зависимость скора на бенче от числа параметров. Проецируя закрытые модели на калибровочную кривую, автор получает такие оценки*: – GPT-5.5 ≈ 9.7T параметров – Claude Opus 4.6 ≈ 5.3T – Claude Sonnet 4.6 ≈ 1.7T – Gemini 2.5 Pro ≈ 1.2T • из-за природы метода и из-за настроек безопасности некоторых моделей (на какие-то вопросы они могут просто отказываться отвечать), эти оценки ближе к нижним границам. Конечно, точность все равно довольно мала, но числа интересные. https://arxiv.org/pdf/2604.24827
Китайский исследователь создал специальный бенчмарк, с помощью которого можно…
Из этого канала
- #9139OpenAI раскрыли тайну гоблинов и енотов После завирусившегося вчера системного…
OpenAI раскрыли тайну гоблинов и енотов После завирусившегося вчера системного промпта, в котором сказано «не упоминать енотов, гоблинов, гремлинов, голубей и…
- #91401 место на большом хакатоне Claude Code в этом году только что выиграл турецкий…
1 место на большом хакатоне Claude Code в этом году только что выиграл турецкий врач вот с этим проектом, который он навайбкодил за 3 дня ⬆️ Это MedKit –…
- #9141"Что и как скоро приведет нас к AGI Сейчас индустрия ИИ перестала быть про один…
"Что и как скоро приведет нас к AGI Сейчас индустрия ИИ перестала быть про один понятный вектор развития.
- #9137Сбер поделился деталями развития open source-экосистемы GigaChain На Хабре…
Сбер поделился деталями развития open source-экосистемы GigaChain На Хабре вышло интервью управляющего директора и техлида команды GigaChain — Константина…
- #9136Cursor наконец-то выпустили собственный SDK Это TypeScript‑библиотека, через…
Cursor наконец-то выпустили собственный SDK Это TypeScript‑библиотека, через которую можно программно создавать и запускать тех же ИИ‑агентов Cursor, что живут…