Агенты ИИ | AGI_and_RL@AGI_and_RL· 5 852 subs

Челы из Allen AI сделали бенчмарк по саенсу Пишешь запрос, там внутри достается…

7 июл. 2025 г.2 247 views27 forwardsОткрыть в Telegram →

Челы из Allen AI сделали бенчмарк по саенсу Пишешь запрос, там внутри достается контекст из релевантных статеек и по нему моделька отвечает пользователю Дипсик R1 0528 на 4 месте, хорошая (а главное опенсурсная) моделька o3 из тестируемых лучшая, тут понятно https://allenai.org/blog/sciarena лидерборд https://sciarena.allen.ai/ Код евала https://github.com/yale-nlp/SciArena Данные https://huggingface.co/datasets/yale-nlp/SciArena Можно и самим вопросики позадавать и пооценивать

Источник

https://t.me/AGI_and_RL/1167

Канал Агенты ИИ | AGI_and_RL · опубликовано 7 июл. 2025 г.

Из этого канала