Челы из Allen AI сделали бенчмарк по саенсу Пишешь запрос, там внутри достается контекст из релевантных статеек и по нему моделька отвечает пользователю Дипсик R1 0528 на 4 месте, хорошая (а главное опенсурсная) моделька o3 из тестируемых лучшая, тут понятно https://allenai.org/blog/sciarena лидерборд https://sciarena.allen.ai/ Код евала https://github.com/yale-nlp/SciArena Данные https://huggingface.co/datasets/yale-nlp/SciArena Можно и самим вопросики позадавать и пооценивать