Челы из Allen AI сделали бенчмарк по саенсу Пишешь запрос, там внутри достается контекст из релевантных статеек и по нему моделька отвечает пользователю Дипсик R1 0528 на 4 месте, хорошая (а главное опенсурсная) моделька o3 из тестируемых лучшая, тут понятно https://allenai.org/blog/sciarena лидерборд https://sciarena.allen.ai/ Код евала https://github.com/yale-nlp/SciArena Данные https://huggingface.co/datasets/yale-nlp/SciArena Можно и самим вопросики позадавать и пооценивать
Челы из Allen AI сделали бенчмарк по саенсу Пишешь запрос, там внутри достается…
Из этого канала
- #1168В любой момент времени можно скинуть лучший конспект по RLю на русском…
В любой момент времени можно скинуть лучший конспект по RLю на русском https://arxiv.org/abs/2201.09746
- #1169Кстати тоже все хотел сделать как-нить подборку РЛ челов и стартапов. Все руки…
Кстати тоже все хотел сделать как-нить подборку РЛ челов и стартапов. Все руки не дойдут Пока можно тут почитать…
- #1170HF выложили thinking модельку SmolLM3-3B и рассказывают как тюнили. Русского в…
HF выложили thinking модельку SmolLM3-3B и рассказывают как тюнили. Русского в языках нету https://huggingface.co/HuggingFaceTB/SmolLM3-3B…
- #1166Эм. Тут говорят что АИ рисечеры кто делает $10-$100 мультов играет в доту…
Эм. Тут говорят что АИ рисечеры кто делает $10-$100 мультов играет в доту Верим?…
- #1165Хм. Соглы. Го все виброкодировать RL среды Уже давно этим занимаюсь…
Хм. Соглы. Го все виброкодировать RL среды Уже давно этим занимаюсь Виброкодируем тут https://t.me/researchim