😭 на прогоны бенчмарков скоро придётся привлекать венчурные деньги — директор Epoch.AI уже кинул клич, что им необходимо $600k или хотя бы $100k, чтобы прогнать MirrorCode, свой аналог бенчмарка ProgramBench. На нём моделям дают гораздо больше времени и токенов на воспроизведение программ, поэтому каждый запуск стоит дороже. Очень надеюсь, что хотя бы OpenAI повторят свой рождественский подарок с o3-preview, где прогнали бенчмарк на ~миллион долларов по ценам API (для самой компании это обходится сильно дешевле). Теперь ждём релизов Claude Sonnet 4.7 и GPT 5.6 чисто чтобы посмотреть, какие оценки зарепортят компании 👨🦳
😭 на прогоны бенчмарков скоро придётся привлекать венчурные деньги — директор…
Из этого канала
- #3621"Появляется всё больше и больше историй от компаний, работающих и тестирующих…
"Появляется всё больше и больше историй от компаний, работающих и тестирующих Mythos.
- #3626...и вы не поверите товарищ майор, как только я дописал пост и открыл твиттер,…
...и вы не поверите товарищ майор, как только я дописал пост и открыл твиттер, так тут же новый пост от AISI.
- #3627Произошёл додеп — Anthropic теперь расширили и недельный лимит на 50% (до 13-го…
Произошёл додеп — Anthropic теперь расширили и недельный лимит на 50% (до 13-го июля, на 2 месяца). Это в дополнение к недавнему удвоению 5-часовых лимитов.
- #3618Маленькое обновление по свежему бенчмарку ProgramBench (писал о нем неделю…
Маленькое обновление по свежему бенчмарку ProgramBench (писал о нем неделю назад тут).
- #3616"Немного обновлений по ходу судебного дела Musk v Altman. Я частично слушаю…
"Немного обновлений по ходу судебного дела Musk v Altman. Я частично слушаю разговоры на стриме из суда на YouTube, полностью послушал допрос Ilya Sutskever,…