AI-агенты уже близки к тому, чтобы стабильно прогнозировать события лучше людей. Недавно появился отличный бенчмарк — Prophet Arena (https://www.prophetarena.co/). Он оценивает, насколько хорошо разные AI-модели прогнозируют реальные события, используя данные Kalshi (живой prediction market, где ставки формируют точные вероятности). Почему это важно: * Лучшие модели уже достигают ROI около 98% и скоро превысят 100%, превращаясь в мощный инструмент заработка. * Бенчмарк невозможно «загеймить»: модель или прогнозирует лучше других, или нет. * AI-компании начнут активно использовать такие данные, чтобы создавать продвинутых агентов-прогнозистов. Уже сейчас prediction markets — хороший источник информации о том, как рынок оценивает вероятности. AI-агенты сделают этот рынок и его прогнозы точнее и эффективнее для всех. А Prophet Arena покажет, какие модели лучше справляются с реальными задачами, и именно их мы будем выбирать для себя. What a time to be alive!
AI-агенты уже близки к тому, чтобы стабильно прогнозировать события лучше…
Источник
https://t.me/vsevolodustinovchannel/2586Канал Всеволод Устинов (канал: ai, стартапы, пост-ирония) · опубликовано 21 авг. 2025 г.
Из этого канала
- #2587Тут это, Бронислав Лабецкий, с которым мы проходили Эволюцию в 21 году,…
Тут это, Бронислав Лабецкий, с которым мы проходили Эволюцию в 21 году, встретился с Андреем Черняковым, который вёл нашу Эволюцию, и записал с ним 30-минутный…
- #2588Администрация канала объявляет о новой политике модерации комментариев: в бан…
Администрация канала объявляет о новой политике модерации комментариев: в бан мгновенно отправляется всё отдалённо похожее на спам.
- #2589"Впечатления от первого ai браузера Comet от Perplexity после месяца…
"Впечатления от первого ai браузера Comet от Perplexity после месяца использования Что для меня реально удобнее: 1.
- #2585Я кстати с этого же поста вкатился в Курсор, so far, с очень базовым,…
Я кстати с этого же поста вкатился в Курсор, so far, с очень базовым, поверхностным пониманием разработки (для иллюстрации моего уровня — когда Cursor сказал…
- #2584Ещё классный кейс из комментов к прошлому посту
Ещё классный кейс из комментов к прошлому посту