Но есть ещё 4 главных бенчмарка, которые выпятили OpenAI, и все они — про экономически ценные задачи, основанные на анализе реальной ежедневной работы специалистов. 1. Общий бенчмарк «Economically important tasks», про который деталей особо нет. «Эти задачи, порученные экспертам из разных профессий и отраслей, отражают реальную профессиональную работу, такую как подготовка конкурентного анализа поставщиков услуг неотложной помощи по требованию, составление подробных графиков амортизации и определение перспективных скважин для нового объекта по производству экологически чистого водорода». Тут оценивается доля ответов, где было отдано предпочтение ответу модели нежели написанному человеком — в разрезе длительности выполнения задачи человеком. 2. SpreadsheetBench, который оценивает модели по их способности редактировать электронные таблицы, созданные на основе реальных сценариев. Примеры вопросов смотрите тут на 25 странице и далее. 3. Ещё один внутренний бенчмарк « ...измеряющий способность модели справляться с задачами моделирования, выполняемыми аналитиками инвестиционного банкинга в течение первого-третьего года работы, например, с составлением финансовой модели из трёх отчётов для компании из списка Fortune 500 с корректным форматированием и ссылками или с построением модели выкупа с использованием заёмных средств для приобретения частной компании». Каждая задача оценивается по сотням критериев, связанных с корректностью и используемыми формулами. 4. BrowseComp, свежий бенчмарк OpenAI от апреля. Измеряет способность агентов находить труднодоступную информацию в интернете. Статья тут. В общем, нужно подождать ~месяц, чтобы понять ценность в реальных рабочих задачах (хотя Денис вон уже кайфует), но направление, в котором делаются улучшения, понятно. И всё это доступно и Plus пользователям с подпиской за $20 в месяц!
Но есть ещё 4 главных бенчмарка, которые выпятили OpenAI, и все они — про…
Из этого канала
- #2675О, и сегодня состоялся анонс бенчмарка ARC AGI 3 (третий, да; второй ещё не…
О, и сегодня состоялся анонс бенчмарка ARC AGI 3 (третий, да; второй ещё не решен).
- #2676Пост плохо состарился — OpenAI объявили, что их внутренняя модель решила 5 из 6…
Пост плохо состарился — OpenAI объявили, что их внутренняя модель решила 5 из 6 задач этого IMO, не справившись лишь с самой сложной, последней задачей.
- #2677«Ну так конечно это ожидаемо, ничего удивительного» — скажет хрен с умным…
«Ну так конечно это ожидаемо, ничего удивительного» — скажет хрен с умным видом, поправляя очки.
- #2669Вчера OpenAI анонсировали и выпустили Agent, нового агента, объединяющего в…
Вчера OpenAI анонсировали и выпустили Agent, нового агента, объединяющего в себе Deep Research + Operator, которого ещё и прокачали в работе с Excel и Power…
- #2668Вчера не стало Felix Baumgartner 🥲 Это он целых 13 лет назад прыгнул с высоты…
Вчера не стало Felix Baumgartner 🥲 Это он целых 13 лет назад прыгнул с высоты 39 километров и приземлился целым на землю (конечно, с парашютом и в специальном…