Что объединяет компании на картинке? Они получат гарантированный импакт от AI — или им вернут деньги 😎 Наверняка многие из вас слышали или читали новости про то, что какие-то компании отключают Claude Code или тем более Github Copilot из-за огромных трат разработчиков на модели. CTO Uber сказал, что они за квартал сожгли весь годовой бюджет, заложенный на ИИ-агентов (что, конечно, глупо — в таких компаниях бюджеты согласовывают долго, поэтому они пытались делать оценки по условному Claude Sonnet 4.5, и понятно что Opus 4.8 может делать больше, и тратить можно (нужно) больше). Разные компании уже говорили про то, что нужна некоторая гарантия результата за потраченные токены. Cognition, авторы бота Devin, на моей памяти тут первые: для энтерпрайз-клиентов с картинки они подключают «Productivity Guarantee». Для этого они собрали выборку и обучили/откалибровали модель, которая предсказывает, а) сделал ли агент что-то ценное б) если да, то сколько часов это заняло бы у человека? Дальше часы умножаются на какую-то среднюю ставку разработчика, и всё суммируется за какой-то длинный период. В конце периода Cognition смотрит, больше ли эта оценка чем то, что им заплатил клиент. Если нет, то есть ценной работы мало, то они готовы вернуть разницу кредитами — до 10 миллионов долларов на будущие запросы. Модель оценки ошибается, но компания уверяет, что ошибки несмещены, поэтому при агрегации на длином периоде оценка получится относительно точной. Идея интересная, будем следить, что придумают OpenAI и Anthropic — у последних вопрос отбивания трат клиентов стоит, кажется, очень остро. Прочитать побольше про механизм: 1 общий и 2 техническое описание
Что объединяет компании на картинке? Они получат гарантированный импакт от AI —…
Из этого канала
- #3676В ChatGPT прокачали память — теперь она станет ещё более персонализированной.…
В ChatGPT прокачали память — теперь она станет ещё более персонализированной. Обновление уже доступно пользователям тарифов Plus и Pro в США, а в ближайшие…
- #3677"И ещё один клёвый бенчмарк вдогонку: SWE-Marathon. Всего 20 задач (список на…
"И ещё один клёвый бенчмарк вдогонку: SWE-Marathon. Всего 20 задач (список на второй картинке), но зато каких! Очень длинных и нетривиальных — вместо…
- #3680И отдельно — про харнессы. Авторы, среди прочего, запускали две (на самом деле…
И отдельно — про харнессы. Авторы, среди прочего, запускали две (на самом деле больше, но интересны эти) модели в их нативных обёртках, Claude Code и Codex, и…
- #3674Воу, мафия с тех. легендами ) Sama наиишивает :D…
Воу, мафия с тех. легендами ) Sama наиишивает :D https://www.youtube.com/watch?v=EDCwQe7P8T0
- #3673Потратил 33 минуты отпуска чтобы посмотреть и посмеяться с мафии со звёздами…
Потратил 33 минуты отпуска чтобы посмотреть и посмеяться с мафии со звёздами Силиконовой Долины.