Новостей так много, что я подумал, что проснулся в 2034-м 🤒 Так что следующие несколько постов будут покороче. Самое главное — завтра (сегодня, 9-го июня) Anthropic планирует выпустить Mythos на публику. Модель будет сопровождаться очень жесткими фильтрами на каждый чих, особенно в задачах, связанных с кибербезопасностью.
Новостей так много, что я подумал, что проснулся в 2034-м 🤒 Так что следующие…
Из этого канала
- #3682"Ещё один бенчмарк, теперь от Cognition (авторов Devin) — FrontierCode (блог).…
"Ещё один бенчмарк, теперь от Cognition (авторов Devin) — FrontierCode (блог). Здесь большой упор сделан на то, может ли агент написать код, который мейнтейнер…
- #3687У Elon Musk в пятницу большой праздник — SpaceX выходит на IPO, а он почти…
У Elon Musk в пятницу большой праздник — SpaceX выходит на IPO, а он почти наверняка станет первым триллионером в мире 😇 В преддверии IPO команда подготовила…
- #3689Mythos сегодня сразу после релиза, когда 100 пользователей спросили, сколько…
Mythos сегодня сразу после релиза, когда 100 пользователей спросили, сколько букв «r» в слове «strawberry»:
- #3680И отдельно — про харнессы. Авторы, среди прочего, запускали две (на самом деле…
И отдельно — про харнессы. Авторы, среди прочего, запускали две (на самом деле больше, но интересны эти) модели в их нативных обёртках, Claude Code и Codex, и…
- #3677"И ещё один клёвый бенчмарк вдогонку: SWE-Marathon. Всего 20 задач (список на…
"И ещё один клёвый бенчмарк вдогонку: SWE-Marathon. Всего 20 задач (список на второй картинке), но зато каких! Очень длинных и нетривиальных — вместо…