Сиолошная@seeallochnaya
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Последние посты (60)
- #370310 июн. 2026 г.11 087 views
Google выложили DiffusionGemma — модель на 26B параметров с 4B активных, с…
Google выложили DiffusionGemma — модель на 26B параметров с 4B активных, с архитектурой Gemma 4, и которая генерирует по 256 токенов за раз. Но так как получается неразбериха, то эти токены перегенерируются несколько раз.
- #370210 июн. 2026 г.10 429 views
Гифка для следующего поста, так как Пашка-пушка не придумал, как отправить и…
Гифка для следующего поста, так как Пашка-пушка не придумал, как отправить и картинку, и гифку вместе.
- #370110 июн. 2026 г.13 958 views
В контексте выхода более дорогой, но способной Fable, которая даже в подписку…
В контексте выхода более дорогой, но способной Fable, которая даже в подписку входить не будет после 22-го июня, интересен вопрос: как будет расти выручка Anthropic дальше? С одной стороны компании урезают или корректируют бюджеты на траты: уж слишком кусается цена, если платить…
- #370010 июн. 2026 г.15 802 views
What did they mean by this
What did they mean by this
- #369910 июн. 2026 г.19 166 views
С релизом Fable 5 Anthropic добавили 2 новых меры предосторожности. Первая…
С релизом Fable 5 Anthropic добавили 2 новых меры предосторожности. Первая простая и понятная: некоторые запросы будут направляться в Opus, если они кажутся системе какими-то странными. Сюда входят вопросы по биологии, кибербезопасности, химии или дистилляция моделей.
- #36979 июн. 2026 г.13 454 views
Пу-пу-пу, OpenAI будет тяжело... где большие модели???
Пу-пу-пу, OpenAI будет тяжело... где большие модели???
- #36969 июн. 2026 г.14 026 views
Официальный анонс: https://www.anthropic.com/news/claude-fable-5-mythos-5 1)…
Официальный анонс: https://www.anthropic.com/news/claude-fable-5-mythos-5 1) Fable 5 и Mythos 5 — одна и та же модель, но у последней чуть меньше защиты вокруг.
- #36919 июн. 2026 г.16 065 views
Модель уже доступна на claude.ai, системная карточка тут, а метрики вот.…
Модель уже доступна на claude.ai, системная карточка тут, а метрики вот. Нравится, что на графиках скейлинга по оси OX — доллары, и видно, что на низком ризонинге модель всё равно лучше Opus.
- #36909 июн. 2026 г.16 871 views
"🚨 TheInformation подтверждают, что «Mythos-class model» действительно выйдет…
"🚨 TheInformation подтверждают, что «Mythos-class model» действительно выйдет сегодня (и будет называться Claude Fable), а вот вишенка на торте: модель будет ""всего"" в 2 раза дороже Opus.
- #36899 июн. 2026 г.17 020 views
Mythos сегодня сразу после релиза, когда 100 пользователей спросили, сколько…
Mythos сегодня сразу после релиза, когда 100 пользователей спросили, сколько букв «r» в слове «strawberry»:
- #36879 июн. 2026 г.18 864 views
У Elon Musk в пятницу большой праздник — SpaceX выходит на IPO, а он почти…
У Elon Musk в пятницу большой праздник — SpaceX выходит на IPO, а он почти наверняка станет первым триллионером в мире 😇 В преддверии IPO команда подготовила получасовой ролик с «технической информацией о возможностях SpaceX по производству, запуску и эксплуатации спутников с…
- #36829 июн. 2026 г.16 480 views
"Ещё один бенчмарк, теперь от Cognition (авторов Devin) — FrontierCode (блог).…
"Ещё один бенчмарк, теперь от Cognition (авторов Devin) — FrontierCode (блог). Здесь большой упор сделан на то, может ли агент написать код, который мейнтейнер репозитория с кодом может в один клик смерджить (то есть включить изменения в общий проект).
- #36819 июн. 2026 г.18 663 views
Новостей так много, что я подумал, что проснулся в 2034-м 🤒 Так что следующие…
Новостей так много, что я подумал, что проснулся в 2034-м 🤒 Так что следующие несколько постов будут покороче. Самое главное — завтра (сегодня, 9-го июня) Anthropic планирует выпустить Mythos на публику.
- #36808 июн. 2026 г.19 263 views
И отдельно — про харнессы. Авторы, среди прочего, запускали две (на самом деле…
И отдельно — про харнессы. Авторы, среди прочего, запускали две (на самом деле больше, но интересны эти) модели в их нативных обёртках, Claude Code и Codex, и Terminus 2.
- #36778 июн. 2026 г.16 634 views
"И ещё один клёвый бенчмарк вдогонку: SWE-Marathon. Всего 20 задач (список на…
"И ещё один клёвый бенчмарк вдогонку: SWE-Marathon. Всего 20 задач (список на второй картинке), но зато каких! Очень длинных и нетривиальных — вместо имплементации одной фичи нужно выполнить целый проект. Некоторые из задач оцениваются в сотни человеко-часов.
- #36766 июн. 2026 г.12 251 views
В ChatGPT прокачали память — теперь она станет ещё более персонализированной.…
В ChatGPT прокачали память — теперь она станет ещё более персонализированной. Обновление уже доступно пользователям тарифов Plus и Pro в США, а в ближайшие недели появится в других странах, и самое главное у бесплатников.
- #36755 июн. 2026 г.16 386 views
Что объединяет компании на картинке? Они получат гарантированный импакт от AI —…
Что объединяет компании на картинке? Они получат гарантированный импакт от AI — или им вернут деньги 😎 Наверняка многие из вас слышали или читали новости про то, что какие-то компании отключают Claude Code или тем более Github Copilot из-за огромных трат разработчиков на модели.
- #36745 июн. 2026 г.16 419 views
Воу, мафия с тех. легендами ) Sama наиишивает :D…
Воу, мафия с тех. легендами ) Sama наиишивает :D https://www.youtube.com/watch?v=EDCwQe7P8T0
- #36735 июн. 2026 г.16 156 views
Потратил 33 минуты отпуска чтобы посмотреть и посмеяться с мафии со звёздами…
Потратил 33 минуты отпуска чтобы посмотреть и посмеяться с мафии со звёздами Силиконовой Долины. Было интересно даже как человеку, который особо за мафией не следит и не играет на любительском уровне.
- #36724 июн. 2026 г.11 048 views
Знакомый скинул рассказ «They're Made Out of Weights», переделку старого…
Знакомый скинул рассказ «They're Made Out of Weights», переделку старого короткого «They're Made out of Meat», про который я... никогда не слышал. Начало оригинала: — Они сделаны из мяса. — Из мяса? — Из мяса. Они сделаны из мяса. — Из мяса? — В этом нет никаких сомнений.
- #36712 июн. 2026 г.48 434 views
Пару часов назад Anthropic рассказали, что расширяют Project Glasswing с 50 до…
Пару часов назад Anthropic рассказали, что расширяют Project Glasswing с 50 до 200 компаний (это те, кому будет доступен Mythos). Компании будут покрывать более широкий спектр критических организаций, обнаружение уязвимостей в которых может повлиять на десятки и даже сотни…
- #36702 июн. 2026 г.17 055 views
Где-то полгода назад слышал от SemiAnalysis, что самые прибыльные компании в…
Где-то полгода назад слышал от SemiAnalysis, что самые прибыльные компании в мире сейчас в 2027-м году и далее могут стать или еле-еле прибыльными, или вообще не иметь прибыли.
- #36691 июн. 2026 г.18 193 views
Finally, PC 2 — Nvidia и Microsoft «переизобрели» персональные компьютеры для…
Finally, PC 2 — Nvidia и Microsoft «переизобрели» персональные компьютеры для эпохи AI (я не шучу, в анонсе так и пишут, и даже «новая глава»). За анонсом стоит новая платформа для PC и ноутбуков на основе RTX Spark Superchip, состоящего из GPU, CPU и объединённой памяти.
- #366731 мая 2026 г.12 233 views
Ребята из Nebius обновили SWE-rebench после двухмесячного перерыва, добавив 110…
Ребята из Nebius обновили SWE-rebench после двухмесячного перерыва, добавив 110 новых задач. В отличии от многих других бенчей, наконец-то добавляют запуски в Codex и Claude Code.
- #366630 мая 2026 г.12 510 views
Для референса, 6й самый дорогой фильм в истории, Аватар 2, стоил $350M, а…
Для референса, 6й самый дорогой фильм в истории, Аватар 2, стоил $350M, а Мстители: Война бесконечности — $321M
- #366529 мая 2026 г.10 979 views
Ракета New Glenn взорвалась на площадке во время огневых испытаний — это самый…
Ракета New Glenn взорвалась на площадке во время огневых испытаний — это самый мощный взрыв на Мысе Канаверал за десятки лет. Остаётся надеяться, что никто не пострадал, тк во время подробных испытаний проводят эвакуацию площадки.
- #366428 мая 2026 г.15 734 views
Пример того как выглядит workflow можно посмотреть вот в этом PR для Bun. По…
Пример того как выглядит workflow можно посмотреть вот в этом PR для Bun. По сути это большой набор автосгенерированных .js-файлов, в которых просто хранится структура выполнения набора промптов.
- #366328 мая 2026 г.15 798 views
Кроме новой модели и раунда инвестиций Anthropic представили можно сказать…
Кроме новой модели и раунда инвестиций Anthropic представили можно сказать следующий шаг в агентской разработке — dynamic workflows. Именно с помощью этой фичи был осуществлен перевоз Bun с Zig на Rust.
- #366228 мая 2026 г.10 392 views
Anthropic ещё сказали про сущий пустяк — привлекли 65 миллиардов долларов при…
Anthropic ещё сказали про сущий пустяк — привлекли 65 миллиардов долларов при оценке 900, и ARR вышел на невероятные 47 миллиардов долларов (выручка за год, если спрос никак не поменяется по отношению к последнему месяцу).
- #366128 мая 2026 г.12 068 views
Вот так выглядит на SWE-bench Pro Обратите внимание, что в Claude Code по…
Вот так выглядит на SWE-bench Pro Обратите внимание, что в Claude Code по умолчанию стоит high, а не x-high или max.
- #366028 мая 2026 г.27 441 views
Новый опус: https://www.anthropic.com/news/claude-opus-4-8 1) цена та же 2)…
Новый опус: https://www.anthropic.com/news/claude-opus-4-8 1) цена та же 2) сделали гранулярную разбивку длины рассуждений, как у ChatGPT 3) fast режим, ускоряющий генерацию в 2.5 раза, теперь в 3 раза дешевле, чем для предыдущих моделей.
- #365527 мая 2026 г.9 940 views
DeepSWE — новый бенчмарк для оценки агентов в имплементации функциональности.…
DeepSWE — новый бенчмарк для оценки агентов в имплементации функциональности. Бенчмарк новый, а по сути уже устаревший — GPT-5.5 выбивает 70% 👨🦳Структурно во многом повторяют SWE-Bench-like бенчмарки, но: — промпты не описывают детали имплементации, где и что — верификация…
- #365426 мая 2026 г.16 431 views
"Китай распространил режим выездных согласований на топ-специалистов по AI в…
"Китай распространил режим выездных согласований на топ-специалистов по AI в частных компаниях, включая Alibaba и DeepSeek. По данным источников Bloomberg, основателям стартапов, исследователям и руководителям, признанным стратегически значимыми, теперь требуется одобрение…
- #365326 мая 2026 г.13 497 views
В параллельном мире у всех сегодня отпуск, все сидят играют в GTA VI А нам…
В параллельном мире у всех сегодня отпуск, все сидят играют в GTA VI А нам ждать до 19-го ноября.
- #365125 мая 2026 г.9 327 views
BLASST: Dynamic BLocked Attention Sparsity via Softmax Thresholding — лучшая…
BLASST: Dynamic BLocked Attention Sparsity via Softmax Thresholding — лучшая статья MLSys '26. Классная идея ускорения расчёта attention в трансформерах, заявляют большие цифры, около 50% ускорения, но на замере всей модели, а не отдельного блока, выходит ~10%.
- #365022 мая 2026 г.14 212 views
Первое видео Starship из космоса со стороны.
Первое видео Starship из космоса со стороны.
- #364922 мая 2026 г.6 298 views
Anthropic выпустили пост-обновление про Mythos и Project Glasswing с…
Anthropic выпустили пост-обновление про Mythos и Project Glasswing с промежуточными результатами. Спустя месяц большинство партнеров обнаружили в своем коде сотни уязвимостей критического и высокого уровня опасности каждый.
- #364820 мая 2026 г.21 211 views
Много финансовых новостей: — OpenAI готовится подать приватную заявку для…
Много финансовых новостей: — OpenAI готовится подать приватную заявку для подготовки к IPO. Это не означает, что IPO будет прям совсем скоро, но подразумевает, что будет до конца года. В новостях пишут, что обсуждается возможность выхода на IPO в сентябре.
- #364720 мая 2026 г.19 491 views
Ну вот а свежий тизер к GPT-5.6 уже скорее всего можно — OpenAI выпустили…
Ну вот а свежий тизер к GPT-5.6 уже скорее всего можно — OpenAI выпустили блогпост, статью и комментарии от математиков о решении одной из самых известных задач в комбинаторной геометрии, которую легко сформулировать, но невероятно трудно решить.
- #364620 мая 2026 г.23 635 views
Sama пришёл в свою альма-матер YC и предложил всем стартапам по $2M в токенах…
Sama пришёл в свою альма-матер YC и предложил всем стартапам по $2M в токенах (то есть можно и на Codex и на API тратить) за какой-то процент от компании.
- #364519 мая 2026 г.10 105 views
Для наглядности, вот эволюция цены выходных токенов Flash-моделей Gemini 😦 Так…
Для наглядности, вот эволюция цены выходных токенов Flash-моделей Gemini 😦 Так что теперь Flash Lite как прошлый Flash, Flash как прошлый Pro, а Pro... как то, с чего дистиллировали модель 🤷♂️
- #364319 мая 2026 г.28 956 views
Google проводят ежегодный I/O, на котором показали Gemini Omni Flash (про неё…
Google проводят ежегодный I/O, на котором показали Gemini Omni Flash (про неё отдельно), и Gemini Flash 3.5 — новый флагман компании. Почти как Gemini Pro 3.1 (во многом лучше по метрикам, но нужно смотреть в практике), но существенно быстрее и немного дешевле Pro (но гораздо…
- #364219 мая 2026 г.15 983 views
Karpathy теперь не ~~безработный~~ AI-учитель, а сотрудник Anthropic. (на самом…
Karpathy теперь не ~~безработный~~ AI-учитель, а сотрудник Anthropic. (на самом деле он пошел за бесплатными кредитами на Claude Code)
- #363919 мая 2026 г.17 495 views
Cursor анонсировали новую модель собственного производства, Composer 2.5. Она…
Cursor анонсировали новую модель собственного производства, Composer 2.5. Она базируется на Kimi 2.5 (как и Composer 2), но компания влила в модель в ~7 раз больше мощностей, чем авторы самой Kimi.
- #363818 мая 2026 г.11 472 views
"Sama wins Суд присяжных постановил, что Маск подал иск слишком поздно, чтобы…
"Sama wins Суд присяжных постановил, что Маск подал иск слишком поздно, чтобы признать Альтмана, Брокмана или OpenAI ответственными за какие-либо претензии, предъявленные им генеральным директором Tesla.
- #363614 мая 2026 г.19 993 views
🤡 в сообществе уже появились персонажи, у которых переписывание популярного…
🤡 в сообществе уже появились персонажи, у которых переписывание популярного фреймворка на 1 миллион строк — это простые, не очень впечатляющие задачи, в которых нет ничего нового.
- #363414 мая 2026 г.20 612 views
Произошла ситуация: в комментариях меня упрекнули, что ключевой разработчик Bun…
Произошла ситуация: в комментариях меня упрекнули, что ключевой разработчик Bun написал 5-го мая, что это всего лишь эксперимент, а Bun не планирует переезжать на Rust — а я про это не сказал.
- #363314 мая 2026 г.16 203 views
"Начнём с конца. Компании могут упоминать очень разные цифры в контексте ДЦ;…
"Начнём с конца. Компании могут упоминать очень разные цифры в контексте ДЦ; есть большая разница между ""сколько мы забираем с электростанции"" и ""сколько идёт на GPU"" — ведь есть потери передачи, траты на охлаждение (очень существенные), и CPU + память тоже сколько-то едят.
- #363214 мая 2026 г.14 020 views
"Есть такой журналист и критик AI Ed Zitron (блог). Обычно он пишет полный…
"Есть такой журналист и критик AI Ed Zitron (блог). Обычно он пишет полный бред, и его основная проблема в том, что он даже не рассматривает возможность своей неправоты, и как следствие все его посты никогда даже не затрагивают альтернативные точки зрения и объяснения.
- #363114 мая 2026 г.17 860 views
Параллельно наблюдаем за одной из задач, аналогичной ProgramBench и MirrorCode,…
Параллельно наблюдаем за одной из задач, аналогичной ProgramBench и MirrorCode, в прямом эфире. В декабре Anthropic купили авторов Bun — набора инструментов «всё в одном» для JavaScript, замена npm/npx/node и тд, только очень быстрая.
- #363013 мая 2026 г.18 158 views
Апдейт: сегодня закончились слушания свидетелей и экспертов, завтра будет…
Апдейт: сегодня закончились слушания свидетелей и экспертов, завтра будет выступление адвокатов перед присяжными (каждое не менее 2 часов). Адвокаты постараются исходя из всего обсуждённого нарисовать картину и описать, почему они правы.
- #362813 мая 2026 г.17 275 views
Ещё сегодня вышла свежая статистика от Ramp, компании для менеджмента…
Ещё сегодня вышла свежая статистика от Ramp, компании для менеджмента корпоративных трат и выпуска карт и (например, для сотрудников в командировке).
- #362713 мая 2026 г.20 363 views
Произошёл додеп — Anthropic теперь расширили и недельный лимит на 50% (до 13-го…
Произошёл додеп — Anthropic теперь расширили и недельный лимит на 50% (до 13-го июля, на 2 месяца). Это в дополнение к недавнему удвоению 5-часовых лимитов. А у Codex в конце мая акция с удвоением как раз заканчивается 🌚
- #362613 мая 2026 г.17 150 views
...и вы не поверите товарищ майор, как только я дописал пост и открыл твиттер,…
...и вы не поверите товарищ майор, как только я дописал пост и открыл твиттер, так тут же новый пост от AISI. Они говорят, что получили доступ к более свежему чекпоинту Mythos 👨🦳 и там уже видно отрыв от GPT-5.5 (даже -Cyber, версии модели, заточенной на кибербез).
- #362113 мая 2026 г.15 592 views
"Появляется всё больше и больше историй от компаний, работающих и тестирующих…
"Появляется всё больше и больше историй от компаний, работающих и тестирующих Mythos. Хотел поделиться несколькими картинками из блога XBOW, компании, занимающейся AI-assisted cybersecurity.
- #362013 мая 2026 г.18 095 views
😭 на прогоны бенчмарков скоро придётся привлекать венчурные деньги — директор…
😭 на прогоны бенчмарков скоро придётся привлекать венчурные деньги — директор Epoch.AI уже кинул клич, что им необходимо $600k или хотя бы $100k, чтобы прогнать MirrorCode, свой аналог бенчмарка ProgramBench.
- #361812 мая 2026 г.19 475 views
Маленькое обновление по свежему бенчмарку ProgramBench (писал о нем неделю…
Маленькое обновление по свежему бенчмарку ProgramBench (писал о нем неделю назад тут). Авторы соизволили прогнать GPT 5.5 на high/xhigh (максимальная длина рассуждений и время работы). И Opus 4.7 до кучи тоже.
- #361612 мая 2026 г.18 152 views
"Немного обновлений по ходу судебного дела Musk v Altman. Я частично слушаю…
"Немного обновлений по ходу судебного дела Musk v Altman. Я частично слушаю разговоры на стриме из суда на YouTube, полностью послушал допрос Ilya Sutskever, Sam Altman и немного других членов разбирательства.
- #361512 мая 2026 г.18 767 views
Надеюсь, многие из вас помнят бенчмарк FrontierMath по оценке моделей на очень…
Надеюсь, многие из вас помнят бенчмарк FrontierMath по оценке моделей на очень сложных математических задачах около-исследовательского уровня (то есть встречающихся в работе людей, старающихся двигать фронтир науки).
- #361411 мая 2026 г.32 290 views
Читая статью DeepSeek v4, я выписал себе больше 90 вопросов. Большинство…
Читая статью DeepSeek v4, я выписал себе больше 90 вопросов. Большинство обзоров упускают детали, хотя именно разбираясь в них можно по-настоящему чему-то научиться. Поэтому вместо лонга с фокусом на 5-7-10 аспектов я решил опробовать новый формат: Annotated Paper Walkthrough.