"постмортем Антропик с прошлой недели. Тыц 🔗 Мое уважение – эталон по тому как надо писать постмортемы, это кстати очень важный навык для любого senior DevOps/SRE ну и вообще инженера. Не могу похвалить остальные их статьи, там часто слишком уж много маркетинга просачивается но постмортемы тем и хороши что в них любые попытки что-то продать выглядят __очень странными__! 😢 что случилось то? TLDR; C августе-сентябре в инфре Claude ""возникли"" аж три разных бага, которые плачевно влияли на качество ответов. Там была – неправильная маршрутизация запросов между серверами, бились выходные токенов, и поганая ошибка в XLA TPU компиляторе. баги оказывали куммулятивное влияние, пользователи жаловались, а внутренние метрики и мониторинг в Антропике говорили что все окей. Последнее, кстати, основной вывод – Антропик признались что слишком полагались на эти метрики, вместо отзывов пользователей 😬 Вот тебе и AI платформа. * Я скажу так – все это произошло в компани которая поставляет, если уже и не лучший, то один из самых лучший codding агентов и моделей для этого благого дела. При этом они неоднократно писали статьи о том Claude Code хорошо помогает в работе и команд разработчиков, и инженеров платформы, и дата-сатанистов... Помогать то помогает, только вот баги все равно возникают и будут еще долго возникать. А в сложных системах их возникает еще больше. Про наблюдаемость, метрики и прочее – это тоже очень важный урок из мира Ops и SRE. Я это к тому что если вы программист и у вас сейчас есть страх того что вас заменит AI, или вы турбо сеньон и просто не знаете в чем прокачиваться дальше, какие ценные скилы изучать... Изучайте System Design и MLOps**, и AI вас не заменит, ну или заменит чуть позже, когда беспокоиться будет уже не о чем 😏 Если вам совсем не понятно за что хвататься, с чего начинать – приходите в личку на консультацию, разберемся :) @neuralstack"