"Вдогонку к заданию Anthropic выпустили и блогпост, написанный автором домашки и лидом команды оптимизации — Tristan Hume. Я всегда ценил творческие собеседования (а не банальные задания с LeetCode) и особенно домашние задания. Они действительно показывают, насколько команда заинтересована в работе. Я рекомендую прочитать весь блогпост в оригинале, но вот несколько тезисов, которые мне понравились: — Вся секция «Цели дизайна тестового задания»: и про реалистичность задания, и разработку сопроводительных инструментов для отладки, и про то, что, в идеале, можно привлекать AI-ассистента в помощь — «Некоторые коллеги предлагали запретить использование ИИ при выполнении ДЗ. Я не хотел этого делать. Помимо сложностей с контролем, у меня было чувство: раз люди продолжают играть жизненно важную роль в нашей работе, я должен найти способ, чтобы они могли проявить себя вместе с ИИ — так же, как им придется делать это на работе. Я не хотел сдаваться и признавать, что люди имеют преимущество только в задачах длиннее нескольких часов». — «Сегодня у инженеров по производительности в Anthropic всё ещё много работы, но она больше напоминает сложную отладку, системный дизайн, анализ производительности, поиск способов верификации корректности систем и того, как сделать код, написанный Claude, проще и элегантнее. К сожалению, эти вещи трудно объективно оценить без большого количества времени или общего контекста. Всегда было сложно делать собеседования, отражающие реальную работу, но теперь это сложнее, чем когда-либо». — «Мне нужна была задача, где человеческое рассуждение могло бы превзойти огромную базу опыта модели: что-то, что находится достаточно далеко ""вне распределения"" (out of distribution). К сожалению, это противоречило моей цели сделать задачу похожей на реальную работу. Я вспомнил о самых необычных задачах по оптимизации, которые мне нравились, и остановился на играх Zachtronics. Эти игры-головоломки используют необычные, сильно ограниченные наборы инструкций, которые заставляют программировать нестандартными способами» (ждём ZachtronicsBench кстати) — «В отличие от игр Zachtronics, я намеренно не предоставил никаких инструментов визуализации или отладки. Стартовый код проверяет только валидность решения. Создание инструментов отладки — это часть теста: вы можете либо вставить грамотные print-ы, либо попросить модель сгенерировать интерактивный отладчик за пару минут. Суждение о том, как инвестировать время в инструменты — это часть сигнала, который мы оцениваем» — «Я вполне доволен новым тестовым заданием. Возможно, у него меньшая дисперсия результатов, чем у оригинала, потому что оно состоит из большего количества независимых подзадач [головоломок]. Ранние результаты многообещающие: оценки хорошо коррелируют с уровнем прошлых работ кандидатов, а один из моих самых способных коллег набрал больше баллов, чем любой кандидат до сих пор» — «Мне всё ещё грустно, что пришлось отказаться от реализма и глубины оригинального задания. Но реализм может стать роскошью, которую мы больше не можем себе позволить. Оригинальное задание работало, потому что оно напоминало реальную работу. Замена работает, потому что она симулирует новую (невиданную ранее) работу» В общем, для нормального найма приходится потеть ещё больше 😭"
"Вдогонку к заданию Anthropic выпустили и блогпост, написанный автором домашки…
Из этого канала
- #3311В этом году автономное такси существенно расширяет зону присутствия (Waymo даже…
В этом году автономное такси существенно расширяет зону присутствия (Waymo даже на другой континент заедет, в Лондон), в частности, на большую часть Майами…
- #3312Спустя ~160 дней получили крупный патч в Deadlock (Dota 3, см. тут)…
Спустя ~160 дней получили крупный патч в Deadlock (Dota 3, см. тут) https://www.playdeadlock.com/oldgods Если вы до сих пор не получили инвайт — оставляйте…
- #3313Математики, наверное, ощущают себя между картинками 2 и 3 🤓
Математики, наверное, ощущают себя между картинками 2 и 3 🤓
- #3309• ого это что • в телеге появилась разметка? 1. и даже 2. нумерованные списки?…
• ого это что • в телеге появилась разметка? 1. и даже 2. нумерованные списки? 3. UPD: 🔥 нет (точки в начале строк ставил не я, ТГ заменяет `-` и при переносе…
- #3308С релизом Opus 4.5 Anthropic поменяли своё задание на дом (которое дают как…
С релизом Opus 4.5 Anthropic поменяли своё задание на дом (которое дают как часть интервью) — потому что модель за 2 часа обходила лучшие решения.