"Вдогонку к заданию Anthropic выпустили и блогпост, написанный автором домашки… — @seeallochnaya

"Вдогонку к заданию Anthropic выпустили и блогпост, написанный автором домашки и лидом команды оптимизации — Tristan Hume. Я всегда ценил творческие собеседования (а не банальные задания с LeetCode) и особенно домашние задания. Они действительно показывают, насколько команда заинтересована в работе. Я рекомендую прочитать весь блогпост в оригинале, но вот несколько тезисов, которые мне понравились: — Вся секция «Цели дизайна тестового задания»: и про реалистичность задания, и разработку сопроводительных инструментов для отладки, и про то, что, в идеале, можно привлекать AI-ассистента в помощь — «Некоторые коллеги предлагали запретить использование ИИ при выполнении ДЗ. Я не хотел этого делать. Помимо сложностей с контролем, у меня было чувство: раз люди продолжают играть жизненно важную роль в нашей работе, я должен найти способ, чтобы они могли проявить себя вместе с ИИ — так же, как им придется делать это на работе. Я не хотел сдаваться и признавать, что люди имеют преимущество только в задачах длиннее нескольких часов». — «Сегодня у инженеров по производительности в Anthropic всё ещё много работы, но она больше напоминает сложную отладку, системный дизайн, анализ производительности, поиск способов верификации корректности систем и того, как сделать код, написанный Claude, проще и элегантнее. К сожалению, эти вещи трудно объективно оценить без большого количества времени или общего контекста. Всегда было сложно делать собеседования, отражающие реальную работу, но теперь это сложнее, чем когда-либо». — «Мне нужна была задача, где человеческое рассуждение могло бы превзойти огромную базу опыта модели: что-то, что находится достаточно далеко ""вне распределения"" (out of distribution). К сожалению, это противоречило моей цели сделать задачу похожей на реальную работу. Я вспомнил о самых необычных задачах по оптимизации, которые мне нравились, и остановился на играх Zachtronics. Эти игры-головоломки используют необычные, сильно ограниченные наборы инструкций, которые заставляют программировать нестандартными способами» (ждём ZachtronicsBench кстати) — «В отличие от игр Zachtronics, я намеренно не предоставил никаких инструментов визуализации или отладки. Стартовый код проверяет только валидность решения. Создание инструментов отладки — это часть теста: вы можете либо вставить грамотные print-ы, либо попросить модель сгенерировать интерактивный отладчик за пару минут. Суждение о том, как инвестировать время в инструменты — это часть сигнала, который мы оцениваем» — «Я вполне доволен новым тестовым заданием. Возможно, у него меньшая дисперсия результатов, чем у оригинала, потому что оно состоит из большего количества независимых подзадач [головоломок]. Ранние результаты многообещающие: оценки хорошо коррелируют с уровнем прошлых работ кандидатов, а один из моих самых способных коллег набрал больше баллов, чем любой кандидат до сих пор» — «Мне всё ещё грустно, что пришлось отказаться от реализма и глубины оригинального задания. Но реализм может стать роскошью, которую мы больше не можем себе позволить. Оригинальное задание работало, потому что оно напоминало реальную работу. Замена работает, потому что она симулирует новую (невиданную ранее) работу» В общем, для нормального найма приходится потеть ещё больше 😭"

Из этого канала