Пока все (нет, правда, все) пишут про ничем в целом не примечательный релиз… — @seeallochnaya

Пока все (нет, правда, все) пишут про ничем в целом не примечательный релиз GPT-5.1, Anthropic рассказали о Project Fetch — однодневном эксперименте, в котором смотрели, насколько Claude помог сотрудникам компании выполнять сложные задачи на робо-собаке. 8 инженеров без опыта в робототехнике разделили на 2 команды, одна могла пользоваться Claude, а другая — нет, и дали несколько задач, объединённых под эгидой одного проекта: заставить робо-пса автономно, без управления человеком, взять и принести мячик. Сюда входит и подключение к камерам робота, и написание кода для его контроля, и имплементация алгоритма поиска объектов / пути к ним. Зачем это нужно Anthropic? Эксперимент был призван продемонстрировать и численно оценить, как AI-инструменты могут усиливать человеческие навыки в разных важных областях. Конкретно здесь сосредоточились на роботах, так как хотели понять, как искусственный интеллект может частично преодолевать разрыв между цифровым и физическим миром. Это уже второй эксперимент — летом был проект Vend, где Claude управлял небольшим вендинговым автоматом в офисе Anthropic (почитайте транскрипты по ссылке, там смешно, модель притворялась мастером и просила с ней встретиться, а потом извинялась, что разминулась с человеком). Одна из методик для оценки способности Claude вносить вклад в исследования и разработку ИИ заключается в тестировании способности ускорить процесс разработки инженерам, так как в сфере ИИ усиление человеческих возможностей часто предшествует автоматизации. То, что модели лишь помогают людям выполнить сегодня, завтра уже будут способны выполнять самостоятельно. В среднем, команда с Claude выполнила больше задач и справлялась с ними быстрее — им понадобилось примерно в два раза меньше времени, чем команде без Claude, и они смогли продвинуться дальше. То есть использование ИИ дало значительное ускорение для этого набора задач. Принцип работы команд был разный, и в паре задач команда без Claude умудрилась справиться быстрее. Контроллер, написанный другой командой, создавался дольше, но был значительно удобнее в использовании, поскольку предоставлял оператору видео от лица робопса. Команда без Claude полагалась на прерывисто передаваемые статичные изображения, что было гораздо менее удобным. Это стало частью интересного феномена, который наблюдался в ходе эксперимента. Команда Claude написала гораздо больше кода (в 9,1 раз!), но часть этого кода, возможно, отвлекала от непосредственного выполнения задач — было такое, что что-то не заработало, код убрали, перешли на другую имплементацию другого участника команды, там тоже не работало, и приходилось возвращаться к первой и вносить правки. Все участники команды без Claude отмечали, насколько странно было лишиться такой поддержки. Некоторые особо подчеркнули, что этот опыт заставил их почувствовать, будто их навыки программирования уже не так остры, как раньше. Вендинговый автомат был, робо-пёс был, дальше... попросят запустить онлайн-бизнес?

Из этого канала