"Чуть меньше года назад METR провели контролируемое рандомизированное исследование о повышении продуктивности программистов из-за использования ИИ. Они обнаружили, что несмотря на восприятие участников, задачи делались медленнее, а не быстрее. Я об этом исследовании не писал, так как там было очень много ""но"", а большинство их не читает. Основное ""но"" — что люди, делавшие задачи с использованием ассистентов, имели крайне мало опыта: по-моему, у самого опытного пользователя ИИ было 50 чтоли часов. Чуть больше 1 недели! (и у него, по совпадению, был самый большой прирост производительности, но что такое один человек в исследуемой группе?) Теперь METR повторили исследование, взяв группу из 57 разработчиков в 143 репозиториях и на более чем 800 задачах. Медианный опыт разработки для опенсурса — 10 лет. Опираясь на отзывы участников и опросы, METR пришли к выводу, что данные нового эксперимента дают искаженное представление об увеличении эффективности. Почему? Потому что от 30% до 50% разработчиков отказались от выполнения некоторых задач, так как не хотели делать их без использования ИИ. Это означает, что систематически упускаются задачи, в которых ожидается высокий прирост эффективности от применения ИИ. Некоторые разработчики с меньшей вероятностью доводили взятые задачи до конца, если попадали в условия, где использование ИИ было запрещено. Один разработчик вообще не выполнил ни одной задачи, в которой действовал запрет на ИИ. Также скорее всего нет данных от так называемых power users, тех, кто активнее всего внедряет практики разработки с ИИ, хотя именно эта группа может представлять наибольший интерес. Плюс, оплату труда понизили со $150/час до $50/час, что тоже может вносить шум в данные — хотя удалось привлечь 10 разработчиков из числа участников более раннего исследования. Всё это в сумме вероятнее всего занижает оценки прироста эффективности выполнения задач. Результаты свежего исследования на картинке:"
"Чуть меньше года назад METR провели контролируемое рандомизированное…
Из этого канала
- #3421Для подгруппы разработчиков, участвовавших в прошлом исследовании, ускорение…
Для подгруппы разработчиков, участвовавших в прошлом исследовании, ускорение оценивается в -18% (ко времени выполнения задачи; то есть 82% от времени без ИИ] с…
- #3422Коротко о состоянии индустрии производства компонентов, использующихся в ДЦ (и…
Коротко о состоянии индустрии производства компонентов, использующихся в ДЦ (и о том, как подорожает обычная техника для потребителей): Подразделение Samsung…
- #3423Обновленная информация о встрече: по данным Axios, министр обороны дал…
Обновленная информация о встрече: по данным Axios, министр обороны дал Anthropic срок до вечера пятницы, чтобы предоставить военным беспрепятственный доступ к…
- #3418Две новости про Anthropic: 1. Завтра у CEO компании состоится встреча с…
Две новости про Anthropic: 1. Завтра у CEO компании состоится встреча с Министром обороны США, так как Anthropic против использования своих моделей в военных…
- #3415👏 перед грядущим раундом инвестиций снова утекли слайды с финансовыми…
👏 перед грядущим раундом инвестиций снова утекли слайды с финансовыми показателями OpenAI, тезисно расскажу, о чём пишет TheInformation.