Measuring AI’s capability to accelerate biological research in the wet lab… — @seeallochnaya

Measuring AI’s capability to accelerate biological research in the wet lab OpenAI For Science не унимается и набирает обороты — и в этот раз они поделились первыми результатами использования GPT-5 для оптимизации протоколов выполнения работ в мокрой лаборатории. Я не большой эксперт в теме размножения и сборки ДНК, да и вообще все мои знания в это домене ограничены вот этим видео Veritasium (рекомендую к просмотру — про изобретение ПЦР, за который выдали Нобелевскую премию) — поэтому мне сложно давать оценку, но я постарался углубиться с помощью LLM в вопрос. Итак, о чём работа? В настоящий момент рассуждающие модели сияют в областях, где идеи можно строго проверить без проведения экспериментов физически в реальном мире— математика, программирование, некоторые разделы физики. Но вполне возможно, что при правильном подходе оно будет работать — тем более на следующий год стоит задача завести это. OpenAI взяли самый популярный протокол для клонирования ДНК, сборку Гибсона, который используется повсеместно в молекулярной биологии. Сборка Гибсона позволяет молекулярным биологам «склеивать» фрагменты ДНК, кратковременно «расплавляя» их концы, чтобы совпадающие последовательности могли соединиться в единую молекулу. Бейзлайном был готовый набор от NEB — самый часто использующийся в практике и имеющий наибольшее число упоминаний в литературе. Исходный протокол очень прост: взять 3 компонента, добавить заготовленный микс, и поставить на 30 минут при температуре 50 градусов. Эффективность этой операции (сборки) определяется количеством колоний на выходе при фиксированном наборе входного материала ДНК. Дальше запустили эволюционный алгоритм для итеративной доработки предложений, что позволило модели обучаться основе своих прошлых экспериментов. В каждом раунде GPT‑5 предлагал партию из 8–10 различных вариантов изменения протокола. Затем ученые проводили реакции и подсчитывали количество колоний по сравнению с базовой сборкой. Данные о лучших результатах предыдущего раунда передавались в следующий. Важно отметить, что промпты были стандартизированы и не требовали участия человека. По итогу 5 раундов лучший из подходов, предложенных моделью, показал рост эффективности в 79 раз — за счёт усложнения процедуры (разные температуры, использование центрифуги, добавление двух новых ферментов). Цифра звучит впечатляюще, но насколько это круто? Во-первых, в литературе есть упоминания роста эффективности отдельных протоколов в тысячу (и даже тысячи) раз. Во-вторых, эффективность не всегда настолько важна — в определённой доле экспериментов не важно, сколько колоний ДНК на выходе — 1, 10 или 79. Учёным нужна всего одна. Но в целом в немалом количестве ситуаций это всё равно важно. В-третьих, OpenAI проводили эксперименты на узком наборе ДНК; после окончания они взяли лучшие протоколы и протестировали снова, используя более широкий диапазон разведений ДНК. Многие из них показали меньшую эффективность, чем при первичном скрининге. А вот тут дальше написано непонятно, но как будто бы выходит, что самый эффективный из них всё равно дал улучшение в десятки раз (уже на широком наборе). В-четвёртых, протокол стал сложнее — вместо одного смешивания и нагревания на 30 минут теперь несколько разных этапов с перепадами температур и использованием дополнительного оборудования. Это не существенный минус, но стоит держать в голове. OpenAI не ожидают, что в большинстве применений новый протокол составит конкуренцию простоте и надежности клонирования исходного бейзлайна. Тем не менее, появление механистически отличного пути склеивания ДНК заслуживает внимания: GPT‑5 нашла решение, включающее нетипичную комбинацию двух белков. При этом этот метод совместим с легкодоступными ферментами, что устраняет необходимость в их самостоятельной подготовке, и при этом превосходит показатели повышения эффективности аналогичных подходов, описанных в литературе.

Из этого канала