"Раньше было чище Есть такая штука - низкофоновая сталь, с низкой концентрацией… — @etechlead

"Раньше было чище Есть такая штука - низкофоновая сталь, с низкой концентрацией радиоактивных изотопов. Используется там, где фоновое излучение может помешать измерениям, к примеру, в счётчиках Гейгера, медицинских устройствах и т.п. После начала в 1945 году атмосферных ядерных испытаний новые партии __стали стали__ содержать достаточно радиоактивных веществ, чтобы это стало проблемой. Так что для специфических применений нужно было искать ту сталь, которая была выплавлена до взрывов первых ядерных бомб. Самый яркий пример того, где её нашли - это старые затонувшие корабли. Т.е. представляете, человечеству для добычи чистой стали пришлось лезть на дно бухты Скапа-Флоу в Шотландии, чтобы там пилить немецкие военные корабли Первой Мировой, которые были умышленно там затоплены Германией в 1919 году после поражения, чтобы они не достались победителям. Текущие передовые AI-модели обучены на огромных объемах данных, полученных из разных источников, основным из которых, конечно же, является Интернет. Примечательно то, что уже были жалобы на то, что открытых данных из Интернета не хватает, т.е. уже обучили модели на всём, что смогли собрать. Но суть не столько в нехватке данных, сколько в их качестве. Дело в том, что с момента появления генеративных моделей, будь то текстовых или картиночных, в Интернет стало попадать огромное количество материалов, сгенерированных с их помощью. И это создаёт проблему того, что собранные в последние годы данные из Интернета содержат ""примеси"" сгенерированных нейронками данных. Почему это плохо? Постепенная деградация качества, т.к. модели будут учиться на данных, сгенерированных самими собой или устаревшими моделями; потеря оригинальности в исходном материале для обучения, ну и перекосы в статистических распределениях в выборках. Соответственно, данные, опубликованные до начала эры генеративного ИИ, представляют бóльшую ценность. Да, эту проблему уже решают, но это не отменяет того, что приходится предпринимать сознательные усилия, чтобы учиться опознавать собранный сгенерированный контент и стараться от него избавиться при тренировке моделей. Есть некоторая аналогия с низкофоновой сталью :) P.S. Для понимания масштабов: * Исследование о том, что 57% данных в Интернете уже созданы или переведены при помощи ИИ * Предсказания того, что к 2025 г. их доля достигнет 90% * А к 2030-му - больше 99% #ai"

Из этого канала