Что такое датасет? Одной из ключевых составляющих машинного обучения являются датасеты — наборы данных. «Системный Блокъ» рассказывает, какие датасеты используются для обучения моделей и где их найти. Кратко: о чем статья? Датасет (англ. dataset), или выборка, — это структурированный набор данных, который используется для обучения и тестирования моделей машинного обучения. С помощью датасетов модели «учатся» на примерах, чтобы потом применять полученные знания для решения реальных задач. Датасет может состоять из данных разных типов (например, текстов, изображений, аудио- или видеоматериалов), а также разметки. Она опциональна и является дополнительной информацией для описания и классификации данных. Например, датасет ImageNet содержит 14 млн изображений, каждое сопровождается меткой класса (например, указана порода собаки или название растения на фото). Хороший датасет — репрезентативный, то есть точный и полный, поэтому при его формировании важно учитывать разнообразие, количество и качество данных. Например, в случае изображений важны разные погодные условия и освещение, для любых данных нужно проверять их достоверность и соответствие поставленной задаче. Для обучения моделей датасеты обычно делят на три части: тренировочную (train), валидационную (validation) и тестовую (test). На первой модель обучается, с помощью второй можно реализовать валидацию разных параметров обучения и настроек модели, а третью используют для тестирования финальной версии модели. Датасеты можно собирать и делить самостоятельно, а можно найти уже готовые для обучения наборы данных на Kaggle, HuggingFace или UCI Machine Learning Repository, а также в разных исследовательских проектах. Подробнее о том, какие еще типы датасетов бывают, как модель определяет, кто выживет на «Титанике», и к каким еще источникам данных можно обратиться читайте в полной версии статьи. __Время чтения: 9 минут.__ 🤖 «Системный Блокъ» @sysblok
Что такое датасет? Одной из ключевых составляющих машинного обучения являются…
Из этого канала
- #786Мартин Фаулер, международный эксперт по программной инженерии, начал свою…
Мартин Фаулер, международный эксперт по программной инженерии, начал свою публичную просветительскую деятельность с книги Analysis Patterns 1997-го года.
- #787Вчера я тестировала ИИ, который генерирует различных персонажей в рамках…
Вчера я тестировала ИИ, который генерирует различных персонажей в рамках стартапа моей подруги, и кажется, я боюсь.
- #788🧭 Fundamentals of Data Engineering (2022)
🧭 Fundamentals of Data Engineering (2022)
- #784Ах котятки🙈 Кто хоть раз считал TCO по всяким каталогам данных, наверняка…
Ах котятки🙈 Кто хоть раз считал TCO по всяким каталогам данных, наверняка поймут мою боль: и хочется, и колется.👆 И не очень важно, какого поколения твой дата…
- #783ETL и каталоги данных Когда нужно объединить разнородные данные для анализа,…
ETL и каталоги данных Когда нужно объединить разнородные данные для анализа, автоматизировать обработку больших объемов информации или преобразовать сырые…