Что такое большие данные, а что такое маленькие данные? Каждый год это понятие меняется. Для аналитических систем это важно, ведь мы строим инженерные системы, чтобы обрабатывать большие данные! (Но непонятно, что значит большие данные). Самое простое определение - данные, которые не помещаются на локальном компьютере и которые мы не можем загрузить в оперативную память, даже если они сжаты. Мы начинаем смотреть на distributed computing engines - Greenplum, Spark, Snowflake, Trino и т. п. Такие системы умеют обрабатывать данные параллельно. Часто мы выбираем дорогую систему (distributed) для наших будущих объемов, а кто-то вообще ни разу в жизни ничего не выбирал и работает на legacy всю свою карьеру. А ведь времена меняются, и теперь мы можем читать 1 ТБ данных с помощью одной машины, если использовать DuckDB. Можете посмотреть подробности в статье - Processing 1 TB with DuckDB in less than 30 seconds Товарищ сначала сгенерировал 1 ТБ данных на внешнем SSD, а потом написал к ним запрос. Если использовать MotherDuck и читать данные с S3, будет еще удобнее и быстрее. В новом году хочу попробовать сократить расходы на Snowflake за счет использования DuckDB.
Что такое большие данные, а что такое маленькие данные? Каждый год это понятие…
Из этого канала
- #5627The AI Safety Expert: These Are The Only 5 Jobs That Will Remain In 2030! - Dr.…
The AI Safety Expert: These Are The Only 5 Jobs That Will Remain In 2030! - Dr. Roman Yampolskiy Через два года ИИ заменит большинство людей и профессий.
- #5629AI никого не щадит, и уже Тим лидам предлагают 250т⛷
AI никого не щадит, и уже Тим лидам предлагают 250т⛷
- #5630Как обещал, я записал видео как я использую Cursor с MCP в повседневной работе,…
Как обещал, я записал видео как я использую Cursor с MCP в повседневной работе, но для начала показал VSCode, Claude Code, Kilo Code, Cline, Openrouter.
- #5625Лекция в MIT про Computer Science в год моего рождения.…
Лекция в MIT про Computer Science в год моего рождения. https://youtu.be/-JxL4IGhJA?si=OAnPFlJg9qK8lYHQ Computer Science is not about Science or Computers.
- #5621Интересный кейс был недавно. Сейчас работа без AI code assistant чувствуется…
Интересный кейс был недавно. Сейчас работа без AI code assistant чувствуется так, как будто нужно пешком, иногда на велосипеде, проехать 100 км вместо того,…