В статье Exploring the Evolving File Format Landscape in AI Era: Parquet, Lance, Nimble and Vortex And What It Means for Apache Iceberg рассказывают про файловые форматы. Мы привыкли к классическим форматам - Parquet, Avro, ORC, которые долгое время были стандартом для аналитики (batch-запросов, DWH, Data Lake, Lake House). Они оптимизированы под: - последовательное чтение больших объёмов данных - компрессию и экономию места - традиционную оффлайн-аналитику Но они плохо подходят под: - AI/ML, где нужно быстро извлекать отдельные строки или фичи - векторные данные (embeddings) - real-time-обновления и работу на GPU А вот и сами новые форматы: 💻Lance: быстрый доступ к данным для векторных и мультимодальных задач — embeddings, LLM-RAG, vector search. __Особенности: - Нет row-groups, доступ к строкам O(1); - Adaptive encoding для разных типов данных; - Встроенные векторные индексы (HNSW, IVF_PQ); - Поддержка версионирования (git-like snapshots). Преимущество: до 2000× быстрее Parquet при случайных чтениях. Минус: пока не поддерживается BI-инструментами.__ https://lancedb.github.io/lance/ 💻Nimble: ускорение декодирования данных при обучении ML-моделей. __Проблема Parquet: сложные кодировки (dictionary/run-length) и компрессия замедляют загрузку данных в GPU-потоки. Решение Nimble: - Простая и предсказуемая структура памяти; - Минимум переменной длины кодировок; - Оптимизация под батчи и потоки данных для PyTorch/TensorFlow. Эффект: ускорение чтения/декодирования в 2–3 раза по сравнению с Parquet. Минус: увеличивается размер файлов, зато быстрее обучение. __ https://github.com/facebookincubator/nimble 💻Vortex: real-time-доступ и обновления без тяжёлых абстракций. __Проблема: Parquet и ORC не поддерживают частые апдейты/удаления — данные нужно “патчить” через Iceberg/Delta. Решение: - Индекс-ориентированные файлы с лёгкой метаданной структурой; - Быстрый доступ к отдельным строкам или диапазонам; - Гибкие схемы и низкая задержка при изменениях. Применение: - real-time аналитика; - Event-driven системы; - Динамичные агентные ИИ-приложения. __ https://vortex.dev Форматы пока не очень популярны, но они показывают высокую эффективность. Осталось подождать и посмотреть, кто возьмет лидерство и как пройдет адоптация в индустрии. А то Parquet уже совсем борода. Некоторые статьи по теме Nimble and Lance: The Parquet Killers Hacker News Thread - Nimble: A new columnar file format by Meta Reddit Thread - Vortex: A new file format that extends parquet and is apparently 10x faster Lance: The Columnar Data Format Transforming Machine Learning Workflows