Optimizing LinkedIn Sales Navigator’s search pipeline with Spark LinkedIn провёл масштабную оптимизацию поискового пайплайна для Sales Navigator, переведя обработку данных с MapReduce на Spark и сократив время выполнения с 6–7 часов до примерно 3 часов. Это позволило пользователям быстрее получать обновлённые результаты поиска и принимать решения на основе актуальных данных. Технически интересные моменты  - Централизованный сервис поиска: Перевод отдельных поисковых кейсов на единую платформу Search-as-a-Service. - Масштаб Spark-процессинга: Более 100 Spark-джобов, крупнейший из которых использует ~5000 исполнителей (executors). - Работа с большими объёмами данных: Джобы обрабатывают данные в формате Avro, хранящиеся в HDFS, с последующей записью обратно. - Оркестрация пайплайна: Используется Azkaban для управления зависимостями и запуском джобов. https://www.linkedin.com/blog/engineering/infrastructure/optimizing-linkedin-sales-navigators-search-pipeline-with-spark