Data Science проект, который не смог Пет-проекты есть у многих — их делают либо для портфолио, либо просто для души. Проблема с ними в том, что, когда нет внешней мотивации, легко потерять интерес и так и не закончить начатое. 🔜 Так и получилось у дата-саейнтиста Мартина Леллепа, который 1600 дней работал над своим проектом — с начала 2020 до конца 2024. Суть была в том, чтобы собрать и проанализировать текстовые данные с немецкого новостного сайта, который ежедневно размещал короткие новости про COVID. Автор хотел провести семантический анализ и анализ метаданных: то есть определить, о чем чаще всего писали, как часто, в какое время и так далее. А также поделиться получившимся датасетом с общественностью. Система работала полуавтоматически: заходить каждый день на сайт и копировать ссылки надо было вручную, а структурирование данных происходило уже без его прямого участия. В блоге есть более подробное описание и даже схемы. Держался он довольно долго, но через 4 года ему это просто надоело. Знакомая ситуация? Наверняка да. Автор вывел для себя несколько правил, как избежать такого в будущем и сделать работу над проектами более приятной и эффективной: 1️⃣ Сразу продумать, как вы будете это презентовать. Не отпугнет публику слишком мрачная направленность датасета? 2️⃣ Не откладывайте самое интересное на потом — он свои данные так и не проанализировал. Старайтесь регулярно «подбадривать» себя промежуточными результатами, делитесь ими с коллегами, чтобы получить фидбек. 3️⃣ Автоматизируйте все, что можно. 4️⃣ Учитывайте частоту сбора данных — если раз в день это еще можно сделать руками, то если это нужно делать чаще, процесс надо автоматизировать. 5️⃣ Храните сырые данные. Еще пригодятся. 6️⃣ Когда возможно, используйте облачные технологии — мало того, что это удобно, так еще в работе пригодится. В общем, проект хоть и не взлетел, но все равно подарил полезный опыт. А как вы мотивируете себя, чтобы продолжать работу над личными проектами и не терять энтузиазм?