Spy-сервису нужна база, смогу ли я вообще её собрать? Кажется, что вот сайт Авито, зашел, видишь рекламу, собираешь, база копится, профит. Но руками десятки тысяч баннеров не собрать, значит нужна автоматизация через ботов Посещения от ботов платформы не любят и всячески с ними борются. И тут я застрял: все попытки что-то спарсить заканчивались моментальным ограничением или баном аккаунта или IP. И нейронка не то чтобы давала дельные идеи, как с этим справится У Авито, как оказалось, стоит система защиты от Qrator Labs. Как я понял, это лучший анти-бот сервис в стране, которым пользуется весь энтерпрайз. У них явно нормальный технический отдел и какой-то чувак с улицы обойти их защиту не сможет. Можно было бы на этом этапе пойти искать другую идею для стартапа В попытке подобрать ключик я бился где-то месяц. Каждый день, с переходом в ночь, перебирал комбинации: прокси, подпись браузера, аккаунты, поведение, количество запросов. По началу не получалось добраться до сайта вообще, моих ботов сразу палили и вырубали. Потом удалось пробиться, но рекламу не видно. Окей, увидел рекламу, начал парсить и снова облом — 30 прокси улетели в бан за несколько минут Через месяц удалось собрать комбинацию, которая позволила собирать рекламу и не ловить баны каждые 5 минут. Настроил парсер, начал наполнят базу, через 3 недели они что-то поменяли и у меня все прокси перестали доходить до сайта снова. Пришлось опять искать замену С прокси вообще интересная история: половина провайдеров запрещает использовать прокси для парсера Авито (и только их), видимо настолько всё жестко с блокировками. Часть открыто об этом не пишет, но когда пытаешься зайти на Авито через этот прокси, то на уровне провайдера соединение обрывается. Т.е. ты купил прокси, начинаешь использовать и оказывается, что тебе нельзя на Авито, но об этом умолчали на сайте Еще прокси надо много, иначе не собрать рекламу по всей стране. Хорошие прокси, которые разрешают парсить Авито, стоят очень дорого. Дешевые, что у меня были, сломались через 3 недели. Перебрав еще десяток провайдеров нашел нормальную подборку без запретов, пока держимся На старте казалось, что Opus 4.6 умный, сейчас я его попрошу обойти защиту и сделать парсер, он переберет десятки комбинаций и сделает. На деле — комбинации он сам перебирает очень плохо, часто галлюцинирует и делает неверные выводы. Если бы я сам не анализировал, что повлияло на прохождение того или иного слоя защиты, то собрать парсер не вышло бы В общем, парсеры работают, база наполняется. Без опыта разработки, вооружившись нейронкой, за месяц мне удалось обойти анти-бот защиту энтерпрайз уровня. Только вот собрать базу не равно сделать SaaS 😍