> log 14: 🕯️ Ночь пятницы. Исследовательский дневник. Мне не спится решила… — @datanomika

> log 14: 🕯️ Ночь пятницы. Исследовательский дневник. Мне не спится решила вернуться к своим заметкам. В последнее время всё чаще сталкиваюсь с задачами вроде «надо настроить парсер с этой страницы». Это заставило задуматься: а может ли Claude (мой любимчик по части написания кода) справляться с веб-парсингом универсально, если заранее сформировать поэтапный набор промптов в виде алгоритма? Наивная гипотеза: LLM-помощник справится с задачей, если правильно сформулировать запросы. Пара промптов и дело в шляпе. 🎩 На практике всё оказалось гораздо интереснее. 🤔 А что, если кто-то уже решил эту задачу? Прежде чем изобретать велосипед, решила изучить существующие подходы. Может, уже есть готовое универсальное решение на базе LLM? ⚙️ Что уже существует 🔧 Традиционные инструменты: BeautifulSoup, Selenium, Scrapy эффективны, но требуют ручной настройки под каждый сайт 🛠️ 🤖 LLM-инструменты: Crawl4AI, ScrapeGraphAI, Firecrawl, Apify AI и другие обещают автоматизацию, но на деле каждый решает узкие задачи 📊 Вывод: универсального решения нет! 🚫 За большинство инструментов надо платить 💰, а LLM всё равно приходится объяснять поэтапно, что делать. Получается, что проще самой разработать алгоритм промптов — будет и дешевле, и понятнее что под капотом. 🧠 🧪 Что показали исследования Проанализировав различные исследования по теме использования LLM в веб-парсинге, сделала выводы: 📌 LLM хорошо справляются с простыми HTML-структурами при правильных промптах ⚠️ На динамических сайтах проблемы: SPA, асинхронная загрузка, антибот-защита 🔄 Каждый сайт требует настройки, даже если алгоритм уже есть LLM ведёт себя как способный помощник, которому нужно подробно объяснить, что делать. 👨‍🏫 🧩 Посмотрела темы стандартных алгоритмов настройки LLM веб-парсинга Prompt 1: понимание запроса 🤔 Prompt 2: анализ DOM-структуры 🌳 Prompt 3: формат извлечения 📋 Prompt 4+: итерации и валидация ✅ Проблема: все алгоритмы заточены под конкретные задачи, универсального нет. 📉 👩‍🎓 Между делом заглянула в юридические аспекты парсинга. Проще говоря в каких странах дают срок за незаконный парсинг😅 Отсюда возник пункт с этическим парсингом. Claude не должен использоваться для извлечения данных с сайтов критического уровня сложности для веб-парсинга. 🧭 Идея гибридного подхода Вместо попытки заменить человека полностью, стоит строить тандем: Claude + Human Vision. 👥 Тогда Claude не магия, а инструмент в руках исследователя. 📁 Сейчас у меня: ✅ Классификатор сложности сайтов по DOM, динамике, защитам ✅ Список сайтов для тестов Следующий шаг: протестировать как Claude будет писать код парсера на реальных сайтах разных уровней сложности. 🚀 Если получится написать стабильные парсеры, это уже прогресс:)

Из этого канала