> log 14: 🕯️ Ночь пятницы. Исследовательский дневник. Мне не спится решила вернуться к своим заметкам. В последнее время всё чаще сталкиваюсь с задачами вроде «надо настроить парсер с этой страницы». Это заставило задуматься: а может ли Claude (мой любимчик по части написания кода) справляться с веб-парсингом универсально, если заранее сформировать поэтапный набор промптов в виде алгоритма? Наивная гипотеза: LLM-помощник справится с задачей, если правильно сформулировать запросы. Пара промптов и дело в шляпе. 🎩 На практике всё оказалось гораздо интереснее. 🤔 А что, если кто-то уже решил эту задачу? Прежде чем изобретать велосипед, решила изучить существующие подходы. Может, уже есть готовое универсальное решение на базе LLM? ⚙️ Что уже существует 🔧 Традиционные инструменты: BeautifulSoup, Selenium, Scrapy эффективны, но требуют ручной настройки под каждый сайт 🛠️ 🤖 LLM-инструменты: Crawl4AI, ScrapeGraphAI, Firecrawl, Apify AI и другие обещают автоматизацию, но на деле каждый решает узкие задачи 📊 Вывод: универсального решения нет! 🚫 За большинство инструментов надо платить 💰, а LLM всё равно приходится объяснять поэтапно, что делать. Получается, что проще самой разработать алгоритм промптов — будет и дешевле, и понятнее что под капотом. 🧠 🧪 Что показали исследования Проанализировав различные исследования по теме использования LLM в веб-парсинге, сделала выводы: 📌 LLM хорошо справляются с простыми HTML-структурами при правильных промптах ⚠️ На динамических сайтах проблемы: SPA, асинхронная загрузка, антибот-защита 🔄 Каждый сайт требует настройки, даже если алгоритм уже есть LLM ведёт себя как способный помощник, которому нужно подробно объяснить, что делать. 👨🏫 🧩 Посмотрела темы стандартных алгоритмов настройки LLM веб-парсинга Prompt 1: понимание запроса 🤔 Prompt 2: анализ DOM-структуры 🌳 Prompt 3: формат извлечения 📋 Prompt 4+: итерации и валидация ✅ Проблема: все алгоритмы заточены под конкретные задачи, универсального нет. 📉 👩🎓 Между делом заглянула в юридические аспекты парсинга. Проще говоря в каких странах дают срок за незаконный парсинг😅 Отсюда возник пункт с этическим парсингом. Claude не должен использоваться для извлечения данных с сайтов критического уровня сложности для веб-парсинга. 🧭 Идея гибридного подхода Вместо попытки заменить человека полностью, стоит строить тандем: Claude + Human Vision. 👥 Тогда Claude не магия, а инструмент в руках исследователя. 📁 Сейчас у меня: ✅ Классификатор сложности сайтов по DOM, динамике, защитам ✅ Список сайтов для тестов Следующий шаг: протестировать как Claude будет писать код парсера на реальных сайтах разных уровней сложности. 🚀 Если получится написать стабильные парсеры, это уже прогресс:)
> log 14: 🕯️ Ночь пятницы. Исследовательский дневник. Мне не спится решила…
Из этого канала
- #743Воркшоп: «Данные как актив: практическая монетизация с ИИ» от Datanomix.pro 📅…
Воркшоп: «Данные как актив: практическая монетизация с ИИ» от Datanomix.pro 📅 24 июня, 17:00 📍 DoubleTree by Hilton Almaty Что сделаем за вечер? ✔Сгенерируете…
- #744"Сделал вот такую классификацию AI-Агентов по уровню автономности. Каждый…
"Сделал вот такую классификацию AI-Агентов по уровню автономности. Каждый уровень добавляет новые ""суперспособности"" к предыдущим.
- #745https://astana.hh.kz/vacancy/121670071?hhtmFrom=employervacancies
https://astana.hh.kz/vacancy/121670071?hhtmFrom=employervacancies
- #740Salesforce покупает Informatica. On-prem и раньше перестали поддерживать и…
Salesforce покупает Informatica. On-prem и раньше перестали поддерживать и развивать, теперь уж точно эта ситуация не изменится.
- #738Agentic Experience от Qlik — не вау, а умно Первое впечатление — «ну и что?». А…
Agentic Experience от Qlik — не вау, а умно Первое впечатление — «ну и что?». А где список действий? Где автоматическое выполнение конкретных действий или хотя…