Вверх ↑
Ответов: 655
Рейтинг: 18
#1: 2018-09-19 11:25:37 ЛС | профиль | цитата
Немного занудства...

На нормальных сайтах реализована защита от парсинга, она может включать в себя:

- блокировка по количеству запросов с 1 IP
- блокировка по куки, дополнительным заголовкам (чтобы отличать бота от браузера сайты снабжают заголовки HTTP спец данными которые браузер вернет при очередном запросе)
- вставка ссылок\данных через скрипт, т.е. ссылки\данные не располагаются в теле HTML, а появляются в DOM с помощью скрипта который их строит
- вставка ссылок\данных в виде svg\png элемента (при клике на данный элемент происходит GET запрос, на который сервер отвечает редиректом на другой ресурс)
- Обфусцификация, минификация
- динамические "мусорные" теги

Это как минимум на вскидку. Если требуется парсить сайт - надо это учитывать. Так же хочу отметить что некоторые сайты предоставляют API или RSS каналы через которые можно получать новые данные.

По теме: Искать ссылки через BlockFind, MultiBlockFind, хранить ссылки в StrList проверять через точку doGetString
карма: 0

0