Немного занудства...
На нормальных сайтах реализована защита от парсинга, она может включать в себя:
- блокировка по количеству запросов с 1 IP
- блокировка по куки, дополнительным заголовкам (чтобы отличать бота от браузера сайты снабжают заголовки HTTP спец данными которые браузер вернет при очередном запросе)
- вставка ссылок\данных через скрипт, т.е. ссылки\данные не располагаются в теле HTML, а появляются в DOM с помощью скрипта который их строит
- вставка ссылок\данных в виде svg\png элемента (при клике на данный элемент происходит GET запрос, на который сервер отвечает редиректом на другой ресурс)
- Обфусцификация, минификация
- динамические "мусорные" теги
Это как минимум на вскидку. Если требуется парсить сайт - надо это учитывать. Так же хочу отметить что некоторые сайты предоставляют API или RSS каналы через которые можно получать новые данные.
По теме: Искать ссылки через BlockFind, MultiBlockFind, хранить ссылки в StrList проверять через точку doGetString
Ответов: 655
Рейтинг: 18
|
|||
карма: 0 |
|