Делаю качалку сайтов. Есть одна загвоздка. Нужно из html вытаскивать все ссылки. В том числе и ссылки на картинки фона. Вытащить теги href= и src= нет проблнм. Но есть и такие:
<li><a href=../ooo/index.html target=_blank>Ваш бесплатный блог </a></li>
<li><a href=../../ooo/index.html target=_blank>Ваш бесплатный блог </a></li>
Эти ссылки нужно приводить к виду с доменом на котором расположен сайт. Этого схемка не может.
В общем есть наброски схемки, но она не стопроцентно выдирает ссылки.
Может у кого есть соображения насчёт выдирания ссылок получше чем на моей схемке? Может лучше сделать с кодом delphi а не на стандартных компонентах? Задача такая, чтобы ссылки были бы как их видит EI загружая страничку. Поделитесь соображениями.
code_10172.txt
Этот топик читают: Гость
Ответов: 176
Рейтинг: 12
|
|||
карма: 0 |
| ||
файлы: 1 | code_10172.txt [4.1KB] [193] |
Администрация
Ответов: 15295
Рейтинг: 1519
|
|||
так проблема с поиском или нормализацией ссылок? они как мне кажется не взаимосвязаны друг с другом...
|
|||
карма: 27 |
|
Ответов: 1926
Рейтинг: 172
|
|||
code_722.txt
Здесь использован инлайник. Может быть. в нём что-то лишнее, но я пока не жаловался на поиск. [size=-2]------ Добавлено в 19:07 Да, ещё есть проверка дубликатов. |
|||
карма: 9 |
| ||
файлы: 1 | code_722.txt [2.9KB] [389] |
Ответов: 176
Рейтинг: 12
|
|||
Да с поиском проблем нет. Дело в нормализации.
------------ Дoбавленo: 3042, Ну а вот из такого кода схемка ссылокчку выдрать не может. <li><a href=../gudzonhost.ru/ target=_blank>Мой UNIX хостинг </a></li> |
|||
карма: 0 |
|
Ответов: 1926
Рейтинг: 172
|
|||
Да, ссылки ищутся у меня, только если есть http://.
code_883.txt Попробуйт это. Что касается замены точек доменом, то если ты используешь компонент webbrowser, то см. точку currenturl и считывай текущую страницу с неё. А там и до домена недалеко. |
|||
карма: 9 |
| ||
файлы: 1 | code_883.txt [4.1KB] [418] |
5