Вверх ↑
Этот топик читают: Гость
Ответов: 176
Рейтинг: 12
#1: 2008-10-03 14:53:32 ЛС | профиль | цитата
Делаю качалку сайтов. Есть одна загвоздка. Нужно из html вытаскивать все ссылки. В том числе и ссылки на картинки фона. Вытащить теги href= и src= нет проблнм. Но есть и такие:
<li><a href=../ooo/index.html target=_blank>Ваш бесплатный блог </a></li>
<li><a href=../../ooo/index.html target=_blank>Ваш бесплатный блог </a></li>
Эти ссылки нужно приводить к виду с доменом на котором расположен сайт. Этого схемка не может.
В общем есть наброски схемки, но она не стопроцентно выдирает ссылки.

Может у кого есть соображения насчёт выдирания ссылок получше чем на моей схемке? Может лучше сделать с кодом delphi а не на стандартных компонентах? Задача такая, чтобы ссылки были бы как их видит EI загружая страничку. Поделитесь соображениями.
code_10172.txt
карма: 0
Время верстки: %cr_time% Текущее время: %time%
0
файлы: 1code_10172.txt [4.1KB] [193]
Администрация
Ответов: 15295
Рейтинг: 1519
#2: 2008-10-03 18:21:06 ЛС | профиль | цитата
так проблема с поиском или нормализацией ссылок? они как мне кажется не взаимосвязаны друг с другом...
карма: 27
0
Ответов: 1926
Рейтинг: 172
#3: 2008-10-03 19:07:56 ЛС | профиль | цитата
code_722.txt

Здесь использован инлайник. Может быть. в нём что-то лишнее, но я пока не жаловался на поиск.

[size=-2]------ Добавлено в 19:07
Да, ещё есть проверка дубликатов.
карма: 9
0
файлы: 1code_722.txt [2.9KB] [389]
Ответов: 176
Рейтинг: 12
#4: 2008-10-03 19:13:12 ЛС | профиль | цитата
Да с поиском проблем нет. Дело в нормализации.
------------ Дoбавленo:

3042, Ну а вот из такого кода схемка ссылокчку выдрать не может.
<li><a href=../gudzonhost.ru/ target=_blank>Мой UNIX хостинг </a></li>
карма: 0
Время верстки: %cr_time% Текущее время: %time%
0
Ответов: 1926
Рейтинг: 172
#5: 2008-10-03 19:50:37 ЛС | профиль | цитата
Да, ссылки ищутся у меня, только если есть http://.

code_883.txt

Попробуйт это.

Что касается замены точек доменом, то если ты используешь компонент webbrowser, то см. точку currenturl и считывай текущую страницу с неё. А там и до домена недалеко.
карма: 9
0
файлы: 1code_883.txt [4.1KB] [418]
5
Сообщение
...
Прикрепленные файлы
(файлы не залиты)