Вверх ↑
Этот топик читают: Гость
Ответов: 94
Рейтинг: 1
#1: 2011-07-26 07:21:42 ЛС | профиль | цитата
первый вопрос: написал парсер для html документа - http://hiasm.com/xf/attach/share/Havij%20Mail%20Parser.zip
Но в него загружаются только страници с небольшим количеством информации, большая же страница грузится только отчасти, а если точнее только начала самого кода вплоть до заголовка таблици, тоесть даже меньше чем загружается от страници с малым количеством информации.

И второй: хочу сделать чтобы удалялись одинаковые записи, перепробовал пару вариантов но ничего не получилось(( Может кто подскажет?

P.S.
Видел, что на форуме меня кто то обозвал спамером, из-за того что я взялся делать парсер еmail-ов. Сразу, что бы раставить все точки над "и", я спамером не являюсь, просто начинать с чего то надо было изучение hiasm (а изучать всегда проще когда определился с тем, что тебе надо получить, покрайней мере мне) а парсер мне показался более простым с чего можно начать.
карма: 0

0
Ответов: 3889
Рейтинг: 362
#2: 2011-07-26 07:59:04 ЛС | профиль | цитата
"Тут на форуме кто-то обозвал меня вирусоклепателем, чтобы расставить все точки над "ё", вирусоклепателем я не являюсь, просто надо было с чего-то начинать изучение ассемблера, а регистрация сотни подставных мобильных номеров для сбора денег, блокировщик и руткит-загрузчик в нулевом кольце защиты ядра показались мне наиболее простым, с чего можно начать."
карма: 1

0
Ответов: 94
Рейтинг: 1
#3: 2011-07-26 08:11:09 ЛС | профиль | цитата
1nd1g0 писал(а):
"Тут на форуме кто-то обозвал меня вирусоклепателем, чтобы расставить все точки над "ё", вирусоклепателем я не являюсь, просто надо было с чего-то начинать изучение ассемблера, а регистрация сотни подставных мобильных номеров для сбора денег, блокировщик и руткит-загрузчик в нулевом кольце защиты ядра показалсись мне наиболее простым, с чего можно начать."

Сравнил блин
Короче каждый остался при своем мнении
_____________________________________________________

Объясните пожалуйсто, почему так идет загрузка html страници?
карма: 0

0
Ответов: 3889
Рейтинг: 362
#4: 2011-07-26 08:42:02 ЛС | профиль | цитата
_SG_, Я уже говорил ранее, совершенно неправильный подход, схему переделывать полностью. Парсеров (ключевое слово) на форуме сотня, раз в одну-две недели новый вырастает, хотя бы соседними ветками поинтересовались, что ли.
карма: 1

0
Гость
Ответов: 17029
Рейтинг: 0
#5: 2011-07-26 09:31:25 правка | ЛС | профиль | цитата


Редактировалось 1 раз(а), последний 2017-03-03 16:58:24
карма: 0

0
Ответов: 8928
Рейтинг: 823
#6: 2011-07-26 10:30:26 ЛС | профиль | цитата
_SG_ писал(а):
большая же страница грузится только отчасти
Большая -- это сколько?
карма: 19

0
Гость
Ответов: 17029
Рейтинг: 0
#7: 2011-07-26 10:39:31 правка | ЛС | профиль | цитата


Редактировалось 1 раз(а), последний 2017-03-03 16:58:25
карма: 0

0
Ответов: 1841
Рейтинг: 369
#8: 2011-07-26 10:45:42 ЛС | профиль | цитата
[offtop]
95-29-75-111.broadband.co писал(а):
ты там гадина чей троян я поймал и ели как избавился, а?

Оскорбления и сообщение не по теме (не в первый раз), освобождён на 5 дней.[/offtop]
карма: 1
0
Ответов: 94
Рейтинг: 1
#9: 2011-07-26 12:02:30 ЛС | профиль | цитата
Леонид писал(а):
Большая -- это сколько?

короче html страница в 600(17 kb) строк нормально грузится а в 17 000(530 kb) не загружается вобще.
карма: 0

0
Разработчик
Ответов: 26163
Рейтинг: 2127
#10: 2011-07-26 12:21:48 ЛС | профиль | цитата
_SG_ писал(а):
короче html страница в 600 строк нормально грузится а в 17 000 не загружается вобще

MTU никто не отменял. В интернете все грузится кусочками. Эти кусочки надо собирать посредством накопления в буфере
карма: 22

0
Ответов: 94
Рейтинг: 1
#11: 2011-07-26 12:51:10 ЛС | профиль | цитата
nesco писал(а):
MTU никто не отменял. В интернете все грузится кусочками. Эти кусочки надо собирать посредством накопления в буфере

Парсер не парсит сразу с интернета, он парсит уже скачанную страницу, точнее эта страница, явлеется отчетом программы.
карма: 0

0
Ответов: 8928
Рейтинг: 823
#12: 2011-07-26 12:56:37 ЛС | профиль | цитата
_SG_, ну и выложите эту уже скаченную страницу для анализа: а почему эти "кусочки" сохранились?
(Или не хочется раскрывать карты?)
карма: 19

0
Разработчик
Ответов: 26163
Рейтинг: 2127
#13: 2011-07-26 13:07:32 ЛС | профиль | цитата
_SG_ писал(а):
он парсит уже скачанную страницу

Как он может ее парсит всю, когда сам же писал
_SG_ писал(а):
короче html страница в 600(17 kb) строк нормально грузится а в 17 000(530 kb) не загружается вобще


карма: 22

0
Ответов: 94
Рейтинг: 1
#14: 2011-07-26 13:31:34 ЛС | профиль | цитата
Леонид писал(а):
_SG_, ну и выложите эту уже скаченную страницу для анализа: а почему эти "кусочки" сохранились?
(Или не хочется раскрывать карты?)

Вот пример)))

code_24727.txt

nesco писал(а):
Как он может ее парсит всю, когда сам же писал
_SG_ писал(а):
_SG_ писал(а)
короче html страница в 600(17 kb) строк нормально грузится а в 17 000(530 kb) не загружается вобще


Я имел ввиду в список не загружается.
карма: 0

0
файлы: 1code_24727.txt [4.6KB] [168]
Ответов: 1058
Рейтинг: 76
#15: 2011-07-26 14:04:35 ЛС | профиль | цитата
_SG_ писал(а):
а в 17 000(530 kb) не загружается вобще
А каким способом скачиваете страницы?
_SG_ писал(а):
он парсит уже скачанную страницу
А вы уверены что страница полностью загружена а не кусочек?
карма: 0

0
Сообщение
...
Прикрепленные файлы
(файлы не залиты)