Обновление парсера [06/01/11]


Добавлено:

— DupKiller – оставляет только по 1 файлу 1 размера в папке, т.е. удаляет дубли
— массовый конвертер из utf в ansi
— простой коструктор урлов (как показывает практика, сложнее и не надо) – «подставлятор» в урл счетчика
— вставлялка картинок в спарсенные статьи (если кому то надо, то опишу подробнее всю технику вставки). Юзал для своих сатов, работает с некоторыми нюансами :)
— картиночный фильтр (для удаления «битых» картинок), находится на вкладке «Фильтр»
— сохранение странички с расширением .html при тесте селективного парсинга, теперь сразу можно открыть ее в браузере

Исправлено:

— баг с парсингом картинок, теперь парсит нормально (протестировано на google images, спарсил около 2к картинок), но размер картинки должен быть больше 400кб, большего размера не скачивает, ибо нех
— баг с использованием прокси, раньше если прокси оказывался мертвым и коннекта не было парсер считал, что страница спарсена, теперь такие урлы отправляются обратно в очередь на парсинг

Пожелания, как обычно – welcome!


Like it? Share with your friends!

0

Comments 1

  1. Здравствуйте, только ссылки на обновленный парсер к сожалению нет (

Добавить комментарий

Ваш e-mail не будет опубликован.

Обновление парсера [06/01/11]

log in

reset password

Back to
log in