Сбор текстовки. Много много копипаста. =)


Последняя версия парсера здесь

Ближе к вечеру появилась мыслишка обновить базу текста для бурж доров. Искать всякие библиотеки в архивах не хотелось, да и в свое время я их уже искал и уже много раз поюзал…

Дабы немножко отвлечься от дум тяжких, написал простой сборщик текстовки для доров, ну или для низкокачественных сатов. Для доров, конечно, в первую очередь.

Собственно вот:
Чтоб долго не ждать и не ебать мозг со ссылками прикрутил многопоточность и сборщика ссылок (ходит по страничкам сайта до тех пор, пока не перестанут встречаться уникальные урлы), а чтобы не парсить откровенное Г, прикрутил блэклист. Если какое-то слово из него встречается в ссылке, то парсер по ней не ходит. Получилось вполне сносно.

В поле «Сайт» втыкаете урл сайта с «http://» и с завершающим слэшем на конце «/», высталяете количество потоков, заполняете блэклист и вперед! На выходе в папке parse кучка текстовки.

Скачать парсер текста

p/s Парсер текста не на что не претендует. Создан просто для того, чтобы быстро набрать нового текста. Думаю, будет интересно товарищам с рейтинга Спута.

Пис, гайс! :)


Like it? Share with your friends!

0

Добавить комментарий

Ваш e-mail не будет опубликован.

Сбор текстовки. Много много копипаста. =)

log in

reset password

Back to
log in