Небольшое обновление парсера и мини-урок


Будет полезно всем, кто юзает парсер.

sash, насколько я понял тебе необходимо парсить именно странички с книжками? Не их ведь список?

Сделал так – добавил в парсер поддержку парсинга по списку урлов. Урлы должны лежать в файле to-parse.txt (создайте его сами в папке с прогой) и чекбокс «парсить по списку урлов» должен быть выставлен. Режим ничем не отличается от остальных. Все настройки парсинга действуют и для него. Просто парсер не собирает ссылки на другие странички, а только парсит контент.

Теперь нам нужен первоначальный список урлов, с каких мы спарсим ссылки на непосредственно страницы книжек. В этот раз не стал заморачиваться и сделал его тупо в экселе: в одной ячейке часть ссылки на страницу категорий (для этого сайта «http://www.yakaboo.ua/ru/catalog/value/272892/page-») вторая ячейка это номер страницы, автозаполнением ячеек сделал список на 140 страничек, и в третью ячейку вставил Экселевскую формулу «СЦЕПИТЬ» (у нее аргумантами выступают соответственно первые две ячеки). Таким образом получил список на страницы-листинги книжек.
Далее засунул этот список в парсер, настроил селективный парсинг (как показал быстрый анализ – нам со страницы надо спарсить идентификатор книги). Это делается просто:

[blockname]Name0[/blockname][start]<div id="film_small_view_[/start][stop]"[/stop][-all]

не забываем про модификатор [-all] чтобы спарсились все вхождения. Через пару минут у меня уже был распарсенный список айдишников всех книжек. Объединил все в 1 файл. Посмотрев на урл страницы с книгой видим, что там таже система адресации. Значит, опять идем в эксель и создаем список «книжных» урлов (имееют вид «http://www.yakaboo.ua/ru/catalog/all/-34256″). Где 34256 – номер (айди) книжки.

Все. Осталось пройтись по ним и спарсить описания книжек. Шаблон в этом случае будет такой (одна строка – один блок!!):

[blockname]BookTitle[/blockname][start]<h1 style="color:#006AB5;font-family:tahoma;font-size:13px;"><b>[/start][stop]</b>[/stop]

[blockname]BookReview[/blockname][start]<th>[/start][stop]</td></tr>[/stop][-cleantext][-all]

Запускаем парсер в режиме «по списку уров» и, наверное, радуемся результату? :)
Ссыль на версию парсера с возможностью парсить по списку урлов.


Like it? Share with your friends!

0

Добавить комментарий

Ваш e-mail не будет опубликован.

Небольшое обновление парсера и мини-урок

log in

reset password

Back to
log in