Вытягиваем из гугла линки ресурсов на экзотических языках или language-pack для hrefer’а


Т.к. в сети существует не только англоговорящие юзеры, но и немножко других =), задумался как бы достать ресурсы созданные на их родном языке.

Собственно решение оказалось, как всегда, простым. У нас ведь есть переводчик гугла с его хорошим набором языков. Беда только в том, что символы то там – сплошной юникод да и только. Возмите, например, японский или китайский, а может есть любители арабского? А ведь арабский сегмент нета – наиболее стремительно развивающийся.

Так вот, хрефер создан таким образом что при парсинге он не юзает такую функцию как URLENCODE, дабы перевести все символы из «ероглифов» в понятный формат для ПС. И о такой вещи как кодировка юникод он тоже почему то не слышал. Так что пришлось немного помочь программе :) И да, содержание словаря: 1к существительных, 1к прилагательных, 1к глаголов – топовые по частоте употребления в русском языке.

В общем, результатом проделанной работы является полностью готовый к использованию набор словарей для hrefer’а на таких языках:

— китайский
— японский
— корейский
— испанский
— французский
— немецкий
— португальский
— арабский
— итальянский
+ микс-словарь из всех словарей, отфльтрованный на дубли

т.е. 9 самых распространенных языков в онлайне. Скачать можно тута. Расширяйте свои базы, камрады. Приятного парсинга :)

ps если нужны какие-то еще нативные словари для парсинга – пишите, постораюсь сделать


Like it? Share with your friends!

0

Добавить комментарий

Ваш e-mail не будет опубликован.

Вытягиваем из гугла линки ресурсов на экзотических языках или language-pack для hrefer’а

log in

reset password

Back to
log in