Madskillz.pngСкачать программу «Магадан» LITE — бесплатную, не ограниченную по времени редакцию парсера ключевых слов!

Прокси для парсинга

Материал из "Магадан" - инструкция пользователя
Перейти к навигации Перейти к поиску

Все прокси делятся на две большие группы: бесплатные и хорошие. Это не просто затейливый оборот не первой свежести, это правило, не допускающее исключений!

В настоящей статье мы определимся с классификацией прокси, рассмотрим происхождение большинства «публичных» прокси-серверов, пробежимся по основам бизнеса, построенного на продаже прокси и, самое главное, определимся, какие именно прокси лучше всего подходят для сбора ключевых слов и как наиболее выгодно разжиться такими проксями. В качестве огурчика на верхушке этого бутерброда с колбасой, мы научимся настраивать собственные анонимные прокси. Итак, приступим!

Классификация прокси

Прокси могут быть классифицированы по разным параметрам, но наиболее актуальными являются деление по используемому протоколу (HTTP-прокси, HTTPS-прокси, SOCKS-, и т.д.) и по уровню анонимности. Если с первым пунктом все понятно, то второй требует отдельного рассмотрения.

Здесь, как и во всех статьях настоящего Мануала, мы придерживаемся определенной устоявшейся в интернете классификации прокси-серверов по уровню анонимности:

  • «Прозрачный» — прокси-сервер выдает серверу поисковой системы (ПС) ваш оригинальный IP-адрес
  • «Анонимный» — прокси-сервер не выдает серверу ПС ваш оригинальный IP-адрес, но сообщает о факте использования прокси (т.е. представляясь, говорит: «Здравствуйте, я — прокси!»)
  • «Элитный» — прокси-сервер не выдает серверу ПС ваш оригинальный IP-адрес и не сообщает о факте использования прокси

Такую же классификацию использует менеджер прокси, встроенный в «Магадан».

Manual-icon-exlamation.pngЕсли ваши объемы сбора ключевых слов подразумевают использование прокси, для работы с «Магаданом» вам потребуются HTTP-прокси с поддержкой HTTPS, желательно «элитные». Анонимные прокси приводят к появлению капчи, прозрачные грозят временным баном по вашему настоящему IP-адресу, который они любезно предоставляют серверу поисковой системы. Вы можете в автоматическом режиме отобрать «элитные» прокси, отбраковав «прозрачные», «анонимные» и иные, используя фильтр по типу, встроенный в менеджер прокси (менеджер самостоятельно определяет тип прокси в фоновом режиме).

Откуда берутся прокси

Прокси - это всего лишь соответствующая программа, запущенная на компьютере, подключенном к интернету. В роли компьютера может выступать как мощный сервер, расположенный в датацентре крупной хостинговой компаниии, так и обычный офисный ПК, стоящий где-то в недрах бухгалтерии ООО «Рога и копыта». Подобной неприхотливостью обусловлен довольно широкий список возможных путей возникновения прокси в природе. Рассмотрим основные варианты:

  • «Белые» прокси (название не является устоявшимся термином, но хорошо отражает суть явления) — сервера, целенаправленно настроенные владельцами железа для использования в роли прокси. Пользователями прокси может быть как закрытая группа лиц, так и неопределенный круг таковых. Основной акцент здесь сделан на легитимном использовании ЭВМ в роли прокси-сервера, владелец осведомлен и заинтересован в поддержании работоспособности прокси. Обычной практикой является ограничение доступа по паролю или IP-адресу пользователя, но бывают и исключения, в т.ч. намеренные, например ловушки, используемые для кражи данных, подсовывания рекламы, установки вредоносных программ через уязвимости ПО на компьютере пользователя и т.д . Воспользовавшись таким «белым» прокси сегодня, вы можете превратить ваш компьютер в «черный» прокси завтра.
  • «Черные» прокси, ботнеты, «лом» — владельцы используемых ЭВМ не в курсе положения дел , не давали разрешения на использование своего компьютера в качестве прокси и не заинтересованы в поддержании работоспособности сервера. Как правило, это жертвы хакерских атак: компьютер подхватывает трояна, попадает в т.н. ботнет (сеть зараженных компьютеров, управляемых злоумышленником), после чего может быть превращен в том числе и в прокси. Такие прокси могут жить долго, но, как правило, довольно медлительны и, самое главное, нестабильны в течение суток, т.к. пользователь постоянно включает/выключает компьютер.
  • «Скан» - все открытые неограниченному кругу лиц прокси, найденные в процессе сканирования интернет-серверов. Да, прокси можно найти самостоятельно: 99 из 100 открытых широкой публике проксей принимает соединения в т.ч. и при обращении по IP-адресу, т.е. без доменного имени; количество IP-адресов в интернете конечно, формат адреса идеален для перебора без дополнительных запросов к третьим серверам (как в случае с доменными именами). Таким образом, очевидно, что можно просто последовательно перебирать те или иные диапазоны IP-адресов в паре с портами и в итоге найти («насканить») открытые прокси самостоятельно.

Сканирование занимаются отдельные энтузиасты, каждый руководствуется своим мотивом: кто-то продает найденные списки более ленивым пользователям, кто-кто эксплуатирует уязвимости в найденных прокси с тем, чтобы получить контроль над найденным сервером, в общем, у каждого своя мотивация и она не играет роли в вопросе классификации прокси. Суть «скана» в том, что в итоговых списках могут оказаться как «белые», так и «черные» прокси, как сервера в датацентрах, так и компьютеры в бухгалтерии, а пользоваться этим «сканом» будет всегда неограниченный круг лиц. На практике, подавляющее большинство насканенных прокси, это «лом» и «потеряшки», некогда открытые для решения тех или иных задач, но забытые администраторами. Другими словами, насканенные прокси в большинстве своем очень нестабильны и склонны к быстрой смерти. Лотерея как она есть. Из десяти тысяч насканенных адресов прокси, в ближайшие восемь часов останется штук двадцать хороших, отзывчивых серверов. Ни один из них не доживет до рассвета. «Скан» можно использовать для сбора ключевых слов, особенно если за него не пришлось платить, но необходимо быть готовым к двум вещам:

  1. Перед тем, как начать выполнять конкретную задачу по сбору ключевых слов, необходимо будет потратить время на поиск хороших прокси в огромной куче «свежего» скана (большая часть любого списка мертва уже на момент опубликования).
  2. После того, как первые прокси найдены и процесс сбора ключевых слов запущен, необходимо в фоновом режиме постоянно подкидывать новые прокси в список на проверку и проверять их наравне со старыми, поддерживая актуальность итогового массива адресов.

Не смотря на то, что менеджер прокси, встроенный в «Магадан», полностью заточен под подобный режим использования (многопоточная проверка и отбраковка многотысячных списков прокси, периодическая фоновая подгрузка новых серверов по заданным пользователям адресам в сети и прочий фарш), работа со «сканом», будь он бесплатный или платный (на практике выходит так, что разница практически отсутствует), требует наличия большего количества времени и терпения, нежели, например, работа с собственными прокси серверами. Но об этом ниже.

Где купить прокси

Пользователи «Магадана» часто просят посоветовать им «хорошее» место, где можно купить прокси. Многие удивляются, когда я отказываюсь советовать хоть кого-то из топ-5 Гугла. В процессе разговора приходится объяснять свою позицию, для чего требуется вводная информация сродни той простыне, что расположена выше. Теперь же, написав эту статью, я могу кратко сформулировать основную причину, по которой не стоит никогда платить за списки прокси в интенете: в девяти случаях из десяти вам продадут «скан»! В оставшемся случае вы можете получить хорошие, «белые» прокси, возможно даже продавец уверит вас, что прокси эксклюзивные, т.е. проданы в одни руки, но чем популярнее продавец, тем выше вероятность, что кто-то до вас уже применял эти прокси для парсинга поисковой системы. Как этот человек применял сервера? Прасил ли аккуратно, или выжимал из прокси все? На эти вопросы невозможно ответить, не попробовав сервер в работе. Это, в свою очередь, означает, что вы можете наткнуться на «белый» прокси, который либо забанен в поисковой системе, либо стоит на карандаше (получает капчу в ответ на каждый запрос).

С упомянутым ранее «сканом» вероятность подобного развития событий еще выше, плюс огромная часть полученного списка серверов попросту откажется работать, как бы вас не уверяли, что продавец постоянно мониторит состояние публикуемых серверов. Про эксклюзивность продаваемых тысячами адресов тоже можно забыть. Призвав на помощь простую математику, можно убедиться, что стоимость круглосуточной высокочастотной проверки заявленных огромных списков прокси превышает стоимость содержания собственного парка в десяток-другой эксклюзивных прокси, т.е. конечному покупателю скидка на списки серверов дается только за счет продажи данных без какого-либо эксклюзива, во многие руки.

Резюмируя, можно сказать следующее: да, есть хорошие продавцы, предоставляющие преимущественно качественные прокси-адреса. Да, некоторые из этих продавцов действительно дадут вам эксклюзивные прокси. Но при всем при этом ни один продавец не контролирует, жив ли его прокси в контексте использования с той или иной поисковой системой! Любой прокси любого продавца может получить бан в ПС, любая подсеть может получить перманентную капчу. Таким образом, посоветовать продавца невозможно, т.к. у любого, даже самого добросовестного, пользователь сможет встретить не удовлетворяющие требованиям, «бракованные» прокси.

Лично мой совет: создавайте собственные прокси! Если совсем нет возможности, покупайте прокси у любого продавца, но не поддавайтесь на предложения получить тысячу адресов за десять копеек. Отталкивайтесь от соображения, что стоимость хорошего эксклюзивного прокси заведомо превышает стоимость подключения IP-адреса в датацентре.

Какие прокси использовать для сбора ключевых слов

Для сбора ключевых слов потребуются «элитные» (см. выше) HTTP-прокси с поддержкой HTTPS. Если вы не готовы ждать формирования рабочего списка бесплатных прокси менеджером прокси и поддерживать этот список в актуальном состоянии, оставляя «Магадан» запущенным 24 часа в сутки, оптимальным вариантом будет создание собственной сети прокси.

Как настроить собственный анонимный прокси

Для создания собственного прокси, вам понадобится как минимум один выделенный сервер (можно виртуальный, VDS/VPS) с как минимум одним внешним IP-адресом (NAT не подойдет). Адресов может быть несколько на одном сервере, на каждом из них будет отдельное прокси-соединение. Фактически, сколько внешних IP-адресов, столько у вас и прокси. Каплей дегтя в этой идиллии выступает то обстоятельство, что хостинг-провайдер, как правило, выдает серверу IP-адреса из одной подсети класса C (IP-адреса x.x.x.1, x.x.x.2 ... x.x.x.255). Поисковые системы уже давно обращают внимание на принадлежность подсети, поэтому в один прекрасный момент вы можете лишиться не одного прокси, пригодного для сбора ключевых слов, а целой пачки. Шанс не велик, но он есть, поэтому, при наличии возможности, лучше распределить прокси по нескольким подсетям, чем больше, тем лучше.

Из решений, позволяющих настроить «элитный» (действительно анонимный, подходящий для парсинга ключевых слов) прокси, работающий с несколькими IP-адресами на одном UNIX-сервере, можно посоветовать ПО 3proxy. Это не единственное решение, но одно из немногих, что удовлетворяют всем озвученным в статье требованиям, имеет документацию на русском языке, до сих пор находится в стадии активной разработки и в целом не предъявляет повышенных требований к конфигурации сервера, как аппаратной, так и программной.

Пошаговая инструкция по настройке прокси-сервера на базе 3proxy, пригодного для сбора ключевых слов Директа, приведена в отдельной статье: Как настроить анонимный прокси?. Прокси, собранные по указанной инструкции, идеально подходят для использования с парсером ключевых слов «Магадан».

Отзывы и критика

Есть что добавить? Добро пожаловать в комментарии внизу страницы, либо в группе ВКонтакте!

См. также