Madskillz.pngСкачать программу «Магадан» LITE — бесплатную, не ограниченную по времени редакцию парсера ключевых слов!

Организация потоков данных в окне сбора ключевых слов

Материал из "Магадан" - инструкция пользователя
Перейти к навигации Перейти к поиску
Cat.jpgЭто незавершенная статья. В ближайшее время недостающий текст будет дописан, иллюстрации — дорисованы. Вы можете уже сейчас оставить пожелания к содержимому статьи, используя соответствующую форму в нижней части страницы.
1. Поисковой системе отправляется запрос информации о поисковой фразе 2. Информация от поисковой системы (статистика показов запрошенной поисковой фразы и связанные с ней ключевые слова) загружается в интерфейс программы по мере получения 3. По окончанию сбора информации о слове, данные сохраняются в подключенную базу, интерфейс очищается, программа переходит к следующей поисковой фразе в очереди

Понимание организации потоков данных в окне парсинга ключевых слов являются ключевым моментом в раскрытии потенциала доступных настроек «Магадана», помогающих решить конкретную задачу.

Базовое описание рабочего цикла

В окне парсинга присутствуют три списка ключевых слов: очередь ключевых слов на парсинг и два столбца собираемых слов, связанных с обрабатываемым в текущий момент словом из очереди. Эти два столбца копируют организацию данных в сервисе Яндекса «Вордстат»: левый столбец «Что искали со словом ...», правый — «Запросы, похожие на ...» (раньше назывался «Что еще искали люди, искавшие слово»).

Скриншоты

Во время работы по сбору ключевых слов, «Магадан» берет по одному слову из очереди на парсинг и отправляет запросы в «Вордстат». Для того, чтобы получить статистику показов для текущего слова, необходим один запрос к «Вордстату». Для получения всех слов, связанных с текущим (для заполнения двух столбцов связей), могут потребоваться дополнительные запросы, т.к. «Вордстат» отдает данные порциями, постранично.

Manual-icon-exlamation.pngБазовый алгоритм работы по сбору информации о ключевом слове выглядит следующим образом:
  1. Если очередь на парсинг пуста, «Магадан» пытается загрузить из базы новые слова для проверки согласно правилам отложенного пополнения очереди ключевых слов. Если отложенное пополнение отключено или его применение дало нулевой результат, процесс парсинга будет остановлен, т.к. в очереди нет ключевых слов для обработки.
  2. Берем первое ключевое слово из очереди
  3. Собираем для этого слова статистику показов за один запрос к «Вордстату» (технически, за тот же запрос получаем первую порцию связанных ключевых слов, но, в зависимости от настроек, они могут быть проигнорированы)
  4. При необходимости, собираем оставшиеся связанные слова дополнительными запросами к «Вордстату». Помещаем найденные слова в списки связей по мере поступления.
    1. Если Фильтр конкретного столбца активен, он применяется к найденным ключевым словам. Отфильтрованные фразы не попадают в список.
    2. Если Генератор ключевых слов конкретного столбца активен, его правила применяются к найденным ключевым словам. В зависимости от настроек Генератора, в список могут как попасть новые, сгенерированные ключевые слова, так и не попасть только что полученные от «Вордстата».
  5. Сохраняем всю полученную информацию (статистику показов для текущего слова, информацию о новых найденных словах) в базу
  6. Если для списков установлены соответствующие настройки, то:
    1. Применяем правила распределения обработанных ключевых слов по группам
    2. Выполняем моментальное пополнение очереди ключевых слов найденными словами-связями
  7. Очищаем списки собранных слов.
  8. Удаляем обработанное слово из очереди (информация о нем остается в базе, просто слово более не фигурирует в очереди на обработку)
  9. Повторяем алгоритм с начала

В целом, все довольно просто, но дьявол, как обычно, в деталях. Когда задача требует большего, чем просто собрать все связи для фиксированного списка слов, необходимо чуть более подробно изучить назначение различных элементов управления и логику их работы.

Особенности работы со списками ключевых слов

Важной особенностью любого списка ключевых слов в окне парсинга является тот факт, что его содержимое не статично, т.е. не обязательно в точности повторяет те данные, которые отдает нам ВОрдстат. При этом программа сохраняет содержимое всех списков в базу, включая очередь, только в тот момент, когда обработка текущего слова подошла к концу и к каждому списку слов были применены все активные Фильтры и правила Генератора ключевых слов!

Таким образом, пользователь может манипулировать содержимым спискорв при помощи предварительно настроенных фильтров или правил Генератора, и программа будет работать с измененными списками так, как будто бы получила их от Вордстата в том виде, который они принимают после всех проделанных манипуляций.

В целом, манипуляции сводятся к следующим базовым техникам:

  1. Полное отключение сбора данных в любой из списков
  2. Удаление "лишних" слов из любого списка при помощи Фильтра
  3. Добавление производных ключевых слов на лету при помощи Генератора
  4. Автоматическое копирование слов из одного списка в другой
  5. Помещение слов из списка в ту или иную группу ключевых слов

Ниже рассмотрим каждый пункт предметно.

Отключение сбора данных в любой из списков

Пльзователь может отключить сбор любого из двух списков связанных слов, используя кнопку ИЗОБРАЖЕНИЕ, расположенную в верхней панели соответствующего списка. Отключенный столбец будет заблокирован визуально и для фактического доступа через интерфейс пользователя, в него не будут поступать новые слова. Если отключен только правый столбец, Магадан все равно будет собирать содержимое левого столбца, т.е. отправлять (при необходимости) дополнительные запросы к Вордстату, "листая" его странички. Если же отключен левый столбец, Магадан не станет тратить время на пролистывание всех страниц, хотя, если при этом правый тсолбец оставлен включенным, слова из него будут собраны, т.е. Вордстат выдает их все за один, самый первый запрос.

ГАЛЛЕРЕЯ ЗАБЛОКИРОВАННЫЙ СТОЛБЕЦ ЛЕВЫЙ, ПРАВЫЙ, ОБА

Manual-icon-exlamation.pngПопулярная задача по сбору статистики показов для фиксированного списка ключевых слов без сбора дополнительных слов (т.н. "чек списка слов") элегантно решается как раз при помощи отключения сбора столбцов слов-связей: отключив сбор левого и правого столбца, мы получаем отправку одного запроса к вордстату для кажого слова из очереди. В базе при этом не появляются новые слова. Магадан пробегает всю очередь ключевых слов, получает для каждого статистику показов и заканчивает работу.

Удаление слов из списка при помощи Фильтра

Над каждым списком ключевых слов, включая очередь, расположен элемент управления фильтром, применяемым к данному конкретному списку. Фильтры разных списков не связаны между собой. Будучи активированными, фильтры применяются ко всем словам, поступающим в список любым известным способом. Для очереди на парсинг это ручной ввод, загрузка слов из файла, перенос слов мышкой, отложенное и моментальное автоматическое пополнение очереди и пр. Для списков найденных слов-связей это получение данных от Вордстата.

Крайне важно понимать, что каждый фильтр отвечает только за связанный с ним список слов! Это напрямую влияет на смысловую нагрузку, лежащую в основе настройки фильтра.

Например, можно настроить фильтры очереди на отказ в помещении в очередь всех слов, содержащих слово "бесплатно". Это означает только то, что поисковые фразы, содержащие слово "бесплатно", не попадут в очередь и не будут обработаны. Для них никогда не будет собрана статистика показов, связанные с ними слова. Но при этом фразы со словом "бесплатно" могут попасть в базу через списки собираемых слов связей! Например, обработав расположенную в очереи фразу "скачать", мы можем получить в столбце связей фразу "скачать бесплатно". Она будет успешно обработана и помещена в базу как фразы, связанная с фразой "скачать".

Manual-icon-exlamation.pngОчередь фильтруется отдельно, списки собираемых слов - отдельно. Это довольно гибкий подход, позволяющий разделять функциональную нагрузку, реализуемую фильтрами: фильтруя собираемые столбцы, мы фактически фильтруем новые слова, попадающие в базу; фильтруя очередь на парсинг, мы никак не влияем на слова, попадающие в базу, а регулируем лишь список слов, на парсинг которых мы готовы потратить время.

Стоит отдельно отметить, что фильтрация найденных слов-связей на этапе сбора является энергетически невыгодной в большинстве случаев! Как правило, наиболее корректным способом является сбор слов БЕЗ какой-либо фильтрации по содержимому, а все работы по отфильтровке бесполезных слов удобнее производить на этапе выборки из базы в окне Браузера.

Дело в том, что, вопреки некоторым утверждениям, фильтрация словами не экономит нам время сбора! Мы так или иначе должны сначала загрузить очередную страничку ВОрдстата, чтобы иметь возможность что-либо отфильтровать, т.е. время уже затрачено. Зачем же на этом этапе выкидывать слова, которые при определенных обстоятельствах могут ьоказаться полезны впоследствии, а время на их сбор уе было затрачено? Совсем другое дело, когда мы говорим о фильтрации очереди! От списка слов, попавшего в очередь, напрямую зависит время, затрачиваемое на парсинг!

Таким образом, я рекомендую совсем не использовать фильтрацию собираемых слов-связей на этапе парсинга, еси вы только не пытаетесь сэкономить на размере файла базы, но при этом призываю наиболее внимательным образом относиться к фильтрации очереди ключевых слов на парсинг.

Добавление производных ключевых слов на лету при помощи Генератора

Генератор работает со списками по тому же принципу, что и Фильтр: к каждому поступающему в список ключевому слову, независимо от способа поступления (ручной ввод, загрузка из файла, перенос мышкой, загрузка из Вордстата, и пр.), применяются правила активного Генератора, настроенного именно для текущего списка. Результатом применения правил Генератора может быть как создание новых слов в дополнение к обработанному (например, фраза "купить авто" может быть превращена в две фразы: "купить авто" и "купить авто петербург"), так и замена оригинального слова на производное (фраза "купить авто" будет отброшена, а вмето нее в список будет помещена фраза "купить авто петербург").

Например, при настройке Генератора для списка найденных слов-связей, окно парсинга Магадана фактически даже не узнает, какие именно слова оно получило от Вордстата. После того, как обработка текущего слова будет завершена, в базу будут сохранены слова, находящиеся в списке, без оглядки на то, были ли они получены от Вордстата, или созданы Генератором. Это довольно сильный инструмент в узком диапазоне задач, применять который следует только в случае полного понимания последствий собственных действий. Другое дело, когда речь идет о применении Генератора для очереди! Применение правил Генератора к очереди является довольно мощным инструментом, позволяющим заметно снизить количество ручного труда во множестве сценариев сбора ключевых слов.

Автоматическое копирование слов из одного списка в другой

Над каждым из двух столбцов собираемых слов-связей расположена кнопка с изображеним дискетки, используемая для отключения сбора содержимого конкретного столбца: ИЗОБРАЖЕНИЕ. Как несложно догадаться, в целом она отвечает за вс еоперации по сохранению собранных ключевых фраз, в т.ч. за помещение найденных слов в очередь на парсинг. Настройками, расположенными в выпадающем меню этой кнопки, реализовано управление функцией моментального пополнения очереди найденными ключевыми словами. Это функция, применяемая по окончанию сбора связей для текущего слова, помещает все собранные в список ключевые фразы в очередь с тем, чтобы далее собрать информацию и для них тоже.

Manual-icon-exlamation.pngКо всем словам, помещенным из собранного столбца в очередь на парсинг, будут применены активные правила Фильтра и Генератора очереди!

При помощи указанной функции решают, например, задачи по парсингу ключевых слов в глубину, т.е. сбору всего графа слов вглубину.

Функция моментального пополнения является в некотором роде противоположником функции отложенного пополнения очереди. В случаях, когда очередь не имеет активных фильтров и выполняется парсинг ВЧ-слов, моментальное пополнение может временно раздувать очередь, постоянно помещая туда все новые найденные слова (новые слова находятся быстрее, чем из очереди успевают уйти старые , т.к. на каждое обработанное слово из очереди мы получаем пару тысяч новых слов). Иногда очередь может быть раздута до довольно больших размеров, что отрицательно сказывается на скорости работы с базой на диске. В таких случаях целесообразнее использовать отложенное пополнение очереди, когда найденные слова сначала сохраняются из списка в базу, а в очередь подгружаются порциями, только по факту ее опустения.

Важно заметить, что и при моментальном, и при отложенном пополнении, все слова-связи, собранные в каждый из включенных столбцов, попадут в файл базы! Вопрос только в том, когда именно они попадут в очередь на парсинг: сразу или по факту опустения списка очереди.

Помещение слов из списка в ту или иную группу ключевых слов

Помимо перечисленных выше манипуляций, фразы из каждого списка окна подбора ключевых слов можно авматотически раскидывать по группам в базе. Распределение по группам происходит одновременно с сохранением в базу информации об обработанном слове из очереди, после применения правил Фильтра и Генератора. Распределение по группам можно настроить для каждого из трех столбцов. Например, обработанные слова из очереди можно помещать в одну группу, собранные релевантные слова-связи из столбца "Что искали со словом..." в другую, а "похожие" слова из столбца "Запросы, похожие на..." -- в третью.

Распределение по группа настраивается при помощи содержимого выпадающего меню кнопки ИЗОБРАЖЕНИЕ. Как и в случае с Фильтром/Генератором, правила распределения поисковых фраз по группам необходимо не только настроить, но и явно активировать, используя соотв. пункт меню. Точно так же, распределение по группам можно оперативно отключить, не потеряв при этом настроенные правила.

Ответы на частые вопросы

См. также

С чего начать Моментальное пополнение Отложенное пополнение Сбор вглубину Чек списка ключевых слов Элемент_интерфейса_«Список_ключевых_слов»

Иллюстрация базового рабочего цикла по сбору ключевых слов
Окно парсинга