Организация потоков данных в окне сбора ключевых слов

1. Поисковой системе отправляется запрос информации о поисковой фразе 2. Информация от поисковой системы (статистика показов запрошенной поисковой фразы и связанные с ней ключевые слова) загружается в интерфейс программы по мере получения 3. По окончанию сбора информации о слове, данные сохраняются в подключенную базу, интерфейс очищается, программа переходит к следующей поисковой фразе в очереди

Понимание организации потоков данных в окне парсинга ключевых слов является ключевым моментом в раскрытии потенциала доступных настроек «Магадана», помогающих решить конкретную задачу подбора ключевых слов.

Базовое описание рабочего цикла

В окне парсинга присутствуют три списка ключевых слов: очередь ключевых слов на парсинг и два столбца собираемых слов, связанных с обрабатываемым в текущий момент словом из очереди. Эти два столбца копируют организацию данных в сервисе Яндекса «Вордстат»: левый столбец «Что искали со словом ...», правый — «Запросы, похожие на ...» (раньше назывался «Что еще искали люди, искавшие слово»).

Скриншоты

Очередь ключевых слов на парсинг

Списки собираемых слов-связей

Страница «Вордстата»

Во время работы по сбору ключевых слов, «Магадан» берет по одному слову из очереди на парсинг и отправляет запросы в «Вордстат». Для того, чтобы получить статистику показов для текущего слова, необходим один запрос к «Вордстату». Для получения всех слов, связанных с текущим (для заполнения двух столбцов связей), могут потребоваться дополнительные запросы, т.к. «Вордстат» отдает данные порциями, постранично.

Базовый алгоритм работы по сбору информации о ключевом слове выглядит следующим образом:

Если очередь на парсинг пуста, «Магадан» пытается загрузить из базы новые слова для проверки согласно правилам отложенного пополнения очереди ключевых слов. Если отложенное пополнение отключено или его применение дало нулевой результат, процесс парсинга будет остановлен, т.к. в очереди нет ключевых слов для обработки.
Берем первое ключевое слово из очереди
Собираем для этого слова статистику показов за один запрос к «Вордстату» (технически, за тот же запрос получаем первую порцию связанных ключевых слов, но, в зависимости от настроек, они могут быть проигнорированы)
При необходимости, собираем оставшиеся связанные слова дополнительными запросами к «Вордстату». Помещаем найденные слова в списки связей по мере поступления.
1. Если Фильтр конкретного столбца активен, он применяется к найденным ключевым словам. Отфильтрованные фразы не попадают в список.
2. Если Генератор ключевых слов конкретного столбца активен, его правила применяются к найденным ключевым словам. В зависимости от настроек Генератора, в список могут как попасть новые, сгенерированные ключевые слова, так и не попасть только что полученные от «Вордстата».
Сохраняем всю полученную информацию (статистику показов для текущего слова, информацию о новых найденных словах) в базу
Если для списков установлены соответствующие настройки, то:
1. Применяем правила распределения обработанных ключевых слов по группам
2. Выполняем моментальное пополнение очереди ключевых слов найденными словами-связями
Очищаем списки собранных слов.
Удаляем обработанное слово из очереди (информация о нем остается в базе, просто слово более не фигурирует в очереди на обработку)
Повторяем алгоритм с начала

В целом, все довольно просто, но дьявол, как обычно, в деталях. Когда задача требует большего, чем просто собрать все связи для фиксированного списка слов, необходимо чуть более подробно изучить назначение различных элементов управления и логику их работы.

Особенности работы со списками ключевых слов

Важной особенностью любого списка ключевых слов в окне парсинга является тот факт, что его содержимое не статично, т.е. не обязательно в точности повторяет те данные, которые отдает нам «Вордстат». При этом программа сохраняет содержимое всех списков в базу, включая очередь, только в тот момент, когда обработка текущего слова подошла к концу и к каждому списку слов были применены все активные Фильтры и правила Генератора ключевых слов!

Таким образом, пользователь может манипулировать содержимым списков при помощи предварительно настроенных Фильтров или правил Генератора, и программа будет работать с измененными списками так, как будто бы получила их от «Вордстата» в том виде, который они принимают после всех проделанных манипуляций.

В целом, манипуляции сводятся к следующим базовым техникам:

Полное отключение сбора данных в любой из списков
Удаление «лишних» слов из любого списка при помощи Фильтра
Добавление производных ключевых слов на лету при помощи Генератора
Автоматическое копирование слов из одного списка в другой
Помещение ключевых слов из списка в ту или иную группу ключевых слов

Ниже рассмотрим каждый пункт предметно.

Отключение сбора данных в любой из списков

Пользователь может отключить сбор любого из двух списков связанных слов, используя кнопку , расположенную в верхней панели соответствующего списка. Отключенный столбец будет заблокирован визуально и для фактического доступа через интерфейс пользователя, в него не будут поступать новые найденные слова. Если отключен только правый столбец, «Магадан» все равно будет собирать содержимое левого столбца, т.е. отправлять (при необходимости) дополнительные запросы к «Вордстату», «листая» его странички. Если же отключен левый столбец, «Магадан» не станет тратить время на пролистывание всех страниц, хотя, если при этом правый столбец оставлен включенным, слова для него будут собраны, т.к. «Вордстат» выдает их все за один, самый первый запрос.

Скриншоты

Левый столбец заблокирован и не будет собран. Каждое ключевое слово из очереди будет обработано за один запрос к «Вордстату» (сбор статистики показов для самого слова и получение связанных с ним слов из правого столбца).

Правый столбец заблокирован и не будет собран. Количество запросов к «Вордстату» будет определено количеством связанных слов, постранично отдаваемых «Вордстатом» для текущего слова из очереди на парсинг.

Оба столбца заблокированы, каждое слово из очереди на парсинг будет обработано за один запрос к Вордстату. На скриншоте изображена типичная конфигурация для сбора статистики показов для фиксированного списка ключевых слов (см. ниже).

Популярная задача по сбору статистики показов для фиксированного списка ключевых слов без сбора дополнительных слов (т.н. «чек списка слов») элегантно решается как раз при помощи отключения сбора обоих столбцов слов-связей: отключив сбор левого и правого столбца, мы получаем отправку одного запроса к «Вордстату» для кажого слова из очереди. В базе при этом не появляются новые слова. «Магадан» пробегает всю очередь ключевых слов, получает для каждого статистику показов и заканчивает работу.

Удаление слов из списка при помощи Фильтра

См. также: Фильтр ключевых слов

Над каждым списком ключевых слов, включая очередь, расположен элемент управления Фильтром , применяемым к данному конкретному списку. Фильтры разных списков не связаны между собой. Будучи активированными, фильтры применяются ко всем словам, поступающим в список любым известным способом. Для очереди на парсинг это ручной ввод, загрузка слов из файла, перенос слов мышкой, отложенное и моментальное автоматическое пополнение очереди и пр. Для списков найденных слов-связей это получение данных от «Вордстата».

Крайне важно понимать, что каждый фильтр отвечает только за связанный с ним список слов! Это напрямую влияет на смысловую нагрузку, лежащую в основе настройки фильтра.

Например, можно настроить фильтры очереди на отказ в помещении в очередь всех фраз, содержащих слово «бесплатно». Это означает только то, что поисковые фразы, содержащие слово «бесплатно», не попадут в очередь и не будут обработаны. Для них никогда не будет собрана статистика показов, связанные с ними слова. Но при этом фразы со словом «бесплатно» могут попасть в базу через списки собираемых слов связей! Например, обработав расположенную в очереди фразу «скачать», мы можем получить в столбце связей фразу «скачать бесплатно». Она будет успешно обработана и помещена в базу как фраза, связанная с фразой «скачать».

Очередь фильтруется отдельно, списки собираемых слов — отдельно, каждый сам по себе. Это довольно гибкий подход, позволяющий разделять функциональную нагрузку, реализуемую фильтрами: фильтруя собираемые столбцы, мы фактически фильтруем новые слова, попадающие в базу; фильтруя очередь на парсинг, мы никак не влияем на слова, попадающие в базу, а регулируем лишь список слов, на парсинг которых мы готовы потратить время.

Стоит отдельно отметить, что фильтрация найденных слов-связей на этапе сбора является энергетически невыгодной операцией в большинстве случаев! Как правило, наиболее корректным способом является сбор слов без какой-либо фильтрации по содержимому, а все работы по отфильтровке бесполезных слов удобнее производить на этапе выборки из базы в окне Браузера.

Дело в том, что, вопреки некоторым утверждениям, фильтрация словами не экономит нам время сбора связанных ключевых фраз! Мы так или иначе должны сначала загрузить очередную страничку «Вордстата», чтобы иметь возможность что-либо отфильтровать, т.е. время уже затрачено. Зачем же на этом этапе выкидывать слова, которые при определенных обстоятельствах могут оказаться полезны позже, а время на их сбор уже было затрачено? Совсем другое дело, когда мы говорим о фильтрации очереди! От количества и качества фраз, попавших в очередь, напрямую зависит время, затрачиваемое на сбор ключевых слов!

Таким образом, я рекомендую совсем не использовать фильтрацию собираемых слов-связей на этапе парсинга, если вы только не пытаетесь сэкономить на размере файла базы, но при этом призываю наиболее внимательным образом относиться к фильтрации очереди ключевых слов на парсинг!

Добавление производных ключевых слов на лету при помощи Генератора

См. также: Генератор ключевых слов

Генератор ключевых слов работает со списками по тому же принципу, что и Фильтр: к каждому поступающему в список ключевому слову, независимо от способа поступления (ручной ввод, загрузка из файла, перенос мышкой, загрузка из «Вордстата», и пр.), применяются правила активного Генератора, настроенного для текущего списка. Результатом применения правил Генератора может быть как создание новых слов в дополнение к обработанному (например, фраза «купить авто» может быть превращена в две фразы: «купить авто» и «купить авто петербург»), так и замена оригинального слова на производное (фраза «купить авто» будет отброшена, а вместо нее в список будет помещена сгенерированная фраза «купить авто петербург»).

Например, при настройке Генератора для списка найденных слов-связей, окно парсинга «Магадана» фактически даже не узнает, какие именно слова оно получило от «Вордстата». После того, как обработка текущего слова будет завершена, в базу будут сохранены слова, находящиеся в списке, без оглядки на то, были ли они получены от «Вордстата», или созданы Генератором. Это довольно сильный инструмент в узком диапазоне задач, применять который следует только в случае полного понимания последствий собственных действий. Совсем другое дело, когда речь идет о применении Генератора для очереди ключевых слов на парсинг! Применение правил Генератора к очереди является довольно мощным и часто применяемым инструментом, позволяющим заметно снизить количество ручного труда во множестве сценариев сбора ключевых слов, будь то хоть генерация новых слов на основ топонимов, хоть производные уточняющие словоформы («купить авто» => «!купить !авто»).

Автоматическое копирование слов из одного списка в другой

См. также: Моментальное пополнение очереди ключевых слов найденными словами

Раскрываемое меню кнопки сохранения найденных ключевых слов

Над каждым из двух столбцов собираемых слов-связей расположена кнопка с изображеним дискетки, используемая для отключения сбора содержимого конкретного столбца: . Как несложно догадаться, она отвечает за все операции по сохранению собранных ключевых фраз в целом, в т.ч. за помещение найденных слов в очередь на парсинг. Настройками, расположенными в выпадающем меню этой кнопки, реализовано управление функцией моментального пополнения очереди найденными ключевыми словами (подпункт «Сразу добавлять в очередь на парсинг»). Это функция, применяемая по окончанию сбора связей для текущего слова, помещает все собранные в список ключевые фразы в очередь с тем, чтобы далее собрать информацию и для них тоже.

Ко всем словам, помещенным из собранного столбца в очередь на парсинг, будут применены активные правила Фильтра и Генератора очереди!

Один из типовых вариантов настройки функции сохранения найденных слов-связей: содержимое левого столбца сохраняем в базу и моментально помещаем в очередь на парсинг, содержимое же правого столбца только сохраняем в базу, в очередь не помещаем.

При помощи указанной функции решают, например, задачи по парсингу ключевых слов в глубину, т.е. сбору всей ветки графа слов.

Функция моментального пополнения в некотором роде противопоставлена функции отложенного пополнения очереди. В случаях, когда очередь не имеет активных фильтров и выполняется парсинг ВЧ-слов, моментальное пополнение может временно раздувать очередь, постоянно помещая туда все новые найденные слова (новые слова находятся быстрее, чем из очереди успевают уйти старые, т.к. на каждое обработанное слово из очереди мы получаем пару тысяч новых слов). Иногда очередь может быть раздута до довольно больших размеров, что отрицательно сказывается на скорости работы с базой на диске. В таких случаях целесообразнее использовать отложенное пополнение, когда найденные поисковые фразы сначала сохраняются из списка в базу, а в очередь подгружаются порциями, только по факту ее опустения.

Важно заметить, что как при моментальном, так и при отложенном пополнении, все слова-связи, собранные в каждый из включенных столбцов, попадут в файл базы! Вопрос только в том, когда именно они попадут в очередь на парсинг: сразу, или по факту опустения списка очереди.

Помещение слов из списка в ту или иную группу ключевых слов

См. также: Группы ключевых слов

Помимо перечисленных выше манипуляций, фразы из каждого списка окна подбора ключевых слов можно автоматически раскидывать по группам в базе. Распределение по группам происходит одновременно с сохранением в базу информации об обработанном слове из очереди, после применения правил Фильтра и Генератора ключевых слов к спискам найденных слов. Распределение по группам можно настроить для каждого из трех столбцов в окне парсинга. Например, обработанные слова из очереди можно помещать в одну группу, найденные релевантные слова-связи из столбца «Что искали со словом ...» в другую, а «похожие» слова из столбца «Запросы, похожие на ...» — в третью.

Распределение по группам настраивается при помощи содержимого выпадающего меню кнопки (см. Диалог настройки распределения ключевых слов по группам). Как и в случае с Фильтром и Генератором ключевых слов, правила распределения поисковых фраз по группам необходимо не только настроить, но и явно активировать, используя пункт меню «Включить работу с группами». Точно так же, распределение по группам можно оперативно отключить, не потеряв при этом заботливо настроенные правила.

Скриншоты

Выпадающее меню кнопки настройки распределения поисковых фраз по группам

Диалог настройки распределения ключевых слов по группам. Появляется по нажатию на пункт «Выбрать группы» в выпадающем меню кнопки

, или непосредственно по самой кнопке.

См. также

Организация потоков данных в окне сбора ключевых слов

Содержание

Базовое описание рабочего цикла

Особенности работы со списками ключевых слов

Отключение сбора данных в любой из списков

Удаление слов из списка при помощи Фильтра

Добавление производных ключевых слов на лету при помощи Генератора

Автоматическое копирование слов из одного списка в другой

Помещение слов из списка в ту или иную группу ключевых слов

См. также

Навигация