Madskillz.pngСкачать программу «Магадан» LITE — бесплатную, не ограниченную по времени редакцию парсера ключевых слов!

Организация потоков данных в окне сбора ключевых слов: различия между версиями

Материал из "Магадан" - инструкция пользователя
Перейти к навигации Перейти к поиску
мНет описания правки
м (Root переименовал страницу Организация потоков данных в окне парсинга ключевых слов в [[Организация потоков данных в окне сбора ключевых…)
(нет различий)

Версия от 14:37, 18 января 2017

1. Поисковой системе отправляется запрос информации о поисковой фразе 2. Информация от поисковой системы (статистика показов запрошенной поисковой фразы и связанные с ней ключевые слова) загружается в интерфейс программы по мере получения 3. По окончанию сбора информации о слове, данные сохраняются в подключенную базу, интерфейс очищается, программа переходит к следующей поисковой фразе в очереди

Понимание организации потоков данных в окне парсинга ключевых слов являются ключевым моментом в раскрытии потенциала доступных настроек «Магадана», помогающих решить конкретную задачу.

Базовое описание рабочего цикла

В окне парсинга присутствуют три списка ключевых слов: очередь ключевых слов на парсинг и два столбца собираемых слов, связанных с тем словом из очереди, которое обрабатывается в текущий момент. Эти два столбца копируют организацию данных в сервисе Яндекса «Вордстат»: левый столбец Что искали со словом..., првый -- Запросы, похожие на... (раньше назывался "Что еще искали люди, искавшие слово").

Скриншоты

Во время работы по сбору ключевых слов, Магадан берет по одному слову из очереди на парсинг и отправляет запросы в Вордстату. Для того, чтобы получить статистику показов для текущего слова, необходим один запрос к ВОрдстату. Для получения всех слов, связанных с текущим (для заполнения двух столбцов связей), могут потребоваться дополнительные запросы, т.к. Вордстат отдает данные порциями, постранично.

После того, как за один или более запросов получена а) статистика показов для текущего ключевого слова из очереди и б) связанные с ним слова из двух столбцов Вордстата, программа сохраняет полученную информацию в подключенную базу: записывает полученное значение стаистики показов для исследуемого слова, записывает все найденные связанные слова с их статистикой показов, устанавливает связи между полученными словами в базе, после чего удаляет исследуемое слово из очереди и очищает столбцы слов-связей. Обновленное состояние очереди сохраняется на диск, чтобы не обрабатывать повторно одн и те же слова случае перезапуска программы. Далее алгоритм повторяется для следующего слова из очереди.

Manual-icon-exlamation.pngТаким образом, базовый алгоритм работы выглядит так:
  1. Если очередь пуста, Магадн пытается загрузить из базы новые слова для проверки согласно правилам отложенного пополнения очереди ключевых слов. Если отложенное пополнение отключено или его применение дало нулевой результат, останавливаем процесс парсинга.
  2. Берем первое ключевое слово в очереди
  3. Собираем для слова статистику показов за один запрос (технически, за тот же запрос получаем первую порцию связанных ключевых слов, но, в зависимости от настроек, можем их игнорировать)
  4. При необходимости, собираем оставшиеся связанные слова дополнительными запросами к Вордстату. Помещаем найденные слова в списки связей по мере поступления. Здесь же к найденным словам применяются активные Фильтры и правила Генератора ключевых слов.
  5. Собрав все связи, применив все правила фильтров и генератора, сохраняем всю полученную информацию (статистику показов для текущего слова, информацию о новых словах) в базу
  6. Удаляем обработанное слово из очереди (информация о нем остается в базе, просто слово более не фигурирует в очереди на обработку).
  7. Повторяем алгоритм с начала.

В целом, все довольно просто, но дьявол, как обычно, в деталях. Когда задача требует большего, чем просто собрать все связи для фиксированного списка слов, необходимо чуть более подробно изучить назначение различных элементов управления и логику их работы.

Особенности работы со списками ключевых слов

Важной особенностью любого списка ключевых слов в окне парсинга является тот факт, что его содержимое не статично, т.е. не обязательно в точности повторяет те данные, которые отдает нам ВОрдстат. При этом программа сохраняет содержимое всех списков в базу, включая очередь, только в тот момент, когда обработка текущего слова подошла к концу и к каждому списку слов были применены все активные Фильтры и правила Генератора ключевых слов!

Таким образом, пользователь может манипулировать содержимым спискорв при помощи предварительно настроенных фильтров или правил Генератора, и программа будет работать с измененными списками так, как будто бы получила их от Вордстата в том виде, который они принимают после всех проделанных манипуляций.

В целом, манипуляции сводятся к следующим базовым техникам:

  1. Полное отключение сбора данных в любой из списков
  2. Удаление "лишних" слов из любого списка при помощи Фильтра
  3. Добавление производных ключевых слов на лету при помощи Генератора
  4. Автоматическое копирование слов из одного списка в другой
  5. Помещение слов из списка в ту или иную группу ключевых слов

Ниже рассмотрим каждый пункт предметно.

Отключение сбора данных в любой из списков

Пльзователь может отключить сбор любого из двух списков связанных слов, используя кнопку ИЗОБРАЖЕНИЕ, расположенную в верхней панели соответствующего списка. Отключенный столбец будет заблокирован визуально и для фактического доступа через интерфейс пользователя, в него не будут поступать новые слова. Если отключен только правый столбец, Магадан все равно будет собирать содержимое левого столбца, т.е. отправлять (при необходимости) дополнительные запросы к Вордстату, "листая" его странички. Если же отключен левый столбец, Магадан не станет тратить время на пролистывание всех страниц, хотя, если при этом правый тсолбец оставлен включенным, слова из него будут собраны, т.е. Вордстат выдает их все за один, самый первый запрос.

ГАЛЛЕРЕЯ ЗАБЛОКИРОВАННЫЙ СТОЛБЕЦ ЛЕВЫЙ, ПРАВЫЙ, ОБА

Manual-icon-exlamation.pngПопулярная задача по сбору статистики показов для фиксированного списка ключевых слов без сбора дополнительных слов (т.н. "чек списка слов") элегантно решается как раз при помощи отключения сбора столбцов слов-связей: отключив сбор левого и правого столбца, мы получаем отправку одного запроса к вордстату для кажого слова из очереди. В базе при этом не появляются новые слова. Магадан пробегает всю очередь ключевых слов, получает для каждого статистику показов и заканчивает работу.

Удаление слов из списка при помощи Фильтра

Над каждым списком ключевых слов, включая очередь, расположен элемент управления фильтром, применяемым к данному конкретному списку. Фильтры разных списков не связаны между собой. Будучи активированными, фильтры применяются ко всем словам, поступающим в список любым известным способом. Для очереди на парсинг это ручной ввод, загрузка слов из файла, перенос слов мышкой, отложенное и моментальное автоматическое пополнение очереди и пр. Для списков найденных слов-связей это получение данных от Вордстата.

Крайне важно понимать, что каждый фильтр отвечает только за связанный с ним список слов! Это напрямую влияет на смысловую нагрузку, лежащую в основе настройки фильтра.

Например, можно настроить фильтры очереди на отказ в помещении в очередь всех слов, содержащих слово "бесплатно". Это означает только то, что поисковые фразы, содержащие слово "бесплатно", не попадут в очередь и не будут обработаны. Для них никогда не будет собрана статистика показов, связанные с ними слова. Но при этом фразы со словом "бесплатно" могут попасть в базу через списки собираемых слов связей! Например, обработав расположенную в очереи фразу "скачать", мы можем получить в столбце связей фразу "скачать бесплатно". Она будет успешно обработана и помещена в базу как фразы, связанная с фразой "скачать".

Manual-icon-exlamation.pngОчередь фильтруется отдельно, списки собираемых слов - отдельно. Это довольно гибкий подход, позволяющий разделять функциональную нагрузку, реализуемую фильтрами: фильтруя собираемые столбцы, мы фактически фильтруем новые слова, попадающие в базу; фильтруя очередь на парсинг, мы никак не влияем на слова, попадающие в базу, а регулируем лишь список слов, на парсинг которых мы готовы потратить время.

Стоит отдельно отметить, что фильтрация найденных слов-связей на этапе сбора является энергетически невыгодной в большинстве случаев! Как правило, наиболее корректным способом является сбор слов БЕЗ какой-либо фильтрации по содержимому, а все работы по отфильтровке бесполезных слов удобнее производить на этапе выборки из базы в окне Браузера.

Дело в том, что, вопреки некоторым утверждениям, фильтрация словами не экономит нам время сбора! Мы так или иначе должны сначала загрузить очередную страничку ВОрдстата, чтобы иметь возможность что-либо отфильтровать, т.е. время уже затрачено. Зачем же на этом этапе выкидывать слова, которые при определенных обстоятельствах могут ьоказаться полезны впоследствии, а время на их сбор уе было затрачено? Совсем другое дело, когда мы говорим о фильтрации очереди! От списка слов, попавшего в очередь, напрямую зависит время, затрачиваемое на парсинг!

Таким образом, я рекомендую совсем не использовать фильтрацию собираемых слов-связей на этапе парсинга, еси вы только не пытаетесь сэкономить на размере файла базы, но при этом призываю наиболее внимательным образом относиться к фильтрации очереди ключевых слов на парсинг.

Добавление производных ключевых слов на лету при помощи Генератора

Генератор работает со списками по тому же принципу, что и Фильтр: к каждому поступающему в список ключевому слову, независимо от способа поступления (ручной ввод, загрузка из файла, перенос мышкой, загрузка из Вордстата, и пр.), применяются правила активного Генератора, настроенного именно для текущего списка. Результатом применения правил Генератора может быть как создание новых слов в дополнение к обработанному (например, фраза "купить авто" может быть превращена в две фразы: "купить авто" и "купить авто петербург"), так и замена оригинального слова на производное (фраза "купить авто" будет отброшена, а вмето нее в список будет помещена фраза "купить авто петербург").

Например, при настройке Генератора для списка найденных слов-связей, окно парсинга Магадана фактически даже не узнает, какие именно слова оно получило от Вордстата. После того, как обработка текущего слова будет завершена, в базу будут сохранены слова, находящиеся в списке, без оглядки на то, были ли они получены от Вордстата, или созданы Генератором. Это довольно сильный инструмент в узком диапазоне задач, применять который следует только в случае полного понимания последствий собственных действий. Другое дело, когда речь идет о применении Генератора для очереди! Применение правил Генератора к очереди является довольно мощным инструментом, позволяющим заметно снизить количество ручного труда во множестве сценариев сбора ключевых слов.

Автоматическое копирование слов из одного списка в другой

Помещение слов из списка в ту или иную группу ключевых слов

ссылка на модуль настройки помещения в группы

Очередь ключевых слов на парсинг

Детальное описание рабочего цикла

  1. Берем слово из очереди
  2. Собираем для него статистику показов
  3. Собираем связанные с ним слова

После запуска парсинга кнопкой ИЗОБРАЖЕНИЕ, находящейся в пнели управления, программа работает по следующему алгоритму:

  1. Если очередь на парсинг пуста,
  2. Пополнение очереди ключевых слов на парсинг: если очередь пу

Ответы на частые вопросы

См. также

Иллюстрация базового рабочего цикла по сбору ключевых слов
Окно парсинга