Madskillz.pngСкачать программу «Магадан» LITE — бесплатную, не ограниченную по времени редакцию парсера ключевых слов!

Организация потоков данных в окне сбора ключевых слов: различия между версиями

Материал из "Магадан" - инструкция пользователя
Перейти к навигации Перейти к поиску
м (Root переименовал страницу Организация потоков данных в окне парсинга ключевых слов в [[Организация потоков данных в окне сбора ключевых…)
мНет описания правки
 
(не показано 30 промежуточных версий этого же участника)
Строка 1: Строка 1:
[[Файл:Magadan-parsing-general-scheme.png|мини|300px|1. Поисковой системе отправляется запрос информации о поисковой фразе 2. Информация от поисковой системы (статистика показов запрошенной поисковой фразы и связанные с ней ключевые слова) загружается в интерфейс программы по мере получения 3. По окончанию сбора информации о слове, данные сохраняются в подключенную базу, интерфейс очищается, программа переходит к следующей поисковой фразе в очереди]]
[[Категория:FAQ|20]]
[[Файл:Magadan-parsing-general-scheme.png|мини|300px|1. [[ПС|Поисковой системе]] отправляется запрос информации о [[Поисковая фраза|поисковой фразе]] 2. Информация от поисковой системы (статистика показов запрошенной поисковой фразы и [[Связанные ключевые слова|связанные с ней ключевые слова]]) загружается в интерфейс программы по мере получения 3. По окончанию сбора информации о слове, данные сохраняются в подключенную [[База|базу]], интерфейс очищается, программа переходит к следующей поисковой фразе в [[Очередь ключевых слов на парсинг|очереди]]]]


Понимание '''организации потоков данных в окне парсинга ключевых слов''' являются ключевым моментом в раскрытии потенциала доступных настроек «Магадана», помогающих решить конкретную задачу.  
Понимание '''организации потоков данных в окне парсинга ключевых слов''' является ключевым моментом в раскрытии потенциала доступных настроек «[[Магадан|Магадана]]», помогающих решить конкретную задачу подбора ключевых слов.


== Базовое описание рабочего цикла ==
== Базовое описание рабочего цикла ==
В окне парсинга присутствуют три списка ключевых слов: очередь ключевых слов на парсинг и два столбца собираемых слов, связанных с тем словом из очереди, которое обрабатывается в текущий момент. Эти два столбца копируют организацию данных в сервисе Яндекса «Вордстат»: левый столбец Что искали со словом..., првый -- Запросы, похожие на... (раньше назывался "Что еще искали люди, искавшие слово").
В [[Окно парсинга|окне парсинга]] присутствуют три [[Список ключевых слов|списка ключевых слов]]: [[очередь ключевых слов на парсинг]] и [[Списки собранных ключевых слов|два столбца собираемых слов]], [[Связанные слова|связанных]] с обрабатываемым в текущий момент словом из очереди. Эти два столбца копируют организацию данных в сервисе Яндекса «[[Вордстат]]»: левый столбец «Что искали со словом ...», правый — «Запросы, похожие на ...» (раньше назывался «Что еще искали люди, искавшие слово»).
{{Галерея
{{Галерея
|title=Скриншоты
|title=Скриншоты
Строка 13: Строка 14:
}}
}}


Во время работы по сбору ключевых слов, Магадан берет по одному слову из очереди на парсинг и отправляет запросы в Вордстату. Для того, чтобы получить статистику показов для текущего слова, необходим один запрос к ВОрдстату. Для получения всех слов, связанных с текущим (для заполнения двух столбцов связей), могут потребоваться дополнительные запросы, т.к. Вордстат отдает данные порциями, постранично.
Во время работы по [[Сбор ключевых слов|сбору ключевых слов]], «[[Магадан]]» берет по одному слову из очереди на парсинг и отправляет запросы в «Вордстат». Для того, чтобы получить [[Статистика показов ключевого слова|статистику показов]] для текущего слова, необходим один запрос к «Вордстату». Для получения всех слов, [[Связанные ключевые слова|связанных]] с текущим (для заполнения двух столбцов связей), могут потребоваться дополнительные запросы, т.к. «Вордстат» отдает данные порциями, постранично.


После того, как за один или более запросов получена а) статистика показов для текущего ключевого слова из очереди и б) связанные с ним слова из двух столбцов Вордстата, программа сохраняет полученную информацию в подключенную базу: записывает полученное значение стаистики показов для исследуемого слова, записывает все найденные связанные слова с их статистикой показов, устанавливает связи между полученными словами в базе, после чего удаляет исследуемое слово из очереди и очищает столбцы слов-связей. Обновленное состояние очереди сохраняется на диск, чтобы не обрабатывать повторно одн и те же слова  случае перезапуска программы. Далее алгоритм повторяется для следующего слова из очереди.
{{Важно|text=Базовый алгоритм работы по сбору информации о ключевом слове выглядит следующим образом:
 
# Если [[очередь на парсинг]] пуста, «Магадан» пытается загрузить из базы новые слова для проверки согласно правилам [[Отложенное пополнение очереди ключевых слов на парсинг|отложенного пополнения очереди ключевых слов]]. Если отложенное пополнение отключено или его применение дало нулевой результат, процесс парсинга будет остановлен, т.к. в очереди нет ключевых слов для обработки.
{{Важно|text=Таким образом, базовый алгоритм работы выглядит так:
# Берем первое ключевое слово из [[Очередь ключевых слов на парсинг|очереди]]
# Если очередь пуста, Магадн пытается загрузить из базы новые слова для проверки согласно правилам [[отложенного пополнения очереди ключевых слов]]. Если отложенное пополнение отключено или его применение дало нулевой результат, останавливаем процесс парсинга.
# Собираем для этого слова статистику показов за один запрос к «Вордстату» (технически, за тот же запрос получаем первую порцию связанных ключевых слов, но, в зависимости от настроек, они могут быть проигнорированы)
# Берем первое ключевое слово в очереди
# При необходимости, собираем оставшиеся [[связанные слова]] ''дополнительными'' запросами к «Вордстату». Помещаем найденные слова в [[Столбцы связанных ключевых слов|списки связей]] по мере поступления.  
# Собираем для слова статистику показов за один запрос (технически, за тот же запрос получаем первую порцию связанных ключевых слов, но, в зависимости от настроек, можем их игнорировать)
## Если [[Фильтр ключевых слов|Фильтр]] конкретного столбца активен, он применяется к найденным ключевым словам. Отфильтрованные фразы не попадают в список.
# При необходимости, собираем оставшиеся связанные слова дополнительными запросами к Вордстату. Помещаем найденные слова в списки связей по мере поступления. Здесь же к найденным словам применяются активные Фильтры и правила Генератора ключевых слов.
## Если [[Генератор ключевых слов|Генератор ключевых слов]] конкретного столбца активен, его правила применяются к найденным ключевым словам. В зависимости от настроек Генератора, в список могут как попасть новые, сгенерированные ключевые слова, так и не попасть только что полученные от «Вордстата».
# Собрав все связи, применив все правила фильтров и генератора, сохраняем всю полученную информацию (статистику показов для текущего слова, информацию о новых словах) в базу
# Сохраняем всю полученную информацию (статистику показов для текущего слова, информацию о новых найденных словах) в базу
# Удаляем обработанное слово из очереди (информация о нем остается в базе, просто слово более не фигурирует в очереди на обработку).
# Если для списков установлены соответствующие настройки, то:
# Повторяем алгоритм с начала.}}
## Применяем правила распределения обработанных ключевых слов по [[Группы ключевых слов|группам]]
## Выполняем [[моментальное пополнение очереди ключевых слов]] найденными словами-связями
# Очищаем списки собранных слов.
# Удаляем обработанное слово из очереди (информация о нем остается в базе, просто слово более не фигурирует в очереди на обработку)
# Повторяем алгоритм с начала}}


В целом, все довольно просто, но дьявол, как обычно, в деталях. Когда задача требует большего, чем просто собрать все связи для фиксированного списка слов, необходимо чуть более подробно изучить назначение различных элементов управления и логику их работы.
В целом, все довольно просто, но дьявол, как обычно, в деталях. Когда задача требует большего, чем просто собрать все связи для фиксированного списка слов, необходимо чуть более подробно изучить назначение различных элементов управления и логику их работы.


== Особенности работы со списками ключевых слов ==
== Особенности работы со списками ключевых слов ==
Важной особенностью любого списка ключевых слов в окне парсинга является тот факт, что его содержимое не статично, т.е. не обязательно в точности повторяет те данные, которые отдает нам ВОрдстат. При этом программа сохраняет содержимое всех списков в базу, включая очередь, только в тот момент, когда обработка текущего слова подошла к концу и к каждому списку слов были применены все активные Фильтры и правила Генератора ключевых слов!
Важной особенностью любого [[Элемент интерфейса Список ключевых слов|списка ключевых слов]] в [[Окно сбора ключевых слов|окне парсинга]] является тот факт, что его содержимое не статично, т.е. не обязательно в точности повторяет те данные, которые отдает нам «[[Вордстат]]». При этом программа сохраняет содержимое всех списков в базу, включая очередь, только в тот момент, когда обработка текущего слова подошла к концу и к каждому списку слов были применены все активные [[Фильтр|Фильтры]] и правила [[Генератор|Генератора ключевых слов]]!


Таким образом, пользователь может манипулировать содержимым спискорв при помощи предварительно настроенных фильтров или правил Генератора, и программа будет работать с измененными списками так, как будто бы получила их от Вордстата в том виде, который они принимают после всех проделанных манипуляций.  
Таким образом, пользователь может манипулировать содержимым списков при помощи предварительно настроенных Фильтров или правил Генератора, и программа будет работать с измененными списками так, как будто бы получила их от «Вордстата» в том виде, который они принимают после всех проделанных манипуляций.  


В целом, манипуляции сводятся к следующим базовым техникам:
В целом, манипуляции сводятся к следующим базовым техникам:
# Полное отключение сбора данных в любой из списков
# Полное отключение сбора данных в любой из списков
# Удаление "лишних" слов из любого списка при помощи Фильтра
# Удаление «лишних» слов из любого списка при помощи [[Фильтр|Фильтра]]
# Добавление производных ключевых слов на лету при помощи Генератора
# Добавление производных ключевых слов на лету при помощи [[Генератор|Генератора]]
# Автоматическое копирование слов из одного списка в другой
# Автоматическое копирование слов из одного списка в другой
# Помещение слов из списка в ту или иную группу ключевых слов
# Помещение ключевых слов из списка в ту или иную [[Группа ключевых слов|группу ключевых слов]]


Ниже рассмотрим каждый пункт предметно.
Ниже рассмотрим каждый пункт предметно.


== Отключение сбора данных в любой из списков ==
=== Отключение сбора данных в любой из списков ===
Пльзователь может отключить сбор любого из двух списков связанных слов, используя кнопку ИЗОБРАЖЕНИЕ, расположенную в верхней панели соответствующего списка. Отключенный столбец будет заблокирован визуально и для фактического доступа через интерфейс пользователя, в него не будут поступать новые слова. Если отключен только правый столбец, Магадан все равно будет собирать содержимое левого столбца, т.е. отправлять (при необходимости) дополнительные запросы к Вордстату, "листая" его странички. Если же отключен левый столбец, Магадан не станет тратить время на пролистывание всех страниц, хотя, если при этом правый тсолбец оставлен включенным, слова из него будут собраны, т.е. Вордстат выдает их все за один, самый первый запрос.
Пользователь может отключить сбор любого из [[Списки собранных ключевых слов|двух списков связанных слов]], используя кнопку [[Файл:Button-save-found-keywords.png]], расположенную в верхней панели соответствующего списка. Отключенный столбец будет заблокирован визуально и для фактического доступа через интерфейс пользователя, в него не будут поступать новые найденные слова. Если отключен только правый столбец, «Магадан» все равно будет собирать содержимое левого столбца, т.е. отправлять (при необходимости) дополнительные запросы к «Вордстату», «листая» его странички. Если же отключен левый столбец, «Магадан» не станет тратить время на пролистывание всех страниц, хотя, если при этом правый столбец оставлен включенным, слова для него будут собраны, т.к. «Вордстат» выдает их все за один, самый первый запрос.


ГАЛЛЕРЕЯ ЗАБЛОКИРОВАННЫЙ СТОЛБЕЦ ЛЕВЫЙ, ПРАВЫЙ, ОБА
{{Галерея
|title=Скриншоты
|lines=10
|File:Magadan-parsing-form-left-column-disabled.png|'''Левый''' столбец заблокирован и не будет собран. Каждое ключевое слово из очереди будет обработано за один запрос к «Вордстату» (сбор статистики показов для самого слова и получение связанных с ним слов из правого столбца).
|File:Magadan-parsing-form-right-column-disabled.png|'''Правый''' столбец заблокирован и не будет собран. Количество запросов к «Вордстату» будет определено количеством связанных слов, постранично отдаваемых «Вордстатом» для текущего слова из очереди на парсинг.
|File:Magadan-parsing-form-both-columns-disabled.png|'''Оба столбца''' заблокированы, каждое слово из очереди на парсинг будет обработано за один запрос к Вордстату. На скриншоте изображена типичная конфигурация для сбора статистики показов для фиксированного списка ключевых слов (см. ниже).
}}


{{Важно|text=Популярная задача по '''[[сбору статистики показов для фиксированного списка ключевых слов без сбора дополнительных слов]]''' (т.н. "чек списка слов") элегантно решается как раз при помощи отключения сбора столбцов слов-связей: отключив сбор левого и правого столбца, мы получаем отправку одного запроса к вордстату для кажого слова из очереди. В базе при этом не появляются новые слова. Магадан пробегает всю очередь ключевых слов, получает для каждого статистику показов и заканчивает работу.}}
{{Важно|text=Популярная задача по '''[[Сбор статистики показов для фиксированного списка ключевых слов без сбора дополнительных слов-связей|сбору статистики показов для фиксированного списка ключевых слов без сбора дополнительных слов]]''' (т.н. «чек списка слов») элегантно решается как раз при помощи отключения сбора обоих столбцов слов-связей: отключив сбор левого и правого столбца, мы получаем отправку одного запроса к «Вордстату» для кажого слова из очереди. В базе при этом не появляются новые слова. «Магадан» пробегает всю очередь ключевых слов, получает для каждого статистику показов и заканчивает работу.}}


==Удаление слов из списка при помощи Фильтра==
===Удаление слов из списка при помощи Фильтра===
{{Связка|Фильтр ключевых слов}}
{{Связка|Фильтр ключевых слов}}
Над каждым списком ключевых слов, включая очередь, расположен элемент управления фильтром, применяемым к данному конкретному списку. Фильтры разных списков не связаны между собой. Будучи активированными, фильтры применяются ко всем словам, поступающим в список любым известным способом. Для очереди на парсинг это ручной ввод, загрузка слов из файла, перенос слов мышкой, [[отложенное]] и [[моментальное]] автоматическое пополнение очереди и пр. Для списков найденных слов-связей это получение данных от Вордстата.
Над каждым [[Список ключевых слов|списком ключевых слов]], включая [[Очередь ключевых слов на парсинг|очередь]], расположен элемент управления [[Фильтр ключевых слов|Фильтром]] [[Файл:Keywords-list-top-toolbar-filters.png]], применяемым к данному конкретному списку. Фильтры разных списков не связаны между собой. Будучи активированными, фильтры применяются ко всем словам, поступающим в список любым известным способом. Для очереди на парсинг это ручной ввод, [[Импорт ключевых слов|загрузка слов из файла]], [[Drag-n-Drop|перенос слов мышкой]], [[Отложенное пополнение очереди ключевых слов|отложенное]] и [[Моментальное пополнение очереди ключевых слов|моментальное]] автоматическое пополнение очереди и пр. Для [[Списки связанных слов|списков найденных слов-связей]] это получение данных от «Вордстата».


Крайне важно понимать, что каждый фильтр отвечает только за связанный с ним список слов! Это напрямую влияет на смысловую нагрузку, лежащую в основе настройки фильтра.
Крайне важно понимать, что каждый фильтр отвечает только за связанный с ним список слов! Это напрямую влияет на смысловую нагрузку, лежащую в основе настройки фильтра.


Например, можно настроить фильтры очереди на отказ в помещении в очередь всех слов, содержащих слово "бесплатно". Это означает только то, что поисковые фразы, содержащие слово "бесплатно", не попадут в очередь и не будут обработаны. Для них никогда не будет собрана статистика показов, связанные с ними слова. Но при этом фразы со словом "бесплатно" '''могут попасть в базу''' через списки собираемых слов связей! Например, обработав расположенную в очереи фразу "скачать", мы можем получить в столбце связей фразу "скачать бесплатно". Она будет успешно обработана и помещена в базу как фразы, связанная с фразой "скачать".
Например, можно настроить фильтры очереди на отказ в помещении в очередь всех фраз, содержащих слово «бесплатно». Это означает только то, что поисковые фразы, содержащие слово «бесплатно», не попадут в очередь и не будут обработаны. Для них никогда не будет собрана [[статистика показов]], [[Связанные ключевые слова|связанные с ними слова]]. Но при этом фразы со словом «бесплатно» '''могут попасть в [[База|базу]]''' через списки собираемых слов связей! Например, обработав расположенную в очереди фразу «скачать», мы можем получить в столбце связей фразу «скачать бесплатно». Она будет успешно обработана и помещена в базу как фраза, связанная с фразой «скачать».


{{Важно|text=Очередь фильтруется отдельно, списки собираемых слов - отдельно. Это довольно гибкий подход, позволяющий разделять функциональную нагрузку, реализуемую фильтрами: фильтруя собираемые столбцы, мы фактически фильтруем новые слова, попадающие в базу; фильтруя очередь на парсинг, мы никак не влияем на слова, попадающие в базу, а регулируем лишь список слов, на парсинг которых мы готовы потратить время.}}
{{Важно|text=Очередь фильтруется отдельно, списки собираемых слов отдельно, каждый сам по себе. Это довольно гибкий подход, позволяющий разделять функциональную нагрузку, реализуемую фильтрами: фильтруя собираемые столбцы, мы фактически фильтруем ''новые слова'', попадающие в базу; фильтруя очередь на парсинг, мы никак не влияем на слова, попадающие в базу, а регулируем лишь список слов, ''на парсинг которых мы готовы потратить время''.}}


Стоит отдельно отметить, что фильтрация найденных слов-связей на этапе сбора является энергетически невыгодной в большинстве случаев! Как правило, наиболее корректным способом является сбор слов БЕЗ какой-либо фильтрации по содержимому, а все работы по отфильтровке бесполезных слов удобнее производить на этапе [[выборки из базы]] в окне Браузера.
Стоит отдельно отметить, что фильтрация найденных слов-связей на этапе сбора является энергетически невыгодной операцией в большинстве случаев! Как правило, наиболее корректным способом является сбор слов ''без'' какой-либо фильтрации по содержимому, а все работы по отфильтровке бесполезных слов удобнее производить на этапе [[Выборка|выборки из базы]] в окне [[Браузер баз ключевых слов|Браузера]].


Дело в том, что, вопреки некоторым утверждениям, фильтрация словами не экономит нам время сбора! Мы так или иначе должны сначала загрузить очередную страничку ВОрдстата, чтобы иметь возможность что-либо отфильтровать, т.е. время уже затрачено. Зачем же на этом этапе выкидывать слова, которые при определенных обстоятельствах могут ьоказаться полезны впоследствии, а время на их сбор '''уе было затрачено'''? Совсем другое дело, когда мы говорим о фильтрации очереди! От списка слов, попавшего в очередь, напрямую зависит время, затрачиваемое на парсинг!  
Дело в том, что, вопреки некоторым утверждениям, фильтрация ''словами'' не экономит нам время сбора связанных ключевых фраз! Мы так или иначе должны сначала загрузить очередную страничку «Вордстата», чтобы иметь возможность что-либо отфильтровать, т.е. время уже затрачено. Зачем же на этом этапе выкидывать слова, которые при определенных обстоятельствах могут оказаться полезны позже, а время на их сбор ''уже было затрачено''? Совсем другое дело, когда мы говорим о фильтрации очереди! От количества и качества фраз, попавших в очередь, напрямую зависит время, затрачиваемое на сбор ключевых слов!


Таким образом, я рекомендую совсем не использовать фильтрацию собираемых слов-связей '''на этапе парсинга''', еси вы только не пытаетесь сэкономить на размере файла базы, но при этом призываю наиболее внимательным образом относиться к фильтрации очереди ключевых слов на парсинг.
Таким образом, я рекомендую совсем не использовать фильтрацию собираемых слов-связей ''на этапе парсинга'', если вы только не пытаетесь сэкономить на размере файла базы, но при этом призываю наиболее внимательным образом относиться к фильтрации очереди ключевых слов на парсинг!


== Добавление производных ключевых слов на лету при помощи Генератора ==
=== Добавление производных ключевых слов на лету при помощи Генератора ===
{{Связка|Генератор производных ключевых слов}}
{{Связка|Генератор ключевых слов}}
Генератор работает со списками по тому же принципу, что и Фильтр: к каждому поступающему в список ключевому слову, независимо от способа поступления (ручной ввод, загрузка из файла, перенос мышкой, загрузка из Вордстата, и пр.), применяются правила '''активного''' Генератора, настроенного именно для текущего списка. Результатом применения правил Генератора может быть как создание новых слов в дополнение к обработанному (например, фраза "купить авто" может быть превращена в две фразы: "купить авто" и "купить авто петербург"), так и замена оригинального слова на производное (фраза "купить авто" будет отброшена, а вмето нее в список будет помещена фраза "купить авто петербург").  
[[Генератор ключевых слов]] работает со [[Список ключевых слов|списками]] по тому же принципу, что и [[Фильтр ключевых слов|Фильтр]]: к каждому поступающему в список ключевому слову, независимо от способа поступления (ручной ввод, [[Импорт|загрузка из файла]], [[Drag-n-Drop|перенос мышкой]], [[Парсинг ключевых слов|загрузка из «Вордстата»]], и пр.), применяются правила ''активного'' Генератора, настроенного ''для текущего списка''. Результатом применения правил Генератора может быть как создание новых слов в дополнение к обработанному (например, фраза «купить авто» может быть превращена в две фразы: «купить авто» и «купить авто петербург»), так и замена оригинального слова на производное (фраза «купить авто» будет отброшена, а вместо нее в список будет помещена ''сгенерированная'' фраза «купить авто петербург»).  


Например, при настройке Генератора для списка найденных слов-связей, окно парсинга Магадана фактически даже не узнает, какие именно слова оно получило от Вордстата. После того, как обработка текущего слова будет завершена, в базу будут сохранены слова, находящиеся в списке, без оглядки на то, были ли они получены от Вордстата, или созданы Генератором. Это довольно сильный инструмент в узком диапазоне задач, применять который следует только в случае полного понимания последствий собственных действий. Другое дело, когда речь идет о применении Генератора для очереди! Применение правил Генератора к очереди является довольно мощным инструментом, позволяющим заметно снизить количество ручного труда во множестве сценариев сбора ключевых слов.  
Например, при настройке Генератора для списка найденных слов-связей, [[окно парсинга]] «Магадана» фактически даже не узнает, какие именно слова оно получило от «[[Вордстат|Вордстата]]». После того, как обработка текущего слова будет завершена, в [[База|базу]] будут сохранены слова, находящиеся в списке, без оглядки на то, были ли они получены от «Вордстата», или созданы Генератором. Это довольно сильный инструмент в узком диапазоне задач, применять который следует только в случае полного понимания последствий собственных действий. Совсем другое дело, когда речь идет о применении Генератора для очереди ключевых слов на парсинг! Применение правил Генератора к очереди является довольно мощным и часто применяемым инструментом, позволяющим заметно снизить количество ручного труда во множестве сценариев сбора ключевых слов, будь то хоть генерация новых слов на основ топонимов, хоть производные уточняющие словоформы («купить авто» => «!купить !авто»).


== Автоматическое копирование слов из одного списка в другой ==
=== Автоматическое копирование слов из одного списка в другой ===
{{Связка|Моментальное пополнение очереди ключевых слов найденными словами}}
{{Связка|Моментальное пополнение очереди ключевых слов найденными словами}}
== Помещение слов из списка в ту или иную группу ключевых слов==
[[Файл:Parsing-window-button-save-expanded.png|thumb|300px|Раскрываемое меню кнопки сохранения найденных ключевых слов]]
ссылка на модуль настройки помещения в группы


== Очередь ключевых слов на парсинг ==
Над каждым из двух столбцов [[Столбцы связанных ключевых слов|собираемых слов-связей]] расположена кнопка с изображеним дискетки, используемая для отключения сбора содержимого конкретного столбца: [[Файл:Button-save-found-keywords.png]]. Как несложно догадаться, она отвечает за все операции по сохранению собранных ключевых фраз в целом, в т.ч. за помещение найденных слов в [[очередь на парсинг]]. Настройками, расположенными в выпадающем меню этой кнопки, реализовано управление [[моментальное пополнение очереди ключевых слов найденными словами|функцией моментального пополнения очереди найденными ключевыми словами]] (подпункт «Сразу добавлять в очередь на парсинг»). Это функция, применяемая по окончанию сбора связей для текущего слова, помещает все собранные в список ключевые фразы в очередь с тем, чтобы далее собрать информацию и для них тоже.


{{Важно|text=Ко всем словам, помещенным из собранного столбца в [[очередь на парсинг]], будут применены активные правила [[Фильтр ключевых слов|Фильтра]] и [[Генератор ключевых слов|Генератора]] '''очереди'''!}}


[[Файл:Typical-formmain-data-flow-setup.png|thumb|300px|Один из типовых вариантов настройки функции сохранения найденных слов-связей: содержимое левого столбца сохраняем в базу и моментально помещаем в очередь на парсинг, содержимое же правого столбца только сохраняем в базу, в очередь не помещаем.]]


При помощи указанной функции решают, например, задачи по парсингу ключевых слов в глубину, т.е. [[Сбор ключевых слов в глубину|сбору всей ветки графа слов]].


== Детальное описание рабочего цикла ==
Функция [[Моментальное пополнение очереди ключевых слов найденными словами|моментального пополнения]] в некотором роде противопоставлена функции [[Отложенное пополнение очереди содержимым базы|отложенного пополнения очереди]]. В случаях, когда очередь не имеет активных фильтров и выполняется парсинг ВЧ-слов, моментальное пополнение может временно раздувать очередь, постоянно помещая туда все новые найденные слова (новые слова находятся быстрее, чем из очереди успевают уйти старые, т.к. на каждое обработанное слово из очереди мы получаем пару тысяч новых слов). Иногда очередь может быть раздута до довольно больших размеров, что отрицательно сказывается на скорости работы с [[Файл базы ключевых слов|базой]] на диске. В таких случаях целесообразнее использовать отложенное пополнение, когда найденные поисковые фразы сначала сохраняются из списка в базу, а в очередь подгружаются порциями, только по факту ее опустения.
# Берем слово из очереди
# Собираем для него статистику показов
# Собираем связанные с ним слова
#


После запуска парсинга кнопкой ИЗОБРАЖЕНИЕ, находящейся в [[пнели управления]], программа работает по следующему алгоритму:
Важно заметить, что как при моментальном, так и при отложенном пополнении, все слова-связи, собранные в каждый из включенных столбцов, попадут в файл базы! Вопрос только в том, ''когда именно'' они попадут в очередь на парсинг: сразу, или по факту опустения списка очереди.
# Если очередь на парсинг пуста,  
#
#
# Пополнение очереди ключевых слов на парсинг: если очередь пу


##* [[Автоматическое наполнение очереди ключевых слов на парсинг]]
<br clear="all" />


==Ответы на частые вопросы==
=== Помещение слов из списка в ту или иную группу ключевых слов===
{{Основа|Ответы на часто задаваемые вопросы}}
{{Связка|Группы ключевых слов}}
Помимо перечисленных выше манипуляций, фразы из [[Столбцы связанных ключевых слов|каждого списка]] окна подбора ключевых слов можно автоматически раскидывать по [[Группы ключевых слов|группам]] в [[Файл базы ключевых слов|базе]]. Распределение по группам происходит одновременно с сохранением в базу информации об обработанном слове из очереди, '''после''' применения правил [[Фильтр ключевых слов|Фильтра]] и [[Генератор ключевых слов|Генератора ключевых слов]] к спискам найденных слов. Распределение по группам можно настроить для каждого из трех столбцов в [[Окно сбора ключевых слов|окне парсинга]]. Например, обработанные слова из очереди можно помещать в одну группу, найденные релевантные слова-связи из столбца «Что искали со словом ...» в другую, а «похожие» слова из столбца «Запросы, похожие на ...» — в третью.
 
Распределение по группам настраивается при помощи содержимого выпадающего меню кнопки [[Файл:Button-group-routing.png]] (см. [[Диалог настройки распределения ключевых слов по группам]]). Как и в случае с [[Фильтр ключевых слов|Фильтром]] и [[Генератор ключевых слов|Генератором ключевых слов]], правила распределения поисковых фраз по группам необходимо не только настроить, но и явно активировать, используя пункт меню «Включить работу с группами». Точно так же, распределение по группам можно оперативно отключить, не потеряв при этом заботливо настроенные правила.
{{Галерея
|title=Скриншоты
|lines=10
|File:Button-group-routing-expanded.png|Выпадающее меню кнопки настройки распределения поисковых фраз по группам
|File:Magadan-keyword-group-rountes-dialog.png|[[Диалог настройки распределения ключевых слов по группам]]. Появляется по нажатию на пункт «Выбрать группы»  в выпадающем меню кнопки [[Файл:Button-group-routing.png]], или непосредственно по самой кнопке.
}}


==См. также==
==См. также==
{{#ev:youtube|Rx4qVY23J0k|300|right|Иллюстрация [[Парсинг ключевых слов|базового рабочего цикла]] по сбору ключевых слов}}
* [[С чего начать?]]
 
* [[Ответы на часто задаваемые вопросы]]
[[Файл:Magadan-parsing-window.png|мини|300px|Окно парсинга]]
* [[Окно сбора ключевых слов]]
* [[Группы ключевых слов]]
* [[Диалог настройки распределения ключевых слов по группам]]
* [[Моментальное пополнение очереди ключевых слов найденными словами]]
* [[Отложенное пополнение очереди ключевых слов на парсинг]]
* [[Элемент интерфейса «Список ключевых слов»]]
* [[Сбор ключевых слов в глубину]]
* [[Получение статистики показов для списка ключевых слов]]

Текущая версия от 08:17, 19 января 2017

1. Поисковой системе отправляется запрос информации о поисковой фразе 2. Информация от поисковой системы (статистика показов запрошенной поисковой фразы и связанные с ней ключевые слова) загружается в интерфейс программы по мере получения 3. По окончанию сбора информации о слове, данные сохраняются в подключенную базу, интерфейс очищается, программа переходит к следующей поисковой фразе в очереди

Понимание организации потоков данных в окне парсинга ключевых слов является ключевым моментом в раскрытии потенциала доступных настроек «Магадана», помогающих решить конкретную задачу подбора ключевых слов.

Базовое описание рабочего цикла

В окне парсинга присутствуют три списка ключевых слов: очередь ключевых слов на парсинг и два столбца собираемых слов, связанных с обрабатываемым в текущий момент словом из очереди. Эти два столбца копируют организацию данных в сервисе Яндекса «Вордстат»: левый столбец «Что искали со словом ...», правый — «Запросы, похожие на ...» (раньше назывался «Что еще искали люди, искавшие слово»).

Скриншоты

Во время работы по сбору ключевых слов, «Магадан» берет по одному слову из очереди на парсинг и отправляет запросы в «Вордстат». Для того, чтобы получить статистику показов для текущего слова, необходим один запрос к «Вордстату». Для получения всех слов, связанных с текущим (для заполнения двух столбцов связей), могут потребоваться дополнительные запросы, т.к. «Вордстат» отдает данные порциями, постранично.

Manual-icon-exlamation.pngБазовый алгоритм работы по сбору информации о ключевом слове выглядит следующим образом:
  1. Если очередь на парсинг пуста, «Магадан» пытается загрузить из базы новые слова для проверки согласно правилам отложенного пополнения очереди ключевых слов. Если отложенное пополнение отключено или его применение дало нулевой результат, процесс парсинга будет остановлен, т.к. в очереди нет ключевых слов для обработки.
  2. Берем первое ключевое слово из очереди
  3. Собираем для этого слова статистику показов за один запрос к «Вордстату» (технически, за тот же запрос получаем первую порцию связанных ключевых слов, но, в зависимости от настроек, они могут быть проигнорированы)
  4. При необходимости, собираем оставшиеся связанные слова дополнительными запросами к «Вордстату». Помещаем найденные слова в списки связей по мере поступления.
    1. Если Фильтр конкретного столбца активен, он применяется к найденным ключевым словам. Отфильтрованные фразы не попадают в список.
    2. Если Генератор ключевых слов конкретного столбца активен, его правила применяются к найденным ключевым словам. В зависимости от настроек Генератора, в список могут как попасть новые, сгенерированные ключевые слова, так и не попасть только что полученные от «Вордстата».
  5. Сохраняем всю полученную информацию (статистику показов для текущего слова, информацию о новых найденных словах) в базу
  6. Если для списков установлены соответствующие настройки, то:
    1. Применяем правила распределения обработанных ключевых слов по группам
    2. Выполняем моментальное пополнение очереди ключевых слов найденными словами-связями
  7. Очищаем списки собранных слов.
  8. Удаляем обработанное слово из очереди (информация о нем остается в базе, просто слово более не фигурирует в очереди на обработку)
  9. Повторяем алгоритм с начала

В целом, все довольно просто, но дьявол, как обычно, в деталях. Когда задача требует большего, чем просто собрать все связи для фиксированного списка слов, необходимо чуть более подробно изучить назначение различных элементов управления и логику их работы.

Особенности работы со списками ключевых слов

Важной особенностью любого списка ключевых слов в окне парсинга является тот факт, что его содержимое не статично, т.е. не обязательно в точности повторяет те данные, которые отдает нам «Вордстат». При этом программа сохраняет содержимое всех списков в базу, включая очередь, только в тот момент, когда обработка текущего слова подошла к концу и к каждому списку слов были применены все активные Фильтры и правила Генератора ключевых слов!

Таким образом, пользователь может манипулировать содержимым списков при помощи предварительно настроенных Фильтров или правил Генератора, и программа будет работать с измененными списками так, как будто бы получила их от «Вордстата» в том виде, который они принимают после всех проделанных манипуляций.

В целом, манипуляции сводятся к следующим базовым техникам:

  1. Полное отключение сбора данных в любой из списков
  2. Удаление «лишних» слов из любого списка при помощи Фильтра
  3. Добавление производных ключевых слов на лету при помощи Генератора
  4. Автоматическое копирование слов из одного списка в другой
  5. Помещение ключевых слов из списка в ту или иную группу ключевых слов

Ниже рассмотрим каждый пункт предметно.

Отключение сбора данных в любой из списков

Пользователь может отключить сбор любого из двух списков связанных слов, используя кнопку Button-save-found-keywords.png, расположенную в верхней панели соответствующего списка. Отключенный столбец будет заблокирован визуально и для фактического доступа через интерфейс пользователя, в него не будут поступать новые найденные слова. Если отключен только правый столбец, «Магадан» все равно будет собирать содержимое левого столбца, т.е. отправлять (при необходимости) дополнительные запросы к «Вордстату», «листая» его странички. Если же отключен левый столбец, «Магадан» не станет тратить время на пролистывание всех страниц, хотя, если при этом правый столбец оставлен включенным, слова для него будут собраны, т.к. «Вордстат» выдает их все за один, самый первый запрос.

Скриншоты
Левый столбец заблокирован и не будет собран. Каждое ключевое слово из очереди будет обработано за один запрос к «Вордстату» (сбор статистики показов для самого слова и получение связанных с ним слов из правого столбца).  
Правый столбец заблокирован и не будет собран. Количество запросов к «Вордстату» будет определено количеством связанных слов, постранично отдаваемых «Вордстатом» для текущего слова из очереди на парсинг.  
Оба столбца заблокированы, каждое слово из очереди на парсинг будет обработано за один запрос к Вордстату. На скриншоте изображена типичная конфигурация для сбора статистики показов для фиксированного списка ключевых слов (см. ниже).  
Manual-icon-exlamation.pngПопулярная задача по сбору статистики показов для фиксированного списка ключевых слов без сбора дополнительных слов (т.н. «чек списка слов») элегантно решается как раз при помощи отключения сбора обоих столбцов слов-связей: отключив сбор левого и правого столбца, мы получаем отправку одного запроса к «Вордстату» для кажого слова из очереди. В базе при этом не появляются новые слова. «Магадан» пробегает всю очередь ключевых слов, получает для каждого статистику показов и заканчивает работу.

Удаление слов из списка при помощи Фильтра

Над каждым списком ключевых слов, включая очередь, расположен элемент управления Фильтром Keywords-list-top-toolbar-filters.png, применяемым к данному конкретному списку. Фильтры разных списков не связаны между собой. Будучи активированными, фильтры применяются ко всем словам, поступающим в список любым известным способом. Для очереди на парсинг это ручной ввод, загрузка слов из файла, перенос слов мышкой, отложенное и моментальное автоматическое пополнение очереди и пр. Для списков найденных слов-связей это получение данных от «Вордстата».

Крайне важно понимать, что каждый фильтр отвечает только за связанный с ним список слов! Это напрямую влияет на смысловую нагрузку, лежащую в основе настройки фильтра.

Например, можно настроить фильтры очереди на отказ в помещении в очередь всех фраз, содержащих слово «бесплатно». Это означает только то, что поисковые фразы, содержащие слово «бесплатно», не попадут в очередь и не будут обработаны. Для них никогда не будет собрана статистика показов, связанные с ними слова. Но при этом фразы со словом «бесплатно» могут попасть в базу через списки собираемых слов связей! Например, обработав расположенную в очереди фразу «скачать», мы можем получить в столбце связей фразу «скачать бесплатно». Она будет успешно обработана и помещена в базу как фраза, связанная с фразой «скачать».

Manual-icon-exlamation.pngОчередь фильтруется отдельно, списки собираемых слов — отдельно, каждый сам по себе. Это довольно гибкий подход, позволяющий разделять функциональную нагрузку, реализуемую фильтрами: фильтруя собираемые столбцы, мы фактически фильтруем новые слова, попадающие в базу; фильтруя очередь на парсинг, мы никак не влияем на слова, попадающие в базу, а регулируем лишь список слов, на парсинг которых мы готовы потратить время.

Стоит отдельно отметить, что фильтрация найденных слов-связей на этапе сбора является энергетически невыгодной операцией в большинстве случаев! Как правило, наиболее корректным способом является сбор слов без какой-либо фильтрации по содержимому, а все работы по отфильтровке бесполезных слов удобнее производить на этапе выборки из базы в окне Браузера.

Дело в том, что, вопреки некоторым утверждениям, фильтрация словами не экономит нам время сбора связанных ключевых фраз! Мы так или иначе должны сначала загрузить очередную страничку «Вордстата», чтобы иметь возможность что-либо отфильтровать, т.е. время уже затрачено. Зачем же на этом этапе выкидывать слова, которые при определенных обстоятельствах могут оказаться полезны позже, а время на их сбор уже было затрачено? Совсем другое дело, когда мы говорим о фильтрации очереди! От количества и качества фраз, попавших в очередь, напрямую зависит время, затрачиваемое на сбор ключевых слов!

Таким образом, я рекомендую совсем не использовать фильтрацию собираемых слов-связей на этапе парсинга, если вы только не пытаетесь сэкономить на размере файла базы, но при этом призываю наиболее внимательным образом относиться к фильтрации очереди ключевых слов на парсинг!

Добавление производных ключевых слов на лету при помощи Генератора

Генератор ключевых слов работает со списками по тому же принципу, что и Фильтр: к каждому поступающему в список ключевому слову, независимо от способа поступления (ручной ввод, загрузка из файла, перенос мышкой, загрузка из «Вордстата», и пр.), применяются правила активного Генератора, настроенного для текущего списка. Результатом применения правил Генератора может быть как создание новых слов в дополнение к обработанному (например, фраза «купить авто» может быть превращена в две фразы: «купить авто» и «купить авто петербург»), так и замена оригинального слова на производное (фраза «купить авто» будет отброшена, а вместо нее в список будет помещена сгенерированная фраза «купить авто петербург»).

Например, при настройке Генератора для списка найденных слов-связей, окно парсинга «Магадана» фактически даже не узнает, какие именно слова оно получило от «Вордстата». После того, как обработка текущего слова будет завершена, в базу будут сохранены слова, находящиеся в списке, без оглядки на то, были ли они получены от «Вордстата», или созданы Генератором. Это довольно сильный инструмент в узком диапазоне задач, применять который следует только в случае полного понимания последствий собственных действий. Совсем другое дело, когда речь идет о применении Генератора для очереди ключевых слов на парсинг! Применение правил Генератора к очереди является довольно мощным и часто применяемым инструментом, позволяющим заметно снизить количество ручного труда во множестве сценариев сбора ключевых слов, будь то хоть генерация новых слов на основ топонимов, хоть производные уточняющие словоформы («купить авто» => «!купить !авто»).

Автоматическое копирование слов из одного списка в другой

Раскрываемое меню кнопки сохранения найденных ключевых слов

Над каждым из двух столбцов собираемых слов-связей расположена кнопка с изображеним дискетки, используемая для отключения сбора содержимого конкретного столбца: Button-save-found-keywords.png. Как несложно догадаться, она отвечает за все операции по сохранению собранных ключевых фраз в целом, в т.ч. за помещение найденных слов в очередь на парсинг. Настройками, расположенными в выпадающем меню этой кнопки, реализовано управление функцией моментального пополнения очереди найденными ключевыми словами (подпункт «Сразу добавлять в очередь на парсинг»). Это функция, применяемая по окончанию сбора связей для текущего слова, помещает все собранные в список ключевые фразы в очередь с тем, чтобы далее собрать информацию и для них тоже.

Manual-icon-exlamation.pngКо всем словам, помещенным из собранного столбца в очередь на парсинг, будут применены активные правила Фильтра и Генератора очереди!
Один из типовых вариантов настройки функции сохранения найденных слов-связей: содержимое левого столбца сохраняем в базу и моментально помещаем в очередь на парсинг, содержимое же правого столбца только сохраняем в базу, в очередь не помещаем.

При помощи указанной функции решают, например, задачи по парсингу ключевых слов в глубину, т.е. сбору всей ветки графа слов.

Функция моментального пополнения в некотором роде противопоставлена функции отложенного пополнения очереди. В случаях, когда очередь не имеет активных фильтров и выполняется парсинг ВЧ-слов, моментальное пополнение может временно раздувать очередь, постоянно помещая туда все новые найденные слова (новые слова находятся быстрее, чем из очереди успевают уйти старые, т.к. на каждое обработанное слово из очереди мы получаем пару тысяч новых слов). Иногда очередь может быть раздута до довольно больших размеров, что отрицательно сказывается на скорости работы с базой на диске. В таких случаях целесообразнее использовать отложенное пополнение, когда найденные поисковые фразы сначала сохраняются из списка в базу, а в очередь подгружаются порциями, только по факту ее опустения.

Важно заметить, что как при моментальном, так и при отложенном пополнении, все слова-связи, собранные в каждый из включенных столбцов, попадут в файл базы! Вопрос только в том, когда именно они попадут в очередь на парсинг: сразу, или по факту опустения списка очереди.


Помещение слов из списка в ту или иную группу ключевых слов

Помимо перечисленных выше манипуляций, фразы из каждого списка окна подбора ключевых слов можно автоматически раскидывать по группам в базе. Распределение по группам происходит одновременно с сохранением в базу информации об обработанном слове из очереди, после применения правил Фильтра и Генератора ключевых слов к спискам найденных слов. Распределение по группам можно настроить для каждого из трех столбцов в окне парсинга. Например, обработанные слова из очереди можно помещать в одну группу, найденные релевантные слова-связи из столбца «Что искали со словом ...» в другую, а «похожие» слова из столбца «Запросы, похожие на ...» — в третью.

Распределение по группам настраивается при помощи содержимого выпадающего меню кнопки Button-group-routing.png (см. Диалог настройки распределения ключевых слов по группам). Как и в случае с Фильтром и Генератором ключевых слов, правила распределения поисковых фраз по группам необходимо не только настроить, но и явно активировать, используя пункт меню «Включить работу с группами». Точно так же, распределение по группам можно оперативно отключить, не потеряв при этом заботливо настроенные правила.

Скриншоты
Выпадающее меню кнопки настройки распределения поисковых фраз по группам  
Диалог настройки распределения ключевых слов по группам. Появляется по нажатию на пункт «Выбрать группы» в выпадающем меню кнопки Button-group-routing.png, или непосредственно по самой кнопке.  

См. также