Организация потоков данных в окне сбора ключевых слов: различия между версиями

Версия от 12:15, 18 января 2017

Окно парсинга

Иллюстрация базового рабочего цикла по сбору ключевых слов

Понимание организации потоков данных в окне парсинга ключевых слов являются ключевым моментом в раскрытии потенциала доступных настроек «Магадана», помогающих решить конкретную задачу.

Базовое описание рабочего цикла

В окне парсинга присутствуют три списка ключевых слов: очередь ключевых слов на парсинг и два столбца собираемых слов, связанных с тем словом из очереди, которое обрабатывается в текущий момент. Эти два столбца копируют организацию данных в сервисе Яндекса «Вордстат»: левый столбец Что искали со словом..., првый -- Запросы, похожие на... (раньше назывался "Что еще искали люди, искавшие слово").

Скриншоты

Очередь ключевых слов на парсинг

Списки собираемых слов-связей

Страница «Вордстата»

Во время работы по сбору ключевых слов, Магадан берет по одному слову из очереди на парсинг и отправляет запросы в Вордстату. Для того, чтобы получить статистику показов для текущего слова, необходим один запрос к ВОрдстату. Для получения всех слов, связанных с текущим (для заполнения двух столбцов связей), могут потребоваться дополнительные запросы, т.к. Вордстат отдает данные порциями, постранично.

После того, как за один или более запросов получена а) статистика показов для текущего ключевого слова из очереди и б) связанные с ним слова из двух столбцов Вордстата, программа сохраняет полученную информацию в подключенную базу: записывает полученное значение стаистики показов для исследуемого слова, записывает все найденные связанные слова с их статистикой показов, устанавливает связи между полученными словами в базе, после чего удаляет исследуемое слово из очереди и очищает столбцы слов-связей. Обновленное состояние очереди сохраняется на диск, чтобы не обрабатывать повторно одн и те же слова случае перезапуска программы. Далее алгоритм повторяется для следующего слова из очереди.

Таким образом, базовый алгоритм работы выглядит так:

Если очередь пуста, Магадн пытается загрузить из базы новые слова для проверки согласно правилам отложенного пополнения очереди ключевых слов. Если отложенное пополнение отключено или его применение дало нулевой результат, останавливаем процесс парсинга.
Берем первое ключевое слово в очереди
Собираем для слова статистику показов за один запрос (технически, за тот же запрос получаем первую порцию связанных ключевых слов, но, в зависимости от настроек, можем их игнорировать)
При необходимости, собираем оставшиеся связанные слова дополнительными запросами к Вордстату. Помещаем найденные слова в списки связей по мере поступления. Здесь же к найденным словам применяются активные Фильтры и правила Генератора ключевых слов.
Собрав все связи, применив все правила фильтров и генератора, сохраняем всю полученную информацию (статистику показов для текущего слова, информацию о новых словах) в базу
Удаляем обработанное слово из очереди (информация о нем остается в базе, просто слово более не фигурирует в очереди на обработку).
Повторяем алгоритм с начала.

В целом, все довольно просто, но дьявол, как обычно, в деталях. Когда задача требует большего, чем просто собрать все связи для фиксированного списка слов, необходимо чуть более подробно изучить назначение различных элементов управления и логику их работы.

Особенности работы со списками ключевых слов

Важной особенностью любого списка ключевых слов в окне парсинга является тот факт, что его содержимое не статично, т.е. не обязательно в точности повторяет те данные, которые отдает нам ВОрдстат. При этом программа сохраняет содержимое всех списков в базу, включая очередь, только в тот момент, когда обработка текущего слова подошла к концу и к каждому списку слов были применены все активные Фильтры и правила Генератора ключевых слов!

Таким образом, пользователь может манипулировать содержимым спискорв при помощи предварительно настроенных фильтров или правил Генератора, и программа будет работать с измененными списками так, как будто бы получила их от Вордстата в том виде, который они принимают после всех проделанных манипуляций.

В целом, манипуляции сводятся к следующим базовым техникам:

Полное отключение сбора данных в любой из списков
Удаление "лишних" слов из любого списка при помощи Фильтра
Добавление производных ключевых слов на лету при помощи Генератора
Автоматическое копирование слов из одного списка в другой
Помещение слов из списка в ту или иную группу ключевых слов

Ниже рассмотрим каждый пункт предметно.

Отключение сбора данных в любой из списков

Пльзователь может отключить сбор любого из двух списков связанных слов, используя кнопку ИЗОБРАЖЕНИЕ, расположенную в верхней панели соответствующего списка. Отключенный столбец будет заблокирован визуально и для фактического доступа через интерфейс пользователя, в него не будут поступать новые слова. Если отключен только правый столбец, Магадан все равно будет собирать содержимое левого столбца, т.е. отправлять (при необходимости) дополнительные запросы к Вордстату, "листая" его странички. Если же отключен левый столбец, Магадан не станет тратить время на пролистывание всех страниц, хотя, если при этом правый тсолбец оставлен включенным, слова из него будут собраны, т.е. Вордстат выдает их все за один, самый первый запрос.

ГАЛЛЕРЕЯ ЗАБЛОКИРОВАННЫЙ СТОЛБЕЦ ЛЕВЫЙ, ПРАВЫЙ, ОБА

Популярная задача по сбору статистики показов для фиксированного списка ключевых слов без сбора дополнительных слов (т.н. "чек списка слов") элегантно решается как раз при помощи отключения сбора столбцов слов-связей: отключив сбор левого и правого столбца, мы получаем отправку одного запроса к вордстату для кажого слова из очереди. В базе при этом не появляются новые слова. Магадан пробегает всю очередь ключевых слов, получает для каждого статистику показов и заканчивает работу.

Удаление слов из списка при помощи Фильтра

См. также: Фильтр ключевых слов

После того, как слова были собраны

Очередь ключевых слов на парсинг

Детальное описание рабочего цикла

Берем слово из очереди
Собираем для него статистику показов
Собираем связанные с ним слова

После запуска парсинга кнопкой ИЗОБРАЖЕНИЕ, находящейся в пнели управления, программа работает по следующему алгоритму:

Если очередь на парсинг пуста,
Пополнение очереди ключевых слов на парсинг: если очередь пу

1. - Автоматическое наполнение очереди ключевых слов на парсинг

Ответы на частые вопросы

Основная статья: Ответы на часто задаваемые вопросы

@@ Строка 7: / Строка 7: @@
 == Базовое описание рабочего цикла ==
-В окне парсинга присутствуют три списка ключевых слов: очередь ключевых слов на парсинг и два столбца собираемых слов, связанных с тем словом из очереди, которое обрабатывается в текущий момент. Эти два столбца копируют организацию данных в сервисе Яндекса «Вордстат».
+В окне парсинга присутствуют три списка ключевых слов: очередь ключевых слов на парсинг и два столбца собираемых слов, связанных с тем словом из очереди, которое обрабатывается в текущий момент. Эти два столбца копируют организацию данных в сервисе Яндекса «Вордстат»: левый столбец Что искали со словом..., првый -- Запросы, похожие на... (раньше назывался "Что еще искали люди, искавшие слово").
 {{Галерея
 |title=Скриншоты
@@ Строка 21: / Строка 21: @@
 Таким образом, базовый алгоритм работы выглядит так:
+# Если очередь пуста, Магадн пытается загрузить из базы новые слова для проверки согласно правилам [[отложенного пополнения очереди ключевых слов]]. Если отложенное пополнение отключено или его применение дало нулевой результат, останавливаем процесс парсинга.
 # Берем первое ключевое слово в очереди
-# Собираем для слова статистику показов за оин запрос
+# Собираем для слова статистику показов за один запрос (технически, за тот же запрос получаем первую порцию связанных ключевых слов, но, в зависимости от настроек, можем их игнорировать)
-# При необходимости, собираем связанные слова (может потребоваться еще несколько запросов к Вордстату); Помещаем найденные слова в списки связей по мере поступления
+# При необходимости, собираем оставшиеся связанные слова дополнительными запросами к Вордстату. Помещаем найденные слова в списки связей по мере поступления. Здесь же к найденным словам применяются активные Фильтры и правила Генератора ключевых слов.
-# Собрав все связи, сохраняем всю полученную информацию (статистику показов для текущего слова, информацию о новых словах) в базу
+# Собрав все связи, применив все правила фильтров и генератора, сохраняем всю полученную информацию (статистику показов для текущего слова, информацию о новых словах) в базу
 # Удаляем обработанное слово из очереди (информация о нем остается в базе, просто слово более не фигурирует в очереди на обработку).
-# Повторяем алгоритм для слеующего слова в очереди
+# Повторяем алгоритм с начала.
 В целом, все довольно просто, но дьявол, как обычно, в деталях. Когда задача требует большего, чем просто собрать все связи для фиксированного списка слов, необходимо чуть более подробно изучить назначение различных элементов управления и логику их работы.
 == Особенности работы со списками ключевых слов ==
-Важной особенностью любого списка ключевых слов в окне парсинга является тот факт, что его содержимое не статично, т.е. не обязательно в точности повторяет те данные, которые отдает нам ВОрдстат. При этом программа сохраняет содержимое всех списков в базу, включая очередь, только в тот момент, когда обработка текущего слова подходит к концу.
+Важной особенностью любого списка ключевых слов в окне парсинга является тот факт, что его содержимое не статично, т.е. не обязательно в точности повторяет те данные, которые отдает нам ВОрдстат. При этом программа сохраняет содержимое всех списков в базу, включая очередь, только в тот момент, когда обработка текущего слова подошла к концу и к каждому списку слов были применены все активные Фильтры и правила Генератора ключевых слов!
-Таким образом, пользователь может манипулировать содержимым спискорв при помощи предварительно настроенных фильтров или правил генератора, и программа будет работать с измененными списками так, как будто бы получила их в том виде, который они принимают после всех проделанных манипуляций. В целом, манипуляции сводятся к следующим базовым техникам:
+Таким образом, пользователь может манипулировать содержимым спискорв при помощи предварительно настроенных фильтров или правил Генератора, и программа будет работать с измененными списками так, как будто бы получила их от Вордстата в том виде, который они принимают после всех проделанных манипуляций.
+В целом, манипуляции сводятся к следующим базовым техникам:
 # Полное отключение сбора данных в любой из списков
 # Удаление "лишних" слов из любого списка при помощи Фильтра
@@ Строка 42: / Строка 46: @@
 == Отключение сбора данных в любой из списков ==
-Пльзователь может отключить сбор любого
+Пльзователь может отключить сбор любого из двух списков связанных слов, используя кнопку ИЗОБРАЖЕНИЕ, расположенную в верхней панели соответствующего списка. Отключенный столбец будет заблокирован визуально и для фактического доступа через интерфейс пользователя, в него не будут поступать новые слова. Если отключен только правый столбец, Магадан все равно будет собирать содержимое левого столбца, т.е. отправлять (при необходимости) дополнительные запросы к Вордстату, "листая" его странички. Если же отключен левый столбец, Магадан не станет тратить время на пролистывание всех страниц, хотя, если при этом правый тсолбец оставлен включенным, слова из него будут собраны, т.е. Вордстат выдает их все за один, самый первый запрос.
-сслыка на фак о том, как прочекать список слов.
+ГАЛЛЕРЕЯ ЗАБЛОКИРОВАННЫЙ СТОЛБЕЦ ЛЕВЫЙ, ПРАВЫЙ, ОБА
+{{Важно|text=Популярная задача по '''[[сбору статистики показов для фиксированного списка ключевых слов без сбора дополнительных слов]]''' (т.н. "чек списка слов") элегантно решается как раз при помощи отключения сбора столбцов слов-связей: отключив сбор левого и правого столбца, мы получаем отправку одного запроса к вордстату для кажого слова из очереди. В базе при этом не появляются новые слова. Магадан пробегает всю очередь ключевых слов, получает для каждого статистику показов и заканчивает работу.}}
+==Удаление слов из списка при помощи Фильтра==
+{{Связка|Фильтр ключевых слов}}
+После того, как слова были собраны
 == Очередь ключевых слов на парсинг ==

Организация потоков данных в окне сбора ключевых слов: различия между версиями

Версия от 12:15, 18 января 2017

Содержание

Базовое описание рабочего цикла

Особенности работы со списками ключевых слов

Отключение сбора данных в любой из списков

Удаление слов из списка при помощи Фильтра

Очередь ключевых слов на парсинг

Детальное описание рабочего цикла

Ответы на частые вопросы

См. также

Навигация

Организация потоков данных в окне сбора ключевых слов: различия между версиями

Версия от 12:15, 18 января 2017

Базовое описание рабочего цикла

Особенности работы со списками ключевых слов

Отключение сбора данных в любой из списков

Удаление слов из списка при помощи Фильтра

Очередь ключевых слов на парсинг

Детальное описание рабочего цикла

Ответы на частые вопросы

См. также

Навигация

Поиск