Madskillz.pngСкачать программу «Магадан» LITE — бесплатную, не ограниченную по времени редакцию парсера ключевых слов!

Иероглифы и кракозябры при загрузке ключевых слов из файла в базу Магадана

Материал из "Магадан" - инструкция пользователя
Перейти к навигации Перейти к поиску
Версия для печати больше не поддерживается и может содержать ошибки обработки. Обновите закладки браузера и используйте вместо этого функцию печати браузера по умолчанию.
Нечитаемые ключевые слова в «Магадане» — результат некорректного выбора кодировки при импорте из файла

Нечитаемые кириллические ключевые слова могут появиться в интерфейсе «Магадана» только в одном случае: при выполнении импорта слов из внешнего файла с использованием кодировки, отличной от кодировки оригинального файла.

Импортируя ключевые слова, указываем кодировку, в которой сохранен оригинальный файл

Кто виноват?

Файлы в любой операционной системе могут быть записаны на диск с использованием разных кодировок. Исторически, наиболее распространенной кодировкой для рускоязычной Windows является win-1251. По умолчанию, именно в этой кодировке сохраняет текстовые файлы всем известный Блокнот. По мере развития технологий в целом и интернета в частности, второй наиболее ходовой кодировкой стала UTF-8. И все бы ничего, но гарантированного способа автоматически распознать используемую кодировку не существует. Учитывая относительно небольшую и, главное, убывающую частоту воспроизведения проблемы (win-1251 используется все реже, UTF-8 используется все чаще), проще и правильнее давать пользователю возможность самостоятельно указывать кодировку, как и поступает подавляющее число программных решений, не относящихся к классу навороченных текстовых редакторов. Так же поступает и «Магадан».

Что делать?

На рисунке справа изображен пункт меню загрузки (импорта) ключевых слов, многократно используемый в интерфейсе «Магадана». Кнопка с изображением желтой папки содержит выпадающее меню, появляющееся при нажатии на направленную вниз стрелочку, в котором можно выбрать кодировку, используемую при импорте ключевиков. По умолчанию, при нажатии по самой кнопке загрузки слов, а не вызове выпадающего меню, используется кодировка UTF-8.

Если вы столкнулись с появлением кракозябр вместо загружаемых ключевых слов, вероятнее всего вы загружали содержимое файла с использованием кодировки UTF-8, хотя сам файл был сохранен в кодировке win-1251. Теперь вам необходимо удалить из базы загруженный прежде «мусор» и повторить процедуру, выбрав на этот раз кодировку win-1251 в интерфейсе «Магадана».

Истории из жизни

Иногда пользователи уверены, что нечитаемые слова были собраны в процессе парсинга, но это не так. Чаще всего сценарий таков: после того, как пользователь впервые импортировал слова с ошибочной кодировкой, он удаляет слова из интерфейса, используя клавишу Del, и импортирует мх же заново, указывая правильную кодировку для файла. Однако, по умолчанию за клавишей Del закреплено не физическое удаление ключевых слов из базы, а всего лишь удаление слов из текущего списка на экране! После двойной операции импорта (один раз с неправильной кодировкой, один раз с правильной) в базе имеется два комплекта фактически разных слов: один комплект корректно отображаемых ключевиков, и второй комплект, являющийся «испорченной» копией первого. В какой-то момент в процессе работы доходит очередь и до испорченного комплекта попасться на глаза пользователю, при этом с момента первоначального импорта могло пройти уже много времени, соответственно и воспоминания о минорном инценденте давно поблекли. Манящее же своей простотой предположение, что слова были подцеплены когда-то во время парсинга, является, в итоге, ошибочным.

Manual-icon-exlamation.pngКстати, на вкладке «Горячие клавиши» («Комбинации клавиш», etc., в зависимости от версии «Магадана») в диалоге настроек программы, вы можете переопределить практически любое сочетание клавиш, используемых в интерфейсе, в т.ч. и назначить клавишу Del для операции фактического удаления ключевых слов из базы, а не удаления их только из текущего списка слов на экране (выборки).

См. также