Содержание

что это такое и для чего он нужен

Сегодня мы поговорим о таком бесплатном онлайн-сервисе, как Яндекс Вордстат. Он является одним из полезных и эффективных ресурсов, который пользуется высокой популярностью у большинства пользователей. Просто, удобно, бесплатно – эти слова, несомненно, являются синонимами Яндекс Вордстата.

Что такое Яндекс Вордстат

Перед тем как вдаваться в детали – выясним, что такое Яндекс Вордстат простыми словами. Данный сервис предназначен для оценки пользовательских поисковых запросов по заданным регионам и устройствам. Используя Яндекс Вордстат, Вы получаете информацию о частоте и количестве запросов по искомой Вами тематике.

Например, если в строку поиска Вордстата ввести «бизнес франшиза» мы видим, что за последний месяц с использованием такой фразы было показано 21796 запросов.

Ко всему прочему парсер Вордстат позволяет без каких-либо затруднений понять, какие подобранные для Вас запросы являются низкочастотными, среднечастотными и высокочастотными. В дальнейшем, чтобы все пазлы полученной информации собрались в единое целое, прочтите информацию о том, как пользоваться Яндекс Вордстатом. Поверьте, разобраться в этой теме не составит никакого труда.

Для чего нужен Яндекс Вордстат

Мы уже выяснили, что такое Вордстат и какую информацию можно найти с его помощью. Чтобы полнее раскрыть выбранную тему, нам предстоит узнать для чего нужен Яндекс Вордстат и насколько это важно.

Данный сервис, как мы говорили ранее, необходим для того, чтобы отслеживать статистику поисковых запросов. В случаях, когда Вы хотите заказать СЕО-продвижение сайта, оптимизаторы, взяв за основу полученную статистику, начинают подбор ключевых слов.

Кроме того, с помощью Вордстата можно с лёгкостью оценить сезонность и географию поисковых запросов. А для интернет-маркетологов имеется возможность создать рекламную кампанию в Яндекс Директе.

Что означают операторы в Яндекс Вордстат

Для того чтобы конкретизировать результаты выдачи запросов нужно разобраться в том, что означают операторы в Яндекс Вордстате и для чего предназначен каждый из них.

Операторами в сервисе Вордстат называются специальные символы, которые помогают определить точную формулировку Вашего запроса. Базовыми операторами являются: «кавычки», «восклицательный знак», «плюс», «минус», обозначаемые знаками.

Понять, что означает оператор Кавычки («») довольно просто. Он позволяет получить статистику только по данному запросу, не используя дополнительные слова. Но у слов, включённых в запрос, может быть разный порядок и окончания.

Далее по списку, но не по значению оператор Восклицательный знак (!). Он станет лучшим помощником для тех, кому нужна обязательная фиксация формы слова (число, время, падеж).

Теперь разберём, что означает оператор Плюс (+) и в каком случае его стоит использовать. По умолчанию Вордстат не считает предлоги и союзы в статистике, но иногда очень важно взять во внимание эти части речи, дабы не изменить смысл запроса. Проще говоря, данный оператор предполагает обязательное использование слова в запросе.

Последний оператор, который мы рассмотрим – это оператор Минус (-). Он является противоположным по функции символу — (+), так как его работа состоит в том, чтобы исключить из статистики ненужные слова.

Например, нам нужно найти всю статистику по запросу «создание сайта-визитки с нуля», но как только мы это делаем, видим, что в списке есть ненужная нам фраза «своими руками». Для того чтобы её исключить, в поисковой строке добавляем слово «своими», перед которым ставим оператор Минус.

Что такое десктопы в Яндекс Вордстате

Как мы уже выяснили, запросы в Вордстате можно сортировать по различным основаниям, будь то сезонность или география. В дополнение к этому, под поисковой строкой можно увидеть и другие фильтры, такие как десктопы, мобильные, телефоны и планшеты.

У начинающего пользователя сразу же возникает вопрос, что такое десктопы в Яндекс Вордстате и для чего нужна данная фильтрация. Ответ на него предельно прост: «Десктопы» учитывает запросы с компьютеров и ноутбуков. На картинке видим, что запрос «масслукинг сторис» по данному фильтру набрал 380 показов в месяц.

Что такое абсолютное и относительное в Яндекс Вордстат

Если на вышеупомянутом сервисе просматривать историю запросов, используя при этом графики, невольно возникает вопрос о том, что такое абсолютное и относительное в Вордстате и зачем оно нужно.

Абсолютное значение – это фактическое значение тех показов, которые искали в разные временные периоды. Относительное же значение – это сопоставление показов по интересующему Вас запросу с общим числом показов в сети. И один, и второй график обычно идут ровно, зачастую повторяя друг друга.

После прочитанной статьи с уверенностью можно заявить, что теперь Вы являетесь продвинутым пользователем сервиса Яндекс Вордстат! И чтобы успешно закрепить полученную информацию, ещё раз обратимся к тому, что нам показывает Яндекс Вордстат в целом:

  • Общее число запросов;
  • Запросы по уточнённым фразам;
  • Общую или выборочную статистику;
  • Историю запросов и сезонные колебания.

Как работает? Что показывает? Как пользоваться? — Виталий Рахманов на vc.ru

{«id»:13811,»url»:»\/distributions\/13811\/click?bit=1&hash=f0af5bbbd191e56b73d6b1a8ab6784fd72e135eceb7d5c2a4a57d25a79f36f9b»,»title»:»\u041f\u0440\u0435\u0432\u0440\u0430\u0442\u0438\u0442\u044c \u0441\u0442\u0430\u0440\u0442\u0430\u043f \u0432 \u0431\u043e\u043b\u044c\u0448\u043e\u0439 \u0431\u0438\u0437\u043d\u0435\u0441, \u0440\u0430\u0431\u043e\u0442\u0430\u044f \u0432 \u043a\u043e\u0432\u043e\u0440\u043a\u0438\u043d\u0433\u0435″,»buttonText»:»\u041a\u0430\u043a?»,»imageUuid»:»e081cfad-07ef-5c37-96f8-d874341c9fda»,»isPaidAndBannersEnabled»:false}

В Wordstat нет поисковых запросов, только ключевые слова. Яндекс превращает поисковые запросы в ключевые слова перед тем как выгрузить их в вордстат.

367 просмотров

Как работает wordstat?

Рассмотрим по шагам как поисковый запрос превращается в ключевое слово

Запросы за месяц

Вордстат показывает запросы за месяц. Поэтому из «База Яндекса» в «Wordstat» отбираются запросы за последние 30 дней. Обновление запросов происходит ежедневно.

Разбор поисковых запросов на слова (n-граммы)

Поисковые запросы разбираются на слова, от 1 до 7 слов. В wordstat лимит в 7 слов.

!!! Запрос «интернет магазин телефонов» превратился в 7 n-грамм.

Ключевые слова

Собираем в единый список n-граммы. База ключевых слов готова, но без частотности.

Частотность ключевых слов

Частотность это количество вхождений ключевого слова в поисковые запросы, за месяц.

Пример:

Ключевое слово «купить телефон» встречалось в 5 поисковых запросах

!!! Ключевое слово «купить телефон» получил частотность от «купить чехол на телефон желтого цвета» хоть они и отличаются по смыслу.

База ключевых слов (вордстат) готова

Ссылка на гугл таблицу с шагами → wordstatWithBlackjack

Что показывает wordstat?

Регион

Ключевые слова и частотность внутри выбранного региона. Список регионов из Яндекс.Директ.

Типы устройств (1)

Срез данных по типу устройств

Похожие запросы (2)

Ключевые слова с похожим интентом/задачей пользователя

По регионам

Сравнение частотности и популярности ключевого слова по всем регионам. Региональная популярность относительная метрика, 100% = средняя по всем регионам. Если выше 100% = регион с повышенным спросом, если ниже 100% = регион со слабым спросом.

Отображение в виде списка и карты.

История запросов

Сезонность за предыдущие 2 года, срез по месяцам и неделям. Абсолютное — это частотность в привычном понимании. Относительное — запрос «телефон» в сравнении с частотностью всех запросов в wordstat.

История запросов не поддерживает операторы

Как пользоваться wordstat?

Операторы

(минус-слово)

Исключить ключевые слова содержащие минус слово

+ (стоп-слово)

Показать ключевые слова содержащие стоп-слово.

По умолчанию вордстат игнорирует служебные части речи при подсчёте частотности.

( | ) (логическое «или»)

Показать одновременно несколько ключевых слов

«» (словоформа)

Фиксирует количество слов и показывает частотность всех падежей и чисел. Не учитывает порядок слов.

«телефон цена» = «цены телефоны»

! (точное вхождение)

Фиксирует падеж и число. Не учитывает порядок и количество слов.

[] (учет порядка слов)

Фиксирует порядок слов. Не учитывает количество слов, падежи и числа.

, +, ! ставить перед словом без пробела

Надеюсь статья была полезной. Буду рад вопросам, уточнениям и комментариям.

Аудит контекстной рекламы

Если ваша контекстная реклама работает плохо и неясно в чем причина. Пишите мне в тг

https://t.me/vitalyRahmanov

последние новые функции интеллектуального анализа текста

Новые функции WordStat 6.

1
  • Новый многоязычный пользовательский интерфейс (английский, французский и испанский)
  • Улучшенная лингвистическая поддержка со встроенными словарями и тезаурусами для пяти языков (английский, французский, испанский, немецкий и португальский) для помощи в разработке таксономий и словарей для контент-анализа
  • Повышение скорости обработки на 50 % по сравнению с предшественником, что позволяет анализировать до 30 миллионов слов в минуту

Новые функции WordStat 6

1. НОВАЯ ФУНКЦИЯ АВТОМАТИЧЕСКИХ ПРЕДЛОЖЕНИЙ

На странице частоты дополнительная панель (справа) автоматически показывает для выбранных элементов (слов или категорий контента) все связанные оставшиеся слова (синонимы, антонимы, гипонимы). , гиперонимы, слова с одинаковым основанием и т. д.), что позволяет выбрать релевантные слова и отнести их к категории. Обратите внимание, что эта функция полностью функциональна только при анализе документа на английском языке. При анализе документов на других языках на панели будут отображаться слова с похожей корневой формой.

2. ИНТЕГРИРОВАННАЯ ФУНКЦИЯ ПЕРЕТАСКИВАНИЯ В СЛОВАРЬ

Редактор словаря с перетаскиванием был заменен новой панелью перетаскивания, доступной в левой части страниц «Частоты», «Перекрестная таблица» и «Поиск фраз», что упрощает назначение словарь категорий, список исключений и новый список замещения. Назначения в новую категорию можно выполнить, перетащив один или несколько элементов на значок дерева НОВАЯ КАТЕГОРИЯ.

3. КЛАСТЕРИЗАЦИЯ И АНАЛИЗ СООТВЕТСТВИЙ ФРАЗ

Теперь можно выполнять кластерный анализ и анализ соответствий фраз без необходимости сохранять их в словарь категорий. Диалог также позволяет добавлять в этот список часто встречающиеся слова и сохранять извлеченные фразы в новый словарь.

4. Гистограмма с накоплением и пузырьковая диаграмма

Две новые диаграммы были добавлены для отображения связи между кодами и переменными: столбчатая диаграмма с накоплением позволяет отображать относительную или абсолютную частоту кодировок путем их суммирования для каждого класса категориальной или числовой переменной. Он позволяет быстро показать отношение частей к целому или подчеркнуть сумму нескольких кодов.

Пузырьковая диаграмма представляет собой графическое представление кросс-таблиц, в которых относительные частоты представлены кружками разного диаметра. Этот тип диаграммы позволяет быстро идентифицировать высокочастотные и низкочастотные ячейки и, таким образом, особенно полезен для презентационных целей. Многие функции диаграммы можно настроить, чтобы выделить конкретные результаты. Строки и столбцы можно свободно перемещать или удалять, и можно настроить цвет каждой ячейки, а также используемые шрифты.

5. ИЗМЕНЕННЫЙ ДИАГРАММ БЛИЗОСТИ

График близости теперь создает графику высокой четкости и теперь может использоваться для отображения близости от более чем одного ключевого слова с помощью двойных и сложенных гистограмм.

6. УЛУЧШЕННЫЕ МНОГОМЕРНЫЕ ГРАФИКИ МАСШТАБИРОВАНИЯ

Теперь можно отображать частоту терминов в 2D- и 3D-графиках MDS, используя пузырьковых графиков . Кроме того, новый алгоритм ограниченной кластеризации теперь позволяет сохранять структуру кластеризации на многомерных графиках масштабирования, что значительно упрощает интерпретацию 2D- и 3D-карт MDS и делает ее более согласованной с решениями кластеризации.

7. УЛУЧШЕННЫЕ ДЕНДРОГРАММЫ

Теперь можно отображать частоты терминов вместе с дендрограммами, используя гистограмму.

8. ПЕРЕКРЕСТНАЯ СТАБИЛИЗАЦИЯ ПО ДВУМ ПЕРЕМЕННЫМ

Страница КРОССТАБИЛЬНАЯ СТАБИЛИЗАЦИЯ теперь позволяет исследовать взаимосвязь между словами или категориями контента и комбинированными значениями двух переменных (например, пол x возраст).

9. АВТОМАТИЧЕСКИЙ ПОИСК И КОДИРОВАНИЕ КАТЕГОРИЙ СОДЕРЖАНИЯ

Новая кнопка на странице ЧАСТОТЫ позволяет получить все абзацы или предложения, соответствующие любой из категорий контента, и прикрепить к ним соответствующий код QDA Miner. Если у определенной категории контента нет соответствующих кодов в кодовой книге проекта, автоматически будет создана новая.

10. НОВАЯ ФУНКЦИЯ ЗАМЕНЫ

Функция предварительной обработки лемматизации была заменена более гибким процессом замены. Этот новый процесс не только поддерживает существующие процедуры лемматизации, но и позволяет пользователям создавать собственный процесс замены для лемматизации текста на языке, который в настоящее время не поддерживается WordStat, или автоматически исправлять орфографические ошибки без изменения исходных документов. Процесс замены может также использоваться для предварительной категоризации и использоваться в сочетании со словарем категоризации.

11. ФУНКЦИЯ ОТМЕНЫ РЕДАКТИРОВАНИЯ СЛОВАРОВ

Все изменения, внесенные в список исключений, словарь категорий и новый процесс замены, теперь отслеживаются и могут быть отменены.

12. УЛУЧШЕННЫЕ ЛИНГВИСТИЧЕСКИЕ РЕСУРСЫ

Внутренние лингвистические ресурсы для английского языка были значительно улучшены благодаря обновлению до WordNet 3 и добавлению третьего тезауруса.

13. ПОДДЕРЖКА МЕНЕДЖЕРА ОТЧЕТОВ

WordStat теперь объединяет функции диспетчера отчетов, представленные в QDA Miner 3.0, что позволяет хранить в одном месте документы, таблицы, графику и текстовые результаты, созданные QDA Miner и WordStat. Менеджер отчетов структурирован как планировщик (аналогично средству просмотра выходных данных SPSS), что позволяет легко просматривать элементы, редактировать их, реорганизовывать и создавать черновые версии отчетов.
Кнопки, подобные этой

, были добавлены во многие диалоговые окна для автоматического сохранения таблиц, диаграмм и текста в диспетчере отчетов. Удерживая нажатой клавишу Shift при нажатии этой кнопки, откроется диалоговое окно, в котором можно настроить заголовок и ввести описание сохраненного элемента.
14. УЛУЧШЕННОЕ ИЗВЛЕЧЕНИЕ ФРАЗ

Реализован новый алгоритм удаления избыточных или лишних последовательностей слов.

15.
УЛУЧШЕННАЯ ПАНЕЛЬ ПЕРЕКРЫТИЯ ФРАЗ

Теперь можно выполнять операции над фразами, перечисленными в панели перекрытия (перетаскивание в словарь, получение списка KWIC или удаление их)

16. УЛУЧШЕННЫЙ ЭКСПОРТ СТАТИСТИКИ ДАННЫХ

Диалоговое окно для экспорта статистики данных на диск было улучшено за счет новых опций для выбора переменных, которые будут добавлены в отчет, и возможности экспорта вхождений категорий содержимого в полиномиальные переменные. Панель параметров также позволяет предварительно просмотреть данные для экспорта.

17. СТАТИСТИКА ПОКРЫТИЯ ДОКУМЕНТОВ И СЛОВАРОВ

На странице ЧАСТОТЫ появилась новая кнопка, позволяющая получить различную статистику документа (количество слов, предложений, абзацев, слов в предложении и т.д.) и оценить охват словарь контент-анализа (процент слов, предложений, абзацев, документов и дел, содержащих элементы по категориям).

18.
ЭКСПОРТ ДАННЫХ СОВМЕСТНОСТИ В ПРОГРАММУ ДЛЯ АНАЛИЗА СОЦИАЛЬНЫХ СЕТЕЙ

Данные о совпадениях теперь можно экспортировать в популярные программы для анализа социальных сетей, такие как UCINET, Pajek, NetDraw и NetMiner.

19. ЭКСПОРТ В ФАЙЛЫ SPSS

Все таблицы и матрицы данных теперь можно экспортировать непосредственно в файлы данных SPSS .SAV.

20. ВЕРТИКАЛЬНЫЕ МЕТКИ НА ТАБЛИЦАХ И ГРАФИКАХ

В различные диаграммы и таблицы добавлена ​​новая кнопка для отображения меток столбцов или на нижней оси вертикально, а не горизонтально.

21. СОЗДАНИЕ КАТЕГОРИЙ QDA MINER CODEBOOK

В диалоговом окне поиска ключевых слов с помощью WordStat 5.1 можно было назначить существующий код QDA Miner извлеченным текстовым сегментам. Также можно было добавлять новые коды, но нельзя было создавать новые категории в кодовой книге. WordStat 6 теперь позволяет добавлять категории в существующую кодовую книгу QDA Miner или создавать новую кодовую книгу.

22. СПИСОК KWIC ДЛЯ НЕСКОЛЬКИХ ЗАПИСЕЙ

Определяемое пользователем поле редактирования в диалоговом окне «Ключевое слово в контексте» теперь поддерживает спецификацию нескольких записей (разделенных точкой с запятой). Выбор нескольких строк таблицы и вызов списка KWIC также приведет к созданию списка KWIC для всех выбранных элементов.

23. ПОДДЕРЖКА ДИСКРИПТОРОВ КЕЙСОВ QDA MINER

Поддержка дескрипторов кейсов QDA Miner позволяет определять более подробные метки кейсов на основе нескольких переменных.

24. ВЫБОР НЕЗАВИСИМЫХ ПЕРЕМЕННЫХ

Новая опция теперь позволяет выбирать новые независимые переменные без необходимости возвращаться в QDA Miner или Simstat.

25. ВЫБОР ПО КОЛИЧЕСТВУ ЭЛЕМЕНТОВ

Новая опция позволяет ограничить количество извлекаемых элементов до определенного числа (например, выбрать 100 наиболее часто встречающихся слов или 200 элементов с наибольшим значением TFxIDF.

26. ВОЗМОЖНОСТЬ УКАЗАНИЯ СПЕЦИАЛЬНЫХ ВСТРОЕННЫХ СИМВОЛОВ

Новая опция позволяет идентифицировать специальные символы, которые будут распознаваться как неотъемлемая часть слова (или токена) при условии, что они будут непосредственно окружены с обеих сторон другими допустимые символы. Например, ввод точки и знака @ в этом списке сохранит адреса электронной почты нетронутыми и извлечет их. При вводе точки и запятых в этом списке и знака $ в другом списке допустимых символов будут получены такие элементы, как 1000 долларов или 3,1415. Слова в конце предложений по-прежнему будут извлекаться без знака точки, поскольку за этой точкой, вероятно, будет следовать пробел или возврат каретки (таким образом, они не будут окружены буквенно-цифровыми символами).

27. ВОЗМОЖНОСТЬ ПОВТОРНОГО ПРИМЕНЕНИЯ ПРЕДЫДУЩИХ ОРФОПРАФИЧЕСКИХ ИСПРАВЛЕНИЙ

Все замены орфографических ошибок, выполненные в тексте с помощью функции «неизвестные слова», автоматически сохраняются. При использовании этой же функции в новой текстовой коллекции программа автоматически предложит повторно применить исправления, сделанные ранее.

28. НОВЫЙ АЛГОРИТМ ДЛЯ УСКОРЕННОГО АНАЛИЗА СООТВЕТСТВИЙ

Мы реализовали гораздо более быстрый алгоритм анализа соответствий. См. результаты синхронизации ниже.

РАЗМЕР

ВРЕМЯ ВЫЧИСЛЕНИЯ
WORDSTAT 5.1

ВРЕМЯ ВЫЧИСЛЕНИЙ
WORDSTAT 6.0

283 случая x 10 переменных

1,28 секунды

0,00 секунды

854 случая x 10 переменных

34,1 секунды

0,03 секунды

1377 наблюдений x 10 переменных

2 минуты 28 секунд

0,05 секунды

2027 случаев x 10 переменных

20 минут 2 секунды

0,06 секунды

3089 случаев x 10 переменных

1 час 34 минуты 8 секунд

0,11 секунды

29.
УЛУЧШЕННЫЙ КОНСТРУКТОР СЛОВАРОВ

Конструктор словарей был улучшен несколькими способами. Теперь он использует последнюю версию WordNet 3.0 (предыдущая версия использовала WordNet 1.7). Добавлена ​​новая опция для отображения только слов, присутствующих в вашей текстовой коллекции (остаточные слова). Это также примерно в два раза быстрее, чем предыдущие версии.

30. УЛУЧШЕННОЕ ДИАЛОГОВОЕ ОКНО ОСНОВНЫХ ПРЕДЛОЖЕНИЙ

Функция «Основные предложения» была переработана. Теперь он предоставляет больше предложений и позволяет фильтровать предложения, чтобы отображать только слова, которые в настоящее время находятся в текущей коллекции документов. Скорость этой функции также значительно улучшилась.

31. ИНТЕРАКТИВНЫЙ ДВУХМЕРНЫЙ ДИАГРАММА СООТВЕТСТВИЙ

Теперь можно щелкнуть правой кнопкой мыши по ключевому слову в корреспонденции и получить список ключевых слов в контексте или поиск ключевых слов. Можно также использовать щелчок правой кнопкой мыши, чтобы удалить ключевое слово или класс категориальной переменной и пересчитать анализ соответствия, что позволяет легко удалить выбросы и отобразить взаимосвязь между оставшимися элементами.

32. УЛУЧШЕННАЯ ОБРАБОТКА ДАТ

При выборе переменной даты на странице кросс-таблицы появляется диалоговое окно, позволяющее сгруппировать все даты по десятилетиям, годам, месяцам, кварталам или дням недели.

33. УЛУЧШЕННАЯ КОМАНДА «ДОБАВИТЬ В КАТЕГОРИИ»

При выборе нескольких слов или фраз в таблице и последующем выборе команды ДОБАВИТЬ В СЛОВАРЬ КАТЕГОРИИ теперь предлагается добавить их все сразу в одну категорию.

34. УЛУЧШЕННОЕ ДИАЛОГОВОЕ ОКНО ДЛЯ ДОБАВЛЕНИЯ ЭЛЕМЕНТОВ В СЛОВАРЬ

Новое диалоговое окно позволяет назначать элементы в новую категорию за один шаг (пользователям больше не нужно сначала создавать категорию, а затем назначать слова или фразы). в эту вновь созданную категорию).

35. ИЗМЕНЕННЫЙ ДИЗАЙН СТРАНИЦЫ СЛОВАРОВ

Более легкая для изучения и использования страница словаря.

36. ИЗМЕНЕННЫЙ ДИАЛОГ ФИЛЬТРАЦИИ КЕЙСОВ

Более простой в использовании диалог фильтрации кейсов, аналогичный QDA MINer (с возможностью вызова предыдущих диалогов фильтрации).

37. УПРОЩЕННАЯ НАСТРОЙКА АНАЛИЗА СООТВЕТСТВИЙ

Настройка графиков соответствий теперь проще благодаря новому диалоговому окну для базового редактирования.

38. НАЗНАЧЕНИЕ КАТЕГОРИЙ ИЗ ДИАЛОГА KWIC

Теперь можно назначить слово или фразу категории со страницы KWIC, поместив курсор редактирования текстового поля под таблицей на слово, которое нужно классифицировать, или выбрав фразу, а затем щелкните ее правой кнопкой мыши.

39. НОВЫЕ СРАВНЕНИЯ С КОРПУСОМ ТЕКСТОВ

Новые файлы данных о частоте слов для сравнения любой текстовой коллекции с частотами слов в Британском национальном корпусе и Открытом американском национальном корпусе

проверено

WordStat | Особенность | Research Live

Когда дело доходит до анализа данных, слова, как правило, не помогают большинству программных решений. Тим Мейсер рассматривает инструмент текстового анализа, который может просеивать открытые ответы

Добавьте несколько открытых вопросов в интернет-опрос, и — если ваши респонденты действительно заинтересованы в предмете обсуждения — вы обнаружите, что завалены дословными ответами. . Обработка этих ответов с использованием классических методов кодирования не только отнимает много времени, но и, если у вас нет времени на чтение каждого необработанного комментария, оставляет вас с неприятным ощущением, что наиболее ценные идеи, возможно, остались на полу комнаты кодирования.

WordStat — это основанный на статистике инструмент для анализа текста, который может решить эту проблему, предоставляя совершенно новый и невероятно эффективный способ обработки открытых ответов. Он не пытается подражать дословному кодированию, а использует ряд передовых компьютерных методов анализа текста для поиска повторяющихся слов и фраз.

Но слова и короткие фразы могут вводить в заблуждение и служить плохим показателем смысла. Кто знает, что могут означать два слова «холодный прием», не видя больше ответа. Это неохотный прием, кондиционер, настроенный на 18 градусов по Цельсию, или даже, возможно, окончательный вариант культового городского дизайна фойе? Здесь WordStat превосходен тем, что всегда позволяет вам масштабировать макро- и микропредставления комментариев ваших респондентов, чтобы вы всегда могли добраться до контекста и вмешаться со своим собственным экспертным суждением.

Инструмент предоставлен Provalis Research, компанией-разработчиком программного обеспечения, базирующейся в Монреале. Он предлагается как дополнительный модуль к их программе статистического анализа SimStat или QDA Miner, инструменту качественного анализа кода и извлечения. Одна лицензия на Simstat с WordStat стоит около 600 фунтов стерлингов по текущему обменному курсу. Краткий обзор WordStat 5 И категориальные переменные, и дословные тексты импортируются вместе. К сожалению, нет поддержки тройных или других распространенных платформ сбора данных МРТ, что, вероятно, приведет к некоторому повторному вводу меток для всех импортируемых вами переменных профиля.

Вы используете интерфейс Simstat для доступа к WordStat. Это полнофункциональный пакет статистики с собственными средствами кросс-таблицы. Если вы ссылаетесь на переменную, содержащую буквальный дословный текст, Simstat переходит к конкретным возможностям WordStat. Все это довольно плавно, и в целом интерфейс и навигация по программе довольно хорошо разработаны, хотя они несколько сногсшибательно растянуты, как это часто бывает со статистическим программным обеспечением.

При первом использовании системы вам придется потратить больше времени, чем обычно, на заполнение словаря, который на самом деле является вашим собственным тематическим списком слов, всеми терминами, встречающимися в ваших данных. Здесь он предоставляет ряд инструментов и помощников; перечисление всех слов, которые он нашел в ваших данных, например. Существует дополнительный предварительно заполненный список слов-«исключений»: несколько сотен неинтересных служебных слов, таких как «the», «of», «and» и т. д. Его тоже можно редактировать полностью.

Существует множество различных способов определения и анализа текстовых ответов. Лучше всего начать с простых частот слов, найденных в вашем списке слов. Вы также можете посмотреть частоты слов, которых нет в вашем списке, что является хорошим способом составить список в первую очередь, а также выявить новые тенденции или различия в любых лонгитюдных исследованиях.

Словарь применяет правила лемматизации, которые вы также можете настроить. Они гарантируют, что основы слов, формы единственного и множественного числа, сокращения и даже распространенные орфографические ошибки рассматриваются как одно слово.

При просмотре слов по частоте ключевое слово в контексте очень полезно позволяет вам перейти к фактическим найденным вхождениям — вы увидите короткий однострочный фрагмент каждого слова с непосредственными словами вокруг него. Еще один щелчок покажет всю информацию дословно, с выделенными ключевыми словами.

Дальше все становится умнее. Вы также можете сопоставить слова с другими категориальными переменными в ваших данных и начать видеть ассоциации. Существует средство поиска фраз, где вы можете указать минимальную и максимальную длину слова, и снова их можно совмещать и просматривать в контексте.

  Что это?
WordStat — это основанный на статистике инструмент текстового анализа для обработки дословных текстов или расшифровок интервью и получения многоразовых моделей классификации или категоризации текстов.


Pros
• Недорого для одного пользователя
• Быстрый способ определения всех наиболее часто используемых слов и фраз
• Детализация для просмотра полного контекста для каждой идентифицированной фразы
• Можно добавлять собственные словари и работать с другими языками тоже


Минусы
• Не является многопользовательской системой
• Нет импорта троек, поэтому большинство импортов из данных МРТ потребует повторного ввода меток
• Нет поддержки UNICODE или двухбайтовых языков


Аналогично продукты
Анализ текста SPSS для опросов; iSquare i2 SmartSearch


Дополнительная информация
www. provalisresearch.com


Получив набор слов, которые вас устраивают, вы можете перейти к созданию иерархической категоризации, которая является иерархической. кодовый кадр. Словно по волшебству, программа предложит слова для включения в эту категорию — по крайней мере, это происходит на английском языке, поскольку программа поставляется с лексическим словарем Wordnet с открытым исходным кодом, который содержит около 200 000 определений английских слов и взаимосвязей. Кроме того, после того как вы создали свою категоризацию, вы можете повторно использовать ее для последующих новых данных. Каждая категория будет заполнена в соответствии с тем же набором правил, которые вы определили в отношении релевантных слов и фраз.


Сюжет сгущается
Многим пользователям этих возможностей было бы вполне достаточно для анализа своих стенографических данных, но, если позволяет время, можно пойти гораздо дальше. Вы можете начать отображать найденные слова и фразы в трехмерных графиках соответствий, которые удивительным образом можно вращать на экране. Они могут сопоставлять фактические дословные слова и фразы с жесткими категориальными данными, такими как демографические данные или производные кластерные группы. Вы можете создавать древовидные дендограммы сходства слов и фраз с некоторыми дьявольскими «тепловыми» графиками, которые показывают относительную корреляцию по цветовому спектру, от синего до красного.

Для действительно продвинутых пользователей программа также содержит возможности машинного обучения для анализа текстов и многомерного статистического анализа текстов: вы можете выполнять кластерный анализ слов и фраз в вашем корпусе дословных текстов.


Вид пользователя
Ральф Бишоп (Ralph Bishop) — менеджер по качественным исследованиям в International Survey Research. Он использует WordStat для анализа дословных ответов в опросах сотрудников на шести разных языках, для которых он разработал тематические словари.

Он комментирует: «Самое привлекательное в WordStat — его открытость. Вам не нужно кодировать свой текст, хотя вы можете это сделать, если хотите. Но до сих пор я обнаружил, что использование анализа текста и правильный выбор контекста работают просто отлично. Это хорошо для любого исследования, где есть открытый материал».

Д-р Бишоп советует, чтобы получить максимальную отдачу от этого, сначала необходима некоторая жесткая прививка, чтобы создать хороший словарь или лексикон для предметной области. После того, как это будет сделано, его можно повторно использовать в любом другом проекте, использующем ту же предметную область, хотя для поддержания его актуальности полезно периодическое обновление. «Хитрость в том, чтобы понять, как манипулировать словарями», — признается он.

Как только это устранено, он сообщает, что это означает, что вы очень быстро справляетесь с большими объемами стенограмм. «Это очень полезно, потому что все, что мы делаем, делается в очень сжатые сроки».

Он предостерегает: «Вы все равно должны быть очень осторожны с шумом, как правило, со словами, которые используются в другом контексте.