Латентно-семантический анализ / Хабр
Как находить тексты похожие по смыслу? Какие есть алгоритмы для поиска текстов одной тематики? – Вопросы регулярно возникающие на различных программистских форумах. Сегодня я расскажу об одном из подходов, которым активно пользуются поисковые гиганты и который звучит чем-то вроде мантры для SEO aka поисковых оптимизаторов. Этот подход называет латентно-семантический анализ (LSA), он же латентно-семантическое индексирование (LSI)
Предположим, перед вами стоит задача написать алгоритм, который сможет отличать новости о звездах эстрады от новостей по экономике. Первое, что приходит в голову, это выбрать слова которые встречаются исключительно в статьях каждого вида и использовать их для классификации. Очевидная проблема такого подхода: как перечислить все возможные слова и что делать в случае когда в статье есть слова из нескольких классов. Дополнительную сложность представляют омонимы. Т.е. слова имеющие множество значений.
Латентно-семантический анализ отображает документы и отдельные слова в так называемое «семантическое пространство», в котором и производятся все дальнейшие сравнения. При этом делаются следующие предположения:
1) Документы это просто набор слов. Порядок слов в документах игнорируется. Важно только то, сколько раз то или иное слово встречается в документе.
2) Семантическое значение документа определяется набором слов, которые как правило идут вместе. Например, в биржевых сводках, часто встречаются слова: «фонд», «акция», «доллар»
3) Каждое слово имеет единственное значение. Это, безусловно, сильное упрощение, но именно оно делает проблему разрешимой.
Пример
Для примера я выбрал несколько заголовков с различных новостей. Они выбраны не совсем случайно, дело в том, что для случайной выборки потребовался бы очень большой объем данных, что сильно затруднило бы дальнейшее изложение. Итак, было выбрано несколько заголовков.
Первым делом из этих заголовков были исключены, так называемые, стоп-символы. Это слова которые встречаются в каждом тексте и не несут в себе смысловой нагрузки, это, прежде всего, все союзы, частицы, предлоги и множество других слов. Полный список использованных стоп-символов можно посмотреть в моей предыдущей статье о стоп-симолах
Далее была произведена операция стемминга. Она не является обязательной, некоторые источники утверждают, что хорошие результаты получаются и без нее. И действительно, если набор текстов достаточно большой, то этот шаг можно опустить. Если тексты на английском языке, то этот шаг тоже можно проигнорировать, в силу того, что количество вариаций той или иной словоформы в английском языке существенно меньше чем в русском. В нашем же случае, пропускать этот шаг не стоит т.к. это приведет к существенной деградации результатов. Для стемминга я пользовался алгоритмом Портера.
Дальше были исключены слова встречающиеся в единственном экземпляре. Это тоже необязательный шаг, он не влияет на конечный результат, но сильно упрощает математические вычисления. В итоге у нас остались, так называемые, индексируемые слова, они выделены жирным шрифтом:
1. Британская полиция знает о местонахождении основателя WikiLeaks
2. В суде США начинается процесс против россиянина, рассылавшего спам
3. Церемонию вручения
4. В Великобритании арестован основатель сайта Wikileaks Джулиан Ассандж
5. Украина игнорирует церемонию вручения Нобелевской премии
6. Шведский суд отказался рассматривать апелляцию основателя Wikileaks
7. НАТО и США разработали планы обороны стран Балтии против России
8. Полиция Великобритании нашла основателя WikiLeaks, но, не арестовала
9.
Латентно семантический анализ
На первом шаге требуется составить частотную матрицу индексируемых слов. В этой матрице строки соответствуют индексированным словам, а столбцы — документам. В каждой ячейке матрицы указано какое количество раз слово встречается в соответствующем документе.
Следующим шагом мы проводим сингулярное разложение полученной матрицы. Сингулярное разложение это математическая операция раскладывающая матрицу на три составляющих. Т.е. исходную матрицу M мы представляем в виде:
M = U*W*Vt
где U и Vt – ортогональные матрицы, а W – диагональная матрица. Причем диагональные элементы матрицы W упорядочены в порядке убывания. Диагональные элементы матрицы W называются сингулярными числами.
Прелесть сингулярного разложения состоит в том, что оно выделяет ключевые составляющие матрицы, позволяя игнорировать шумы. Согласно простым правилам произведения матриц, видно, что столбцы и строки соответствующие меньшим сингулярным значениям дают наименьший вклад в итоговое произведение. t, оставив только первые 2. Важно, что при этом гарантируется, оптимальность полученного произведения. Разложение такого вида называют двумерным сингулярным разложением:
Давайте теперь отметим на графике точки соответствующие отдельным текстам и словам, получится такая занятная картинка:
Из данного графика видно, что статьи образуют три независимые группы, первая группа статей располагается рядом со словом «wikileaks», и действительно, если мы посмотрим названия этих статей становится понятно, что они имеют отношение к wikileaks. Другая группа статей образуется вокруг слова «премия», и действительно в них идет обсуждение нобелевской премии.
На практике, конечно, количество групп будет намного больше, пространство будет не двумерным а многомерным, но сама идея остается той же. Мы можем определять местоположения слов и статей в нашем пространстве и использовать эту информацию для, например, определения тематики статьи.
Улучшения алгоритма
Легко заметить что подавляющее число ячеек частотной матрицы индексируемых слов, созданной на первом шаге, содержат нули. Матрица сильно разрежена и это свойство может быть использовано для улучшения производительности и потребления памяти при создании более сложной реализации.
В нашем случае тексты были примерно одной и той же длины, в реальных ситуациях частотную матрицу следует нормализовать. Стандартный способ нормализации матрицы TF-IDF
Мы использовали двухмерную декомпозицию SVD-2, в реальных примерах, размерность может составлять несколько сотен и больше. Выбор размерности определяется конкретной задачей, но общее правило таково: чем меньше размерность тем меньше семантических групп вы сможете обнаружить, чем больше размерность, тем большее влияние шумов.
Замечания
Для написания статьи использовалась Java-библиотека для работы с матрицами Jama. Кроме того, функция SVD реализована в известных математических пакетах вроде Mathcad, существуют библиотеки для Python и C++.
что это такое и как их собрать
Делюсь самым эффективным алгоритмом поиска LSI-фраз, которые постоянно использую в работе. В итоге вы тоже научитесь за полчаса вычислять необходимое количество LSI и находить нужные.
Что такое LSI-копирайтинг
«Пишите для людей», – говорят они. Как поисковику дать понять, что содержание мой страницы удовлетворяет желания пользователей? Эту задачу выполняет LSI-копирайтинг.
LSI-копирайтинг («латентное семантическое индексирование») – это механика, которая помогает повысить релевантность веб-страницы с помощью поисковых фраз.
Если пользователь вводит в поисковик фразу «консультация гинеколога», он, как минимум, хочет увидеть информацию о ценах, задать уточняющий вопрос и заполнить форму записи. То есть фразы «гинеколог задать вопрос», «гинеколог цены», «запись к гинекологу» и «гинеколог онлайн» являются синонимами запроса.
Поисковик запоминает, на каких страницах пользователи задерживаются дольше и, отталкиваясь контента этих страниц, составляет список LSI-фраз. Далее при поиске он использует уже не только конкретный запрос, но и LSI-фразы.
Поисковик классифицирует страницу как коммерческую или информационную, отталкиваясь в том числе от LSI.
Сложно продвигать коммерческую страницу, если ее текстовый контент изобилует фразами, присущими информационному запросу, и наоборот. То есть LSI важен для правильной классификации страницы.
Один и тот же пользователь на разных сервисах пишет разные запросы, соответствующие одному и тому же интенту. То есть вводит разные запросы в поисковике, YouTube и TikTok, хотя хочет получить один и тот же результат. При наличии доступа к данным разных сервисов можно собрать более обширную базу LSI-фраз.
Ранжирование документов с LSI-оптимизацией и без
Между внутренними страницами сайта и внешними документами рассчитывается связь. Она похожа на связь при перелинковке и получении ссылок с других доменов, но только состоит из слов. Чем сильнее связь, тем лучше ранжируется страница. Напрямую об этом говорит патент Google (ранжирование документов с использованием словесных связей). Чем обширнее представлена LSI-семантика в документе и на сайте целиком, тем проще продвигать страницы.
Без применения LSI в конкурентных сферах делать нечего: поисковик воспримет контент сайта как недостаточно качественный, то есть неудовлетворяющий запросы.
Топ-64 фактора ранжирования в Google, актуальных в 2021 году
Откуда взять LSI-семантику
Проблема 1. Как придумать синонимы и связанные фразы? Можно использовать мозговой штурм и сбор поисковых подсказок. В таком случае появляется другая проблема.
Проблема 2. Как понять, какие LSI-фразы из полученного массива имеют наибольшее значениее для поисковика?
Есть простой способ решить обе проблемы.
Шаг 1. Сбор маркерных запросов
Маркерные запросы – это костяк семантического ядра. Например, для коммерческого сайта по продаже кирпичей – «купить кирпичи», «кирпичи с доставкой» и т. д.
Маркерные запросы невозможно сократить. Если из фразы «купить кирпичи» удалить одно из слов, оставшееся не будет запросом. Купить можно что угодно, а кирпич сам по себе не коммерческий. Это может быть фото кирпича или самостоятельное изготовление кирпича.
Базовая частотность – это сколько раз встречается фраза «купить кирпичи» во всех возможных вариациях: «купить силикатный кирпич», «купить красный кирпич дешево» и т. д.).
Точная частотность – количество конкретных запросов «купить кирпичи» без уточнений.
Чем больше разница между базовой частотностью и точным вхождением, тем больше можно сделать фраз из маркерного запроса добавляя другие слова и LSI-фразы.
Маркерные запросы имеют своей особенностью большую числовую разницу между базовой частотностью и точным вхождением фразы. Поэтому мы и ищем именно маркерные запросы по конкретному кластеру (смысловой группе) для 1 посадочный страницы.
Сформируйте и постранично сгруппируйте семантическое ядро для продолжения работы. Собирайте пока. Я пойду налью чай – вода уже закипает.
Шаг 2. Поиск конкурентов для изъятия LSI-фраз
Открываем Arsenkin Tools, ищем инструмент «Выгрузка топ-10 сайтов». Забиваем туда все маркерные запросы для одной страницы, выставляем регион (всегда делайте это, даже если сайт без геопривязки) и жмем «Начать проверку».
В качестве альтернативы Arsenkin можно использовать сервисы Key Collector, PR-CY, Serpstat, Pixeltools, Topvisor.
Мы получили по каждому запросу из введенного нами списка по столбику. В каждом столбике 10 сайтов из топа «Яндекса» по этому запросу. Рекламные объявления, разумеется, в столбиках отсутствуют. Столбики разноцветные: одинаковые URL, разбросанные по разным столбикам, подсвечены одним оттенком:
Наша задача – пролистать ниже до этого блока:
Как видите, я уже вычеркнул агрегаторы и выделил первые 10 подходящих ссылок. Эти страницы наиболее часто встречаются в результатах выгрузки, а значит, находятся в топе по б
Шаг 3. Таблица для исследования и веб-анализа LSI-семантики конкурентов
У меня было два варианта – считать все вручную для каждой страницы или внедрить формулы и сохранить шаблон для использования по мере необходимости. Я изготовил шаблон насколько мне это позволили навыки Excel. Я известный профессионал по Excel… Выглядит это вот так:
Обратим внимание на верхний блок и имеющиеся в нем строки: количество символов, тошнота, максимальная тошнота и минимальная тошнота. Мы вычислим эти значения для каждой из 10 страниц, а таблица посчитает среднее арифметическое. Так мы сможем увидеть тренды, в зависимости от которых страницы находятся в топе. Например, объем текста или плотность ключевых фраз.
Чуть ниже находятся два поля – бежевое и серое. Столбец формул левее этих полей представляет из себя переход от средней максимальной тошноты до средней минимальной тошноты, умноженный на 100 для удобства подсчетов.
В желтом поле будут находиться 5 страниц, возглавляющих топ, а в сером поле – замыкающая пятерка. Разница между первой и второй пятеркой заключается в их ранжировании. Первая пятерка имеет кратно превосходящий вес.
Все цифровые значения, которые мы получим в процессе работы, будем умножать на коэффициент. Для желтого поля он составит 1, а для серого – 0,5.
Справа внизу листа 1 – результаты нашей выборки, где каждому слову присваевается ранг. Чем выше ранг, тем ближе к максимальной тошноте должна быть плотность вхождений этого слова в тело документа. Чем ниже, тем ближе к минимуму, но все равно в интервале не меньше минимального.
Составление семантического ядра: 5 типичных ошибок
Шаг 4. Парсинг LSI-фраз и обработка результатов
Переходим на сервис SeoLik (или его аналог p2pi) и находим инструмент «Анализ контента»:
Берем первую из десяти ссылок и вставляем в окошко для анализа контента страницы. В результатах ищем поля с картинок ниже и выписываем значения из них в таблицу в соответствующие ячейки:
На второй картинке видим список слов. Выписываем первые 20 в желтое поле таблицы в столбик. Значение минимальной тошноты для этой страницы у нас будет равно тошноте 20-го слова: «запой», «лечение», «врач», «пациент» и т. д.
Ту же процедуру повторяем с остальными девятью страницами, постепенно заполняя желтое и серое поля:
Теперь остановимся на желтом поле.
Нам нужно найти одинаковые фразы в каждом из пяти столбиков, перемножить каждую на соответствующее ей число из столбика левее желтого поля. Считаем сумму полученных значений, вписываем слово и полученный результат в соответствующие ячейки справа. В столбец «Количество» вписываем число совпадений.
Ту же процедуру проделываем отдельно с серым полем, но результаты вычислений вписываем в столбец с коэффициентом 0,5:
Копируем колонки «Фраза», «Количество» и «Ранг». Создаем новый лист в документе нажимам на ячейку B2 правой кнопкой мыши и выбираем «Специальная вставка» > «Вставить только значения»:
Удаляем столбец «Значения», фильтруем колонку «Ранг» от большего к меньшему. Получаем LSI-семантику. Располагаем слова по важности и узнаем плотность вхождений, которая у них должна быть:
Оптимизация сайта под «Яндекс»: топ-9 факторов для интернет-магазинов в 2021 году
Шаг 5. Сравнение
Теперь у нас два пути.
- Ситуация первая – у нас нет страницы. Просто создаем посадочную страницу, отталкиваясь от среднего количества символов, полученных фраз и плотности их вхождений.
- Ситуация вторая – у нас уже есть страница. Делаем ее анализ на сервисе SeoLik и выписываем фразы в столбец «Акцептор»:
Шаг 6. Итог
Завершающий этап состоит в сравнении двух списков слов и «подтягивании» LSI-фраз, которые редко встречаются в теле нашей страницы, до необходимого уровня. Проверку проводим в SeoLik (или в p2pi), добавляем нужные фразы или убираем лишние до тех пор, пока столбец «Донор» и «Акцептор» не будут равны.
Сравним донорскую LSI-семантику с LSI-семантикой нашей страницы. Красным маркером пометим фразы, плотность вхождений которых нужно увеличить, а зеленым – слова, которые необходимо удалить:
Мы получили список: «клиника», «реабилитация», «центр», «нарколог», «кодирование», «помощь», «запой». Вписываем слова в текст страницы-акцептора. Проводим повторный анализ контента, получаем результаты, на которых видно, что список и ранг LSI-фраз донора и акцептора приблизительно равны, что и требовалось.
Как их найти и использовать для улучшения поисковой оптимизации
Прошли те времена, когда маркетологи были одержимы одним ключевым словом, чтобы получить хорошие рейтинги. Сегодня ключом к созданию потрясающего контента является контекст . И не зря: более 15% ежедневных поисковых запросов Google — это новые термины, которые пользователи никогда раньше не искали. Каждый год выполняются триллионы поисковых запросов, что приводит к большому количеству новых запросов.
Источник: Visual Capitalist
Благодаря тому, что сотрудники Google находят так много разных и уникальных способов поиска общих проблем, именно по этой причине ключевые слова LSI стали такой значительной частью факторов ранжирования Google. С точки зрения SEO использование ключевых слов LSI дает очень положительные результаты. Используя их в своем контенте, вы сможете повысить его контекстуальность и улучшить видимость в поиске.
В этой статье я предоставлю вам все, что вам нужно знать о ключевых словах LSI, чтобы вы могли улучшить SEO, привлечь больше релевантного трафика на свой сайт и привлечь больше клиентов. Я расскажу:
- Что такое ключевые слова LSI;
- Основные преимущества ключевых слов LSI;
- Что LSI означает для SEO;
- Инструменты, которые можно использовать для поиска связанных ключевых слов; и
- Как включить их в свой контент.
Вы закончите чтение не только с четким пониманием того, почему ключевые слова LSI так важны для контент-маркетинга и SEO; но также советы и инструменты для их реализации в вашей собственной стратегии.
Итак, если вы готовы, давайте начнем.
Что такое ключевые слова LSI?Google говорит о важности ключевых слов LSI с 2015 года. Однако они не тратят много времени на объяснение интернет-маркетологам, что именно представляют собой ключевые слова LSI.
LSI расшифровывается как скрытый семантический индекс(ing). Это компьютерная программа, предназначенная для изучения широкого спектра синонимов в зависимости от контекста. Это метод, использующий математические методы для поиска взаимосвязей между словами и понятиями в части контента.
Источник изображения
Вот более практичное определение ключевых слов LSI:
С точки зрения SEO (поисковой оптимизации) ключевые слова LSI — это поисковые запросы, связанные с основным ключевым словом, на которое вы ориентируетесь. Они помогают поддерживать ваш контент и добавляют больше контекста, чтобы пользователям и поисковым системам было легче узнать, о чем ваш контент.
Как выше, так и ниже приведены примеры подходящих ключевых слов LSI для основного ключевого слова этого поста, то есть « Ключевые слова LSI ”:
- Что такое ключевые слова LSI
- Примеры ключевых слов LSI
- Как использовать связанные ключевые слова
- Инструменты для поиска ключевых слов LSI
- Влияют ли связанные ключевые слова на SEO
- Семантические ключевые слова
Как видите, каждая из приведенных выше фраз подходит для сопровождения основного ключевого слова («Ключевые слова LSI»).
Не волнуйтесь, если это звучит немного сложно (тем более, что наше ключевое слово включает слово «ключевое слово»). Позже мы рассмотрим различные способы легкого поиска LSI/связанных ключевых слов, а также то, как вы можете использовать их в своем контенте, чтобы появляться выше и чаще в релевантных результатах поиска.
Являются ли ключевые слова LSI синонимами?
Хотя некоторые ключевые слова LSI могут быть синонимами, не все синонимы являются ключевыми словами LSI. Большинство ключевых слов LSI — это слова и фразы, тесно связанные с вашим основным ключевым словом. Таким образом, использование синонимов в ваших сообщениях может помочь SEO вашей статьи на странице, но синонимы не являются ключевыми словами LSI.
Например, синонимом слова «жакет» будет «пальто». Однако ключевые слова LSI для «куртки» будут включать такие слова, как: двусторонний, зимний, пуховый, теплый, на подкладке, пуховик и так далее.
Хороший способ понять разницу между синонимами и родственными ключевыми словами — выполнить поиск в Google. В раскрывающемся меню предлагаются поисковые запросы по ключевым словам LSI:
.Каковы преимущества использования ключевых слов LSI?
Как я упоминал во введении, ежегодно выполняются сотни тысяч запросов Google, которые никогда не выполнялись. Google усовершенствовал свой алгоритм с учетом контекста, чтобы он мог лучше понимать связанные ключевые слова. Гугл сказал:
Источник
Включение ключевых слов LSI в ваш контент повышает контекстуальность вашего контента и дает преимущества SEO:
- Они повышают рейтинг вашего веб-сайта в поисковых системах: Включение ключевых слов LSI в текст помогает поисковым системам понять вашу страницу и повысить свою рейтинговую мощь.
- Семантические ключевые слова повышают релевантность вашего контента: Добавление связанных слов также помогает избежать перегрузки контента ключевыми словами, т. е. наполнения ключевыми словами.
- Связанные слова увеличивают количество людей, которые находят ваш контент: ключевых слов LSI также помогают вам улучшить поиск для пользователей, что, в свою очередь, приводит к улучшению различных факторов ранжирования, таких как время, проведенное на странице, отказы ставка и многое другое.
Есть ли у ключевых слов LSI недостатки?
Ключевые слова LSI не обязательно имеют какие-либо недостатки, но метод индексации имеет некоторые ограничения. Например:
- Не учитывает порядок слов и избавляется от всех союзов и предлогов.
- Он считает, что слова имеют только одно значение.
- Не признает скрытых идей и иронии. В некоторых случаях значение слов может не совпадать со значением текста.
Когда ключевые слова LSI стали релевантными?
Если вам интересно, когда ключевые слова LSI стали актуальными, то все началось в 2004 году, когда в алгоритме поиска Google было реализовано скрытое семантическое индексирование. Его цель состояла в том, чтобы помочь поисковой системе предоставить пользователям более релевантные результаты.
Google может выдать релевантные результаты даже для образного языка.
Но Google сосредоточился не только на ключевых словах. Поисковый гигант также хотел понимать анкорный текст в гиперссылках, а также группы сайтов, которые ссылаются друг на друга (также известные как SEO-районы).
Со всем этим в одном обновлении алгоритма Google кардинально изменил способ предоставления результатов поиска.
Поисковая система больше не ориентировалась на ключевые слова с точным соответствием в веб-контенте. Теперь алгоритм мог понять контекст и синонимы . Вместо того, чтобы смотреть на одно ключевое слово и частоту его использования, чтобы выяснить, о чем страница, Google теперь мог анализировать всего, что предлагалось на странице.
Источник
Чтобы лучше понять влияние этого изменения, давайте углубимся в ключевые слова LSI и их связь с SEO.
Влияние ключевых слов LSI на SEO
Раньше поисковые роботы Google, также известные как «пауки», автоматически находили и сканировали веб-сайты, переходя от одной ссылки к другой на подключенных веб-страницах. Во время сканирования они просматривали ключевые слова на странице, чтобы определить ее тему.
Например, если вы опубликуете сообщение под названием «21 совет по эффективной сегментации списка адресов электронной почты», Google просканирует вашу страницу, чтобы определить, использовали ли вы термин «сегментация списка адресов электронной почты » в ключевых областях вашего веб-сайта, включая :
- Тег заголовка,
- Тело содержимого,
- Альтернативный текст изображения,
- Заголовок h2, подзаголовки h3 и h4 и так далее.
Но после обновления LSI метод сканирования Google изменился, что привело к следующим улучшениям SEO:
Google лучше понимает страницы
Помимо сканирования вашей страницы по основному ключевому слову, теперь он также будет сканировать вашу страницу на наличие различных связанных ключевых слов, таких как: «кампания по электронной почте», «MailChimp», «аудитория, «подписчики», «инструменты электронной почты» и так далее. Это означает, что Google работает, чтобы выяснить, что такое общих темы страницы, и полагается на скрытое семантическое индексирование, чтобы понять контент на гораздо более глубоком уровне, чем просто поиск нескольких вхождений определенного ключевого слова.
Google читает страницы контекстно
По сути, алгоритм Google теперь имеет возможность «читать» страницу так же, как человек, и классифицировать ключевые слова в зависимости от определенного контекста. Это означает, что поисковая система теперь может различать слов, основанных даже на мельчайших деталях. Например, теперь он может определить разницу между буквальными и образными выражениями, например:
«Не впихивайте ключевые слова LSI в свой контент, если они не релевантны».
против
«Используйте обувной рожок, чтобы защитить обувь, когда вы ее надеваете».
Google может генерировать еще более релевантные результаты
Согласно недавнему исследованию Google, они определяют слова, которые часто встречаются вместе, чтобы помочь ботам легче понять основную тему страниц, которые они сканируют. При более точной категоризации результаты становятся еще более релевантными.
Источник
Google включает в себя общую картину вашего бизнеса
В дополнение к этому, их алгоритм предназначен для взвешивания названия вашей компании, веб-сайта и отрасли, чтобы помочь Google получить всестороннее понимание каждой страницы на вашем сайте, поскольку она связана с ваш бизнес в целом.
Теперь вы понимаете, почему ключевые слова LSI стали такой важной частью алгоритма поисковой системы?
Основная цель Google – предоставить пользователям, выполняющим поиск, максимально релевантные результаты — даже для тех 15 % поисковых запросов, которые никогда раньше не выполнялись. Это удивительный стандарт качества, которого поисковая система не могла бы достичь без скрытой семантической индексации.
Использует ли YouTube ключевые слова LSI?
Интересно отметить, что хотя YouTube принадлежит Google, в основном они работают на двух разных поисковых системах и алгоритмах. Что меня удивило, так это то, что на момент написания этой статьи YouTube не использует ключевые слова LSI для ранжирования.
Как создатель YouTube, я стараюсь включать основные ключевые слова в названия своих видео и редко обращаю внимание на ключевые слова LSI, и видео по-прежнему хорошо ранжируются. Единственное место, где я мог бы разместить их, — это описание видео, но, похоже, это не обязательно.
Таким образом, несмотря на то, что поиск на YouTube выдает похожие предложения, мест для вставки ключевых слов LSI не так много.
Связанные/LSI ключевые слова на YouTube из нашего блога Как получить больше просмотров на YouTube .
Поисковая оптимизация YouTube в основном зависит от высококачественного редактирования, чтобы увеличить вовлеченность и количество кликов миниатюр. Конечно, я упрощаю сложный алгоритм, но общепризнанная истина заключается в том, что высококачественное редактирование, а не ключевые слова LSI, является самым важным фактором в алгоритме YouTube.
Таким образом, хотя ключевые слова LSI кажутся важным фактором для поисковой системы Google, они не так важны для поисковой системы YouTube.
Итак, давайте перейдем к следующему разделу, где вы найдете 5 эффективных инструментов, которые помогут вам найти ключевые слова LSI для использования в ваших сообщениях.
Как найти связанные ключевые слова с помощью инструментов подсказки ключевых слов LSIПервым шагом в поиске ключевых слов LSI является создание базы важных ключевых слов для вашего бизнеса. Как только это будет сделано, придумать связанные ключевые слова будет легко. Все, что вам нужно, это провести небольшое исследование, чтобы раскрыть бесконечные возможности, а для этого вам нужны инструменты. Вот пять инструментов подсказки ключевых слов LSI, которые вы можете использовать для поиска подходящих вариантов связанных слов.
1. Автозаполнение Google
Функция мгновенного поиска Google — это самый простой способ найти ключевые слова, связанные с вашим основным. Все, что вам нужно сделать, это ввести целевое ключевое слово в поле поиска Google, и вы получите ряд прогнозов относительно того, что вы можете ввести дальше.
Ищите слова, выделенные жирным шрифтом в качестве предложений. Составьте список тех, которые имеют отношение к вашей теме, и включите их в свой контент.
2. Похожие поиски в Google
Вы также можете ввести свое основное ключевое слово в Google, а затем прокрутить страницу вниз, чтобы найти раздел «Похожие поисковые запросы». Ознакомьтесь с перечисленными терминами, чтобы получить больше идей для ключевых слов LSI для вашего контента.
3. Люди также спрашивают
Еще один удивительно эффективный, но бесплатный ресурс, поле «Люди также спрашивают» на странице результатов поиска предоставит вам массу дополнительных возможностей. Вы можете просмотреть несколько результатов, чтобы увидеть, есть ли какие-либо дополнительные слова, которые вы можете использовать. Ищите те, которые выделены жирным шрифтом, как в примере ниже.
4. LSI Graph
LSI Graph – это бесплатный генератор ключевых слов LSI, который поможет вам быстро найти все термины, связанные с вашим основным ключевым словом. Просто введите основное ключевое слово своей страницы, и вы получите список терминов LSI на выбор.
5. Serpstat
Serpstat — еще один эффективный инструмент, помогающий находить семантически связанные фразы для ваших постов. Просто введите основное ключевое слово и нажмите SEO Research > Related Keywords . Вам будет представлен длинный список слов и фраз на выбор.
Конечно, есть много других инструментов для поиска ключевых слов, в том числе SEO-инструменты Ahrefs и Moz. Это здорово, потому что они не только предоставляют вам полный список связанных ключевых слов, которые люди обычно ищут по теме, но также позволяют фильтровать слова и фразы по силе соединения, объему поиска и цене за клик.
Теперь, когда вы знаете, как находить ключевые слова LSI с помощью бесплатных инструментов исследования ключевых слов, давайте рассмотрим лучшие способы их использования в вашем контенте и стратегии SEO.
Как использовать ключевые слова LSI для SEO
Упомянутые выше инструменты генерации ключевых слов предоставят вам длинный список подходящих вариантов ключевых слов LSI для вашего контента. Теперь пришло время добавить их в свой контент и воспользоваться важными преимуществами SEO.
Выберите ключевые слова LSI, наиболее подходящие для вашей темы
Прежде чем определить, как включить ключевые слова LSI в свой текст, вам необходимо определить, какие из них лучше всего подходят для вашей темы. Например, если вы пишете сообщение в блоге с таргетингом на основное ключевое слово «SEO для блога», инструмент, который вы используете, может выдать бесконечный список вариантов, включая:
- Контрольный список SEO для блога
- SEO-темы блога
- пост в блоге SEO советы
- Сео-блоги для начинающих
- в чем преимущества сео
- Seo-блог, означающий
- SEO-плагины для блоггеров
- Как написать SEO дружественный пост
- SEO блог для начинающих
- SEO последние тенденции
- как оптимизировать пост для сео
- …и так далее.
Как видите, большинство из них хороши (в зависимости от контекста).
Если вы создаете сообщение в блоге для WordStream о преимуществах SEO для блогов, вы должны соединить основное ключевое слово «SEO для блогов» с соответствующими фразами, такими как « каковы преимущества SEO » и « SEO блог для начинающих ».
С другой стороны, если бы сообщение было о различных способах оптимизации вашего блога, вы бы выбрали фразы LSI, такие как «, как оптимизировать ваше сообщение для SEO » и « X Советы по SEO для блога ».
Посмотрите на общую оценку поиска за месяц
Иногда определить лучшие ключевые слова LSI для ваших фраз может быть очень сложно, так как некоторые предложения могут иметь смысл в виде совершенно другой публикации.
Например, если вы пишете сообщение о « платформах для онлайн-курсов », вы увидите варианты ключевых слов LSI, такие как « платформы для онлайн-курсов».
Когда это произойдет, вам нужно определить, будет ли предложение иметь смысл в виде отдельной статьи или в качестве дополнения к исходному сообщению. Что касается меня, я обычно смотрю на общую ежемесячную оценку поиска, чтобы решить, стоит ли писать что-то новое или включить предложение в исходную статью, которую я исследую.
Ключевые слова, которые предлагает ваш инструмент, будут работать в разных контекстах, и вам нужно определить, какие из них лучше всего подходят для конкретной страницы, которую вы создаете.
Если во время исследования вы обнаружите ключевые слова, которые не подходят для вашей страницы, вы все равно можете отметить их для использования на разных страницах, чтобы улучшить общую поисковую оптимизацию вашего веб-сайта.
Добавьте ключевые слова LSI на свою страницу
Вы должны добавить свои ключевые слова LSI в те же места, где вы бы добавили свое основное ключевое слово, в том числе:
- Метазаголовок и метаописание
- Заголовки (h2, h3, h4)
- Альтернативные теги изображения
- По всему тексту
Убедитесь, что в вашем посте есть родственные слова и фразы, которые звучат естественно. Это поможет расширить ваши возможности, так как вы не можете использовать основное ключевое слово снова и снова во всех важных областях вашей страницы.
Сосредоточьтесь на пользовательском опыте
Не злоупотребляйте ключевыми словами LSI в своем контенте. Хотя это не совсем ваши ключевые слова, их все же довольно легко злоупотребить, и если вы это сделаете, вы будете наказаны за это. Вы хотите включить достаточное количество родственных слов, чтобы контекст вашей страницы сразу стал понятен для Google и других поисковых систем, но не испортил впечатления читателя.
Чтобы сделать это эффективно, вы должны добавить связанные ключевые слова, сохраняя при этом связность, естественность и легкость содержания. Это поможет вам не только избежать штрафов, но и улучшить взаимодействие с посетителями и, в конечном итоге, заработать деньги, ведя блог.
Заключительные советы по использованию ключевых слов LSI для SEO
Вот несколько общих правил использования связанных слов в вашем контенте для улучшения вашей стратегии SEO:
- Не переусердствуйте с использованием синонимов
- Напиши, как ты говоришь . Если бы вы не сказали это в реальной жизни, это не место в тексте
- Используйте фиксированное соотношение связанных слов и фраз к остальной части вашего контента (например, одно ключевое слово LSI на каждые 200-300 слов)
Несмотря на то, что такое соотношение, как приведенное выше, не является идеальным — и оно, конечно, не гарантирует, что вы будете ранжироваться по любому из выбранных вами ключевых слов LSI — это полезное руководство, которое поможет вам двигаться в правильном направлении.
Независимо от того, как часто вы используете ключевые слова LSI, вашим главным приоритетом всегда должно быть предоставление ясной, краткой и полезной информации, которая поможет читателям найти ответы и решения, которые они ищут (а также поможет вам достичь своей бизнес-цели по превращению читателей в платящих клиентов, конечно).
Если вы пишете в первую очередь с целью предоставления ценности, вы обнаружите, что естественным образом используете родственные ключевые слова по всему тексту, не прилагая никаких сознательных усилий.
Включите ключевые слова LSI в свой контент и стратегию SEOКомпания Google добилась больших успехов в области искусственного интеллекта и машинного обучения. На самом деле, просто страшно, насколько умным стал Google!
Поисковая система все больше и больше использует ключевые слова LSI, чтобы найти контекст любой части контента, и поэтому стоит потратить время на то, чтобы узнать, как использовать эти ценные ключевые слова в вашей стратегии SEO и кампаниях контент-маркетинга.
В этом посте содержится вся необходимая информация о том, что такое ключевые слова LSI, почему они важны, как их найти и как их можно использовать для улучшения своего присутствия в Интернете. Теперь пришло время действовать. Найдите часть контента на своем веб-сайте, которую вы можете переработать и улучшить, используя советы, которые вы узнали из этого поста.
Вы уже включаете ключевые слова LSI в свой контент? Дайте нам знать в комментариях ниже!
Что такое ключевые слова LSI? И помогают ли они с SEO?
Что такое ключевые слова LSI?
LSI (латентное семантическое индексирование) Ключевые слова — это концептуально связанные термины, которые поисковые системы используют для более глубокого понимания содержимого веб-страницы.
Первоначально технология была запатентована в 1989 году. Она описывается как «Методология извлечения объектов текстовых данных». Другими словами: использование связанных слов и фраз («ключевые слова LSI») для лучшей классификации темы страницы.
Использует ли Google LSI в своем алгоритме?
Вероятно, нет.
На самом деле представитель Google заявил в 2019 году: «Нет такой вещи, как ключевые слова LSI — любой, кто говорит вам иначе, ошибается, извините».
Вместо этого Google, вероятно, использует более продвинутый подход к пониманию релевантности страницы: тот, который учитывает гораздо больше, чем просмотр наличия на странице определенного набора связанных слов. Вместо этого они анализируют вашу страницу в целом, чтобы определить ее общую тему.
Хотя технически это не «Ключевые слова LSI», многие специалисты по поисковой оптимизации по-прежнему называют добавление связанных слов и фраз на страницу «добавлением ключевых слов LSI» (хотя этот термин технически неточен).
И вполне вероятно, что Google обращает пристальное внимание на неключевые слова на вашей странице. И используйте это для оценки (и рейтинга вашей страницы).
Это означает, что для SEO полезно добавлять связанные термины на страницу, которую вы хотите ранжировать.
Почему родственные слова и фразы на странице важны?
На заре поисковой оптимизации Google и другие поисковые системы определяли тему страницы на 100 % по ключевым словам, найденным на странице.
Таким образом, если бы Google снова и снова видел ключевое слово «Контент-маркетинг», они бы сказали: «Эта страница явно посвящена контент-маркетингу».
Вот почему в те времена плотность ключевых слов была так важна.
Если бы вы не использовали свое ключевое слово несколько раз, Google не понял бы, что ваша страница посвящена этому термину.
Перенесемся в сегодняшний день, и Google НАМНОГО умнее.
Сегодня цель Google — выяснить общую тему страницы.
И Google полагается на семантически связанные термины, чтобы понимать контент на таком глубоком уровне.
Допустим, вы только что опубликовали сообщение в блоге о кофе холодного заваривания.
Google по-прежнему будет сканировать вашу страницу, чтобы увидеть, используете ли вы термин «холодный кофе» в теге заголовка, содержании, альтернативном тексте изображения и т. д.
Но они также будут сканировать вашу страницу на наличие связанных ключевых слов (например, », «температура», «помол», «холодная вода» и «лед»).
И когда они увидят эти связанные ключевые слова в вашем контенте, они скажут: «Мы уверены, что эта страница посвящена теме холодного кофе».
На самом деле, в недавнем исследовании Google говорится, что они используют «слова, часто встречающиеся вместе», чтобы понять основную тему статьи:
Я должен отметить одну вещь:
Семантически связанные термины НЕ являются синонимами.
Вместо этого это термины, которые тесно связаны с вашим целевым ключевым словом.
Например, возьмем слово «бег трусцой».
Ну, «бег» — это просто синоним «бег трусцой».
Сейчас:
Нет ничего плохого в том, чтобы использовать этот синоним в своей статье (на самом деле, это может помочь вам в поисковой оптимизации на странице).
Но это не семантически связанный термин.
Вместо этого термины, связанные с бегом трусцой, включают такие вещи, как «обувь», «кардио» и «5k».
Вот как найти эти семантически связанные ключевые слова.
Передовой опыт
Автозаполнение Google
Автозаполнение Google — это один из самых быстрых и простых способов найти связанные термины и добавить их в ваш контент.
Например, я опубликовал пост «Полный SEO-аудит сайта».
И чтобы оптимизировать эту страницу, я набрал в Google «SEO Audit».
И обратил внимание на смелые слова, которые он мне подсказал.
Эти выделенные жирным шрифтом слова являются родственными ключевыми словами.
В конце концов, это термины, которые пользователи ищут, когда ищут что-либо, связанное с «SEO-аудитом».
Поэтому я включил эти термины в свой контент:
Вы также можете попробовать Keyword Tool и UberSuggest.
Оба этих инструмента дают НАМНОГО больше предлагаемых ключевых слов, чем старомодный способ.
Тем не менее, Google имеет тенденцию сразу же предлагать самые популярные (и, следовательно, наиболее релевантные) термины.
Поэтому я обычно использую только один из этих инструментов, если хочу максимально оптимизировать свой контент.
LSIGraph
Говоря об инструментах, есть инструменты, которые специально генерируют идеи связанных ключевых слов: LSIGraph.
Просто введите ключевое слово, по которому вы хотите ранжироваться…
…и получите список связанных терминов, которые вы можете включить в свой контент.
Это бесплатные SEO-инструменты. Так что вы не ошибетесь, если попробуете их оба.
(Хотя я должен отметить, что у LSIGraph есть платный план… так что технически это «Freemium».)
«Похожие поиски»
«Похожие поиски» аналогичны автозаполнению Google.
Но вместо того, чтобы Google предлагал ключевые слова во время поиска, они дают вам соответствующие термины в нижней части результатов поиска.
Например, этот список SEO-инструментов является одной из моих высокоприоритетных страниц:
И, учитывая, насколько безумно конкурентоспособно это ключевое слово, я знаю, что мне нужно прибить свой LSI… иначе у меня практически нет шансов на ранжирование.
Вот почему я искал «Инструменты SEO» и прокручивал страницу вниз.
Затем я выделил жирным шрифтом термины, которые имели смысл для моего поста.
И включил в свой контент:
Просто, но эффективно.
Термины, выделенные жирным шрифтом в описаниях сниппетов Google
Это еще один способ найти родственные слова и фразы непосредственно в Google.
Вы могли заметить, что Google выделяет жирным шрифтом термины в фрагментах результатов, которые соответствуют вашему ключевому слову:
И если вы внимательно посмотрите, вы заметите кое-что еще:
Google выделяет жирным шрифтом не ТОЛЬКО термины, которые точно соответствуют тому, что вы только что искали. .
Также выделены жирным шрифтом слова и похожие фразы.
Например, давайте посмотрим на результаты поиска по запросу «Ремонт ПК:
Да, Google выделяет жирным шрифтом точный термин:
Но они также выделяют полужирным шрифтом связанные термины, такие как «Ремонт компьютера» и «Ремонт ПК»:
Излишне говорить, что это ключевые слова, которые вы хотите добавить в свой контент.
Планировщик ключевых слов Google
Планировщик ключевых слов Google по-прежнему остается одним из моих любимых инструментов исследования ключевых слов.
Как оказалось, Планировщик ключевых слов Google также полезен для поиска терминов, связанных с вашим целевым ключевым словом.
Например, если вы поместите «Инструменты SEO» в GKP, вы получите список «Вариантов ключевых слов»:
Некоторые из них будут синонимами и вариациями вашего ключевого слова:
Но если вы копнете глубже, вы можете Найдите приятные фразы, которые вам будет сложно получить любым другим способом:
Совет для профессионалов: вам не нужно вводить ключевое слово в GKP. Вы также можете использовать целевую страницу.
В частности, вы можете использовать целевую страницу конкурента, которая находится выше вас в результатах поиска.
Когда вы это сделаете, Google просканирует страницу и выделит ключевые слова, которые они считают релевантными теме этой страницы.
Google Image Tags
Это новая функция внутри Google Images, о которой мало кто говорит.
И это золотая жила для обнаружения связанных терминов.
Чтобы использовать его, просто вставьте ключевое слово в изображения Google.
И Google подцепит вас кучей связанных терминов над результатами изображения:
Вы можете сделать то же самое с Pinterest (собственно, именно здесь я впервые увидел использование этой функции).
Но эти предложения исходят не от Google. Так что теперь я придерживаюсь Google Images.
Используйте связанные термины во всей статье
Теперь, когда у вас есть список связанных терминов («Ключевые слова LSI»), как вы их используете?
Я довольно много проверял это.
И мой вывод: это не имеет большого значения.
По моему опыту, пока Google видит эти термины где-то на вашей странице, все в порядке.
Так что не стесняйтесь включать соответствующие термины:
- В тег заголовка
- Альтернативный текст изображения
- Как подзаголовок h3 или h4
- В вашем h2
- В самом контенте
Например, я опубликовал это руководство по изучению SEO некоторое время назад:
И одно из ключевых слов «Похожие поисковые запросы», которые я нашел, было «основы».