Содержание

LanguageTool — Premium

Несколько примеров обнаружения ошибок в текстах в Premium версии аккаунта:

Английский Английский Немецкий Французский Испанский Голландский

Erweiterte Prüfung von Groß- und Kleinschreibung

Wir nennen ein Häuschen mit Garten unser eigen.

Das Wort muss in diesem Kontext großgeschrieben werden. Eigen

Bessere Erkennung fehlender Kommas

Soweit ich das verstanden habe hat das nicht funktioniert.

Hier fehlt ein Komma. habe, hat

Erkennung von Wörtern, die zusammengeschrieben werden müssen

Bitte lassen Sie sich nicht irre machen.

Dieses Wort wird zusammengeschrieben. irremachen

Erkennung von über 250 Fehlern, die Deutsche machen, wenn sie Englisch schreiben

I will do home office tomorrow.

Hier wird folgende, gängigere Schreibweise empfohlen: work from home

Vermeidung von Umgangssprache und Füllwörtern

An was denkst du, wenn du dieses Bild siehst?

Diese Formulierung ist umgangssprachlich. Die standardsprachliche Variante ist: Woran

Mehr als 4000 Tipps zur Schreibweise

Sie wollte nochmal in die Unterlagen schauen.

Hier wird folgende gängigere Schreibweise empfohlen: noch mal

Vermeidung ungünstiger Anglizismen

Bitte stellen Sie den Bericht asap fertig!

Vermeiden Sie zur besseren Verständlichkeit Anglizismen. schnellstmöglich

Großschreibung von Eigennamen

Der Schiedsrichter hätte dem Thomas Müller die gelbe Karte zeigen müssen.

Hier handelt es sich um einen Eigennamen, der großgeschrieben werden sollte. Gelbe Karte

Mehr als 100 Vorschläge zur Verbesserung des Textstils

Weißt du, ob es dazu im Internet, bzw.

bei Google etwas gibt?

Dieses Wort kann den Text stilistisch schwerfällig wirken lassen. Sie könnten es durch Folgendes ersetzen: genauer gesagt

Weak Adjectives

He was very afraid of the consequences.

Consider replacing the phrase with a strong adjective. terrified

Punctuation

If that’s not possible what are our options?

It appears that a comma is missing. possible, what

Passive Voice

The children have been saved by the police.

For stylistic reasons, consider rephrasing this sentence in the active voice. The police have saved the children.

Overused Words

Thank you so much for your nice reply.

The word ‘nice’ tends to be overused. Consider an alternative to enhance your wording. kind

Redundancies

He showed various different examples to me.

One of these words is redundant. Consider replacing the phrase with: various

Foreign Words and Phrases

The ad hoc tests were satisfactory.

To make your text as clear as possible to all readers, consider using an alternative to this foreign phrase. improvised

Missing Hyphens

He’s working for a US based company.

There’s a hyphen missing here. US-based

Word Confusion

Let’s write a description and at it to our Wiki.

This seems to be a typo. add

Wordiness

In the meantime, she will work on the financial reporting.

This phrase might be too wordy. Consider a shorter alternative: Meanwhile

Conjugaison des verbes

Encore hier, je suis aller voir s’ils étaient là.

Après « être », le verbe ne devrait pas être à l’infinitif. allé

Ponctuation

Je me trompe peut-être mais je ne crois pas que ce soit un problème.

Si « mais » est utilisé pour mettre en opposition deux phrases, une virgule est requise. peut-être, mais

Emploi du subjonctif

Il faut d’abord que je finis ce travail.

Utilisez le subjonctif après la conjonction « il faut ». finisse

Confusion de mots similaires

Ce problème devrait être résolu en communicant honnêtement nos sentiments.

« Communicant » est un adjectif ou un nom commun. Le gérondif de « communiquer » est « communiquant ». communiquant

Usage de « a » et « à »

Il faut que j’achète des pinces a linge.

« A » est une forme du verbe « avoir ». Vouliez-vous dire « pinces à linge »? pinces à linge

Calques et anglicismes problématiques

Il est l’acteur français le plus nominé aux Oscars.

« Nominé » est considéré comme un anglicisme. Voici l’alternative française : nommé

Formulations familières

C’est qui qui a dit que je ne travaillais pas assez ?

Cette formulation est considérée familière. Utilisez plutôt simplement « qui ». Qui

Expressions problématiques

Il va bientôt partir à Berlin.

Cette formule est considérée erronée. Écrivez plutôt « partir pour ». partir pour

Homophones souvent confondus

Tu dois absolument prendre sa au sérieux !

« Sa » est un adjectif possessif. Dans ce cas, utilisez la forme contractée de « cela ». ça

Evite errores comunes de formulación.

Se negó en rotundo a aceptar el resultado.

Expresión inadecuada si significa ‘rotundamente’. en redondo

Evite descuidos en pequeños detalles.

Yo no soy quien para decirte lo que tienes que hacer.

La expresión «no ser quién para» se escribe con tilde en ‘quién’. quién

Revise casos especiales de concordancia.

Naciones Unidas conmemoran su 75 aniversario.

«Naciones Unidas» concuerda con el verbo en singular.

conmemora

Use verbos adecuados al contexto.

Hay que promover el trabajo colaborativo para sociabilizar los riesgos.

En este contexto es más adecuado usar el verbo ‘socializar’. socializar

Evite calcos inapropiados de otros idiomas.

Se proyectan unas pérdidas de 200 millones.

El uso de ‘proyectar’ con el sentido de ‘prever’ es un calco no recomendable. prevén

Evite locuciones desaconsejables según el significado.

El equipo viene de ganar la liga.

Se desaconseja el uso de esta locución con el sentido de ‘acabar de’. acaba de ganar

Aplique los usos estilísticos recomendados.

Reunión en Moncloa entre el presidente y el líder de la oposición.

Normalmente se escribe con artículo. la Moncloa

Mejore su estilo usando expresiones más precisas.

Dieron constancia de las conclusiones.

Es preferible utilizar otra expresión. Dejaron constancia de

Emplee las formas gramaticales correctas.

¡Sentaros aquí!

Forma incorrecta si es un verbo en imperativo. Sentaos

Komma voor ‘en wel’

Zijn arm is gebroken en wel daar.

Voor ‘en wel’ komt meestal een komma. gebroken,

Overbodige woorden

We doen het nu meteen.

Een van de woorden is overbodig. meteen

Meer controles op ‘de’ of ‘het’

Lachen om de ongelukkige lot van uitvinders.

Misschien bedoelt u: “het”. het

Groot getal in cijfers en letters

Ze verkopen 40 duizend kopjes.

‘Duizend’ na een reeks cijfers is ongebruikelijk. 40.000

‘Ene’ of ‘een’

Ik plaag hem ene beetje.

Bedoelde u wellicht “een”? een

Ouwe – oude

De ouwe man slaapt.

Juist is: “oude”. oude

Onduidelijke frequentie

In maak om het uur koffie.

Onduidelijk of eindgetal erbij hoort. elk uur

Onduidelijk bereik

De score loopt van 0-10.

Onduidelijk of eindgetal erbij hoort. van 0 tot 10

Genderneutraliteit

De politiemannen vertrekken.

Formuleer liever genderneutraal. politiemensen

И это еще не все …

Кроме улучшенной проверки грамматики, пунктуации и стиля, LanguageTool Premium предлагает множество дополнительных функций, которые помогут вам писать профессиональные тексты.

Избегайте ошибок в написании имен в электронных письмах

LanguageTool Premium проверяет правильность написания имен в зависимости от пола (работает с большинством сервисов электронной почты).

Указывайте цифры правильно

IBAN, ISBN или единицы измерения часто имеют неверный формат или содержат ошибки. LanguageTool Premium найдет их еще до того, как вы успеете совершить ошибку в их написании.

Работа с длинными текстами

В отличие от бесплатной версии, LanguageTool Premium работает с документами, статьями и электронными письмами объемом до 150 000 символов.

Проверяйте свои документы в Word

Дополнение LanguageTool Word доступно для пользователей Premium аккаунта. Работает с версией Office 2016 и выше на Windows и Mac, а также с онлайн-версией Word.

ТОП-15 лучших сервисов проверки орфографии и пунктуации

13 мин — время чтения

Апр 12, 2021

Поделиться

Талант создания интересных и вовлекающих текстов не всегда стоит рядом с грамотностью. Каким бы ни был информативным, подробным и полным эпитетов пост, наличие в нем грамматических ошибок может легко испортить впечатление читателя. 

Сервисы проверки орфографии и пунктуации позволяют устранить пробелы и случайные ошибки. Они будут полезны всем, чья деятельность связана с созданием текстового контента. Человеческий фактор никто не отменял, и ошибки случаются даже у самых опытных авторов.

Еще одна причина, по которой следует с особым вниманием относиться к устранению ошибок в тексте — это ранжирование. Вряд ли можно добиться высоких позиций в поисковой выдаче, если в публикации много грамматических, орфографических и стилистических ошибок. Они снижают уровень доверия к ресурсу со стороны пользователей. Поэтому не стоит публиковать на сайте непроверенные тексты.

Как избавиться от грамматических ошибок и сделать свой текст более чистым и читабельным? Рассмотрим наиболее популярные сервисы для проверки пунктуации и орфографии в RU и COM сегментах.

Сервисы проверки орфографии и пунктуации

Лингвистические онлайн-сервисы предоставляют возможность мгновенной проверки текста. Они находят и распознают не только стилистические и орфографические ошибки, но и помогают в расстановке знаков препинания. С их помощью удобно форматировать тексты, расставлять переносы, подбирать синонимы к повторяющимся словам и проводить работу над ошибками онлайн. Наиболее продвинутые инструменты способны оценивать читабельность и информативность текстов.

Триал

Стоимость

Что может проверить

Поддержка языка

Поддержка устройств

OnlineCorrection.com

бесплатно

орфография,
пунктуация

5 диалектов английского: американский,
британский,
австралийский,
новозеландский и южно-африканский

LanguageTool

бесплатно и Premium-подписка с расширенным функционалом

2 года: €99год: €593 месяца: €39месяц: €19

орфография,
пунктуация,
стилистика

20 языков,
в том числе русский

Grammarly

бесплатно, есть платная версия

Premium: $11.66 в месяцBusiness: $12.50 в месяц

орфография,
стилистика,
пунктуация

английский

Hemingway App

бесплатно

орфография,
стилистика,
пунктуация

английский

ReversoSpeller

бесплатно

орфография,
пунктуация

английский,
французский

WhiteSmoke

платно

Web: $5 в месяцPremium: $6.66 в месяцBusiness: $11.50 в месяц

грамматика,
стилистика

более 50 языков,
в том числе английский

Ginger

бесплатно, есть премиум-подписка

2 года: $167. 76год: $88.88месяц: $13.99

орфография,
грамматика,
пунктуация

более 60 языков,
в том числе английский

ProWritingAid

бесплатно и премиум-подписка

пожизненная подписка: $399год: $79месяц: $20

орфография,
грамматика,
стилистика,
пунктуация

английский

Outwrite

бесплатно и премиум-подписка

годовой Pro: €8.95 в месяцгодовой Teams: €7.95 в месяцмесячный Pro: €21.95месячный Teams: €13.95

орфография,
грамматика,
правописание

английский

PaperRater

бесплатно и премиум-подписка

год: $71.55месяц: $11.21

орфография,
грамматика

английский

Scribens

бесплатно и премиум-подписка

орфография,
грамматика,
стилистика,
пунктуация

английский,
французский

Writer

бесплатно и премиум-подписка

орфография,
грамматика,
пунктуация

английский

Slick Write

бесплатно

орфография,
грамматикиа стилистика

английский

Virtual Writing Tutor

бесплатно

орфография,
грамматика,
пунктуация

английский

Linguix

бесплатно

орфография,
грамматика,
стилистика,
пунктуация

английский

1. LanguageTool

  • Выполняет проверку: орфографии, пунктуации, стилистики.
  • Поддержка языка: 20 языков, в том числе русский.
  • Доступность: бесплатно, также есть Premium-подписка с расширенным функционалом.

LanguageTool помогает создавать профессиональные тексты без стилистических, пунктуационных и грамматических ошибок. Сервис выделяет их и показывает примеры правильного употребления слов. Может использоваться как расширение для браузеров Chrome и Firefox — это помогает улучшать технику письма при создании e-mail писем, постов в блог и т. д. LanguageTool в автоматическом режиме даст подсказки по правописанию.

Программа для проверки пунктуации в тексте онлайн может интегрироваться с MS Word и Google Docs. Услуга доступна при покупке Premium-подписки. В бесплатном плане можно осуществлять базовую проверку грамматики, пунктуации и стилистики в текстах объемом до 10 000 символов.

2. Grammarly

  • Выполняет проверку: орфографии, стилистики, пунктуации.
  • Поддержка языка: английский.
  • Доступность: бесплатно с ограничениями. Есть платная расширенная версия.

Благодаря машинным алгоритмам обучения пользователи сервиса Grammarly могут создавать грамотные тексты на английском языке. Система подсказок поможет выявить ошибки и выбрать правильный вариант написания использованного в тексте слова.

С Grammarly можно работать онлайн либо установить его в качестве плагина прямо в браузер. В этом случае программа для проверки пунктуации будет работать на любых открытых онлайн-ресурсах. Grammarly находит все типы ошибок — от неправильно используемых слов до проблем со структурой предложений. Также система предлагает улучшить грамматику, орфографию, пунктуацию в режиме реального времени. Создав учетную запись Grammarly, вы сможете добавлять слова в свой личный словарь и выбирать предпочитаемый диалект английского языка.

Чтобы использовать все преимущества сервиса, есть возможность оформить платную подписку.

3. Hemingway App

  • Выполняет проверку: орфографии, стилистики, пунктуации.
  • Поддержка языка: английский.
  • Доступность: бесплатно.

Сервис Hemingway App для COM сегмента немного проще вышеописанного Grammarly, однако имеет и свои индивидуальные преимущества. Он также работает со стилистикой текстов, написанных на английском языке.

Сервис помогает писать энергично и ясно, выделяя наречия, пассивный залог и скучные сложные слова. Доступна платная версия десктопного приложения. Есть возможность импортировать текст из файлов Word.docx. Когда редактирование закончено, можно экспортировать контент обратно в Word или PDF.

4. ReversoSpeller

  • Выполняет проверку: орфографии, пунктуации.
  • Поддержка языка: английский, французский.
  • Доступность: бесплатно.

Сервис ReversoSpeller может работать с текстами на французском и английском языках. Используя технологии искусственного интеллекта сервис предлагает пользователям исправления грамматических конструкций, неправильного использования времен, предлогов, опечаток. 

В зависимости от рода ошибки она может быть подсвечена или исправлена автоматически. Reverso также предлагает рекомендации по стилю и может подбирать синонимы к словам. Система использует интерактивные исправления Ginger Software, пока вы печатаете.

5. OnlineCorrection.com

  • Выполняет проверку: орфографии, пунктуации.
  • Поддержка языка: 5 диалектов английского.
  • Доступность: бесплатно.

OnlineCorrection.com определяет правильность написания слов в тексте на английском языке и предлагает свои исправления, подчеркивая при этом ошибки. Если есть два или более правильных варианта, вам будет предложено выбрать один из них. Проверка проводится на 5 диалектах английского — американском, британском, австралийском, новозеландском и южно-африканском.

Это инструмент, который предназначен для поиска орфографических, а также основных грамматических и стилистических ошибок в английских текстах. 

6. WhiteSmoke

  • Выполняет проверку: грамматики, стилистики.
  • Поддержка языка: более 50 языков, в том числе английский.
  • Доступность: платно.

WhiteSmoke — программа, которая поможет как исправить простые орфографические ошибки, так и подобрать нужные слова по смыслу, расставить знаки препинания и найти недочеты в стилистике.

В WhiteSmoke встроены переводчик и словарь для более чем 50 языков, доступны видеоуроки, есть разъяснения ошибок, а также инструмент проверки текста на плагиат. Анализ осуществляется при помощи алгоритмов искусственного интеллекта по технологии NLP. 

Инструмент работает в Windows, Mac OS и во всех популярных браузерах.

7. Ginger

  • Выполняет проверку: орфографии, грамматики, пунктуации.
  • Поддержка языка: более 60 языков, в том числе английский.
  • Доступность: бесплатно, есть премиум-подписка.

Ginger — это надежная и удобная онлайн-проверка орфографии, которая доступна на нескольких ОС, включая Windows и Mac.

Разнообразные надстройки, расширения и виртуальные клавиатуры позволяют пользователям устанавливать Ginger на свои мобильные устройства. Также сервис работает в браузерах в качестве расширения.

Этот инструмент проверки орфографии и грамматики — хорошая альтернатива Grammarly. В нем также есть функция личного тренера, что является еще одним его явным преимуществом.

8. ProWritingAid

  • Выполняет проверку: орфографии, грамматики, стилистики, пунктуации.
  • Поддержка языка: английский.
  • Доступность: бесплатно, есть подписка на премиум-пакет.

ProWritingAid имеет встроенный редактор стилистических ошибок. Инструмент предназначен для улучшения стиля письма, но его также можно использовать для проверки орфографии и грамматики.

Эта программа включает плагины, которые интегрируются в другие приложения для написания текста, такие как Word, Google Docs, Gmail, а также WordPress.

ProWritingAid доступен для пользователей Mac и Windows как десктопное приложение. Сервис обычно используют для редактирования статей и книг. Авторы материалов на английском языке используют его для корректуры и решения основных грамматических проблем перед публикацией.

9. Outwrite

  • Выполняет проверку: орфографии, грамматики, правописания.
  • Поддержка языка: английский.
  • Доступность: бесплатно, а также доступен план Pro.

Outwrite проверяет тексты на недочеты в грамматике и плагиат (доступно в плане Pro). Инструмент работает на базе искусственного интеллекта (AI) и использует расширенные возможности проверки текстов.

Outwrite доступен в качестве веб-приложения. Поэтому войти в него можно из любого браузера. Десктопного решения нет, но разработаны расширения для Chrome, Microsoft Word и Google Docs. Для пользователей iOS также доступно мобильное приложение.

Передовая функция AI Eloquence Engine умеет сканировать текст, предлагая рекомендации по его улучшению.

10. PaperRater

  • Выполняет проверку: орфографии, грамматики.
  • Поддержка языка: английский.
  • Доступность: бесплатно, также можно оформить премиум-подписку.

Сервис PaperRater пользуется особым спросом у студентов и учащихся старших классов — он умеет проверять любые тексты на грамматические ошибки. Инструмент дает сравнительную характеристику вашего материала с похожими статьями и предлагает варианты по улучшению.

PaperRater также предоставляет статистику читабельности и в автоматическом режиме оценивает тексты. Инструмент проверяет контент на плагиат, сканируя более чем 10 млрд документов и материалов из Google и Bing.

Система анализирует отправленные тексты в режиме реального времени и уже через 5-15 секунд выдает результат оценки. Чтобы проверить свой текст, не нужно регистрироваться на сайте.

11. Scribens

  • Выполняет проверку: орфографии, грамматики, стилистики, пунктуации.
  • Поддержка языка: английский, французский.
  • Доступность: бесплатно, есть премиум-подписка.

Scribens может исправлять более 250 типов грамматических, стилистический и орфографических ошибок. Он умеет работать с пунктуацией, типографикой, омонимами, предлогами, местоимениями и т. д.

Scribens исправляет повторы и предлагает синонимы к словам. Инструмент также имеет свой индикатор читабельности, подробную статистику и пояснения к допущенным ошибкам.

Решение интегрируется с MS Office и почтовыми клиентами. При помощи расширений для Chrome и Firefox пользователи могут корректировать и исправлять свои тексты прямо в браузере.

12. Writer

  • Выполняет проверку: орфографии, грамматики, пунктуации.
  • Поддержка языка: английский.
  • Доступность: бесплатно, есть платная подписка.

В отличие от своих конкурентов Writer может выполнять проверки гораздо большего объема текстов. Сервис проверяет контент на читабельность, лаконичность, ясность, терминологию, стиль письма и т. д.

Инструмент можно настроить под свой бизнес и определить контент, термины и фразы, которые выделяют конкретный бренд среди конкурентов.

Writer — это программа на базе искусственного интеллекта, которая сделает ваш текст четким, безошибочным и простым для понимания. Она сканирует материал на наличие всех типов ошибок — от пунктуационных до грамматических, а также исправляет неправильные спряжения глаголов, опечатки и многое другое.

13. Slick Write

  • Выполняет проверку: орфографии, грамматики, стилистики.
  • Поддержка языка: английский.
  • Доступность: бесплатно.

Slick Write — инструмент для проверки орфографии текстов, который можно использовать бесплатно без ограничений. Это полезное решение для тех, кто хочет писать качественные и выверенные тексты — специалистов в области SEO, блогеров, журналистов, писателей, интернет-маркетологов и др.

Сервис дает возможность импортировать необходимый для проверки файл или же ввести текст в соответствующее поле прямо на сайте. В редакторе можно настроить проверку в соответствии с типом контента. Так, если вам необходимо написать и проверить резюме на наличие ошибок, инструмент Slick Write обратит внимание на профессионализмы.

Инструмент умеет быстро находить слова в тезаурусах, словарях Google и Википедии.

14. Virtual Writing Tutor

  • Выполняет проверку: орфографии, грамматики, пунктуации.
  • Поддержка языка: английский.
  • Доступность: бесплатно.

Virtual Writing Tutor —  бесплатный сайт, где можно проверить грамматику, орфографию и пунктуацию, посчитать слова, оценить структуру текста.

Сервис подчеркивает слова с ошибками красным. Чтобы просмотреть варианты написания, необходимо левой кнопкой мыши щелкнуть по слову.

При проверке грамматики Virtual Writing Tutor находит и устраняет следующие ошибки: двойное отрицание, ложные родственные слова, отсутствие вспомогательных слов, контекстные орфографические ошибки. Сервис анализирует словарный запас, стиль письма и предлагает лучшие лексические обороты для использования. Также здесь есть инструмент, который помогает бороться с плагиатом и проверять свой материал перед публикацией. Virtual Writing Tutor сравнивает тексты и дает оценку сходства между ними.

15. Linguix

  • Выполняет проверку: орфографии, грамматики, стилистики, пунктуации.
  • Поддержка языка: английский.
  • Доступность: бесплатно.

Основываясь на контексте, сервис проверки орфографии Linguix дает рекомендации по написанию текста и делает ваши предложения четкими, грамотными и правильными.

Linguix дает подробные объяснения допущенным в тексте ошибкам. Работать с инструментом можно онлайн. Также существует возможность использования расширения для браузера, чтобы мгновенно и в режиме реального времени проверять грамматику на необходимых сайтах.

Linguix присылает персонализированные отчеты на e-mail, акцентируя ваше внимание на слабых местах в грамматике. Это очень полезная функция для людей, которые не являются носителями английского языка.

Заключение

Даже профессиональному редактору или корректору часто сложно находить недочеты в текстах. Сервисы по проверке орфографии и пунктуации хорошо умеют определять ошибки и другие неточности. Но нужно понимать, что программа не способна обнаруживать абсолютно все грамматические, стилистические, словарные и фактические ошибки.

Поэтому, особенно для важных текстов, мы рекомендуем не полагаться исключительно на онлайн-инструменты, а дополнительно привлекать к работе профессионального редактора или корректора. Только тогда проверенный текст можно показывать читателю.

Сервисы, кроме исправления орфографических и пунктуационных ошибок, имеют и другие возможности, необходимые при создании текстового контента:

  • проверка уникальности;
  • определение заспамленности и «воды»;
  • стилистическая обработка текста;
  • подсчет количества символов и слов и многое другое.

Даже если ваш уровень грамотности достаточно высок, банальная невнимательность может стоить авторитета и доверия. Используйте сервисы проверки текстов, чтобы выверить свой контент перед публикацией. Грамотный текст и Google приятен 🙂

5559 views

NLP: построение модели исправления грамматических ошибок

Введение

Системы исправления грамматических ошибок (GEC) предназначены для исправления грамматических ошибок в тексте. Grammarly — пример такого продукта для исправления грамматики. Исправление ошибок может улучшить качество письменного текста в электронных письмах, блогах и чатах.

 Задачу GEC можно рассматривать как последовательность задач, в которой модель Transformer обучается принимать неграмматическое предложение в качестве входных данных и возвращать грамматически правильное предложение. В этом блоге мы покажем, как вы можете обучить такую ​​модель и использовать веса и смещения для мониторинга производительности модели во время ее обучения. Мы также выпустили нашу обученную модель в Spaces для экспериментов. Код также опубликован на Colab здесь и на Github здесь.

Ошибки, возникающие в письменной речи, могут быть разных типов, как показано на рисунке ниже.

Обнаружены ошибки в письме. Источник: рисунок автора

. Набор данных

. Для обучения нашего корректора грамматики мы используем набор данных C4_200M, недавно выпущенный Google. Этот набор данных состоит из 200 миллионов примеров синтетически сгенерированных грамматических искажений вместе с правильным текстом.

Одной из самых больших проблем в GEC является получение большого разнообразия данных, которые имитируют ошибки, обычно допускаемые в письменной речи. Если искажения случайны, то они не будут репрезентативными для распределения ошибок, возникающих в реальных случаях использования.

Для создания искажения сначала обучается помеченная модель повреждения. Эта модель обучается на существующих наборах данных, принимая в качестве входных данных чистый текст и генерируя поврежденный текст. Это показано на рисунке ниже.

Пример модели коррупции. Источник: блог C4_200M Google

Для набора данных C4_2OOM авторы сначала определили распределение относительного типа ошибок, встречающихся в письменной речи. При генерации искажений они зависели от типа ошибки. Как показано на рисунке ниже, модель искажения была настроена на создание ошибки типа определителя.

Модель условной коррупции. Источник: блог C4_200M Google

Это позволяет набору данных C4_200M иметь разнообразный набор ошибок, отражающий их относительную частоту в реальных приложениях. Чтобы узнать больше о процессе создания синтетических искажений, обратитесь к оригинальной статье здесь.

Для целей этого блога мы извлекли 550 тысяч предложений из C4_200M. Набор данных C4_200M доступен в наборах данных TF. Мы извлекли нужные нам предложения и сохранили их в формате CSV. Код подготовки данных для этого передается в Colab здесь. Если вы заинтересованы в загрузке подготовленных наборов данных, они могут быть доступны здесь.

Скриншот набора данных C4_200M приведен ниже. На входе неверное предложение, на выходе грамматически правильное предложение. Эти случайные примеры показывают, что набор данных охватывает входные данные из разных областей и различных стилей письма.

Скриншот набора данных C4_200M

Обучение модели

Для этого обучения мы будем использовать универсальную модель T5 от Google.

T5 — это модель преобразования текста в текст, что означает, что ее можно обучить переходу от входного текста одного формата к выходному тексту одного формата. Я лично использовал эту модель со многими различными задачами, такими как обобщение (см. блог здесь) и классификацию текста (см. блог здесь). А также использовал его для создания бота-викторины, который может извлекать ответы из памяти без какого-либо контекста.

Проверьте этот блог здесь.

T5 — Преобразователь передачи текста в текст. Изображение из бумаги T5.

Я предпочитаю T5 для многих задач по нескольким причинам: 1. Может использоваться для любой задачи преобразования текста в текст, 2. Хорошая точность в последующих задачах после тонкой настройки, 3. Легко обучается с помощью Huggingface

полный код для обучения модели T5 на примерах 550 000 из C4_200M доступен здесь, на Colab. Также поделился на моем Github здесь.

Основные этапы обучения включают:

  1. Токенизация данных

Мы устанавливаем неверное предложение в качестве входных данных и исправленный текст в качестве метки. И входы, и цели токенизированы с помощью токенизатора T5. Максимальная длина установлена ​​на 64, поскольку большинство входных данных в C4_200M являются предложениями, и предполагается, что эта модель также будет использоваться для предложений. Фрагмент кода, выполняющего токенизацию, приведен ниже.

Токенизация модели T5

2. Обучение модели с использованием обучающего класса seq2seq

Мы используем обучающий класс Seq2Seq в Huggingface для создания экземпляра модели и создания экземпляра журнала в wandb. Использовать веса и смещения с HuggingFace очень просто. Все, что нужно сделать, это установить report_to = «wandb» в аргументах обучения.

Аргументы обучения для корректора грамматики

3. Мониторинг и оценка модели

Мы использовали показатель Rouge в качестве метрики для оценки модели. Как видно на графиках ниже от W&B, после 1 этапа обучения модель получает румяна 72 балла.

Точность после одного раунда обучения

Доступ к этому проекту на Weights and Biases можно получить здесь

Публикация модели в Spaces

Мы отправили обученную модель в Spaces сюда, чтобы ее можно было протестировать. Как показано на снимке экрана ниже, его можно запрограммировать на возврат до 2 исправленных последовательностей.

Проверка корректора грамматики на пробелах

Я протестировал эту модель на множестве неправильных последовательностей и остался доволен ее работой.

Модель также доступна на Hugginface.co здесь и может быть использована напрямую. В документации к модели показаны шаги, связанные с использованием модели.

 импортная горелка
из трансформаторов импортировать T5Tokenizer, T5ForConditionalGeneration
model_name = 'глубокое обучение-аналитика/GrammarCorrector'
torch_device = 'cuda', если torch.cuda.is_available() иначе 'процессор'
tokenizer = T5Tokenizer.from_pretrained(model_name)
модель = T5ForConditionalGeneration.from_pretrained(model_name).to(torch_device)

def correct_grammar (input_text, num_return_sequences):
  пакет = tokenizer([input_text],truncation=True,padding='max_length',max_length=64, return_tensors="pt").to(torch_device)
  переведено = model.generate (** партия, max_length = 64, num_beams = num_beams, num_return_sequences = num_return_sequences, температура = 1,5)
  tgt_text = tokenizer. batch_decode (переведено, skip_special_tokens = True)
  вернуть tgt_text 
 text = 'Он движется сюда.'
print(correct_grammar(text, num_return_sequences=2)) 

Заключение

В этом блоге показано, как легко использовать HuggingFace и WandB для обучения моделей NLP для различных вариантов использования. Я надеюсь, что вы попробуете HuggingFace Spaces и поделитесь своими комментариями ниже о своем опыте.

В Deep Learning Analytics мы специализируемся на создании пользовательских моделей машинного обучения для различных вариантов использования. Мы сотрудничаем с клиентами по всему миру, чтобы создавать решения для их конкретных потребностей. Наша команда экспертов имеет опыт классификации текстов, перевода, реферирования, нейронного поиска и многого другого. Напишите нам по адресу [email protected], если вы видите возможность сотрудничества.

ИИ в исправлении грамматических ошибок

Автор: Huifang Ye, стажер-исследователь RIG необычный технический продукт. Причина, по которой люди придают такое большое значение письму, в основном состоит в том, что это форма продуктивности. Профессиональное академическое письмо может выделить вас, правильная деловая электронная почта может облегчить транзакции, а последовательный текст бренда может помочь создать корпоративный имидж. Я большой поклонник Grammarly и использую его для облегчения письма и проверки грамматических ошибок.

Заинтригованный этим фантастическим инструментом, я намерен взглянуть на лежащие в его основе технологические стеки. Продукт основан на передовой системе, которая сочетает в себе правила, шаблоны и методы искусственного интеллекта, такие как машинное обучение, глубокое обучение и обработку естественного языка (NLP), для улучшения письма пользователей. Его успех во многом обусловлен тем, что он ориентирован на узкое применение ИИ НЛП: исправление грамматических ошибок. Как энтузиаст компьютерной лингвистики, я рассмотрю эту конкретную технологию в этой статье.

 

Исправление грамматических ошибок Введение

Исправление грамматических ошибок (GEC) является важной задачей при обработке естественного языка. Он определяет наличие грамматических ошибок в предложении и автоматически исправляет обнаруженные ошибки. GEC имеет важные приложения для корректуры текстов и изучения иностранных языков.

Текущая коррекция грамматических ошибок в основном реализуется с использованием платформы Seq2Seq, аналогичной машинному переводу. В частности, входное неправильное предложение является исходным предложением, а выходное правильное предложение является целевым предложением. Например, на приведенном ниже рисунке «A B C D» — неверное введенное предложение, а «X Y Z» — исправленное выходное предложение. Очевидно, мы можем обучить генеративную модель с помощью крупномасштабного (неправильное предложение и правильное предложение) параллельного корпуса, а затем реализовать автоматическое исправление грамматических ошибок с помощью генеративной модели.

Как правило, генеративные модели требуют для обучения крупномасштабных параллельных корпусов, таких как корпуса машинного перевода, содержащие от десятков до сотен миллионов предложений. Напротив, корпус, связанный с исправлением грамматических ошибок, относительно скудный, обычно его размер составляет всего несколько сотен тысяч предложений. Следовательно, как решить проблему нехватки данных, основное внимание уделяется исследованиям по исправлению грамматических ошибок. Кроме того, разница между исходным и целевым высказываниями в задачах исправления грамматических ошибок обычно очень мала, и использование Seq2Seq для создания целевых высказываний с нуля может быть немного «излишним». Некоторые исследователи предложили структуру модели специально для исправления грамматических ошибок на основе этой особенности и одновременно добились хороших результатов.

 

Технология исправления грамматических ошибок

(1) Метод автоматического расширения корпуса . Вэй Чжао и др. из лаборатории искусственного интеллекта Юаньфудао предложили создавать псевдоданные, используя метод случайного создания данных об ошибках, и конкретный процесс выглядит следующим образом: удалить слово случайным образом в соответствии с вероятностью 10%; добавить слово случайным образом в пропорции 10%; заменить слово случайным образом в соотношении 10%. Предложения, полученные после добавления нормального распределения, переупорядочиваются как утверждения об ошибках.

(2) Метод улучшения модели

Разница между входными и выходными операторами в задаче исправления грамматических ошибок относительно незначительна, и из следующей таблицы видно, что более 80% слов во входных и операторы вывода одинаковы. На основании этого Wei Zhao et al. из лаборатории искусственного интеллекта Юаньфудао предложили использовать механизм копирования для исправления текстовых ошибок, чтобы структура такой модели, как внимание, могла больше узнать о том, как исправлять ошибки.

Структура модели механизма копирования показана ниже. Основная идея состоит в том, чтобы рассмотреть два распределения поколений во время последовательности генерации: распределение вероятностей слов во входной последовательности и распределение вероятностей слов в лексиконе соответственно, а затем взвесить сумму двух распределений вероятностей как окончательное распределение вероятностей. чтобы предсказать слова, генерируемые в каждый момент. Этот метод может эффективно использовать свойство множества перекрывающихся слов между входными и сгенерированными предложениями.

Резюме

Существующие методы исправления грамматических ошибок (GEC) в основном имеют следующие проблемы:

(1) Скорость обучения слишком мала для применения в больших масштабах. Текущая технология исправления грамматических ошибок в основном использует генеративную модель Seq2Seq, а такие задачи, как обнаружение грамматики, используют модель BERT, которая соответствует относительно большому масштабу и часто требует использования графических процессоров, что приводит к заметному замедлению практических приложений. Эти проблемы сильно ограничивают применение и популярность технологии исправления грамматических ошибок. Поэтому, чтобы устранить узкое место, исследователи и эксперты НЛП в основном сосредотачиваются на уменьшении масштаба модели GEC и соответствующем ускорении прогнозирования.

(2) Масштаб реальных обучающих данных ограничен. Несмотря на то, что исследователи предложили различные методы увеличения обучающих данных, качество увеличенных обучающих данных часто неудовлетворительно. Следовательно, до увеличения масштаба реальных обучающих данных еще далеко.

(3) Модели исправления грамматических ошибок все еще разрабатываются. В настоящее время модели, используемые в области исправления грамматических ошибок, все еще чаще используются в машинном переводе и реферировании текста, и лишь немногие модели разработаны специально для характеристик задач исправления грамматических ошибок. Также сложно предложить соответствующие модели, основанные на сходстве входных и сгенерированных предложений при исправлении грамматических ошибок.