Содержание

Проверка правописания | Работа в МойОфис Текст Домашняя версия

Ввод текстаБуфер обменаПроверка правописанияСноскиГиперссылкиПерекрестные ссылкиЗакладкиВставить текущую дату или времяПоиск и замена данных

  • Ввод текста
  • Буфер обмена
  • Проверка правописания
  • Сноски
  • Гиперссылки
  • Перекрестные ссылки
  • Закладки
  • Вставить текущую дату или время
  • Поиск и замена данных

Приложение «МойОфис Текст» может автоматически проверять тексты на русском и английском языке на наличие орфографических и грамматических ошибок.

В тексте колонтитулов проверка правописания не выполняется.

Проверка орфографии

Чтобы отключить или включить проверку орфографии, выберите пункт командного меню Инструменты > Правописание > Проверка орфографии.

Включение и отключение режима проверки орфографии применяется только к текущему документу и не влияет на другие открытые документы.

Принципы проверки орфографии:

•Словарь проверки орфографии выбирается автоматически по языку первого слова в абзаце.

•Красной волнистой линией подчеркиваются:

•слова, отсутствующие в выбранном словаре;

•слова, содержащие орфографические ошибки.

•При внесении изменений в текст документа запускается повторная проверка орфографии.

Найти орфографические ошибки

Для быстрого поиска слов с орфографическими ошибками используйте сочетание клавиш Alt+F7. При первом нажатии Alt+F7 в тексте выделяется первое найденное слово с орфографической ошибкой, при каждом последующем нажатии – слово с ошибкой, следующее за выделенным.

Поиск ошибок выполняется от текущего положения курсора до конца документа. По окончании документа поиск слов с ошибками осуществляется с начала документа.

Исправить орфографические ошибки

Если в слове найдена ошибка, исправьте ее. Для этого выполните следующие действия:

1.Поместите курсор мыши на слово или выделите слово, которое подчеркнуто красной волнистой линией.

2.Щелчком правой кнопки мыши откройте контекстное меню.

3.В контекстном меню выберите правильный вариант написания данного слова.

Если для выделенного слова отсутствуют варианты правильного написания, в контекстном меню отображается надпись Нет предложений.

Удалить подчеркивание слов

Чтобы избежать подчеркивания слов, распознанных приложением как орфографически неверные, внесите данные слова в настраиваемый словарь или добавьте в список игнорируемых слов.

Чтобы добавить слово в список игнорируемых, выполните следующие действия:

1. Поместите курсор мыши на слово или выделите слово, которое подчеркнуто красной волнистой линией.

2.Щелкните по нему правой кнопкой мыши и выполните команду контекстного меню Пропустить.

При выполнении данной команды подчеркивание слова красной линией пропадает. Если слово встречается в документе несколько раз, то изменения применяются для всех повторений с учетом регистра. Такие изменения сохраняются в рамках одной сессии работы с документом. При повторном открытии документа снова запускается проверка орфографии.

В случае ошибочного применения команды вернитесь к предыдущему состоянию при помощи команды Проверить правописание. Для этого выполните следующие действия:

1.Поместите курсор мыши на слово или выделите слово целиком.

2.Щелкните по нему правой кнопкой мыши и выполните команду контекстного меню Проверить правописание.

Настраиваемый словарь

Чтобы избежать подчеркивания отдельных слов в тексте (например, имен собственных, аббревиатур, специальных терминов и т.

д.), можно внести их в настраиваемый словарь.

Перед началом работы со словарем убедитесь, что в приложении включена проверка орфографии.

Добавить слово в словарь

В словарь можно добавлять только отдельные слова. Добавление словосочетаний не допускается.

При добавлении слова в словарь учитывается регистр. Если слово пишется как со строчной, так и с заглавной буквы, рекомендуется добавить в словарь оба варианта написания данного слова.

Чтобы добавить слово в настраиваемый словарь прямо из текста, щелкните по нему правой кнопкой мыши и выполните команду контекстного меню Добавить в словарь.

Чтобы добавить новое слово непосредственно через сам словарь, выполните следующие действия:

1.Выберите пункт командного меню Инструменты > Настраиваемый словарь.

2.В окне Настраиваемый словарь введите слово, которое необходимо добавить в словарь.

3.Нажмите кнопку или клавишу Enter на клавиатуре.

4.Нажмите кнопку Готово, чтобы завершить редактирование словаря и закрыть окно.

Подключить сторонние словари

Чтобы расширить запас слов, доступный в текстовом редакторе, можно подключить сторонние словари в формате DIC. Для этого:

1.В диалоговом окне Настраиваемый словарь нажмите кнопку Подключить.

2.В открывшемся окне файлового менеджера выберите файл с расширением .dic и нажмите кнопку Открыть.

По завершении содержимое файла отобразится в настраиваемом словаре.

Удалить слово из словаря

Ранее добавленное слово можно удалить из настраиваемого словаря.

Чтобы удалить слово с помощью инструментов окна Настраиваемый словарь, выполните следующие действия:

1.Выберите пункт командного меню Инструменты > Настраиваемый словарь.

2.В окне Настраиваемый словарь наведите курсор мыши на слово, которое необходимо удалить из словаря, и нажмите кнопку Удалить.

3. Нажмите кнопку Готово, чтобы завершить редактирование словаря и закрыть окно.

Чтобы удалить слово без перехода в окно настраиваемого словаря, щелкните по данному слову правой кнопкой мыши непосредственно в тексте и выполните команду контекстного меню Удалить из словаря.

Проверка грамматики

Чтобы отключить или включить проверку грамматики, выберите пункт командного меню Инструменты > Правописание > Проверка грамматики.

Включение и отключение режима проверки грамматики применяется только к текущему документу и не влияет на другие открытые документы.

Принципы проверки грамматики:

•Язык проверки грамматики выбирается автоматически по первой букве абзаца.

•Проверка грамматики запускается после нажатия клавиши Пробел или Enter при условии, что предложение завершено.

•Предложение с грамматической ошибкой подчеркивается синей волнистой линией.

Поделиться:

Был ли материал полезным?

Пользователи, считающие этот материал полезным: 2 из 2

Предыдущее

Следующее

Как отменить автоматическую проверку орфографии или грамматики.

Отключить исправления Word документа. Параметры автоматической замены

Проверка правописания – одна из тех функций, которой позавидовали бы писатели прошлых лет и даже операторы текста, работающие с печатными машинками. Ведь сейчас нет необходимости быть настолько внимательным, чтобы не допустить ошибки, из-за которой придется перепечатывать целую страницу. А в порыве вдохновения можно и вовсе забыть обо всех правилах пунктуации, грамматики и орфографии. Компьютер все исправит. Главное не забыть дать ему эту команду.

По умолчанию в Word включена автоматическая проверка правописания. В нижней части экрана у вас есть 2 индикатора: первый показывает, есть ли в тексте ошибки или нет, демонстрируя, соответственно, галочку или крестик. Рядом отображается язык словаря, который используется для проверки.

Для того, чтоб отключить или убедиться в том, что проверка включена, нажмите на язык, в данном случае «русский » и поставьте галочку напротив «Не проверять правописание ». Вот так легко избавиться от полезных, но удручающих подчеркиваний по тексту.

Ту же операцию можно сделать, перейдя по вкладке «Рецензирование », в разделе «Язык » нажать на пункт «Язык » и выбрать «Язык проверки правописания…»

Программа достаточно умна, чтобы самостоятельно определять, какой язык у вас используется в документе, даже если в одном предложении есть фразы на разных, однако для этого нужно убедиться, что стоит галочка напротив «Определять язык автоматически ».

Дополнительные настройки правописания доступны по следующему адресу: «Файл » -> «Параметры » -> «Правописание ». Первый и второй разделы отвечают за исключения и правила замены. А в третьем «При исправлении правописания в Word » вы вольны отключить, непосредственно функцию автоматической проверки.

Важной особенностью Microsoft Word является возможность подключать сторонние программы для проверки орфографии. Они созданы для более углубленной проверки и предоставления детальных определений грамматических правил. Однако и встроенные возможности, и словари Microsoft Word отлично справляются с основными языками.

Также вы, как пользователь, имеете возможность самостоятельно дополнять и улучшать свой словарь. Для этого, в случае ошибки, с которой вы не согласны, вы можете просто кликнуть на слово правой кнопкой мыши и нажать «Добавить в словарь ». Впоследствии данная фраза не будет считаться ошибкой.

В Word 2003 включение и отключение автоматической проверки орфографии осуществляется по адресу «Сервис » -> «Параметры » -> вкладка «Правописание » -> первый раздел «Орфография » -> «Автоматически проверять орфографию ».

Каждый совершает ошибки. В данном случае речь идет об ошибках правописания. При письме, а особенно при наборе текста в текстовых редакторах, пользователь может совершить ошибку, набирая то или иное слово. Случается это по разным причинам, таким как незнание правил русского языка или простая опечатка из-за быстрого набора. Но во времена технологического прогресса текстовые редакторы способны в автоматическом режиме выявлять все ошибки и предлагать способы их решения.

В этой статье речь пойдет о том, как включить в «Ворде» проверку орфографии, как ею пользоваться и о многом другом, что как-то относится к исправлению опечаток в набранном тексте.

Включение проверки орфографии

Первоначально стоит уделить внимание вопросу, как включить в «Ворде» проверку орфографии. Хоть по умолчанию, после установки, она включена, по некоторым причинам пользователь может отключить ее, сам того не подозревая. В таких случаях используйте инструкцию, которая приложена ниже, чтобы возобновить работу данного инструмента.

  1. Находясь на главной странице программы, нажмите кнопку «Файл», которая располагается в верхнем левом углу.
  2. В меню, которое появилось, перейдите в раздел «Параметры».
  3. В появившемся окне нажмите на пункт «Правописание», располагающийся на панели слева.
  4. В меню «При использовании правописания в все галочки рядом с пунктами.
  5. В меню «Исключения для файла» уберите галочки, которые там расположены.
  6. Нажмите кнопку «ОК».

Теперь вы знаете, как в «Ворде» включить автоматическую проверку орфографии. После выполнения всех этих действий программу перезагружать не нужно, все изменения вступают в силу сразу после нажатия кнопки «ОК».

Проверяем орфографию в автоматическом режиме

После того как вы узнали, где в «Ворде» включить проверку орфографии, можно сразу же переходить непосредственно к использованию этого инструмента. Первым делом разберем выполнение всех действий в автоматическом режиме. Это не означает, что вам ничего не придется делать, напротив, программа автоматически будет вам указывать на предполагаемые ошибки в правописании, а вы будете решать, что нужно сделать для их исправления.

Итак, предположим, перед вами открыт документ, в котором есть ошибки. В этом случае они подчеркнуты цветными линиями (красной, синей или зеленой). Чтобы начать их исправление, вам нужно открыть панель инструмента «Орфография». Для этого нажмите клавишу F7 или кнопку «Правописание», которая расположена во вкладке «Рецензирование».

После этого в правой стороне окна появится панель «Орфография», в которой и будут проходить все действия. Сразу же в тексте выделится проблемное слово, и вам необходимо будет принять решение, что с ним делать. На выбор есть четыре действия:

  1. Пропустить — вы пропускаете предполагаемую ошибку и переходите к следующему слову, при этом выделение с него исчезает.
  2. Пропустить все — вы пропускаете все ошибки в тексте, снимая с них выделение.
  3. Добавить — вы добавляете слово в словарь программы, чтобы при нахождении такой же ошибки программа ее не воспринимала.
  4. Изменить — вы изменяете слово с ошибкой на выбранное из списка предложенных.
  5. Изменить все — вы изменяете все подобные слова с ошибками на выбранное из списка.

Зная значение всех кнопок на панели, вы запросто сможете исправить все ошибки в тексте. В крайнем случае, если ни одно исправление не верно, вы можете заменить слово самостоятельно.

Проверяем орфографию в ручном режиме

Вы уже знаете, как включить автоматическом режиме. Однако это не единственный способ исправить все ошибки в тексте. Сейчас мы подробно разберемся, как включить проверку орфографии в «Ворде» в ручном режиме.

Для выполнения поставленной задачи вам необходимо изначально обратить внимание на сами подчеркивания в тексте. Мы уже знаем, что это ошибки. Исправить их можно не только по нажатию F7, но и правой кнопки мыши (ПКМ). Делается это просто: наведите курсор на подчеркнутое слово и нажмите ПКМ, в контекстном меню помимо привычных пунктов появятся дополнительные, которые дублируют кнопки в панели «Орфография», их значение вы уже знаете. Все, что остается, — это выбрать необходимое действие и нажать по соответствующей строке.

Заключение

Теперь вы знаете не только о том, как включить проверку орфографии в «Ворде», но и как ею пользоваться. Как можно заметить, суть проста, вам необходимо лишь указать нужное действие, и программа самостоятельно все заменит.

Вопрос не совсем понятен. Что имеется в виду? Потому что вариантов тут два:

  1. Из серии: «Уберите это проклятые красные волнистые подчеркивания!».
  2. Вы получили по почте от начальника свой документ, а там какие-то исправления, зачеркивания, примечания.

На этом уроке рассмотрим первый вариант, а второй — в статье . Итак…
Вам надоело любоваться на волнистые подчеркивания в документе, с которым часто приходится работать.
Word подчеркивает красным не только слова с ошибками, но и любые незнакомые ему слова. И слова на другом языке, отличном от языка подключенного модуля проверки правописания. Если вы уверены в правильности написания слова, а пользоваться им приходится часто, его можно добавить в словарь. После этого оно уже не будет подчеркиваться во всех документах. А можно вообще отключить показ ошибок только в данном документе.

Как отключить проверку правописания в Word 2007


ВКЛЮЧИТЕ СУБТИТРЫ!
Нажмите на кнопку «Office». Внизу справа найдите кнопку «Параметры Word».

  • В окне параметров выберите «Правописание».
  • Поставьте флажки в разделе «Исключения для файла», как указано на рисунке и нажмите «ОК».


Собственно, мы не стали отключать проверку правописания, мы просто отключили раздражающий нас показ наших ошибок.
Все, в этом документе вы никаких волнистых линий больше не увидите.

Как это сделать в Word 2003


ВКЛЮЧИТЕ СУБТИТРЫ!

  • Меню «Сервис».
  • «Параметры».
  • В окне параметров перейдите на закладку «Правописание».
  • Поставьте флажки «Не выделять слова с ошибками» в разделах «Орфография» и «Грамматика».


Покоряйте Word и до новых встреч!

Word – пожалуй лучшее решение для набора текста и редактирования текстовых документов. Среди множества возможностей данной программы, одной из наиболее полезных является проверка орфографии и грамматики.

Но, с этой функцией у многих пользователей возникают проблемы. В этом материале мы расскажем о том, как включить проверку орфографии в Word 2007, 2010, 2013 и 2016.

Включение автоматической проверки орфографии в Word

По умолчанию, текстовый редактор Word всегда автоматически проверяет орфографию. Если у вас этого не происходит, то, скорее всего, это функция просто выключена в настройках. Для того чтобы обратно включить проверку орфографии в Word вам нужно нажать на кнопку «Файл » в верхнем левом углу программы и в открывшемся меню выбрать пункт «Параметры ».

На скриншотах внизу мы продемонстрируем, как выглядит меню «Файл » в Word 2007, 2010, 2013 и 2016.

Меню Файл в Word 2007

Меню Файл в Word 2010

Меню Файл в Word 2013, 2016

После того, как вы открыли «Параметры Word », вам нужно перейти в раздел «Правописание » и включить там функции, которые имеют отношение к проверке орфографии в Ворде.

  • Проверять орфографию в процессе набора текста;
  • Использовать контекстную проверку орфографии;
  • Отмечать ошибки грамматики в процессе набора текста;
  • Во время проверки орфографии, также проверять грамматику;

Нужно отметить, что данные функции могут называться немного по-другому в вашей версии Word. Также не забудьте, что изменения настроек нужно сохранить с помощью кнопки «Ok ».

Ручной запуск проверки орфографии в Word

Также вы можете вручную включить проверку орфографии в Word. Для этого нужно выделить текст, для которого вы хотите запустить проверку, перейти на вкладку «Рецензирование » и нажать на кнопку «Правописание ».

В результате должно открыться окно «Правописание », котором вы сможете проверить орфографию текста слово за словом. Слова, в которых текстовый редактор Word обнаружит ошибки будут подсвечены красным цветом. При этом под текстом будет предложено несколько вариантов написания данного слова. Для того чтобы исправить данное слово, вам нужно выбрать один из вариантов для замены и нажать на кнопку «Заменить ».

Если вы считаете, что слово написано правильно, то вы можете пропустить его. Для этого есть кнопка «Пропустить ».

Также с помощью кнопки «Добавить » вы можете добавить правильно написанное слово в словарь.

Слова, которые были добавлены пользователем в словарь, Word больше не будет помечать как ошибки.

Как изменить язык для проверки орфографии в Word

Если проверка орфографии выполняется по правилам другого языка, то вам нужно изменить язык текста. Для этого выделите текст, который неправильно проверяется, и нажмите на название языка, внизу окна Word.

После этого появится небольшое окно «Язык ». Здесь нужно выделить язык, по правилам которого должна выполняться проверка орфографии, и нажать на кнопку «Ok ».

Также с помощью окна «Язык » можно полностью отключить проверку орфографии для выбранной части текста. Для этого нужно выделить текст, нажать на название языка, и в окне «Язык » включить функцию «Не проверять правописание ».

Исследование и внедрение проверки грамматики английского языка и исправления ошибок на основе глубокого обучения

На этой странице

АннотацияВведениеЗаключениеДоступность данныхКонфликты интересовСсылкиАвторское правоСтатьи по теме

Английский язык как универсальный язык в мире будет привлекать все больше и больше внимания, но английский нам не мать язык, и существуют различия в культуре и мышлении. Английская грамматика является самой сложной проблемой для решения. Изучающих английский язык много, а количество учителей английского языка ограничено, и неизбежно использование интернет-технологий для решения проблемы нехватки ресурсов. В статье используется технология глубокого обучения, чтобы предложить модель обнаружения грамматики ASS, которая может быстро и эффективно обнаруживать грамматические ошибки. Результаты исследования показывают следующее. (1) В этом исследовании выбираются данные из задачи оценки GEC и анализируются четыре модуля артикля, существительного, глагола и предлога с помощью алгоритмов в рамках различных моделей. Результаты указывают на точность четырех модулей. Скорость припоминания была в определенной степени улучшена, уровень точности существительных является самым высоким, который может достигать 63,9.9%, показатель точности предлогов улучшается в меньшей степени, а показатель точности проверки после улучшения составляет 12,79%. (2) В эксперименте по проверке эффективности модели обнаружения грамматики ASS по сравнению с эффектом обнаружения обычной модели точность комплексной проверки ASS была значительно улучшена. Комплексная точность обычной модели обнаружения составляет 28,01%, а комплексная точность проверки модели ASS составила 82,82%, а показатель точности увеличился на 54,81%. Результат показывает, что производительность модели проверки ASS значительно улучшилась по сравнению с традиционной моделью. (3) После преобразования и обновления модели ASS три модели и другие полученные модели были запущены на тестовом наборе и смешанном тестовом наборе соответственно. Результаты показывают, что точность, воспроизводимость и оценка F1 модели ASS являются самыми высокими в тестовом наборе, которые составляют 9 баллов.8,71 %, 98,83 %, 98,64 % и 98,73 % соответственно, модель проверки байесовской сети имеет самый низкий уровень точности 51,74 %, а значение ROC-кривой и значение AUC модели ASS являются самыми большими. Точность модели ASS на смешанном тестовом наборе также самая высокая, достигая 98,01%. Модель JaSt на смешанном тестовом наборе имеет значительную тенденцию к снижению, при этом уровень точности падает с 92,16% до 56,68%. Можно сделать вывод, что модель ASS позволяет точно и эффективно отслеживать грамматические ошибки.

1. Введение

С увеличением количества компьютеров и Интернета десятки тысяч пользователей пишут и общаются на английском языке в своей повседневной работе. Для пользователей, чей родной язык не английский, письмо на английском языке является для них серьезным препятствием. Технология проверки грамматики возникла из применения понимания естественного языка. Клеман и др. [1] предложили открытую систему проверки грамматики в рамках модели глубокого обучения для глубокого анализа и обучения грамматике. Стандарт грамматики напрямую влияет на беглость предложений. Система проверки грамматики, представленная в этой статье, может эффективно проверять грамматические ошибки в предложениях и автоматически генерировать правильные предложения для замены неправильных. Сюй [2] улучшил алгоритм и точность проверки грамматики, а также спроектировал и разработал систему проверки грамматики. Sankaravelayuthan [3] предложил инструмент MS-Word для проверки орфографических ошибок в тексте. Поскольку слово состоит из множества английских букв, после того, как мы введем английское слово, неизбежно возникнут ошибки ввода. Предлагаемые в статье инструменты помогут нам решить эти проблемы и будут автоматически проверять орфографические ошибки в статье. Джейкобс и Роджерс [4] обсудили использование программы проверки французской компьютерной грамматики в качестве обучающего и обучающего ресурса. Они провели эксперимент, в котором студенты использовали программу проверки экрана или другие методы для проверки грамматических ошибок в английских статьях. Люти и др. [5] изучали метод сегментации офлайн-строк рукописного рукописного текста на отдельные слова. Принс [6] обнаружил некоторые из наиболее распространенных ошибок, допускаемых тайваньскими учащимися при письме, и предложил некоторые стратегии, которые учителя используют в классах ESL. Кеонг [7] написал экспертную систему для обучения английской грамматике для пользователей персональных компьютеров. Система использует синтаксический анализатор для реализации инструмента проверки грамматики, и система может проверять наличие грамматических ошибок в тексте. Вы также можете создавать файлы для хранения грамматических ошибок и соответствующей информации из текста. Канн [8] реализовал метод записи длинного текста на компьютере и определил процесс записи с помощью соответствующей модели. Се [9] внедрил правила проверки грамматики в соответствии с принципами практичности и достоверности. В статье упрощается анализ алгоритма и расширяется охват ошибок. Проверка грамматических ошибок – очень важная задача при исправлении текста. Для людей с плохим английским писать на английском — относительно сложная задача. Если английский плохой, вы не сможете правильно использовать грамматику английского языка, что увеличивает спрос на программное обеспечение для проверки грамматики. Цель литературы [10] состоит в том, чтобы изучить существующую литературу, осветить текущие проблемы и предложить возможные направления для будущих исследований. В статье наблюдает и анализирует программу анализа ошибок, обобщает опыт ошибок и находит правильную программу. Развитие компьютерных технологий помогает обогатить содержание обучения английскому языку и обеспечивает больше удобства для изучения английского языка. Пан и Чжоу [11] осуществили персонализированное обследование и диагностику английской грамматики студентов колледжей. Amrhein [12] обсудил важность правильного использования союзов и точек с запятой при подготовке таблиц политик, чтобы избежать неправильного понимания предполагаемого значения. Шеперд [13] ввел метод самостоятельного изучения английской грамматики, с помощью которого можно самостоятельно сформулировать грамматические правила. Использование этого метода обучения может помочь нам выучить и понять грамматику без руководства учителя. Система будет перечислять распространенные грамматические ошибки учащихся, и учащиеся могут проводить интенсивное обучение на основе грамматических ошибок, перечисленных системой. Mondal и Mondal [14] представили проприетарное программное приложение. Программа может предоставлять множество услуг, в том числе помогать нам обнаруживать грамматические ошибки в английских статьях и автоматически генерировать правильные предложения. Ричардс и др. [15] ввел двухуровневый курс общего английского языка для учащихся итальянских средних школ. Курс в основном подчеркивает методы общения точности и беглости. Курс состоит из трех частей: проверка общения, проверка грамматики и проверка учебы. Вышеупомянутые методы исследования основаны на искусственном интеллекте или современных технологиях, применяемых для обнаружения и проверки английской грамматики. Однако эффективность обнаружения грамматики низка, частота ошибок высока, а эффективность предсказания не идеальна. В этой статье предлагается модель обнаружения грамматики ASS с использованием технологии глубокого обучения, которая может быстро и эффективно обнаруживать грамматические ошибки.

2. Исследование и реализация проверки грамматики английского языка
2.1. The Significance of Grammar Checking Research

Из-за большой гибкости и неопределенности самого естественного языка английский язык является типичным представителем множества словарных запасов, сложной грамматики и обширных сценариев использования, что усложняет компьютерное автоматическое обнаружение и исправление ошибок. Еще одной важной причиной, влияющей на развитие исправления грамматических ошибок, является отсутствие актуального корпуса. Очень сложно составить корпус, отмеченный грамматическими ошибками. Текущие основные методы исследования исправления грамматических ошибок основаны на статистическом машинном обучении, которое требует большого объема корпуса для обучения и тестирования моделей [16]. Однако при внимании университетов и научно-исследовательских институтов к этой проблеме проблема нехватки корпусов была значительно улучшена, что заложило прочную основу для дальнейших исследований. Поэтому в этой статье мы будем изучать технологию глубокого обучения и использовать ее для решения проблемы исправления ошибок английской грамматики. На основе предложенного алгоритма исправления ошибок проводится эксперимент и проверка модели алгоритма, и, учитывая применение алгоритма, создается система исправления грамматических ошибок, аналогичная переводу Google, обеспечивающая простой и удобный способ использования для изучающих английский язык. Сочетание теории и практики оказывает определенный стимулирующий эффект на решение проблемы исправления грамматических ошибок английского языка и повышения уровня грамматики изучающих английский язык. Классификация распространенных грамматических ошибок представлена ​​в таблице 1.

2.2. Общая схема проектирования проверки грамматики английского языка

Согласно результатам функционального анализа бизнес-требований, архитектура модели системы исправления грамматических ошибок [18] показана на рисунке 1.

Основной модуль исправления грамматических ошибок в основном включает три функциональных модуля: обработка данных, обучение модели и коррекция ошибок модели, а коррекция ошибок модели является основной функцией всего алгоритма [19]. Основная функция обработки данных заключается в предварительной обработке исходных данных корпуса, структурированном хранении обработанных данных корпуса, изучении модуля и получении стандартного набора данных. Обучение модели заключается в обучении данных в корпусе, сохранении обученных функций в базе данных и применении их в последующем тестировании и сопоставлении [20]. Исправление ошибок модели заключается в использовании модели исправления ошибок, хранящейся в обучающей библиотеке, для сопоставления с грамматикой входного предложения и вывода правильного предложения. Модель службы исправления ошибок может принимать запрос на исправление ошибок от пользователя в режиме реального времени, анализировать его с помощью модели исправления ошибок корпуса и возвращать пользователю правильный контент.

2.3. Внедрение исправления синтаксических ошибок

Во-первых, обучение проводится в соответствии с характеристиками исправления грамматических ошибок, и принимается заявление пользователя на исправление ошибок на английском языке. Сначала определите, допустимы ли отправленные параметры, а затем перейдите к следующему шагу, чтобы разделить предложение. Затем обученная ранее модель исправления ошибок используется для исправления грамматических ошибок. Когда исправление ошибок последнего предложения завершено, предложения исправления ошибок, возвращенные в сегментацию, объединяются. Если предложение простое, модель исправления ошибок можно использовать напрямую без сегментации предложения. Предложение обратной связи означает, что, когда пользователь не удовлетворен исправлением грамматической ошибки, предоставленным системой, или есть лучший способ изменить его, предложение по изменению возвращается в систему. Как упоминалось выше, мы будем фильтровать предложения по модификации, представленные пользователями, поэтому предыдущая модель фильтрации предложений обратной связи будет использоваться в функции предложения обратной связи. Как и при исправлении грамматических ошибок, мы также разрабатываем предложения обратной связи с двух сторон. Одним из них является сам интерфейс фильтрации обратной связи, и приведена блок-схема его работы; другой — поток вызовов между модулями, который объясняется с помощью диаграмм последовательности. Во-первых, мы представляем интерфейс фильтрации обратной связи. В соответствии с процессом исправления синтаксических ошибок сначала определите, являются ли параметры запроса допустимыми; если нет, сразу заканчивайте [21]. Вероятности утверждения об исправлении ошибок и исходного утверждения о модификации системы рассчитываются соответственно для модели исправления ошибок.

3. Модель исправления ошибок
3.1. Технология глубокого обучения

Модель seq2seq состоит из кодера и представляет собой циклическую нейронную сеть; на этапе кодирования формируется семантический вектор в соответствии с входной последовательностью и правилом преобразования [22], а формула расчета имеет вид

Суммируем семантический вектор:

Декодирование:

Расчетная формула алгоритма скрытия:

3.2. Критерии оценки для исправления ошибок грамматики английского языка

Наиболее часто используемый алгоритм оценки для исправления грамматических ошибок — . Принцип алгоритма представлен ниже [23]; Коэффициент коррекции :

Коэффициент коррекции :

Ключевой показатель оценки в , и формула определяется следующим образом:

3.2.1. Модель исправления синтаксических ошибок

В механизме мягкого внимания вес a ij определяется ( i −1)-м скрытым состоянием s i −1 и каждой скрытой переменной состояния на входе [24]. Формула расчета следующая:

LN рассчитывается путем ввода всего слоя нейронов в RNN [25]:

Алгоритм антифильтрации:

Когда n  = 2, биграмма равна

3, биграмма равна

Оцените значение и формула

Согласно модели грамматики N, представленной выше, мы можем получить

Путаница:

Согласно цепному методу это может быть записано как

3.2.2. ASS Model Design

Целевая функция однослойной нейронной сети

Коэффициенты и

Параметры матрицы единственного дочернего узла

Квадрат евклидова расстояния:

Функция ошибок обучающей выборки и ее соответствующий отрицательный пример:

Окончательная целевая функция обучения:

4. Симуляционный эксперимент
4.1. Анализ данных

Чтобы эффективно анализировать данные, мы отбираем данные в задаче оценки GEC и анализируем алгоритмы четырех модулей артикля, существительного, глагола и предлога в рамках различных моделей. Эксперимент сравнивает результаты, устанавливая, следует ли использовать библиотеку законов, и для повышения убедительности эксперимента мы добавили сравнительный эксперимент с общим алгоритмом. Статистические результаты различных типов ошибок в обучающих данных и тестовых данных показаны в таблице 2 и на рисунке 2.

Пять типов включают ошибки в артиклях, ошибки в предлогах, ошибки в именах, грамматические ошибки в согласовании подлежащего и глагола и ошибки в формах глагола, в то время как все типы включают ошибки во временах глаголов, пропущенных глаголах, формах глаголов, согласование глаголов, артикли, существительные в единственном и множественном числе, притяжательные слова и формы местоимений. В таблице 2 представлен экспериментальный анализ пяти распространенных типов грамматических ошибок.

4.1.1. Модуль проверки статей

Точность и скорость отзыва при добавлении библиотеки правил в модуль проверки статей были значительно улучшены, что указывает на то, что автоматическое извлечение библиотеки правил эффективно для всего процесса проверки и исправления, как показано на рис. 3 и в таблице. 3. В то же время улучшен алгоритм отката. После алгоритма ограниченной отсрочки уровень точности также значительно улучшился, а процесс коррекции стал более точным, что увеличило конечное значение F1.

4.1.2. Модуль проверки существительных

В модуле проверки существительных из Таблицы 4, после использования модельного алгоритма, точность и скорость припоминания были значительно улучшены, а уровень точности составляет до 63,99%, поскольку существительные составляют наибольшую долю предложений. Используя модуль проверки грамматики, вы можете исправить больше ошибок в существительных, тем самым увеличив значение F1 модуля проверки существительных.

4.1.3. Модуль проверки глаголов
4.1.4. Модуль проверки предлогов

Как видно из данных в таблицах 5 и 6, в модуле обнаружения грамматики точность и скорость запоминания глаголов и предлогов улучшились, но точность предлогов улучшилась в меньшей степени. Улучшенный показатель точности проверки составляет 12,79%. После использования резервного алгоритма оценка модели при обнаружении грамматики становится более строгой. Мерой точности является отношение количества правильных выборок к количеству всех выборок в тестовом наборе. Чем больше значение индекса, тем точнее результат рекомендации. Индекс измерения F1 может эффективно сбалансировать точность и полноту, смещая объекты с небольшими значениями. Чем больше значение индекса, тем точнее результат рекомендации. Улучшенный отзыв модулей проверки глаголов и предлогов из Таблицы 5 и Таблицы 6 показывает, что результаты модулей проверки глаголов и предлогов более точны.

4.2. Сравнение результатов испытаний

Мы сравнили эффект проверки модели ASS с эффектом проверки обычной модели; эффект проверки модуля проверки грамматики по обычному алгоритму показан в таблице 7, а результат комплексной проверки грамматики модели ASS показан в таблице 8.

Из данных на рисунках 4 и 5 мы можем сделать вывод, что точность всесторонней проверки ASS была значительно улучшена по сравнению с эффектом проверки обычной модели. Комплексная точность обычной модели проверки составляет 28,01%, а проверка модели ASS лучше. Общий уровень точности составляет 82,82%, уровень точности увеличивается на 54,81%, а общий уровень отзыва модели ASS также увеличивается, что указывает на то, что производительность модели проверки ASS была улучшена как на дрожжах, а эффективность обнаружения грамматики и корректность определения грамматики были улучшены.

4.3. Тестирование производительности модели

Мы запускаем каждую модель на тестовом наборе и смешанном тестовом наборе и записываем экспериментальные данные. В процессе использования модели ASS для обнаружения грамматики грамматику необходимо преобразовать в математическое представление, которое может обрабатывать модель, как показано на рисунке 6.

Согласно данным в таблице 9 и рисунке 7, мы можем сделать вывод что точность модели ASS является самой высокой среди нескольких моделей, достигая 99,71%, что указывает на то, что производительность обнаружения ASS является самой высокой, а точность байесовской сети является самой низкой, что составляет 51,74%, что указывает на то, что эффективность обнаружения модели байесовской сети недостаточно хороша.

ASS-T — это проверка модели данных и общего синтаксиса, начиная с создания нового окна или таблицы. Для каждого участвующего объекта перечислите различные домены и синтаксисы. С помощью определений полей и базовых методов ASS-G анализирует тестовые данные, общие синтаксические тесты, разделы и граничные значения. Модель данных ASS-TG представляет собой подробный синтаксический тест. Для строго синтаксически контролируемых частей вам необходимо выполнить более подробные тесты.

По данным таблицы 10 и рис. 8 можно сделать вывод, что показатель точности модели ASS-G достигает 98,01%. Различные индикаторы модели JaSt в смешанном тестовом наборе имеют значительную тенденцию к снижению, а уровень точности снизился с 92,16% до 56,68%, поскольку информация о синтаксисе в тестовом наборе запутана, а также отражается превосходство модели ASS. на ROC-кривой.

5. Заключение

В настоящее время все больше и больше изучают английский язык, и модуль грамматики английского языка также является очень важной частью процесса изучения английского языка. Однако из-за специфики преподавания английского языка вспомогательное обучение выявлению грамматики английского языка особенно важно, хотя текущее обучение с помощью грамматики сочетается с компьютерами. Технологии и сетевые технологии значительно снизили количество ошибок, но все еще есть некоторые проблемы с плохим пользовательским интерфейсом. Существует еще много возможностей для улучшения в обучении английскому языку с помощью. Поэтому он должен сочетать текущие проблемы, чтобы постоянно совершенствоваться, и предлагать более интеллектуальную и точную модель обнаружения грамматики, чтобы сделать обучение английскому языку проще и эффективнее.

Доступность данных

Экспериментальные данные, использованные для подтверждения результатов этого исследования, можно получить у соответствующего автора по запросу.

Конфликт интересов

Авторы заявляют об отсутствии конфликта интересов.

Ссылки
  1. Л. Клеман, К. Гердес и Р. Марле, «Алгоритм исправления грамматики — глубокий анализ и минимальные исправления для средства проверки грамматики», в Труды 14-й международной конференции по формальной грамматике , том. 12, нет. 6, стр. 11–17, Springer, Берлин, Германия, июль 2009 г.

    Посмотреть по адресу:

    Сайт издателя | Google Scholar

  2. X. Сюй, «Изучение системы диагностики состава английского языка на основе сопоставления правил», International Journal of Emerging Technologies in Learning , vol. 13, нет. 7, стр. 161–172, 2018.

    Посмотреть по адресу:

    Сайт издателя | Google Scholar

  3. Р. Санкаравелютан, «Проверка орфографии и грамматики для тамильского языка», стр. 9.0051 Разработка вычислительных средств для тамильского языка , vol. 05, нет. 23, стр. 52–64, 2015 г.

    Посмотреть по адресу:

    Сайт издателя | Google Scholar

  4. Г. Джейкобс и К. Роджерс, «Вероломные союзники: средства проверки грамматики иностранных языков», CALICO Journal , vol. 16, нет. 4, стр. 87–95, 1999.

    Посмотреть по адресу:

    Сайт издателя | Google Scholar

  5. Ф. Люти, Т. Варга и Х. Бунке, «Использование скрытых марковских моделей в качестве инструмента для сегментации строк рукописного текста», в Материалы международной конференции по анализу и распознаванию документов , vol. 12, нет. 8, стр. 117–123, IEEE, Куритиба, Бразилия, сентябрь 2007 г.

    Посмотреть по адресу:

    Сайт издателя | Google Scholar

  6. Х. Принс, «Покорение китайского английского языка в классе ESL», Internet Tesl Journal , том. 03, нет. 11, стр. 25–36, 2006 г.

    Посмотреть по адресу:

    Google Scholar

  7. К. Кеонг, «Экспертная система для обучения английской грамматике», в Материалы конференции IEEE Region 10 по компьютерным и коммуникационным системам, IEEE Tencon , vol. 08, нет. 12, стр. 52–57, IEEE, Гонконг, Китай, сентябрь 1990 г.

    Посмотреть по адресу:

    Сайт издателя | Google Scholar

  8. В. Канн, «CrossCheck — средство проверки грамматики для писателей, говорящих на шведском языке как иностранном», KTH Nada , vol. 23, нет. 12, стр. 78–82, 2008 г.

    Посмотреть по адресу:

    Google Scholar

  9. К. В. Се, «Исследование проверки грамматики на основе примера», Журнал Хубэйского университета естественных наук, выпуск , том. 23, нет. 12, стр. 22–31, 2009.

    Посмотреть по адресу:

    Google Scholar

  10. М. Сони и Дж. С. Такур, «Систематический обзор автоматической проверки грамматики в английском языке», Computation and Language , vol. . 07, нет. 12, pp. 112–121, 2018.

    Посмотреть по адресу:

    Google Scholar

  11. Д. Пан и Х. Чжоу, «Разработка системы обучения английскому языку для студентов колледжей, персонализированная проверка и диагностика грамматики английского языка», Международный журнал новых технологий в обучении , том. 13, нет. 4, стр. 51–59, 2018 г.

    Посмотреть по адресу:

    Сайт издателя | Google Scholar

  12. C. Amrhein, «Проверка грамматики», Property & Casualty , vol. 07, нет. 12, стр. 141–152, 2016 г.

    Просмотр по адресу:

    Google Scholar

  13. Дж. Шепхард, «Изучите английскую грамматику как иностранный язык», Журнал академического лидерства в исследованиях студентов , том. 23, нет. 6, pp. 12–18, 2003.

    Посмотреть по адресу:

    Google Scholar

  14. Х. Мондал и С. Мондал, «Бесплатная проверка грамматики для вашей рукописи», Индийский журнал сосудистой и эндоваскулярной хирургии , об. 11, нет. 3, стр. 21–27, 2020 г.

    Посмотреть по адресу:

    Сайт издателя | Google Scholar

  15. Дж. К. Ричардс, Дж. Халл, С. Проктор и Д. Хейнс, Изменения 1 рабочая тетрадь Итальянское издание: Английский для международного общения , Cambridge University Press, Кембридж, Англия, 2010.

  16. П. Ратанаворабхан, Б. Лившиц и Б. Зорн, «Сопло: защита от атак путем внедрения кода с помощью динамического распыления», в Proceedings of the SSYM’ 09 18-я конференция по безопасности USENIX, симпозиум , стр. 169–186, Беркли, Калифорния, август 2009 г.

    Посмотреть по адресу:

    Сайт издателя | Google Scholar

  17. T. N Hwee, S. M. Wu, T. Briscoe, C. Hadiwinoto и C. Bryant, «Общая задача CoNLL-2014 по исправлению грамматических ошибок», в Материалы восемнадцатой конференции по компьютерному изучению естественного языка , стр. 1–14, Shared Task, Балтимор, Массачусетс, США, январь 2014 г.

    Просмотр по адресу:

    Сайт издателя | Google Scholar

  18. Х.Г. Ким, Д.Дж. Ким, С.Дж. Чо и М.Дж. Парк, «Эффективное обнаружение вредоносных веб-страниц с использованием клиентских приманок с высоким уровнем взаимодействия», Journal of Information Science and Engineering , vol. 28, нет. 5, стр. 911–924, 2012.

    Просмотр:

    Google Scholar

  19. К. А. Мур, К. Резерфорд и К. А. Кроуфорд, «Поддержка навыков письма учащихся высших учебных заведений английского языка с использованием технологических инструментов», Журнал иностранных студентов , том. 6, нет. 4, стр. 857–872, 2016 г.

    Посмотреть по адресу:

    Сайт издателя | Google Scholar

  20. Ю. Гуо и Г. Х. Беккет, «Гегемония английского языка как глобального языка: восстановление местных знаний и культуры в Китае», Конвергенция , том. 40, стр. 117–132, 2006.

    Посмотреть по адресу:

    Google Scholar

  21. Этвелл Э.С. и Эллиот С. Работа с неправильно сформированным английским текстом: вычислительный анализ английского языка, Основанный на корпусе Подход , том. 12, pp. 120–138, 1987.

    Посмотреть по адресу:

    Google Scholar

  22. Р. Дейл и А. Килгарриф, «Помощь нашим собственным: пилотная общая задача HO0 2011», в Proceedings of the 13thth. Европейский семинар по естественному языку Generation , том. 05, нет. 14, стр. 242–249, Association for Computational Linguistics, Нанси, Франция, сентябрь 2011 г. Я проверяю английский язык в вашей статье», в Proceedings of the 13th European Workshop on Natural Language Generation , vol. 03, нет. 12, стр. 250–253, Ассоциация вычислительной лингвистики, Нанси, Франция, сентябрь 2011 г.

    Посмотреть по адресу:

    Google Scholar

  23. Э. Иванова, Д. Бернхард и К. Гроуин, «Обработка диковинных явлений: использование правил и словарей для исправления статей НЛП», в Трудах 13-го европейского семинара по генерации естественного языка , том. 12, нет. 1, стр. 254–256, Association for Computational Linguistics, Нанси, Франция, сентябрь 2011 г.

    Посмотреть по адресу:

    Google Scholar

  24. К. Кукич, «Методы автоматического исправления слов в тексте», ACM Computing Surveys , vol. 24, нет. 4, стр. 377–439, 1992.

    Посмотреть по адресу:

    Сайт издателя | Google Scholar

Copyright

Copyright © 2022 Xiuhua Wang and Weixuan Zhong. Это статья с открытым доступом, распространяемая в соответствии с лицензией Creative Commons Attribution License, которая разрешает неограниченное использование, распространение и воспроизведение на любом носителе при условии надлежащего цитирования оригинальной работы.

статей о машинном обучении/легкая грамматика-обнаружение-ошибок-исправление-с-машинным-обучением.md на главной странице · christianversloot/статьи о машинном обучении · GitHub

название дата категории теги

Простое обнаружение и исправление грамматических ошибок с помощью машинного обучения

14.07.2021

глубокое обучение

каркасы

глубокое обучение

граммформер

грамматическая коррекция

обнимающее лицо

машинное обучение

обработка естественного языка

НЛП

трансформаторы

Машинное обучение в целом и глубокое обучение в частности ускорили обработку естественного языка. Разнообразие моделей позволило выполнять машинный перевод, суммирование текста и анализ тональности — и это лишь некоторые из вариантов использования. Сегодня мы добавим еще один в этот список: мы собираемся создать конвейер для обнаружения и исправления грамматических ошибок с помощью машинного обучения, используя Gramformer.

Прочитав эту статью, вы…

  • Узнайте, как преобразователи можно использовать для обработки естественного языка.
  • Создал систему обнаружения и исправления грамматических ошибок на основе Gramformer с помощью Python.
  • Создали ту же систему с HuggingFace Transformers вместо репозитория Gramformer.

Давайте посмотрим! 🙂


[доп]


Преобразователи для обработки естественного языка

Методы, основанные на глубоком обучении, изменили область машинного обучения с момента прорыва в области искусственного интеллекта в 2012 году. Хотя этот прорыв произошел в области компьютерного зрения, еще одной важной областью, в которой такие модели применялись, является обработка естественного языка.

С 2017 года популярность моделей на основе трансформеров растет. Прежде чем мы углубимся в проверку и исправление грамматики с помощью Gramformer, рекомендуется предоставить краткую информацию о Transformer, чтобы все поняли контекст Gramformer. Нажмите на ссылку для более подробного ознакомления.

Письменный и устный текст представляет собой последовательность из слов , а в итоге даже букв. Комбинация букв в слова и комбинация слов, которая является синтаксисом , например. письменный текст, имеет базовую семантику или значение. Это означает, что когда нейронные сети должны обрабатывать текст, они должны быть в состоянии обрабатывать такое значение. Следовательно, они должны быть в состоянии обработать текст в последовательности , иначе они не смогут уловить смысл. Ничего хорошего не выйдет из модели, которая смешивает все слова и буквы перед их обработкой, не так ли?

Традиционно НЛП работало с рекуррентными нейронными сетями (такими как LSTM) для обработки текста. Рекуррентная нейронная сеть — это сеть, в которой выходные данные предыдущего «прохода» передаются следующему посредством рекуррентных соединений. Другими словами, история того, что было обработано ранее во время выполнения (например, слова «Я был на пути к …», обработанные до «супермаркета»), используется для прогнозирования следующего вывода. Например, в случае переводов это может быть очень полезно: переводы иногда сильно зависят от значения того, что было создано ранее.

Именно этот рекуррентный сегмент является узким местом рекуррентных нейронных сетей. Это означает, что каждый элемент последовательности (например, каждое слово) должен быть обработан в последовательности . Кроме того, поскольку LSTM работают с «памятью», память слов, обработанных довольно давно (например, 20 слов назад с длинными фразами), исчезает, что, возможно, скрывает семантические зависимости в сложных фразах. Другими словами, использование рекуррентных нейронных сетей и LSTM было крайне неэффективным, особенно с более длинными предложениями.

В 2017 г. Vaswani et al. создала совершенно новую архитектуру для обработки языка — архитектуру Transformer. Применяя механизм внимания по-другому, они показали, что внимание — это все, что вам нужно , а это означает, что повторяющиеся сегменты больше не нужны. Исходная архитектура Transformer показана ниже и представляет сегменты кодировщика N и сегменты декодера N . Сегменты кодировщика совместно обрабатывают текст в промежуточное представление, которое содержит семантику в сжатом виде. Это делается путем вычисления многоголовое внимание к себе , механизм, который, по сути, позволяет нам сравнивать важность отдельных слов (самовнимание) под разными углами (многоголовое). Еще раз, пожалуйста, проверьте ссылку выше, если вы хотите понять этот механизм более подробно.

Промежуточные представления из каждого сегмента кодировщика затем передаются в соответствующий сегмент декодера, как вы можете видеть на изображении. Если сегмент кодировщика принимает исходную последовательность в качестве входных данных (например, фразу на голландском языке), декодер принимает соответствующие цель в качестве входных данных (например, перевод на английский язык). Вычисляя индивидуальную важность слов в целевой фразе, а затем комбинируя их с промежуточным представлением из исходной фразы, модель может научиться производить правильный перевод.

Помимо перевода, который традиционно выполняется с такими архитектурами последовательностей, преобразователи также применялись для генерации текста (с архитектурами, подобными GPT, с использованием части декодера) и интерпретации текста (в основном с архитектурами, подобными BERT, с использованием части декодера). часть энкодера).

Давайте теперь посмотрим на Gramformer.

Первоначальная архитектура Transformer, предложенная Vaswani et al. (2017)


Обнаружение и исправление грамматики с помощью Gramformer

Gramformer — это инструмент с открытым исходным кодом для обнаружения и исправления грамматических ошибок в английском тексте:

Gramformer — это библиотека, которая предоставляет 3 отдельных интерфейса для семейства алгоритмов для обнаружения, выделения и исправления грамматических ошибок. Чтобы убедиться, что рекомендуемые исправления и выделения имеют высокое качество, он поставляется с оценщиком качества.

GitHub (без даты)


Обнаружение и исправление грамматики с помощью машинного обучения — код примера

Теперь давайте рассмотрим использование Gramformer для создания системы обнаружения и исправления грамматики. Ниже вы узнаете, как установить Gramformer, как использовать его для получения исправленного текста, для получения отдельных правок и для выделения мест, где обнаружены ошибки.

Установка Gramformer

Установить Gramformer очень просто — вы можете сделать это с помощью pip (предпочтительно pip3 из-за Python 3.x) непосредственно из репозитория Gramformer GitHub:

 установка pip3 -U git+https://github.com/PrithivirajDamodaran/Gramformer.git
 
Возможные проблемы при установке Gramformer
  • Проблема с лм-счетчиком
  • Ошибка не установлена ​​
  • En не найден https://stackoverflow.com/questions/49964028/spacy-oserror-cant-find-model-en

Получение исправленного текста

Получение исправленного текста из Gramformer довольно просто и требует следующих шагов:

  • Указание импорта.
  • Исправление начального числа PyTorch.
  • Инициализация Gramformer.
  • Указание неверных фраз.
  • Предоставление Gramformer предложений по фразам, включая исправления.
  • Печать исправленных фраз.

Начнем с импорта. Импортируем Gramformer и PyTorch, через факел .

 # Импорт
из gramformer импортировать Gramformer
импортный факел
 

Затем фиксируем семя. Это означает, что вся генерация случайных чисел выполняется с одним и тем же вектором инициализации, и любые отклонения не могут быть связаны с генерацией случайных чисел.

 # Исправить сид, в том числе и на GPU
определение fix_seed (значение):
  torch.manual_seed (значение)
  если torch.cuda.is_available():
    torch.cuda.manual_seed_all (значение)
    
fix_seed(42)
 

Затем мы инициализируем Gramformer . Мы устанавливаем модели на 1 или режим коррекции, и мы указываем , а не использовать GPU. Если у вас есть выделенный графический процессор, вы, конечно, можете установить его на True .

 # Инициализировать Gramformer
грамматика_коррекция = Gramformer (модели = 1, use_gpu = False)
 

Давайте тогда создадим список с тремя грамматически неправильными фразами:

 # Неправильные фразы
фразы = [
  «Как дела?»,
  'Мы в супермаркете.',
  «Здравствуйте, вы в школе на лекцию».
]
 

…после чего мы можем позволить Gramformer улучшить их. Для каждой фразы мы позволяем Gramformer выполнить исправление, предлагая двух кандидатов, а затем печатая неправильную фразу с предлагаемыми улучшениями.

 # Улучшить каждую фразу
за фразу во фразах:
  исправления = грамматическая_коррекция.корректная (фраза, max_candidates = 2)
  print(f'[Неверная фраза] {фраза}')
  для i в диапазоне (len (исправления)):
    print(f'[Предложение №{i}] {исправления[i]}')
  печать('~'*100)
 

В целом получается следующий код:

 # Импорт
из gramformer импортировать Gramformer
импортный факел
# Исправить семя, также на GPU
определение fix_seed (значение):
  torch. manual_seed (значение)
  если torch.cuda.is_available():
    torch.cuda.manual_seed_all (значение)
    
fix_seed(42)
# Инициализировать Грамформер
грамматика_коррекция = Gramformer (модели = 1, use_gpu = False)
# Неверные фразы
фразы = [
  «Как дела?»,
  'Мы в супермаркете.',
  «Здравствуйте, вы в школе на лекцию».
]
# Улучшить каждую фразу
за фразу во фразах:
  исправления = грамматическая_коррекция.корректная (фраза, max_candidates = 2)
  print(f'[Неверная фраза] {фраза}')
  для i в диапазоне (len (исправления)):
    print(f'[Предложение №{i}] {исправления[i]}')
  печать('~'*100)
 

А вот результаты при запуске:

 [Gramformer] Исправлена ​​грамматическая ошибка/модель выделения загружена..
[Неверная фраза] Как дела?
[Предложение №0] («Как дела?», -20,39444351196289)
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
[Неверная фраза] Мы в супермаркете.
[Предложение №0] («Мы в супермаркете», -32.21493911743164)
[Предложение №1] («Мы в супермаркете», -32. 99837112426758)
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
[Неверная фраза] Здравствуйте, вы в школе на лекцию.
[Предложение №0] («Привет, ты в школе на лекцию?», -48,61809539794922)
[Предложение №1] («Здравствуйте, вы в школе на лекцию», -49,94304275512695)
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
 

Отлично! Мы только что создали инструмент для проверки и исправления грамматических ошибок! 😀

Получение отдельных правок

Вместо исправленных фраз мы также можем напечатать правок , которые выполнил Gramformer:

 # Печатать правки для каждой улучшенной фразы
за фразу во фразах:
  исправления = грамматическая_коррекция.корректная (фраза, max_candidates = 2)
  print(f'[Неверная фраза] {фраза}')
  для i в диапазоне (len (исправления)):
    edits = грамматика_коррекция.get_edits(фраза, исправления[i][0])
    print(f'[Правки #{i}] {правки}')
  печать('~'*100)
 

Вы можете видеть, что вместо было улучшено до вместо для первой фразы; что We is on превращается в We’re in во второй фразе и так далее.

 [Неверная фраза] Как дела?
[Редактирует #0] [('ГЛАГОЛ:SVA', 'есть', 1, 2, 'есть', 1, 2)]
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
[Неверная фраза] Мы в супермаркете.
[Редактирует #0] [('ДРУГОЕ', 'Мы в эфире', 0, 3, "Мы в деле", 0, 2)]
[Правки #1] [('ГЛАГОЛ:SVA', 'есть', 1, 2, 'есть', 1, 2), ('ПРЕП', 'на', 2, 3, 'в', 2, 3 )]
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
[Неверная фраза] Здравствуйте, вы в школе на лекцию.
[Редактирует #0] [('ДРУГОЕ', 'Привет', 0, 1, 'Привет', 0, 1), ('ГЛАГОЛ', '', 1, 1, 'есть', 1, 2), ('ГЛАГОЛ', 'быть', 2, 3, '', 3, 3), ('DET', '', 6, 6, 'the', 6, 7), ('СУЩЕСТВИТЕЛЬНОЕ', 'лекция. ', 6, 7, 'лекция?', 7, 8)]
[Правки #1] [('ДРУГОЕ', 'Привет', 0, 1, 'Привет', 0, 1), ('МОРФ', 'быть', 2, 3, 'есть', 2, 3) ]
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
 

Получение основных моментов

Простое изменение get_edits на Highlight даст исходную фразу, где отмечены ошибки:

 # Печатать выделение для каждой улучшенной фразы
за фразу во фразах:
  исправления = грамматическая_коррекция. корректная (фраза, max_candidates = 2)
  print(f'[Неверная фраза] {фраза}')
  для i в диапазоне (len (исправления)):
    основные моменты = грамматическая_коррекция.highlight (фраза, исправления [i] [0])
    print(f'[Основные моменты #{i}] {основные моменты}')
  печать('~'*100)
 

Другими словами:

 [Gramformer] Исправлена ​​грамматическая ошибка/модель выделения загружена..
[Неверная фраза] Как дела?
[Основное #0] Как дела у ?
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
[Неверная фраза] Мы в супермаркете.
[Highlights #0] Мы в супермаркете.
[Основное #1] Мы находимся в супермаркете.
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
[Неверная фраза] Здравствуйте, вы в школе на лекцию.
[Основное #0] Здравствуйте are'>Здравствуйте вы учитесь в школе для < c type='NOUN' edit='lecture?'>лекция. 
[Основное #1] Здравствуйте, вы будете в школе на лекции.
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
 

Использование Gramformer с трансформерами HuggingFace

Согласно инструкциям по установке setup.py , Gramformer построен на основе HuggingFace Transformers. Это означает, что вы также можете создать Gramformer с HuggingFace Transformers, то есть вам не нужно устанавливать репозиторий Gramformer с pip . Вот пример, который иллюстрирует, как вы можете использовать AutoTokenizer и AutoModelForSeq2SeqLM с предварительно обученным токенизатором/моделью Gramformer для проверки грамматики:

 # Импорт
из трансформаторов импортировать AutoTokenizer, AutoModelForSeq2SeqLM
  
# Загружаем токенизатор
tokenizer = AutoTokenizer.from_pretrained("prithivida/grammar_error_correcter_v1")
# Загружаем модель
модель = AutoModelForSeq2SeqLM. from_pretrained("prithivida/grammar_error_correcter_v1")
# Неверные фразы
фразы = [
  «Как дела?»,
  'Мы в супермаркете.',
  «Здравствуйте, вы в школе на лекцию».
]
# Маркировать текст
tokenized_phrases = tokenizer (фразы, return_tensors = 'pt', padding = True)
# Выполняем исправления и декодируем вывод
исправления = model.generate(**tokenized_phrases)
исправления = tokenizer.batch_decode (исправления, skip_special_tokens = True)
# Корректировка печати
для i в диапазоне (len (исправления)):
  оригинал, исправление = фразы[i], исправления[i]
  print(f'[Фраза] {оригинал}')
  print(f'[Предлагаемая фраза] {исправление}')
  печать('~'*100)
 

…результаты:

 [Фраза] Как дела?
[Предлагаемая фраза] Как дела?
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
[Фраза] Мы в супермаркете.
[Предлагаемая фраза] Мы в супермаркете.
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
[Фраза] Привет, ты в школе на лекцию. 
[Предлагаемая фраза] Здравствуйте, вы в школе на лекцию.
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
 

Резюме

В этой статье у вас есть…

  • Найдены способы использования Transformers для обработки естественного языка.
  • Создал систему обнаружения и исправления грамматических ошибок на основе Gramformer с помощью Python.
  • Создал ту же систему с HuggingFace Transformers вместо репозитория Gramformer.

Надеюсь, это было полезно и вы многому научились. Спасибо за чтение MachineCurve и счастливого проектирования! 😎


Источники

Гитхаб. (н.д.). Притхивирадж Дамодаран/Грамформер . https://github.com/PrithivirajDamodaran/Gramformer

Васвани А., Шазир Н., Пармар Н., Ушкорейт Дж., Джонс Л.