Восстановление знаков пунктуации и заглавных букв — теперь и на длинных текстах / Хабр

После релиза нашей первой модели, расставляющей знаки препинания и большие буквы, было много пожеланий доработать её, чтобы она могла обрабатывать тексты целиком, а не отдельные предложения. Это коллективное пожелание и было осуществлено в нашей новой версии модели.

В целом, архитектура и датасеты остались прежними. Что изменилось:


  • обучение теперь производилось не на отдельных предложениях, а на нескольких последовательных предложениях (принимаем во внимание, что конструктивное ограничение модели при обучении — 512 токенов на вход, что позволяет свободно подавать ~150 слов на любом из четырех поддерживаемых языков)
  • для ускорения обучения модели сокращение словаря теперь проводилось не только на инференсе, но и на трейне, что позволило увелить размер батча

Размер модели и ее сжатие

Первая версия модели на момент релиза уже весила меньше 100 мегабайт. После этого мы выбросили еще 20 тысяч токенов (размер токена, напомним, 768) — токенов с большой буквой в начале, про которые мы забыли в тот раз, и которые модель, очевидно, не использует. Так модель еще немного ужалась до 85 мегабайт.

Как и раньше, основным секретом такого удобного размера выступает статическая и динамическая квантизация.

Что мы еще попробовали:


  1. прунинг — с помощью кода из оригинального репо базовой модели действительно удалось проанализировать головы и подрезать лишние, но это, во-первых, резко ухудшило качество модели, во-вторых, из-за особенностей архитектуры модели, головы — не единственные тяжеловесные ее части, и выигрыш по размеру составил только 10 мегабайт, что вообще не имеет смысла при ухудшении метрик;


  2. факторизацию — вывод примерно аналогичный, хоть выигрыш и составил здесь около 20 мегабайт, эмбеддинг стал работать сильно менее успешно и вероятно требовал очень длительного дообучения, что тоже выходило бы не вполне рационально.


В итоге от обеих перечисленных техник было разумнее отказаться.


Результаты

Напомним, что для этой задачи мы снимаем метрики на валидационных сабсетах наших приватных текстовых корпусов (5,000 предложений на каждый язык) и на текстах caito (20,000 случайных предложений на каждый язык). Более подробно про снятие метрик — в нашей статье про первую версию модели.

В этот раз для краткости приведем только WER (word error rate) в процентах, причем отдельно рассчитанный для пунктуации (и предсказание, и оригинал при этом приведены к строчному виду) — WER_p и для расставления заглавных букв (а здесь выбрасываем всю пунтуацию) — WER_c.

Мы посчитали метрики как для входных данных, представляющих из себя блоки из нескольких последовательных предложений, так и на отдельных предложениях, чтобы удостовериться, что новая версия модели действительно включает в себя функционал старой.

В ячейках указан WER_p / WER_c, а наивный бейзлайн состоит в постановке заглавной буквы в начале текста и точки в конце.


WER — работа модели на блоках из нескольких предложений

Домен — валидационные данные:

Языки
en de
ru
es
бейзлайн 14 / 19 13 / 41 17 / 20 10 / 16
модель 6 / 6 5 / 5 7 / 7 5 / 5

Домен — книги:

Языки
en de ru es
бейзлайн 14 / 13 15 / 26 23 / 14 13 / 8
модель 12 / 7 11 / 8 18 / 10 12 / 6

WER — работа модели отдельных предложениях

Домен — валидационные данные:

Языки
en de ru es
бейзлайн 12 / 18 10 / 33 13 / 12 8 / 11
модель 5 / 4 5 / 4 7 / 4 5 / 4

Домен — книги:

Языки
en de ru es
бейзлайн 12 / 10 12 / 22 19 / 9 15 / 7
модель 12 / 6 10 / 6 17 / 7 13 / 5

Впрочем, еще работая с текстами caito в первый раз, мы заметили, что они далеки от идеала — нередко предложения будто обрезаны или перемешаны, внутри предложения вклинивается другое, начинающееся с большой буквы, но без точки до этого, — что, конечно, на блоках предложений становится еще более заметным.

Вероятно, таковы издержки предобработки текстов книг. Тем не менее, решили уже не переходить на другие датасеты для удобства сравнения метрик — понятно, что полученные числа скорее коррелируют с реальным качеством работы модели на произвольных данных.


Примеры работы модели

Как и раньше, приведем непосредственные примеры работы модели — в этот раз поможем Агенту Смиту с пунктуацией и заглавными буквами на трех оставшихся языках:

Оригинал Модель
Why, Mr. Anderson? Why, why, why? Why do you do it? Why get up? Why keep fighting? Do you believe you’re fighting for something? For more than your survival? Can you tell me what it is? Do you even know? Is it freedom? Or truth? Perhaps peace? Could it be for love? Why Mr. Anderson, Why why why why do you do it? Why get up? Why keep fighting? Do you believe youre fighting for something for more than your survival? Can you tell me what it is? Do you even know is it freedom or truth? Perhaps peace could it be for love?
Wieso Mr. Anderson? Wieso, wieso? Wieso tun sie das? Wieso? Warum aufstehen? Warum weiterkämpfen? Glauben Sie wirklich, sie kämpfen für etwas für mehr, als ihr Überleben? Können Sie mir sagen, was es ist? Wissen sie es überhaupt? Ist es Freiheit, vielleicht Wahrheit? Vielleicht Frieden? Könnt‘ es für die Liebe sein? Wieso Mr. Anderson, Wieso wieso? Wieso tun sie das? Wieso, warum aufstehen? Warum weiterkämpfen? Glauben sie wirklich sie kämpfen für etwas für mehr als ihr überleben können sie mir sagen, was es ist, Wissen sie es überhaupt ist es freiheit, vielleicht Wahrheit vielleicht Frieden könnt es für die Liebe sein.
¿Por qué lo hace? ¿Por qué? ¿Por qué se levanta? ¿Por qué sigue luchando? ¿De verdad cree que lucha por algo además de por su propia supervivencia? ¿Querría decirme qué es, si es que acaso lo sabe? ¿Es por la libertad? ¿Por la verdad? ¿Tal vez por la paz? ¿Quizás por el amor? ¿Por qué lo hace? ¿Por qué? ¿Por qué se levanta? ¿Por qué sigue luchando de verdad? Cree que lucha por algo, además de por su propia supervivencia, querría decirme qué es si es que acaso lo sabe es por la libertad por la verdad, tal vez por la paz, quizás por el amor.

Как запустить

Модель, как и первая ее версия, выложена в репозитории проекта silero-models. А вот простой запуск модели (подробнее, как обычно, в colab):

import torch model, example_texts, languages, punct, apply_te = torch.hub.load(repo_or_dir='snakers4/silero-models', model='silero_te') input_text = input('Enter input text\n') apply_te(input_text, lan='en')

Дальнейшие планы

В перспективе есть мысли переработать и расширить тренировочный корпус текстов — например, сейчас в нем заметно не достает примеров разговорной живой речи, как в субтитрах.

Еще одна особенность модели, тоже проявившаяся именно при работе с целыми абзацами текста: из-за того, что модель предсказывает заглавные буквы и пунктуацию раздельно — на каждую подзадачу отдельная голова, — изредка эти предсказания выходят несогласованными. В процессе разработки модели мы пробовали делать общую голову для обеих задач, но она работала хуже раздельных. Опция, которую хорошо бы еще проверить, — предсказывать сначала расстановку заглавных букв (это более простая задача), а потом подавать это предсказание вместе с входной текстовой последовательностью для расстановки пунктуации.

P. S. Делитесь остроумными примерами работы модели в комментариях и голосуйте за понравившиеся! Лучшие фразы добавим как встроенные примеры в следующем релизе 😀

Проверка пунктуации и корректор бесплатно онлайн. Знаки препинания в английском языке. Автоматическая проверка пунктуации. Расстояние между запятыми

{{ info }}

Всего символов: {{ сharactersFull }} Язык: АнглийскийФранцузскийИспанскийНемецкийРусскийИтальянскийПортугальский Версия PRO:

  • {{ error }}

{{ информационная служба }}

андроид iOS API Проверка орфографии Проверка на плагиат Переписать автоматически Антипереписать Текст заголовка Текст заказа Синонимайзер (подбор синонимов) Разобрать Фонетический разбор слов Выполнить разбор слов по композиции Соедини слова одного корня Подчеркните слово Найдите главную мысль

Ключевая информация об услуге

Текстовод Инструмент пунктуации при необходимости делает заглавные буквы и добавляет запятые и другие знаки препинания на нескольких языках (выберите язык вашего текста под полем ввода).

Используйте версию PRO для работы в отдельной очереди без просмотра рекламы и повышения удобства и производительности программы.

Расположение результатов:

  • лишние знаки препинания показаны красным;
  • слова с заглавной буквы выделены оранжевым цветом;
  • желтый цвет указывает на новые знаки препинания;
  • зеленый показывает, что метки правильные.

Вы можете заменить или удалить выделенные знаки препинания, щелкнув их.

Некоторые числа

Вы зашли в программу для расстановки знаков препинания, но у вас нет учетной записи. Вам доступно 1000 символов.

Вы вошли в программу, прошли быструю регистрацию и теперь можете проверять тексты до 1500 символов.

Вы получили доступ к программе, зарегистрировались и приобрели PRO-версию. Теперь вам доступно 100 тысяч символов. Более того, вся реклама отключена, и вы можете проверять свои тексты в отдельной очереди.

Как работает программа

Введите текст, который вы хотите проверить, в поле ввода.

Если вы хотите использовать версию PRO, поставьте галочку в соответствующем поле. Язык устанавливается автоматически, но вы можете его изменить.

Нажмите «Упорядочить».

Удалить красные метки. Для этого просто нажмите на них.

Убедитесь, что желтые добавлены правильно.

Оставьте зеленые метки там, где они есть.

Обратите внимание, что программа автоматически расставляет 80% знаков препинания; вам придется разместить оставшиеся 20% вручную.

Важность знаков препинания.

Правильно расставленные знаки препинания помогут вашим читателям лучше понять написанное.

Знаки препинания помогают выделить важные детали.

Если написать текст вообще без знаков препинания, будет каша.

Паузы, эмоции, сомнения — вот краткий перечень чувств, выраженных через знаки препинания.

Бесплатное средство проверки грамматики и пунктуации и корректор

Поиск бесплатных и лучших грамматических инструментов в Интернете — непростая задача. Если кто-то очень занят и имеет огромную рабочую нагрузку, при этом вы не можете вручную проверить все грамматические ошибки в своих профессиональных электронных письмах, блогах и подписях в социальных сетях, и невозможно проверить все грамматические ошибки за один раз или быстрее скорость. Вот некоторые бесплатные средства проверки грамматики и пунктуации и корректоры, которые вы можете использовать бесплатно.

И если вы только начинаете или планируете начать свой путь в ведении блога, инструменты для проверки грамматики и пунктуации просто необходимы.

Если вы хотите узнать о лучших грамматических инструментах для исправления ваших грамматических ошибок или грамматических ошибок, мы даем вам список лучших инструментов для проверки и исправления грамматики и пунктуации, с помощью которых вы можете сэкономить время и легко исправить свои грамматические и пунктуационные ошибки. Быстрее.

Содержание

Инструменты для проверки грамматики и пунктуации.

Теперь мы представляем вам список лучших грамматических инструментов со всеми их преимуществами. Все инструменты, о которых мы говорим, бесплатны для использования, но у некоторых из них также есть премиум-версии, если вы хотите использовать расширенный вариант, вы можете купить их премиум-версию. версии.

  • Грамматика
  • Имбирь
  • Writer.com
  • Скрибенс
  • Писатель Зохо
  • Реактивный ранец
  • LanguageTool
  • Виртуальный репетитор по письму

Если вы хотите исправить свои грамматические и пунктуационные ошибки, Grammarly — лучший способ проверить свои грамматические ошибки, и вы можете использовать Grammarly для исправления грамматических ошибок, пунктуационных ошибок и многого другого.

Если вы хотите проверить 10000 слов в точное время, скопируйте все слова и вставьте их в Grammarly, и он проверит все грамматические и пунктуационные ошибки. Grammarly также показывает вам некоторые факторы содержания, такие как ясность содержания и его подача, а также правильность слов. Вы можете легко исправить свои ошибки в редакторе Grammarly, и у вас также есть некоторые настройки для форматирования текста, вы также можете добавить теги заголовков и сделать заголовки полужирным шрифтом и курсивом, и вы можете добавить другие вещи.

Если вы хотите использовать Grammarly прямо из своего браузера, вы можете добавить расширение Grammarly в свой браузер Chrome для Firefox, и оно покажет вам все грамматические ошибки красным цветом.

Бесплатные функции Платные функции
1. Улучшенная проверка орфографии Ai
2. MS Word и Google docs дружественные
3. Предлагает вам персональную структуру
113 анализ
2. Проверка на плагиат
3. Другой выбор слова
4. Расширенные и различные предложения по стилю
5. Проверка стиля

Grammarly Pricing

  • Ежемесячная подписка Grammarly стоит около 29 долларов в месяц.
  • Ежеквартальная подписка
  • Grammarly стоит 19 долларов и оплачивается одним платежом в размере 59 долларов.
  • Годовая подписка Grammarly стоит 11 долларов в месяц и оплачивается одним платежом в размере 139 долларов.

Плюсы и минусы Grammarly

Плюсы
  1. Точная онлайн-проверка орфографии
  2. Отличное письмо
  3. Отличный помощник по письму
  4. Простота использования и сокращение времени работы
Минусы
  1. Дорого для начинающих
  2. Личный словарь и справочник не годятся

Второе приложение в нашем списке для исправления ваших ошибок — Ginger. Ginger очень популярен и предлагает средство проверки орфографии и ошибок, а также предоставляет инструмент для корректуры. Grammarly больше ориентирован на грамматику и орфографию.

Джинджер идентифицирует слово и исправление, которое соответствует смыслу исходного предложения. Этот веб-сайт улучшает ваши навыки письма, а также помогает повысить вашу производительность. Вы также можете добавить расширение Ginger в свой браузер и установить приложение Ginger на свой ПК и мобильный телефон. Этот веб-сайт совместим с MS Word, IOS/Android, или вы можете использовать Ginger непосредственно с веб-сайта. Это лучший веб-сайт для проверки неправильных формулировок глаголов и наречий, а также для проверки других распространенных правил грамматики английского языка.

Бесплатные функции Платные функции
1. Лучший корректор грамматики и проверка орфографии
2. Коррекция также доступна
3. Стиль. Неограниченное количество исправлений
2. Доступны различные определения слов
3. Различные и неограниченные синонимы
4. Перефразирование предложения
5. Доступны языковые переводы

Цены на имбирь

  • Ежемесячная подписка Джинджер стоит 13 долларов в месяц.
  • Годовая подписка
  • Ginger стоит 7 долларов в месяц.
  • Подписка Ginger на 2 года стоит 6 долларов в месяц.

Плюсы и минусы имбиря

Плюсы
  1. Бесплатная версия программного обеспечения Ginger очень мощная
  2. Персональный словарь очень хорош
  3. Виртуальный репетитор по письму очень полезен для тех, кто не говорит по-английски
Минусы
  1. Из-за грамматических ошибок низкая скорость редактирования
  2. Точность не соответствует отметке
  3. Имбирь недоступен для документов Google

Writer.com — веб-сайт и приложение с самым высоким рейтингом с рейтингом 4,7 на всех платформах онлайн-загрузки. Этот сайт входит в список лучших онлайн-проверок грамматики и пунктуации. Сайт писателя — лучшее решение для исправления всех ошибок и редактирования писем, блогов и с помощью документов Google.

Этот веб-сайт использует методы искусственного интеллекта для редактирования и имеет широкий спектр взаимодействий с WordPress, Twitter, Slack и многими другими платформами.

Free Features Paid Features
1. Language checker
2. Grammar and spelling checker
3. Tense and verb analyzer
4. Proofreading available
5. Company-approved messages
1. Оценка содержания
2. Стиль содержания для разных стилей письма
3. Безопасность
4. Доступна поддержка по электронной почте
5. Конфиденциальность скрыта 

Writer.com Цены

  • Ежемесячная подписка Writer стоит около 18 долларов в месяц для команды от 1 до 5 человек
  • Годовая подписка Writer стоит около 162 долларов в год, 3 месяца бесплатно для команды от 1 до 5 человек

Плюсы и минусы Writer.

com
Плюсы
  1. Устройство для проверки высшего качества
  2. Позволяет создавать правила контента
  3. Дешевле, чем Grammarly
Минусы
  1. Не подходит для авторов-одиночек
  2. Нужно время, чтобы все узнать

Scribens входит в список лучших средств проверки грамматики, и вы можете проверять различные типы грамматических ошибок, орфографические и стилистические ошибки. Писцы утверждают, что они лучше, чем MS Word. Вы также можете изменить словарь языков. Вы можете исправить ошибки вручную или автоматически. Эти настройки сохраняются для каждого использования, и вам не нужно снова вносить изменения в настройки.

Красный цвет показывает грамматические ошибки, зеленый цвет показывает ошибки в глаголах, желтый цвет показывает различные предложения, а синий цвет показывает ошибки пунктуации. Наконец, это отличная платформа для проверки и редактирования статей вручную. Но вы не можете использовать расширенные функции, такие как проверка на плагиат и многие другие.

Бесплатные функции Платные функции
1. Проверка орфографии
2. Доступен словарь
3. Нет ограничения на количество слов
4. Удобный интерфейс
5. Расширение словарного запаса
1. Доступна проверка электронной почты
2. Доступна резервная копия текстов
3. Нет рекламы
4. Доступ к различным языкам 

Цены на Scribens

  • Ежемесячная подписка на Scribens стоит около 10 долларов в месяц
  • Ежемесячная подписка на Scribens 3 стоит около 20 долларов в месяц
  • Годовая подписка на Scribens стоит около 50 долларов в год

Zoho Writer — лучшая и очень популярная онлайн-платформа для проверки орфографических и грамматических ошибок, а также проверки стиля. Этот веб-сайт наполнен множеством превосходных функций. Автор Zoho работает над машинным обучением, они будут давать вам различные предложения, такие как предложения по содержанию, расположение глаголов и ошибки пунктуации

Помощник по письму Zoho Writer использует наречия и пассивный залог. Он идеально подходит для профессиональной работы и деловых документов.

БЕСПЛАТНЫЕ Особенности
1. Проверка различных многословных фраз
2. Различные предложения по словам
3. Проверить AI
4. Анализ читаемости
5. 5. Пратцена

Цены на Zoho Writer

Платформа Zoho Writer бесплатна. Этот веб-сайт бесплатный, вы можете использовать все функции бесплатно, и для Zoho Writer нет премиум-версии.

Если вы являетесь пользователем WordPress, вы можете использовать реактивный ранец. Jetpack — самый популярный плагин для WordPress. Он популярен из-за безопасности, оптимизации и других мощных функций.

Вы должны включить настройки реактивного ранца, перейти к опции письма и включить проверку орфографии, проверку стиля и проверку грамматики. Он автоматически покажет ваши ошибки в редакторе WordPress. Красный цвет показывает орфографические ошибки, зеленый цвет показывает грамматические ошибки, а синий цвет показывает варианты стиля.

Бесплатные функции
1. Цвета для разных ошибок
2. Доступно на разных языках английский, французский, немецкий
3. Отдельный плагин WordPress
4. Регулярные обновления 9013 0 012 903 5. Нет 6 за дополнительную плату
Стоимость реактивного ранца
Плагин

Jetpack можно использовать бесплатно, вы можете использовать его на WordPress, и вы должны включить все параметры для настройки формы.

Language Tool — это помощник, который можно использовать как альтернативу Grammarly с некоторыми дополнительными функциями. Он проверяет грамматические ошибки, стили и орфографию. Вы можете изменять и редактировать контент на разных языках, таких как английский, испанский и многие другие. Этот инструмент стоит 0 долларов за проверку 10000 слов.

Бесплатные функции Оплаченные функции
1. Простая грамматика и пунктуация
2. НЕТ ПИСЬМАЯ ПИСЬМАЯ
3, 3. ОБРАЗОВАНИЯ 9013. , Доступно в macOS
7. Расширение также доступно
1. Предлагаются исправления стиля
2. Проверяется сразу 60000 символов
3. Доступно расширение для MS word и Google docs
4. Простота использования
5. Подсказка правильного слова
6. Обнаружение неправильного номера

Цены на Language Tool

  • Ежемесячная подписка Language Tool стоит около 30 долларов в месяц.

Плюсы и минусы языкового инструмента

Плюсы
  1. Поддерживает разные языки
  2. Также имеет API
  3. GDPR также доступен
  4. Также доступна автономная версия
Минусы
  1. Дорогие вопросы
  2. Средство проверки на плагиат недоступно
  3. Не такой точный, как другие инструменты

Virtual Writing Tutor — это бесплатная и простая в использовании онлайн-платформа. Вы можете делать несколько вещей, например создавать обложку письма и проверять ошибки в эссе.