Поиск орфографических ошибок: Проверка орфографии и грамматики онлайн, проверка на ошибки правописания в тексте

Содержание

Проверка орфографии

Проверку орфографии всего текста можно выполнять по мере появления его на чертеже. Кроме того, можно указать используемый словарь для конкретного языка, а также настроить несколько пользовательских словарей проверки орфографии и работать с ними.

Можно проверить орфографию всех текстовых объектов чертежа, включая:

  • Однострочный и многострочный текст
  • Текст размера
  • Текст мультивыноски
  • Текст атрибутов блоков
  • Текст внутри внешних ссылок

В режиме проверки орфографии на всем чертеже или в указанных пользователем областях текста чертежа выполняется поиск слов с ошибками. При обнаружении слова с ошибкой это слово выделяется подсветкой, а масштаб области рисования увеличивается для удобства чтения этого слова.

Проверка орфографии при вводе

По умолчанию проверка орфографии выполняется при вводе текста во встроенном текстовом редакторе. Каждое введенное слово проверяется на наличие орфографических ошибок, как только оно полностью введено. Слово считается полностью введенным, когда выполняется одно из следующих действий:

  • Нажатие клавиши Пробел или ENTER
  • Перемещение курсора в другое положение внутри контекстного редактора.

Слова с грамматическими ошибками подчеркиваются красной пунктирной линией

Любое слово, не найденное в текущем словаре, подчеркивается как содержащее грамматическую ошибку. При щелчке на подчеркнутом слове правой кнопкой мыши отображаются варианты правильного написания.

Смена словарей

В целях проверки орфографии предусмотрено несколько главных словарей для различных языков. Можно создать любое количество вспомогательных словарей и переключаться между ними по мере необходимости.

В ходе орфографической проверки слова надписей на чертеже сравниваются со словами, хранящимися в текущем основном словаре. Все добавляемые пользователем слова сохраняются в том пользовательском словаре, который является текущим на момент проверки орфографии. Например, можно занести в словарь имена собственные, которые в дальнейшем не будут определяться как написанные с ошибкой.

Примечание

По умолчанию в AutoCAD содержится один образец пользовательского словаря с такими словами, как «AutoCAD» и «Autodesk».

Для проверки орфографии на другом языке следует перейти к другому главному словарю.

Для перехода к другому словарю можно воспользоваться диалоговым окном «Словари», а также задать имя словаря с помощью системной переменной DCTMAIN или DCTCUST. Системная переменная DCTMAIN определяет список главных словарей.

Примечание

В имени файла пользовательского словаря не допускается употребление символов, не соответствующих текущей кодовой странице. Если при работе с пользовательским словарем применяются различные наборы национальных параметров или языки, допускается употребление только символов ASCII.

Создание и редактирование вспомогательных словарей

Пользовательский словарь представляет собой список слов, не вошедших в главный словарь. Файлам, содержащим такие словари, присваивается имя с расширением .cus. С помощью любого текстового редактора ASCII можно добавлять и удалять слова, а также объединять различные словари.


Исследование. Как отсутствие автозаполнения для запросов с ошибками может затруднить поиск продуктов

Во время крупномасштабного тестирования десктопных и мобильных сайтов, а также мобильных приложений почти все пользователи в какой-то момент поиска полагались на предложения автозаполнения.

Однако эти предложения часто не срабатывали, если запросы содержали даже малейшую орфографическую ошибку (например, при поиске «

furnture» вместо «furniture»).

Поскольку автозаполнение играет ключевую роль в раннем поисковом взаимодействии, неожиданные предложения из-за незначительных опечаток могут заставить пользователей изменить стратегию поиска товаров (например, по категориям сайта или переделать запрос).

В худшем случае, если автозаполнение не работает с незначительными опечатками, в дальнейшем это может привести к отказу от использования сайта, если альтернативные стратегии поиска товаров быстро не приведут к релевантным результатам.

Несмотря на серьезность проблемы, наш тест показывает, что 69% сайтов не поддерживают варианты автозаполнения для запросов с незначительными ошибками.

В этой статье мы рассмотрим:

  • как отсутствие автозаполнения в запросах с ошибками может помешать поиску товаров
  • 2 стратегии решения этой проблемы.

Как отсутствие автозаполнения в запросах с ошибками может затруднить поиск продуктов

На сайте Staples отсутствовала поддержка явно неправильно написанного термина («ergomic»), и предложения автозаполнения исчезали после обнаружения опечатки. Когда запросы пользователей с явными опечатками не получают предложений, некоторые пользователи будут озадачены – либо они не осознают, что допустили опечатку, либо не хотят тратить время на ее исправление.

Во время тестирования запросы пользователей с ошибками часто получали

нерелевантные предложения автозаполнения или предложения, которые исчезали после обнаружения ошибки системой.

Это сигнализировало многим пользователям, что их запросы вряд ли дадут желаемые результаты.

Во время тестирования пользователи обычно реагировали одним из четырех различных способов (в порядке возрастания серьезности):

  1. Обращали внимание на ошибку и быстро исправляли ее (минимальное нарушение процесса поиска продукта)
  2. Обращали внимание на ошибку и тратили не менее 30 секунд, пытаясь ее исправить (более существенное нарушение процесса поиска продукта)
  3. Быстро приходили к выводу, что поиск на сайте плохо реализован, и переключались на поиск с помощью навигации по категориям (с разной степенью успеха).
  4. Быстро приходили к выводу, что поиск на сайте плохо реализован, и покидали его («Вероятно, у них нет «эргономичных офисных кресел»).

Пытаясь найти рюкзаки на сайте Herschel, пользователь неправильно ввел запрос, пропустив букву, и предложения автозаполнения, которые он видел ранее, исчезли (первое изображение). Он удалил символы пока не смог вставить пропущенную букву «p». После исправления опечатки появились релевантные предложения (второе изображение). Автозаполнение должно разумно интерпретировать такие очевидные орфографические ошибки, особенно на таком сайте, как Herschel, где большая часть каталога продукции – это рюкзаки. Неспособность автозаполнения адекватно обрабатывать орфографические ошибки усложняет поиск продукта или списка продуктов – особенно на мобильных устройствах, где ввод текста сложен в целом, не говоря уже о редактировании набранного текста

Хотя используемые обходные пути для групп 1, 3 и 4, возможно, не требуют пояснений, поведение 2-й группы пользователей было особенно интересным.

Эта группа была сосредоточена на использовании инструмента автозаполнения для поиска соответствующего списка продуктов (или отдельных товаров).

Эти пользователи, прежде чем продолжить поиск, часто останавливались и редактировали текст своего запроса только для того, чтобы автозаполнение

предложило «что-то» релевантное.

Действительно, многие не решались отправить запрос без проверки на совпадение с предложениями автозаполнения, в результате чего они временно «застревали» в поле поиска, внося исправления.

Более того, проблема оказалась более серьезной для участников теста на мобильных устройствах, поскольку на мобильных клавиатурах сложнее не только набирать, но и редактировать текст.

Пользователь Target пытался найти увлажняющие средства для лица и набрал название бренда с опечаткой («ceave»), он пропустил один символ. После просмотра несвязанных предложений (первое изображение), он удалил последние три символа, чтобы вставить букву «r» в «CeraVe», и тогда он получил новые актуальные предложения (второе изображение). Многие пользователи рассматривают автозаполнение, как способ заранее оценить качество результатов, из-за чего некоторые тратят дополнительное время на исправление опечаток перед отправкой запроса

В отличие от пользователей, использующих клавиатуру и мышь, мобильные пользователи, как было замечено, удаляли символы один за другим или пытались установить курсор точно в середине слова с ошибкой – часто вынуждены повторять этот процесс несколько раз после того, как первые попытки потерпели неудачу.

Необходимость неоднократно исправлять текст поискового запроса приводит к

пустой трате времени и усилий – времени, которое вместо этого можно было бы потратить на изучение интересующих продуктов.

Наконец, важно отметить, что многие сайты исправляют орфографические ошибки на страницах результатов (в том числе на страницах «По вашему запросу результатов не найдено»).

Хотя эти исправления орфографии важны для тех, кто попадает на страницу результатов, пользователи, решившие несколько раз пересмотреть свой запрос в поле поиска, не отправляя его, или пользователи, отказавшиеся от поиска из-за плохой поддержки орфографических ошибок в автозаполнении, увидят их слишком поздно.

Таким образом, эти пользователи не получат выгоды от исправления орфографии на странице результатов – они не попадут на нее, и, соответственно, не воспользуются этой функцией.

2 стратегии улучшения обработки орфографических ошибок автозаполнением

На сайте Wayfair поисковый запрос «area rugs», был набран с опечаткой («area ruf»), но, тем не менее, автозаполнение предлагает соответствующие варианты запроса с исправленным. Сопоставление очевидных орфографических ошибок с исправленными предложениями может позволить пользователям переходить к продуктам без дополнительных усилий на проверку запросов.

Пользователь сайта Overstock набрал запрос «backack» и пропустил букву «p» – та же ошибка, что сделал другой пользователь на сайте Herschel – но здесь Overstock поддерживает, вероятно, довольно распространенную опечатку, поэтому пользователь смог отправить запрос нажав на первое предложение автозаполнения. Предвидение распространенных опечаток в автозаполнении и предложение правильного написания позволяет пользователям плавно переходить к изучению продукта в один тап.

Предложения автозаполнения в приложении Walmart оказались полезными для 2 пользователей во время тестирования, поскольку автозаполнение хорошо справлялось с опечаткой «shekv» (первое изображение) и «lightsand» (второе изображение), показав предложения, соответствующие намерениям пользователей

Поскольку орфографические ошибки в поисковых запросах случаются довольно часто, релевантность автозаполнения можно повысить, распространенные ошибки с предложениями автозаполнения.

Для этого есть два основных способа:

  1. Решения для проверки орфографии: Большинство существующих решений для проверки орфографии находятся в свободном доступе онлайн. Это означает, что обнаружение распространенных орфографических ошибок должно быть относительно дешевым. Однако, в зависимости от поисковой системы и реализации автозаполнения, может оказаться невозможным интегрировать готовое решение. Кроме того, может быть трудно обнаружить неправильное написание торговых марок или узкоспециализированных продуктов.
  2. Сопоставление вручную: в зависимости от поисковой системы и реализации автозаполнения тщательный мониторинг логов запросов автозаполнения и логов поиска должен пролить свет на запросы с ошибками. Это может быть хорошей отправной точкой для анализа и определения приоритетов по улучшению правописания вариантов автозаполнения.

Помогите пользователям добраться до релевантных списков продуктов

На сайте Lowe’s запрос с одним пропущенным символом («washig machine») перестает отображать какие-либо предложения автозаполнения, что не дает пользователям каких-либо гарантий того, что поиск может быть успешным

Тот же запрос с ошибкой на сайте Home Depot для «washig machine» предлагает несколько исправленных вариантов автозаполнения, обеспечивая четкий путь к результатам поиска, а также подтверждая потенциал запроса для получения релевантных результатов. Теперь пользователи могут сосредоточиться на изучении продуктов, а не возиться с функцией автозаполнения

Автозаполнение часто является важной функцией, на которую сильно полагаются пользователи, особенно когда они впервые начинают изучать сайт.

Действительно, предложения автозаполнения могут вести пользователей непосредственно к спискам релевантных продуктов – и, в конечном итоге, к продукту, который они хотели бы приобрести.

Тем не менее, хрупкие функции автозаполнения, которые быстро перестают работать при вводе очевидных орфографических ошибок, отвлекают пользователей во время тестирования, и эта полезная функция превращается в препятствие при поиске подходящих продуктов.

Чтобы функция автозаполнения могла обрабатывать простые орфографические ошибки, важно сопоставить их с правильно написанными аналогами, используя готовое решение, сопоставление вручную или их комбинацию.

Тем не менее, несмотря на важность наличия высокопроизводительной функции автозаполнения, 69% сайтов не предлагают релевантных предложений для запросов с ошибками, в результате чего некоторые пользователи отказываются использовать поиск.


Перевод статьи baymard.com

Новая тайная спецслужба в России ведет поиск орфографических ошибок

Новая тайная российская спецслужба заставит содрогнуться малограмотных людей. Энтузиасты организовали орфографическую полицию.

Орфографическая ошибка, увековеченная в камне в Москве на Поклонной горе, заставила защитников великого и могучего объявить войну публичной безграмотности.

Они называют себя орфографической полицией, правда, тайной. Волонтеры решили стать на страже правил русского языка. Группа студентов не просто гуляет по улицам, а высматривает и исправляет ошибки на рекламных плакатах, в объявлениях и даже на вывесках исторических зданий.

«Заметили ошибку во Владимире, где «великомученик» с двумя «н» было написано. Это при помощи администрации города Владимир мы исправили. То есть власть на это реагирует», — рассказывает волонтер движения «Тайная орфографическая полиция» Павел.

За несколько месяцев удалось провести работу почти над 270 ошибками. Более половины — уже исправлены. Остальные попали на страницу в социальную сеть в виде фотоотчета. Не всегда это просто опечатки, бывают случаи наглядного орфографического беспредела. Например, пишут в словосочетании «по областям» — букву «о», вместо «а». Или слово «сооружен» через «о». А вот реальная табличка на памятнике архитектуры в Санкт-Петербурге — культурной столице. И здесь опять ошибка вышла.

Профессиональные филологи утверждают: мозг зрительно запоминает образ слова. И если постоянно контролировать себя не только при заполнении документов или других ценных бумаг, а еще и в Интернете, то количество ошибок станет заметно меньше.

Чтобы ляпы окончательно не заляпали русский язык, в Новосибирске несколько лет назад решили провести грамматический флешмоб. Теперь это ежегодная акция – «Тотальный диктант». Если еще 10 лет назад участвовать в ней согласились всего 150 человек. То в этом году количество желающих проверить свои знания перевалило за отметку в 60 тысяч.

«Проект продолжает существовать. В этом году у нас на площадках работали 7000 человек на волонтерских началах», — рассказывает руководитель проекта «Тотальный диктант» Ольга Ребковец.

А привлечь внимание организаторы решили разнообразными, как они называют, роликами-вирусами, где, например, составляют рейтинг слов, в которых люди постоянно делают ошибки.

Медик по профессии, а в душе филолог, Елена Зеленская, «Тотальный диктант» пишет уже в 11-й раз и с гордостью носит значки акций, проходивших в разные годы. Рассказывает, впервые приняла участие в диктанте на первом курсе университета. Теперь это для нее ежегодная грамматическая традиция. 

«Для меня это своего рода интеллектуальная игра, как Олимпиада. Для меня это не менее важно, чем Олимпиада в Сочи, например», — говорит она.

350 городов, 45 стран. Единый день тотального контроля грамотности. Результаты уже обнародованы. О двоечниках не говорят. Те, кто написал диктант плохо, сами это поймут и, возможно, все же откроют учебники и словари, чтобы повторить школьную программу.

НОУ ИНТУИТ | Лекция | Проверка правописания и исправление текста

Аннотация: Изучив эту лекцию, вы сможете: исправлять текст в процессе ввода, проверять орфографию и стиль презентации.

Исправление текста в процессе печати

При вводе текста в презентацию можно заметить, как сделанные опечатки, автоматически исправляются. Это осуществляется с помощью функций Автозамена (AutoCorrect), которая исправляет типичные опечатки, в том числе неправильное употребление строчных или прописных букв (например, употребление строчной буквы в начале предложения). Функция автозамены поддерживает список элементов, каждый из которых содержит два значения: ошибочное и правильное. Если вы постоянно делаете опечатку в каком-либо слове, можно создать для него элемент автозамены и добавить его в список. Тогда слово с ошибкой будет автоматически исправляться, как только вы введете после него пробел или знак препинания. Помимо исправления опечаток, можно настроить функцию автозамены на распознавание сокращений, что позволяет автоматизировать ввод часто используемых фрагментов текста. Так, например, можно создать элемент автозамены, содержащий аббревиатуру вашей фирмы и ее полное название. Тогда каждый раз при вводе аббревиатуры функция автозамены будет заменять ее названием фирмы, избавив вас от необходимости вводить его полностью.

Если указать на слово, измененное функцией автозамены, под его первой буквой появится синий квадратик. Если указать на квадратик, появится кнопка Параметры автозамены (AutoCorrect Options), позволяющая выполнить следующие действия: отменить конкретную замену; отменить автоматическое исправление данного фрагмента текста; открыть диалоговое окно Автозамена (AutoCorrect) и изменить параметры автозамены. При вводе текста в рамку заполнителя PowerPoint использует функцию Автоподбора ширины (AutoFit), которая при необходимости изменяет размер текста таким образом, чтобы он вписался в рамку заполнителя. Кнопка Параметры автоподбора ширины (AutoFit Options), которая появляется при этом, позволяет управлять процессом подгонки текста. Если щелкнуть на стрелке кнопки, появится меню команд. Можно, например, отменить подгонку текста в данном случае, оставив неизменными общие установки функции Параметры автоподбора ширины (AutoFit), или отобразить диалоговое окно Автозамена (AutoCorrect) и изменить установки.

CorrectText

В этом упражнении вы добавите элемент автозамены, воспользуетесь функцией Автозамена (AutoCorrect), чтобы исправить опечатку, а затем измените формат текстового поля с помощью функции Параметры автоподбора ширины (AutoFit).

  1. На панели инструментов Стандартная щелкните на кнопке Открыть (Open). Появится диалоговое окно Открытие документа (Open).
  2. Перейдите к папке Office XP SBS, щелкните дважды на папке PowerPoint, щелкните дважды на папке Chap15, а затем щелкните дважды на файле CorrectText. Откроется презентация CorrectText, отображающая слайд 1 в обычном режиме.
  3. В меню Сервис (Tools) щелкните на команде Параметры автозамены (AutoCorrect Options). Появится диалоговое окно Автозамена (AutoCorrect).
  4. На вкладке Автозамена (AutoCorrect) щелкните в поле Заменять (Replace) и введите сылки. Это опечатка, которую можно допустить при вводе слова «ссылки».
  5. Нажмите на клавишу (Tab), введите ссылки, а затем щелкните на кнопке Add (Добавить). Теперь, если вы случайно напечатаете «сылки» вместо «ссылки», PowerPoint исправит ошибку.
  6. Щелкните на кнопке ОК.
  7. На панели Слайд (Slide) перетащите бегунок, чтобы отобразить слайд 5.
  8. Щелкните в пустой области после слова «Интернет», нажмите на клавишу (Spacebar) и введите сылки.
  9. Нажмите на клавишу (Spacebar). PowerPoint заменит слово «сылки» на «ссылки».
  10. Укажите на синий квадратик под словом «ссылки», чтобы отобразить кнопку Параметры автозамены (AutoCorrect Options), а затем щелкните на стрелке, изображенной на кнопке.
  11. Щелкните в пустой области слайда, чтобы закрыть меню Параметры автозамены (AutoCorrect Options).
  12. На панели Слайд (Slide) перетащите бегунок, чтобы отобразить слайд 7.
  13. Щелкните справа от слова «заготовки» в последней строке текста и нажмите (Enter).
  14. Введите Создание лужайки или газона. Размер текста автоматически изменится, чтобы вписаться в текстовый объект. Слева от рамки объекта появится кнопка Параметры автоподбора ширины (AutoFit Options).
  15. Щелкните на стрелке кнопки Параметры автоподбора ширины (AutoFit Options).
  16. Щелкните на команде Преобразовать в макет с двумя столбцами (Change to Two-Column Layout). На слайде появится еще один маркированный список.
  17. В список, расположенный справа, введите Установка разбрызгивателей.
  18. Щелкните в пустой области слайда, чтобы отменить выделение текстового объекта.
  19. На панели инструментов Стандартная щелкните на кнопке Сохранить (Save), чтобы сохранить презентацию.
  20. В окне презентации щелкните на кнопке Закрыть (Close). Презентация CorrectText закроется.

Лабораторная работа 4

 

Лабораторно-практическая работа №3
MicrosoftWord. 
«Создание и редактирование текстового документа»

Выполнив данную практическую работу, вы научитесь:

§  Набирать текст с клавиатуры по образцу;

§  Приемам ввода русских и английских слов, числовой и символьной информации;

§  Основным операциям редактирования: копирование, вставка, удаление, перемещение;

§  Приемам быстрого форматирования.

Технология выполнения работы:

1.     Запустите Word, известным вам способом.

2.     Наберите следующий текст:

3.     Обратите внимание, что некоторые слова в тексте подчеркнуты красной волнистой линией или зеленой волнистой линией. Значит Ваш Word настроен на автоматическую проверку орфографии и грамматики. Красная линия – орфографическая ошибка. Щелкаем правой кнопкой по подчеркнутому слову. Встроенный словарь предлагает слова для замены, вы выбираете слово из списка, если же слово набрано верно, и в этом уверены, можете его Добавить в словарь. Если сомневаетесь нажмите Пропустить все.

 Системы проверки правописания, используемые в большинстве современных текстовых редакторов, позволяют выявлять значительную часть допущенных пользователем опечаток и орфографических ошибок. Принцип действия типичной системы проверки правописания следующий: во встроенном словаре системы содержится большой набор слов анализируемого языка в различных грамматических формах (время, число и т.д.), система пытается найти  проверяемое слово в этом словаре. Если слово найдено, то оно считается правильно написанным. Если слово не найдено в словаре, но есть похожие слова, то выдается сообщение об ошибке и предлагаются возможные варианты замены. Если ничего похожего не найдено, то система предлагает исправить слово или занести его в словарь. Конечно, принцип автоматизированной проверки орфографии здесь изложен весьма в упрощенной форме, но суть его именно такова. При проверке правописания слова с ошибками были подчеркнуты красной линией:

Метод проверки орфографии по словарю не позволяет выявить случаи, когда ошибка допущена таким образом, что получившееся слово есть в словаре. Часто такие ошибки легко заметны человеку, но совершенно скрыты от программы.

Вот примеры таких фраз: Иван Петрович шлет Вам по клон. (Имелось в виду, конечно, поклон). Я не нашел нежный файл. (Понятно, что надо было нужный)

Существуют более интеллектуальные системы проверки правописания, позволяющие выявлять ошибки в согласовании форм слов и расстановке знаков препинания (то есть в грамматике и пунктуации). В них хранится набор соответствующих правил, записанных в формальном виде. Такая система смогла бы обратить внимание пользователя на подозрительное место в фразе про Ивана Петровича, предположив, что слово «клон» употреблено не в том падеже (вместо «клону») или пропущено связующее слово между ним и предлогом «по» (например, шлет Вам по почте клон). В любом случае, пользователь обратит внимание на эту фразу и исправит ее. В случае с нежным файлом бессильны даже системы с функцией проверки грамматики, так как анализ смысла текста им не под силу.

Подведем итог. Системы проверки правописания обнаруживают значительное количество ошибок и опечаток. Чем больше словарь системы, чем больше правил и алгоритмов проверки в ней заложено, тем больше процент обнаруживаемых ей ошибок. Но ни одна система проверки орфографии не может гарантировать полного отсутствия ошибок и опечаток в документе.

4.     Сохраните файл как «лаб3» Мои документы Папка (с номером вашей группы)подгруппаваша папкалабораторные работылаб3

5.     Отредактируйте созданный вами документ:

√    «Интернет» замените на «Internet»;
√    «ARPA» замените на «AdvancedResearchProjectsAgency»;
√    Слово «пять» замените на «5»;
√    Включите опцию Непечатаемые знаки и определите, правильно ли был произведен вами набор текста? 
√    Разбейте текст на три абзаца: 1-й абзац – заголовок, 2-й абзац заканчивается словами: «…друг с другом.»;
√    Выделите заголовок «XX век» и замените шрифт на полужирный;
√    Выделите в тексте слова на английском языке и замените шрифт на полужирный. Возможно выполнить это задание последовательно выделяя каждое слова и видоизменять его начертание. Есть более эффективный способ: удерживая нажатой клавишу Ctrl, щелкаем каждое необходимо слово двойным щелчком левой кнопки мыши и присваиваем необходимое начертание;
√    Расположите текст по ширине страницы, используя панель Выравнивание;
Внимание: При выравнивании по ширине могут возникать слишком большие интервалы между словами. Чтобы этого избежать, необходимо установить переносы в словах. Если же в начале работы с документом задать функцию автопереноса, то этот автоматизируется.

√    В нашем примере переносы отсутствуют. Сервис – Язык – Расстановка переносов – Снимите все флажки.
√    Ниже, через 1 пустую строку, укажите свою фамилию и имя.

6.     Сохраните отредактированный вами документ:

Если вы его хотите сохранить под заранее созданным именем, то достаточно нажать кнопку Сохранить  или выполнить команду Файл – Сохранить. Если же вы хотите сохранить изменения в документе как новый файл, то необходимо это сделать, задав новое имя документу (см. п.4).

 Секреты редактирования словаря

В Word, да и в других офисных программах для проверки правописания используется как минимум два словаря. Первый – это стандартный словарь какого либо языка, а вот второй словарь создает и пополняет непосредственно сам пользователь.
В этот пользовательский словарь и входят те слова которые мы включаем выбрав в настройках орфографии пункт «Добавить в словарь». В него то порой и закрадываются ошибки, добавлено слово с ошибкой и так далее.
Что бы исправить эту ситуацию заходим в «Сервис – Параметры», открываем вкладку «Правописание», далее нажимаем на кнопку словари. В появившемся списке словарей (как правило, он один единственный) выделяем его и жмем на «изменить».
После этого видим список со всеми добавленными в словарь словами. Выбираем нужное и удаляем.

Решение проблем с проверкой орфографии в Word

Если при создании новых документов в редакторе Word 2003 не срабатывает автоматическая проверка орфографии вводимого текста, значит, нужно действовать согласно инструкции, изложенной ниже.

Сперва придется открыть в Word  шаблон Normal.dot, обычно хранящийся в папке C:Documents andSettings Имя пользователя ApplicationDataMicrosoft Шаблоны (для русифицированной версии MicrosoftOffice) или в директории C:Documents andSettingsИмя пользователя ApplicationDataMicrosoftTemplates (для англоязычной редакции офисного пакета). Важный момент: открытие шаблона нужно производить не двойным щелчком по файлу, а путем его перетаскивания мышью в окно программы либо посредством использования меню редактора «Файл -> Открыть».

Когда шаблон откроется, в настройках редактора, отвечающих за автоматический анализ текста документа на предмет орфографических ошибок, следует повторно выставить соответствующие галочки и затем сохранить внесенные в Normal.dot правки. Если все действия были выполнены правильно, то после перезапуска Word проблем с проверкой орфографии более возникать не должно.

 

Часто задаваемый вопрос о нашей онлайн-проверке орфографии

Да, сервис полностью бесплатный. Действительно!

 

Мы очень хорошо понимаем озабоченность по поводу вашей конфиденциальности. Мы предпринимаем несколько шагов для защиты ваших файлов и конфиденциальности.

  • Мы не передаем ваши файлы третьим лицам.
  • Авторские права на файлы сохраняются за вами. Нам разрешено использовать ваш файл только для предложений по его исправлению.
  • Содержимое файлов не отслеживается, кроме как с разрешения автора.
  • Все загружаемые вами файлы автоматически удаляются через 48 часов.
  • Когда вы загружаете файл, создается и отправляется вам уникальная ссылка для скачивания, которую невозможно угадать. Доступ к вашему файлу возможен только по этой ссылке.


Если у вас есть дополнительные вопросы, касающиеся вашей конфиденциальности, пожалуйста, не стесняйтесь обращаться к нам.

Нет, максимальная длина текста, который вы можете загрузить для проверки на наличие ошибок и ошибок в отношении орфографии и грамматики, не ограничена.

Однако проверка более длинных текстов, особенно если вы загружаете их в виде документа Microsoft Word или PDF, займет больше времени, чем проверка коротких фрагментов текста.

Абсолютно нет!

Все, что мы делаем с вашим текстом, это проверяем его на наличие грамматических, орфографических и пунктуационных ошибок.

Мы действительно , а не намерены иметь законные права на ваши тексты или файлы, и мы не пересылаем их третьим лицам. Другими словами, вы по-прежнему являетесь владельцем своей работы, которую вы загрузили или ввели для проверки орфографии.

Кроме того, есть несколько способов сохранить конфиденциальность проверенных текстов и загруженных документов.

Чтобы убедиться, что ни одна поисковая система не сможет проиндексировать вашу работу, мы используем специальный метатег:

  

Ваш контент никогда не будет отображаться в Google, Bing или любой другой поисковой системе.Вам не нужно беспокоиться о дублирующемся контенте или о том, что другие люди найдут ваши личные письма или работу.

После создания бесплатной учетной записи на Online-Spellcheck.com вы можете получить доступ к своему индивидуальному словарю через свой профиль. Этот словарь сохраняет слова, которые вы часто используете в своих текстах, но которые обычно рассматриваются как ошибки, например. названия, аббревиатуры или технические термины.Сохранение этих слов в вашем словаре не пометит их как неправильные при проверке будущих текстов (если вы вошли в свою учетную запись).

Для получения дополнительной информации о том, как обучить вас Spellchecker, ознакомьтесь с соответствующей статьей в нашем блоге.

Online-Spellcheck.com – это только онлайн-сервис.

Чтобы воспользоваться нашим сервисом, все, что вам нужно, это действующее подключение к Интернету.Нет необходимости загружать какое-либо программное обеспечение, чтобы использовать эту службу проверки орфографии.

Если вы вошли в систему, используя неправильный адрес электронной почты, или если вы хотите изменить адрес электронной почты, который вы использовали для регистрации на нашем сайте, отправьте электронное письмо в службу поддержки. Мы изменим адрес электронной почты при регистрации на тот, который вы предпочитаете.

Если вы хотите отменить подписку с онлайн-проверкой правописания.com, обратитесь в службу поддержки. Мы удаляем вашу учетную запись в любое время без каких-либо дополнительных вопросов.

Азбука орфографии в поиске Google

B для более эффективных моделей для решения неизвестных

Несмотря на то, насколько распространены наши ошибки, многие запросы с ошибками появляются только один раз, что делает правописание уникальной проблемой для Поиска.И независимо от того, какая орфографическая ошибка была допущена, наши системы найдут способы понять, что вы имеете в виду. Раньше, чтобы решить эти невиданные ранее орфографические ошибки, наши системы черпали вдохновение в дизайне клавиатуры. Например, если вы попытались ввести «u», но допустили ошибку, наши системы узнали, что вы с большей вероятностью набрали «y», чем «z», потому что «y» находится рядом с «u» на стандартной английской клавиатуре. Наши модели применяли общую концепцию ко всем новым орфографическим ошибкам, просматривая близлежащие замены букв, пока не был идентифицирован популярный термин-заменитель.Хотя это могло показаться очевидным способом устранения оплошностей, этот общий подход эффективно исправлял все виды орфографических ошибок, включая концептуальные.

Благодаря достижениям в области глубокого обучения у нас теперь есть лучший способ понимать правописание. В конце прошлого года мы анонсировали новый алгоритм правописания, использующий глубокую нейронную сеть, которая лучше моделирует и учится на менее распространенных и уникальных орфографических ошибках. Это усовершенствование позволяет нам запускать модель с более чем 680 миллионами параметров менее чем за две миллисекунды — очень большую модель, которая работает быстрее, чем взмах крыльев колибри, — чтобы люди могли выполнять поиск, не отвлекаясь на собственные орфографические ошибки.

И как наши системы узнают, что кто-то ищет, независимо от типа ошибки и если мы никогда раньше не видели такой орфографической ошибки? Здесь играет роль контекст. Наши модели понимания естественного языка рассматривают поиск в контексте, например, отношение слов и букв в запросе друг к другу. Наши системы начинают с расшифровки или попытки понять весь ваш поисковый запрос. Оттуда мы генерируем лучшие замены слов с ошибками в запросе на основе нашего общего понимания того, что вы ищете.Например, по другим словам в запросе «средняя стоимость дома» мы можем сказать, что вы, вероятно, ищете информацию о «средней стоимости дома».

C для исправления вашего запроса — хорошо

Вы можете увидеть, что эти технологии проверки правописания появляются в поиске Google по-разному. Когда мы будем уверены, что знаем, что вы ищете, мы можем вежливо спросить: «Вы имели в виду…» и показать альтернативу, которую, как мы думаем, вы намеревались искать. Когда мы будем полностью уверены, что правильно определили вашу опечатку, мы автоматически покажем результаты для того, что, по нашему мнению, вы ищете, но мы всегда сообщим вам об этом и предоставим способ вернуться к исходному тексту. написание.И независимо от того, примете ли вы наше предложение или нет, мы постоянно учимся и совершенствуем наши системы на основе этих отзывов, чтобы сделать Поиск более полезным.

Независимо от того, являетесь ли вы чемпионом по правописанию или не можете понять «I перед E, кроме как после C», мы всегда будем работать над улучшением правописания, чтобы вы могли продолжать поиск.

15 лучших средств проверки орфографии веб-сайтов 2022

Новые посетители могут покинуть ваш сайт, если увидят серию орфографических ошибок, что может увеличить показатель отказов.Вот почему были разработаны средства проверки орфографии веб-сайтов, которые помогут вам выявить и исправить эти ошибки, которые вы могли пропустить.

Некоторые средства проверки орфографии не ограничиваются проверкой орфографии, а проверяют грамматику, пунктуацию и неработающие ссылки, тем самым предлагая другие преимущества SEO.

Без лишних слов позвольте мне показать вам 15 лучших средств проверки орфографии для веб-сайтов, которые настоятельно рекомендуются.

Лучшие средства проверки орфографии веб-сайтов

1. Типозавр

Typosaurus — это бесплатная и полностью отзывчивая программа для проверки орфографии, которая позволяет с легкостью проверять правописание на веб-сайте.Это инструмент, который сканирует веб-сайты и находит досадные орфографические ошибки, которые вы, возможно, пропустили.

Он был создан, чтобы помочь вам сэкономить время, так как вам не нужно копировать тексты и вставлять их на сайт. Все, что вам нужно сделать, это скопировать ссылку на веб-сайт, который вы хотите проверить, вставить ее в белое поле сканирования на онлайн-сайте Typosaurus, а затем нажать «Сканировать».

Вам будут представлены результаты и предложения по обнаруженным ошибкам, если они будут обнаружены, поэтому вы можете продолжить и исправить ошибки.С Typosaurus вы можете быть уверены, что получите результаты орфографических ошибок за считанные секунды.

Вы можете вставить до 10 URL-адресов в белое поле для одновременного сканирования. Когда вы сканируете несколько веб-сайтов одновременно, вы можете скрыть страницы без ошибок и просмотреть только страницы с орфографическими ошибками.

2. Бесплатная онлайн-проверка орфографии по IMN

У ниндзя интернет-маркетинга есть бесплатный онлайн-инструмент проверки орфографии, который позволяет вам проверять наличие орфографических ошибок на вашем веб-сайте, в документах и ​​вставляемом тексте.

Как и алгоритмы Google PageRank, ниндзя интернет-маркетинга рассматривают типографские ошибки как «плохой контент», и именно поэтому он предоставляет решение для проверки орфографии, которое требует от вас только копирования и вставки.

Однако он не проверяет слова, содержащие заглавные буквы, цифры или специальные символы. Вы можете проверить правописание тремя различными способами: вставив блок текстов, загрузив документ и вставив URL-адрес веб-сайта или веб-страницы.

На веб-сайте вы можете выбрать, что вы хотите проверить (веб-сайт, вставленный текст или документ), щелкнув кружок перед параметрами, а затем вставив или загрузив то, что вы хотите проверить, в поле ниже, а затем нажмите «Проверка ниндзя», чтобы получить результаты.

Полученный результат поможет вам улучшить качество вашего контента. Список слов с ошибками, которые находит инструмент, можно просмотреть, чтобы увидеть, действительно ли они написаны с ошибками или это просто уникальные термины или имена, характерные для вашего веб-сайта.

Этот бесплатный онлайн-инструмент проверки орфографии может проверить минимум одну веб-страницу и максимум 1000 веб-страниц. К сожалению, этот инструмент проверки орфографии веб-сайта ограничивает каждого пользователя до пяти запусков в день.

Другие рекомендуемые инструменты IMN включают средство проверки неработающих ссылок, инструмент перенаправления и обхода сайта, анализатор изображений и ссылок, инструмент оптимизации на странице и инструмент изменения размера изображений в социальных сетях.

3. Грамматика и проверка орфографии веб-сайта

Как следует из названия, Grammar помогает вам проверить грамматику вашего веб-сайта, а также его правописание. Это абсолютно бесплатно и не требует регистрации.

Чтобы проверить наличие грамматических и орфографических ошибок на вашем веб-сайте, все, что вам нужно сделать, это ввести URL-адрес в поле ввода, выбрать язык, на котором написан веб-сайт, и нажать «Проверить».

Grammar позволяет проверять веб-сайты на 38 различных языках, включая американский английский, британский английский, французский, испанский, китайский, итальянский и голландский.

Еще один раздел Грамматика выходит за рамки проверки веб-сайтов и позволяет копировать и вставлять тексты, нажимать на выделенные орфографические или грамматические ошибки, чтобы увидеть объяснения, и использовать предложения для улучшения письма. Это также имеет автоматическое определение на 38 различных языках.

Согласно Grammar, он предоставляет «всю грамматику, необходимую для достижения успеха в жизни», а также улучшает ваше письмо с помощью бесплатных средств проверки грамматики и орфографии, статей, учебных пособий, словарных игр, электронных книг и многого другого.

Он также имеет расширение для Chrome, которое позволяет редактировать электронные письма, сообщения в блогах, сообщения, документы, веб-страницы и т. д.

При добавлении на рабочий стол все, что вам нужно, это выбрать текст, который вы хотите проверить, а затем щелкнуть значок, который откроет всплывающее окно с предложениями по ошибкам, обнаруженным в тексте.

4. SortSite – Проверка правописания веб-сайта

SortSite — это инструмент PowerMapper, предназначенный исключительно для проверки орфографии веб-сайтов.Он предназначен для поиска орфографических ошибок на веб-сайтах на нескольких языках, включая французский и различные варианты английского языка.

Чтобы SortSite работал лучше, вы можете настроить словарь с особыми словами, такими как придуманные имена, доменные имена и названия продуктов, а также выбрать язык правописания по умолчанию для веб-страниц.

Преимущества SortSite включают проверку неработающих ссылок, тестирование доступности веб-сайта и проверку совместимости браузера.

SortSite работает на всех платформах Mac и Windows.Его можно использовать на общедоступных, внутренних и промежуточных веб-сайтах. Вы можете либо использовать бесплатную пробную версию, которая сканирует только 10 веб-страниц одновременно, либо подписаться на один из трех планов SortSite для одного пользователя и использовать его навсегда.

Хотя вы можете обновить его по цене, SortSite Standard стоит 149 долларов, SortSite Pro — 349 долларов, а SortSite Developer — 849 долларов.

Все планы включают неограниченное количество сканирований до 22 000 страниц за одно сканирование и бессрочную лицензию для настольных компьютеров на каждого пользователя.

Пакеты, характерные для каждой версии, можно просмотреть на PowerMapper, чтобы выбрать наиболее подходящий.Не говоря уже о том, что существует 30-дневная гарантия возврата денег.

5. CheckDog

CheckDog проверяет орфографические ошибки, а также неработающие ссылки за считанные секунды. У него есть бесплатная пробная учетная запись для пользователей и пять планов по разным ценам, начиная с 27 долларов в месяц.

Вы можете запланировать регулярное сканирование с помощью CheckDog, чтобы получать электронное письмо о любой обнаруженной ошибке. Существует также однократное сканирование для немедленного результата. Орфографические ошибки помечаются как «вероятно», «возможно» и «маловероятно», чтобы пользователи могли по-разному сосредоточиться на этих ошибках.

Бесплатная пробная версия позволяет одновременно сканировать до 50 веб-страниц пять раз, а регистрация занимает всего 60 секунд.

Регистрация не требует ввода данных вашей кредитной карты, все, что вам нужно, это ваш веб-сайт и адрес электронной почты, для вас будет создана учетная запись на платформе CheckDog.

Вот его месячные тарифные планы:

  • Hippo — 1500 сканирований пользовательских веб-страниц по цене 897 долларов США
  • Elephant — 300 сканирований до 10 000 веб-страниц за одно сканирование по цене 367 долл. США
  • Leopard — 70 сканирований до 5000 веб-страниц за одно сканирование по цене 47 долларов США
  • Zebra — 10 сканирований до 1000 веб-страниц за одно сканирование по цене 34 долл. США
  • Giraffe — 10 сканирований до 1000 веб-страниц за одно сканирование по цене 27 долларов США

6. Онлайн-проверка орфографии

Это бесплатный онлайн-инструмент для корректуры, который выявляет орфографические и грамматические ошибки на веб-сайте или в онлайн-документе.

Все, что вам нужно сделать, это ввести ссылку на документ или веб-сайт, который вы хотите проверить, выбрать язык файла и нажать «Проверить текст». Вы можете сканировать документы в форматах DOC, DOCX, PDF, RTF, HTML и TXT. Он также проверяет изображения, содержащие тексты и электронные книги.

Онлайн-проверка орфографии

предоставляет подробные пояснения с примерами того, почему слова или грамматика могут быть неправильными.Существует положение, которое позволяет вам делиться своим текстом с другими или отправлять его себе в формате PDF, RFT, HTML или TXT.

Этот инструмент подходит для владельцев веб-сайтов малого бизнеса, студентов, профессионалов, блоггеров и писателей, особенно для тех, кто не пишет на своем родном языке. Если ваш документ сохранен в облаке, например, на Google Диске или в Dropbox, вы все равно можете загрузить документ оттуда и отсканировать его, чтобы сразу увидеть исправленный текст.

7. InSite 5

InSite 5 — это средство проверки орфографии веб-сайтов, созданное Inspyder для проверки орфографических ошибок и поиска неработающих ссылок на вашем веб-сайте.

Он также служит анализатором плотности ключевых слов, счетчиком слов на веб-сайте, SEO-анализом на месте, автоматическими отчетами о веб-сайтах и ​​проверкой ссылок YouTube.

Однако его необходимо загрузить на рабочий стол Windows. После загрузки вы можете воспользоваться бесплатной пробной версией или приобрести ее по единовременному предложению в размере 59 долларов США.95 навсегда, чтобы пользоваться неограниченной проверкой орфографии.

InSite 5 отличается простотой использования и достаточной мощностью для работы со сложными веб-сайтами. Вам не нужно беспокоиться об исправлении тегов стиля Twitter, имен файлов, адресов электронной почты и другого «веб-текста», InSite 5 проигнорирует их все.

Тем не менее, InSite 5 может проверять метатеги, заголовки страниц и другое видимое поисковой системой содержимое, которое вы, возможно, не проверяли. Его словарь можно настроить с помощью определенных терминов, таких как имена собственные и фирменные слова.

Он совместим с WordPress CMS, SharePoint, PHP, Joomla, ASP.NET и т. д. Он также проверяет содержимое PDF, RTF и HTML. Не говоря уже о том, что вы можете настроить его для входа на защищенные паролем веб-сайты.

8. Быстрая проверка орфографии веб-сайта

Это инструмент от Webtweaktools, использующий многопоточный алгоритм, позволяющий проверять правописание на нескольких веб-страницах одновременно.

Это помогает сэкономить время, и вы можете сгенерировать результат, полученный в форматах HTML, Excel, XML и TXT.

Как и InSite 5, Fast Website Spell Checker требует, чтобы вы загрузили его на рабочий стол Windows; однако у него не разовая подписка, а годовой пакет подписки с обновлениями и поддержкой.

Варианты ценообразования включают один год по цене 39,95 долларов США, два года по цене 49,95 долларов США и три года по цене 59,95 долларов США. Он имеет 30-дневную гарантию возврата денег.

Этот инструмент поддерживает открытые словари, и вы можете установить словарь на любом языке. Он поддерживает сайты, защищенные паролем, с SSL-сертификатом и формой входа.Он также включает в себя многофункциональный сканер веб-сайтов.

9. Датайзе

Datayze использует бота под названием Datayze Spider, который сканирует ваш веб-сайт и бесплатно выявляет орфографические ошибки.

Чтобы начать, вы должны ввести URL-адрес своего веб-сайта в белое поле на веб-сайте и нажать «Анализ».

Datayze Spider не просматривает более 1000 страниц на пользователя в день. Как только он достигнет предела, вы можете сделать паузу и продолжить в другой день.

Кроме того, Паук отслеживает не количество просканированных страниц, а количество сделанных вами запросов. Однако паук просматривает одну страницу за 1,5 секунды.

Чтобы ограничить паука, вы можете создать для него набор правил в файле robots.txt, которые разрешают или запрещают ему сканировать страницу.

10. Кричащая лягушка

Screaming Frog — это бесплатный инструмент для загрузки, но функция проверки орфографии доступна для премиум-подписчиков за 149 фунтов стерлингов.00 в год.

Интересно, что Screaming Frog SEO Spider сканирует неограниченное количество веб-страниц, и вы можете приобрести лицензию для 20+ пользователей за 119 фунтов стерлингов в год.

С платной подпиской Screaming Frog SEO Spider находит битые ссылки, ошибки и редиректы. Как и другие средства проверки орфографии веб-сайтов, он может анализировать заголовки страниц и метаданные для выявления орфографических ошибок.

Кроме того, инструмент Screaming Frog может генерировать XML-карты сайта, конфигурацию обхода, сохранять обходы и повторно загружать, а также обнаруживать почти дублированный контент.

Проверка орфографии и грамматики настраивается, что позволяет игнорировать слова, игнорировать грамматические правила, настраивать язык, добавлять в словарь и определять используемый контент. Он также объясняет эту ошибку и дает предложения по исправлению.

11. Глубокий трал

Вот еще одно расширенное средство проверки орфографии веб-сайтов, которое проверяет орфографию, находит неработающие ссылки, проверяет HTML и CSS и обеспечивает 12 других проверок.

Он был выпущен в 2019 году и с тех пор служит помощником, помогая пользователям видеть те орфографические ошибки, которые они могли пропустить, даже в скрытых местах, таких как метатеги и заголовки.

Это абсолютно бесплатное приложение, которое вы можете загрузить на свое устройство Mac или Windows. Однако DeepTrawl не предоставляет поддержку бесплатным пользователям. Раньше это был инструмент премиум-класса, но теперь он бесплатен для всех пользователей.

Его интерфейс прост в использовании, и вы можете добавлять в него свои проверки с помощью простых поисковых выражений или регулярных выражений. Это также позволяет планировать проверки с помощью таймеров как днем, так и ночью. Вы можете поделиться сгенерированными результатами с другими.

12. Проверка орфографии WP

WP Spell Check — это плагин для проверки орфографии WordPress, который проверяет правописание, грамматику, неработающие ссылки и SEO всего за один клик. Он подходит для малого бизнеса, агентств и даже корпоративных сайтов.

Этот инструмент для проверки орфографии позволяет вам использовать его бесплатно без ввода данных вашей кредитной карты, хотя его преимущества ограничены.

Кроме того, вы можете подписаться на любой из трех годовых пакетов, которые вас интересуют.Сюда входят агентство за 299 долларов, разработчик за 99 долларов и владелец сайта за 49 долларов.

С помощью WP Spell Check вы можете сэкономить время на корректуре своих веб-сайтов WordPress и получать уведомления по электронной почте, когда на вашем сайте есть ошибки в шорткоде или HTML-коде.

Вы можете использовать этот инструмент для одновременного мониторинга нескольких веб-сайтов WordPress. Кроме того, он работает в фоновом режиме для обнаружения орфографических ошибок

.

13. Проверка правописания веб-страницы

Проверка орфографии веб-страницы

— это инструмент расширения Chrome в Интернет-магазине Chrome с более чем 20 000 пользователей.

Это мгновенная проверка орфографии, популярная среди разработчиков веб-сайтов. Это упрощает процесс проверки орфографических ошибок непосредственно на веб-странице.

Даже если ваш HTML-редактор поддерживает проверку орфографии, проверка орфографии веб-страницы может помочь вам найти ошибки, которые она могла пропустить. Вы также можете включить его на своей веб-странице, чтобы просмотреть свои ошибки в режиме реального времени.

После добавления в веб-браузер на базе Chrome он позволяет редактировать орфографические ошибки, обнаруженные непосредственно на веб-странице.

К счастью, это расширение для Chrome регулярно обновляется; следовательно, вам не нужно беспокоиться об использовании устаревшей версии.

14. Проверка орфографии для Chrome

Это еще одно расширение для Google Chrome, которое можно использовать для проверки орфографических ошибок на любом веб-сайте. На его счету более 100 000 пользователей.

Позволяет пользователям проверять орфографию на 12 различных языках: английском, французском, итальянском, испанском, финском, немецком, голландском, датском, польском, русском, шведском и португальском.

Его интерфейс редактирования заклинаний прост в использовании, и вы можете настроить его ярлыки и цвет. Проверка орфографии для Chrome поддерживает пользовательские словари и обеспечивает поддержку меню содержимого Chrome.

Он регулярно обновляется, и когда это происходит, добавляются новые языки и улучшаются доступные языки.

15. Грамматика

И последнее, но не менее важное: у нас есть Grammarly.

В отличие от других программ проверки орфографии, Grammarly не сканирует веб-сайты с помощью сканера.Чтобы использовать его, вам нужно скопировать и вставить контент, который вы хотите проверить, на веб-сайте Grammarly.

Требуется, чтобы вы зарегистрировались, используя свой адрес электронной почты. Его могут использовать бесплатно люди, которым доступны только основные предложения по написанию. У него есть два плана: Премиум-план для частных лиц и Бизнес-план для команд от 3 до 149 человек.

Премиум-план можно оплачивать ежегодно (144 доллара США), ежеквартально (60 долларов США) или ежемесячно (30 долларов США). Вы можете сэкономить 60%, оформляя ежегодную подписку, которая является самой популярной.Бизнес-план стоит 12,50 долларов в месяц на участника. Таким образом, каждый участник получает индивидуальную оплату.

Grammarly имеет клавиатуру, которую вы можете загрузить из своего магазина Google Play прямо на свои устройства Android, и она проверяет орфографию, когда вы пишете свой контент, и предлагает варианты и альтернативы словам.

Он также имеет расширение для Chrome, которое можно добавить на рабочий стол и которое упрощает проверку орфографических ошибок на веб-страницах в Chrome.

Онлайн-проверка грамматики

Grammarly может обнаруживать все типы орфографических, пунктуационных и грамматических ошибок.Он также имеет функцию проверки на плагиат, которая может обнаруживать случаи плагиата в текстах.

Заключение

Вот оно! Лучшие средства проверки орфографии веб-сайтов, которые вы можете использовать для своего веб-сайта.

Будь то бесплатная проверка орфографии или премиальная программа с неограниченным количеством сканирований и расширенными функциями, вы можете использовать любую из них, которая соответствует вашим предпочтениям.

Кэсси Райли

Кэсси Райли обожает все, что связано с маркетингом и социальными сетями. Она жена, мать и предприниматель.В свободное время она любит путешествовать, изучать языки, музыку, писать и единорогов. Кэсси учится всю жизнь и любит проводить время, посещая занятия, вебинары и саммиты.

Проверка на орфографические ошибки — поддержка OCLC

  1. Последнее обновление
  2. Сохранить как PDF
  1. Проверить диалог орфографии
  2. диалоговое окно
  3. Диалон
    0 
  4. Список действий
  5. Дополнительные параметры
  6. 9
  7. Параметры диалоговое окно
  8. Новый словарь Dialog

Найти информацию о диалоговом окне проверки проверки, диалоговое окно «Словающие», диалоговое окно «Параметры» и Диалоговое окно «Новый словарь» в клиенте проекта.

Проверьте наличие орфографических ошибок, используя электронную таблицу проекта на вкладке "Проект" или редактор метаданных на вкладке "Редактирование элемента".

При проверке орфографических ошибок на вкладке «Редактирование элемента» механизм проверки орфографии начинается с первого поля метаданных.

При проверке орфографических ошибок в электронной таблице проекта проверка орфографии начинается с первой ячейки первой записи, двигаясь слева направо до тех пор, пока не будут проверены все ячейки перед переходом к следующей записи.

Во время проверки добавляйте слова в пользовательский словарь, который хранится в том же месте, что и ваш проект.

Для проверки орфографии в электронной таблице проекта или открыт редактор метаданных элемента:

  1. Нажмите Проверка орфографии на панели инструментов.
  2. Когда проверка орфографии находит слово, которого нет в словаре проверки орфографии, проверьте список предложений на предмет возможных совпадений.

Чтобы изменить настройки проверки орфографии:

  1. В меню Project выберите Project Settings Manager и затем щелкните Project Options. Отображается страница параметров проекта диспетчера параметров проекта.
  2. Отредактируйте выборки или нажмите Дополнительно , чтобы просмотреть дополнительные параметры, включая то, что следует игнорировать, основной словарь для использования и скорость предложения.
  3. Нажмите OK , чтобы сохранить настройки и закрыть Диспетчер настроек проекта.

Диалоговое окно проверки орфографии

Диалоговое окно «Проверка орфографии» появляется, если обнаружено слово, требующее вашего внимания. Вы можете использовать диалоговое окно, чтобы указать, следует ли игнорировать слово или заменить его.

Обратите внимание, что метки некоторых кнопок и текстовых полей в диалоговом окне меняются в зависимости от контекста.

Опция Описание
Добавить Вызывает добавление сообщаемого слова в словарь, выбранный в раскрывающемся списке Добавить слова в . Используйте кнопку «Добавить», если правильно написанное слово, которое вы часто используете, считается ошибкой (например, имя собственное).Если это слово не используется часто, вы можете вместо этого выбрать кнопки Игнорировать или Игнорировать все . Эти кнопки доступны только в том случае, если в раскрывающемся списке «Добавить слова в » выбран пользовательский словарь.
Добавить слова к Указывает, в какие слова пользовательского словаря будут добавлены при нажатии кнопки «Добавить». В раскрывающемся списке «Добавить слова в» отображаются все пользовательские словари, открытые в данный момент. Вы можете открывать или закрывать другие словари через диалоговое окно Словари, доступ к которому можно получить, нажав кнопку Словари.
Отмена Останавливает текущую проверку орфографии.
Заглавные буквы Содержит слово без заглавной буквы, которое существует в словарях только в форме с заглавной буквы. Вы можете отредактировать слово в этом поле или выбрать вариант из списка, затем нажать кнопку Изменить , чтобы исправить слово, или нажать Игнорировать , чтобы пропустить слово.
Изменить Вызывает замену сообщаемого слова.Если проблемное слово было отредактировано, то отредактированное слово используется в качестве замены. В противном случае выбранное предложение используется в качестве замены. Заменяется только это вхождение сообщаемого слова. Если вы хотите заменить это и все последующие вхождения слова, нажмите кнопку Заменить все .
Заменить все Вызывает замену этого и всех последующих вхождений сообщенного слова. Если проблемное слово было отредактировано, то отредактированное слово используется в качестве замены.В противном случае выбранное предложение используется в качестве замены. Если вы хотите заменить только это вхождение слова, используйте кнопку Изменить . Если в указанном слове вы часто допускаете ошибки, вы можете добавить его в пользовательский словарь через диалоговое окно «Словари». Вы можете отобразить диалоговое окно Словари, нажав кнопку Словари.
Рассмотрите возможность замены Содержит слово, которое может быть написано с ошибкой или иным образом неверно, и представлено словом-кандидатом на замену.Вы можете изменить слово, выбрав кнопку Изменить , или пропустить его, выбрав Игнорировать .
Удалить Удаляет слово из текста. Эта кнопка появляется при обнаружении двойного слова или при удалении содержимого поля проблемного слова.
Словари Открывает диалоговое окно  Словари. Вы можете использовать диалоговое окно Словари, чтобы открывать или закрывать пользовательские словари, а также редактировать содержимое пользовательских словарей.
Игнорировать Пропускает это вхождение слова с ошибкой. Если то же самое слово с ошибкой появится позже, об этом будет сообщено снова.
Игнорировать все Пропускает это и все последующие вхождения слова с ошибкой. Вы можете использовать эту кнопку, если слово, указанное как опечатка, на самом деле написано правильно. Если это слово вы часто используете, вы можете игнорировать его навсегда, нажав кнопку Добавить .
Нет в словаре Указывает на обнаружение слова с ошибкой. Слово считается написанным с ошибкой, потому что оно не может быть найдено ни в одном открытом словаре или было помечено действием исключения. Вы можете отредактировать слово в этом поле или выбрать предложение из списка, затем нажать кнопку Изменить , чтобы исправить слово, или нажать кнопку Игнорировать , чтобы пропустить слово.
Опции Отображает диалоговое окно параметров.Вы можете использовать диалоговое окно «Параметры», чтобы установить параметры проверки орфографии.
Предложить Более тщательно ищите предлагаемые замены для текущего слова с ошибкой. Каждый раз, когда вы нажимаете кнопку «Предложить», выполняется «более глубокий» поиск. Кнопка «Предложить» становится недоступной, как только будут обнаружены все возможные предложения.
Предложения Содержит список предлагаемых замен для слова с ошибкой.Последующие нажатия кнопки «Предложить» могут привести к дополнительным предложениям. Слово, выбранное в списке предложений, будет использоваться в качестве замены при нажатии кнопок «Изменить» или «Изменить все», если только слово в проблемном поле не было отредактировано.
Отменить Удаляет последнее сделанное изменение. Кнопку Undo можно нажать несколько раз, чтобы удалить несколько последних изменений.
Отменить редактирование Удалите все изменения, внесенные в текст в окне проблемы.Эта кнопка появляется только в том случае, если текст в окне проблемы был изменен.

Диалоговые словари

Диалоговое окно Словари позволяет открывать и закрывать пользовательские словари, а также редактировать содержимое открытого пользовательского словаря. Содержимое словарей сохраняется в файлах на диске. Вы можете открыть некоторые или все файлы пользовательского словаря в любое время. Во время проверки орфографии выполняется поиск только в открытых словарях.

Список действий

Раскрывающийся список «Действие» используется для выбора действия, связанного со словами в словаре.Действие сообщает программе проверки орфографии, что делать, когда она находит слово в словаре. Можно выбрать следующие действия:

Действие Описание
Автозамена (вариант использования другого слова) Это действие позволяет автоматически заменять одно слово другим, всегда с тем же регистром, что и другое слово. Это действие полезно для автоматического раскрытия сокращений.Например, вы можете ввести слово TBD , где будет определено как в качестве другого слова и Автозамена (вариант использования другого слова) в качестве действия. Средство проверки орфографии автоматически заменит TBD на , чтобы определить , где бы он ни появлялся. Обратите внимание, что замена производится автоматически только в том случае, если включен параметр «Автозамена» (см. диалоговое окно «Параметры» для получения информации о параметре «Автозамена»).
Автозамена (вариант использования отмеченного слова) Это действие позволяет автоматически заменять одно слово другим.Например, если вы часто набираете получить вместо получить , вы можете ввести слово получить с получить в качестве другого слова и Автоматическое изменение (используйте вариант проверенного слова) в качестве действия. Средство проверки орфографии автоматически исправит при получении , где бы оно ни появилось. Если получить было написано с заглавной буквы ( получить ), средство проверки орфографии автоматически заменит его на получить . Обратите внимание, что замена выполняется автоматически только в том случае, если включен параметр «Автозамена» (информацию о параметре «Автозамена» см. в диалоговом окне «Параметры»).
Условное изменение (вариант использования другого слова) Это действие позволяет при желании заменить одно слово другим, всегда с тем же регистром, что и другое слово. Это действие полезно для необязательного расширения аббревиатур. Например, вы можете ввести слово TBD , где будет определено как в качестве другого слова, а Условно изменить (вариант использования другого слова) в качестве действия. Средство проверки орфографии спросит, хотите ли вы заменить TBD на , чтобы определить .
Условное изменение (вариант использования проверенного слова) Это действие позволяет при желании заменить одно слово другим. Например, если вы часто набираете получить вместо получить , вы можете ввести слово получить с получить в качестве другого слова и Автозамена (используйте вариант проверенного слова) в качестве действия. Средство проверки орфографии спросит, хотите ли вы заменить получить на получить .Если получить было написано с заглавной буквы ( получить ), программа проверки орфографии спросит, хотите ли вы заменить его на получить .
Игнорировать (пропустить) Это действие сообщает программе проверки орфографии, что слово написано правильно и его следует пропустить. Это самое распространенное действие.
Исключить (считать с ошибкой) Это действие сообщает программе проверки орфографии, что слово написано с ошибкой, даже если оно указано в другом словаре.Слова, помеченные этим действием, никогда не будут предлагаться в качестве предложений для слов с ошибками, и они будут отмечены как опечатки, когда они будут обнаружены средством проверки орфографии. Обратите внимание, что средство проверки орфографии ищет слова в пользовательских словарях в том порядке, в котором они появляются в списке файлов. Если вы хотите исключить слово, убедитесь, что оно отсутствует в предыдущем пользовательском словаре.

Дополнительные опции

Опция Описание
Добавить файл Открывает файл пользовательского словаря.При выборе кнопки «Добавить файл» появляется диалоговое окно, которое можно использовать для выбора открываемого файла словаря. Набор открытых файлов словаря запоминается, поэтому после добавления файла словаря вам не нужно добавлять его снова. Если вам нужно создать новый пользовательский словарь, используйте кнопку New File . Вы можете открывать файлы пользовательских словарей других приложений.
Добавить слово Добавляет слово, введенное в область редактирования списка слов, в текущий выбранный словарь.Текущее выбранное действие и другое слово связаны со словом. Вы можете использовать кнопку «Добавить слово», чтобы изменить действие или другое слово, связанное со словом. Обратите внимание, что кнопка «Добавить слово» активна только тогда, когда новое слово вводится в области редактирования списка слов. Слова, которые вы добавляете, могут содержать практически любой символ, но только слова, которые содержат встроенные точки, должны иметь завершающие точки (например, США . допустимо, а США . нет).
Закрыть Закрывает диалоговое окно Словари.
Удалить слово Приводит к удалению слова, появляющегося в области редактирования списка слов, из текущего выбранного словаря. Соответствующее действие и другое слово также удаляются.
Экспорт Приводит к удалению слова, появляющегося в области редактирования списка слов, из текущего выбранного словаря. Соответствующее действие и другое слово также удаляются.
Файлы Содержит список открытых файлов словаря.При выборе файла из списка его содержимое отображается в списке слов.
Импорт Добавляет слова, содержащиеся в текстовом файле, в текущий выбранный словарь. При выборе кнопки «Импорт» появляется диалоговое окно, которое можно использовать для выбора текстового файла для импорта. Каждое слово в выбранном файле загружается в словарь. Обратите внимание, что импорт большого списка слов может занять некоторое время.
Язык Отображает язык (например,г., английский или французский) слов в выбранном в данный момент словаре.
Новый файл Создает новый файл пользовательского словаря. Когда вы нажимаете кнопку «Новый файл», появляется диалоговое окно, которое вы можете использовать для указания атрибутов нового словаря. Дополнительные сведения см. в диалоговом окне "Новый словарь".
Другое слово Содержит альтернативное слово, связанное с текущим выбранным словом. Другое слово используется в действиях Автоматическая замена и Условное изменение для предоставления слова замены.Вы можете ввести более одного слова в поле «Другое слово», но общая длина должна быть ограничена 63 символами.
Удалить файл Закрывает текущий выбранный файл словаря. Закрытые словари не проверяются при проверке орфографии. Хотя файл закрыт, он не удаляется. Закрытые файлы словарей можно открыть повторно с помощью кнопки «Добавить файл».
Слова Содержит список слов в текущем выбранном пользовательском словаре.

 

Диалоговое окно параметров

В диалоговом окне «Параметры» можно указать различные параметры проверки орфографии. Эти параметры влияют на работу средства проверки орфографии.\

Опция Описание
Игнорировать слова с заглавной буквы Если этот параметр включен, любые слова, начинающиеся с заглавной буквы, игнорируются (т. е. пропускаются без проверки).Вы можете включить эту опцию, если проверяемый текст содержит много имен собственных.
Игнорировать слова, написанные прописными буквами Если этот параметр включен, любые слова, содержащие все заглавные буквы, игнорируются (т. е. пропускаются без проверки). Вы можете включить эту опцию, если проверяемый текст содержит много сокращений.
Игнорировать слова с цифрами Если этот параметр включен, любые слова, содержащие встроенные цифры, игнорируются (т.д., пропускаются без проверки). Примеры таких слов включают Win95 и Q4 . Вы можете включить эту опцию, если проверяемый текст содержит много кодовых слов или других символов, содержащих цифры.
Игнорировать слова со смешанным регистром Если этот параметр включен, любые слова, содержащие необычную смесь прописных и строчных букв, игнорируются (т. е. пропускаются без проверки). Примеры таких слов включают MicroHouse и CapsLock .Вы можете включить эту опцию, если проверяемый текст содержит много имен переменных или других символов, которые используют смешанный регистр для различения слов.
Игнорировать доменные имена Если этот параметр включен, любые слова, которые выглядят как доменные имена в Интернете (например, wintertree-software.com ), игнорируются (т. е. пропускаются без проверки).
Сообщить о двойных словах Если этот параметр включен, о любом слове, появляющемся дважды подряд, сообщается в диалоговом окне Проверка орфографии.
С учетом регистра Если этот параметр включен, делается различие между словами, написанными с заглавной буквы, и словами, написанными без нее. Например, канада считается отличным от Канада , поэтому канада будет считаться орфографической ошибкой. Когда этот параметр отключен, Canada и Canada считаются идентичными. Обратите внимание, что производительность проверки орфографии будет снижена, если этот параметр отключен.
Фонетические предложения Если этот параметр включен, предложения делаются на основе фонетического (звукового) сходства со словом с ошибкой. Эта опция имеет тенденцию улучшать подсказки для слов с ошибками. Включение этой опции увеличит время, необходимое для поиска предложений. Обратите внимание, что либо этот параметр, либо параметр Типографские предложения должны быть включены, иначе предложения предлагаться не будут.
Типографские предложения Если этот параметр включен, предложения делаются на основе типографского (внешнего) сходства со словом с ошибкой.Этот вариант подходит для людей, которые в целом хорошо пишут. Обратите внимание, что либо этот параметр, либо параметр Фонетические предложения должны быть включены, иначе предложения предлагаться не будут.
Предложить разделенные слова Если этот параметр включен, в качестве замены опечатки, содержащей два соединенных слова, будут предлагаться два отдельных слова. Например, вместо вместо предлагается вместо .
Автокоррекция Если этот параметр включен, слова, помеченные действиями автозамены, будут автоматически заменены указанными заменами.Когда отключено, вам будет предложено, прежде чем слова будут изменены.
Язык основного словаря Этот параметр позволяет установить язык основного словаря, используемого для проверки орфографии. В списке показаны только языки, для которых в вашей системе установлены словари. Чтобы проверить орфографию на другом языке, выберите язык в списке.
Предложения Определяет скорость и точность начального поиска предлагаемых замен слов с ошибками.При обнаружении слова с ошибкой автоматически выполняется поиск предложений. Эта опция управляет скоростью и точностью этого автоматического поиска. Нажатие кнопки «Предложить» в диалоговом окне «Проверка орфографии» приводит к более точному (но более медленному) поиску предложений.
ОК   Закрывает диалоговое окно «Параметры» и сохраняет все изменения, внесенные в параметры правописания.
Отмена Закрывает диалоговое окно «Параметры» и отменяет все изменения, внесенные в параметры правописания.

 

Диалоговое окно «Новый словарь»

В диалоговом окне «Новый словарь» можно указать атрибуты нового пользовательского словаря. Доступ к этим параметрам можно получить, нажав Новый файл в диалоговом окне Словари.

Опция Описание
Обзор Отображает диалоговое окно, в котором отображаются имена других файлов пользовательских словарей.Вы можете использовать это диалоговое окно для просмотра имен существующих файлов словаря и для ввода имени нового файла словаря.
Отмена Закрывает диалоговое окно "Новый словарь" без создания нового словаря.
Имя файла Содержит имя файла на диске, используемого для хранения содержимого нового словаря. Вы можете ввести имя здесь или использовать кнопку Обзор, чтобы отобразить диалоговое окно, показывающее имена других файлов словаря.
Язык Указывает язык (например, французский, английский) слов, которые будут содержаться в новом пользовательском словаре. Если нужный язык отсутствует в списке, выберите Any .
ОК Закрывает диалоговое окно «Новый словарь» и создает новый словарь.

ОРФФОРМАЦИОННАЯ ИСПРАВЛЕНИЕ В ПОИСКОВОЙ СИСТЕМЕ

Inf Retr Boston.Авторская рукопись; доступно в PMC 2007 13 декабря.

Опубликовано в окончательной редакции как:

PMCID: PMC2137159

NIHMSID: NIHMS22493

Национальный центр биотехнологической информации, Национальная медицинская библиотека, Бетесда, Национальные институты США

Корреспонденция: W. John Wilbur, National Library of Medicine, Bldg. 38А, комн. 6S606, 8600 Rockville Pike, Bethesda, MD 20894, США Телефон 301-435-5926. Факс 301-480-2288. Электронная почта вог[email protected] См. другие статьи в PMC, в которых цитируется опубликованная статья.

Abstract

Известно, что пользователи поисковых систем в Интернете часто вводят запросы с опечатками в одном или нескольких поисковых терминах. Несколько поисковых систем предлагают способы исправления слов с ошибками, но используемые методы являются собственностью и, насколько нам известно, не опубликованы. Здесь мы описываем разработанную нами методологию исправления правописания для поисковой системы PubMed. Наш подход основан на модели зашумленного канала для исправления орфографии и использует статистику, собранную из пользовательских журналов, для оценки вероятности различных типов правок, которые приводят к орфографическим ошибкам.Обсуждаются уникальные проблемы, возникающие при корректировке запросов поисковых систем, и описываются наши решения.

Ключевые слова: модель зашумленного канала, журналы пользовательских запросов, обнаружение несловных ошибок, trie, расстояние редактирования , 2001; Ван, Берри и др., 2003). Ван и др. (2003) сообщают о 26% случаев орфографических ошибок в словах на академических сайтах.Вполне возможно, что количество ошибок на общедоступных сайтах может быть еще выше. Нордли (1999) отмечает, что две трети первоначальных запросов не достигают своей цели, а опрос NPD (2000) показывает, что в 77% случаев первоначально неудачный поиск модифицируется и повторяется на том же сайте. Эти результаты предполагают потенциальную выгоду от выполнения некоторой коррекции запроса для пользователя. Орфографическая коррекция — очевидный кандидат на эту роль. Поэтому мы взялись изучить, как можно построить такое средство для поисковой системы PubMed.PubMed, служба Национальной медицинской библиотеки, предоставляет доступ к более чем 16 миллионам цитат MEDLINE за период с 1950 г., а также к дополнительным журналам по медико-биологическим наукам (McEntyre and Lipman 2001).

Исправление орфографии было предметом исследований в течение многих лет, и проблема была удобно разделена на три подзадачи (Кукич, 1992; Джурафски и Мартин, 2000) в порядке возрастания сложности: 1) обнаружение несловных ошибок; 2) исправление ошибок в отдельных словах; и 3) контекстно-зависимое исправление ошибок.Каждая из этих задач имеет отношение к проблеме исправления орфографии в поисковой системе, и каждая задача подлежит некоторым особым рассмотрениям в этой настройке. Обнаружение несловных ошибок обычно выполняется путем сравнения строки со списком допустимых слов в каком-либо словаре. В настройках поисковой системы словарный запас, потенциально доступный для поиска, служит словарю. Для целей данной статьи давайте будем называть этот словарь словарем базы данных. Если термин отсутствует в базе данных, то для практических целей поиска данных можно предположить, что он написан с ошибкой.Если термин просто имеет низкую частоту в базе данных, он все еще может иметь высокую вероятность того, что он является орфографической ошибкой, и мы можем принести пользу пользователю, предложив термин с более высокой частотой в качестве исправления. Если запрос состоит из одного слова, мы имеем дело со случаем исправления ошибок в отдельных словах. С другой стороны, если запрос состоит из двух или более слов, существует вероятность того, что мы имеем дело с полезным контекстом, который может помочь процессу исправления. Однако запросы обычно состоят не более чем из двух-трех слов (Сильверштейн и Хензингер, 1999), поэтому контекст будет в лучшем случае небольшим, а в худшем — бесполезным.В этой ситуации необходимо разработать стратегию, позволяющую использовать контекст там, где он полезен, и игнорировать его в противном случае. Типичный и практичный подход к использованию контекста при исправлении правописания состоит в том, чтобы применить языковую модель к рассматриваемому жанру текста и использовать ее для улучшения предсказания исправленной строки (Черч и Гейл, 1991; Кукич, 1992; Брилл и Мур, 2000). ; Джурафски и Мартин, 2000). Наш подход похож на языковую модель в том смысле, что когда нам предъявляют запрос из более чем одного слова, мы пытаемся исправить фразу, которая распознается механизмом запросов, и частота этой фразы вступает в игру в процессе.

Наш основной подход представляет собой форму модели зашумленного канала для исправления правописания, которая очень похожа на метод, разработанный Черчем и Гейлом (1991). Основное отличие состоит в том, что мы включили букву контекста по обе стороны от предполагаемой поправки при вычислении ее вероятности. В этом мы движемся в направлении, взятом Бриллом и Муром (2000), только мы не допускаем столько контекста, сколько их подход. Модель зашумленного канала пытается вычислить выражение

, где s представляет собой строку, подлежащую исправлению, а w - потенциальную коррекцию.В нашей реализации w работает со словарем базы данных поисковой системы, а P ( w ) представляет вероятность того, что пользователь намеревался выполнить поиск, используя слово w . Мы следуем Черчу и Гейлу (1991) в оценке P ( s|w ) как произведения вероятностей правок, необходимых для преобразования w в s . Одна из трудностей при построении нашего алгоритма коррекции заключалась в получении полезных контекстно-зависимых оценок этих вероятностей редактирования.Наше решение включает в себя сбор статистики из журналов поисковых систем.

Документ состоит из следующих разделов:

  • Сбор статистики редактирования – Как мы определяем вероятности редактирования из журналов запросов пользователей PubMed.

  • Основные предположения метода – Как мы интерпретируем модель зашумленного канала в настройках PubMed.

  • Алгоритм: основные функции – Четыре основные функции редактирования, применяемые к строкам в зависимости от их характеристик.

  • Алгоритм – Комбинация основных функций редактирования для обработки строк из одного, двух или более токенов.

  • Очистка данных PubMed – Как мы снижаем рейтинг неправильных написаний в словаре поисковой системы PubMed с помощью статистического тестирования.

  • Проблемы с производительностью — Цифры, описывающие текущую реализацию алгоритма и его производительность.

  • Обсуждение – Успехи и неудачи алгоритма и способы его улучшения.

  • Выводы.

Прежде чем мы пойдем дальше, несколько слов о терминологии. Под терминами «слово» или «токен» мы будем подразумевать одно и то же, а именно строку печатных символов ASCII, не содержащую пробелов внутри строки. Термины «слово» или «токен» обычно используются взаимозаменяемо (Jurafsky and Martin 2000). Таким образом, «дом» — это слово или токен, как и «ххххх», хотя обычно мы не можем думать о «ххххх» как о слове. Мы также будем использовать слова «термин» и «фраза» взаимозаменяемо для обозначения строки, состоящей из одного или нескольких слов или токенов, разделенных пробелом.Опять же, это обычное использование.

СБОР СТАТИСТИКИ РЕДАКТИРОВАНИЯ

Хотя исправление орфографии не было в центре внимания, ряд исследователей изучили методы анализа журналов пользовательских запросов для поисковых систем с целью внесения полезных предложений по улучшению запроса пользователя. Биферман и Бергер (Beeferman and Berger, 2000) кластеризовали запросы на основе данных о кликах, которые показывают, какие записи на самом деле выбирает пользователь. Когда разные запросы приводят к щелчку одной и той же записи, это считается сходством между запросами.Вен и др. (2002) используют данные «кликабельности», а также показатель лексического сходства двух запросов для одной и той же цели. Такие методы могут использоваться для предложения терминов из одного запроса в дополнение к запросу, который был найден рядом с ним в «пространстве кликов». Лерой и др. (2003) используют текст «нажатие», а не запись «нажатие на», и анализируют слова в тексте, на который нажали, в качестве источника для дополнения запросов пользователя. Хуанг и др. (2003) изучают пары терминов, которые одновременно встречаются в сеансе одного пользователя в веб-журналах, чтобы обнаружить отношения, которые можно использовать для предложения новых терминов для добавления к запросу пользователя.Хотя ни одно из этих исследований не направлено на исправление правописания, все же есть некоторые сходства.

Мы анализируем журнал запросов, чтобы обнаружить сеансы отдельных пользователей, содержащие пары терминов, которые мы идентифицируем как термин запроса и его исправление. Один сеанс пользователя определяется одним IP-адресом и условием запроса, и его исправление должно происходить в течение 300 секунд друг от друга. 300-секундный порог оказался полезным (Silverstein and Henzinger 1999; Huang, Chien et al. 2003). Данные показывают, что несколько пар запросов, разделенных более чем 300 секундами, поступают из одного и того же сеанса (Huang, Chien et al.2003). Мы анализируем эти пары терминов запроса, чтобы использовать их не как прямое руководство по исправлению запросов, а для получения статистики правок, приводящих к ошибкам. Метод идентификации таких пар зависит не только от одного и того же IP-адреса и почти параллелизма во времени, но также от меры близости между словами запроса. Для этой цели мы используем монтажное расстояние в один, два или самое большее три редактирования. Мы также настаиваем на том, чтобы при наличии нескольких правок разные правки разделялись хотя бы одним символом, чтобы можно было определить правильный контекст для каждой правки, и сама правка не подвергалась сомнению.Мы обосновываем это на основании первоначального наблюдения Damerau (1964) о том, что 80% орфографических ошибок вызваны единичным редактированием (удалением, вставкой, заменой или транспозицией). Мы не утверждаем, что более сложных операций редактирования не бывает, но мы пытаемся аппроксимировать их комбинацией отдельных правок.

Наше заявление о том, что собранные нами данные представляют собой орфографические ошибки, подтверждается тем фактом, что если найти термин в журналах запросов, которого нет в базе данных PubMed, и посмотреть на термины, поступающие из запросов того же пользователя до или после во времени и близкие в лексическом пространстве, гораздо более вероятно, что такие термины следуют, чем предшествуют во времени.Это видно из того, где очевидно, что при условии, что термин запроса отсутствует в базе данных PubMed, вероятность того, что потенциальное исправление произойдет после термина, гораздо выше, чем до него. Мы считаем, что единственное разумное объяснение этому наблюдению состоит в том, что эта асимметрия указывает на то, что люди постоянно вносят исправления в ошибочные запросы, чтобы получить совпадения в базе данных. Тот факт, что некоторые правильные термины появляются перед их ошибочными аналогами, мы приписываем тому факту, что люди нередко набирают термин правильно, а затем вынуждены его повторять и могут сделать опечатку при второй попытке, которой не было при первом наборе.Тем не менее, мы предпочитаем доверять исправлению, которое следует за термином запроса. полностью основан на словах запроса, которых нет в базе данных PubMed. Однако есть также убедительные доказательства того, что люди исправляют не только термины, которых нет в PubMed, но также исправляют термины, которые просто встречаются с низкой частотой в данных PubMed. Это показано в . Здесь мы видим, что в частотном диапазоне от 1 до 100 терминов запроса, по крайней мере, на порядок более вероятно, что за ними следует высокочастотный лексически близкий термин, чем им предшествует такой термин.Опять же, асимметрия свидетельствует о родстве таких пар терминов запроса и о том, что второй термин в паре присутствует как поправка для первого термина.

Сплошная кривая представляет количество пар терминов запроса, в которых термин, содержащийся в базе данных PubMed, следует за термином, отсутствующим в базе данных. Ломаная кривая представляет те же данные, когда термин, содержащийся в PubMed, предшествует термину, которого не было в базе данных. Во всех случаях термины находятся в пределах трех правок друг от друга.

Количество терминов запроса с разной частотой в данных PubMed, за которыми следует лексически близкий термин с десятикратной частотой (сплошная кривая) или предшествующий близкий термин с десятикратной частотой (пунктирная кривая).

Наши данные являются результатом сбора таких правок, которые мы описали в файлах журналов PubMed за 63 дня. Мы собрали около 1 миллиона правок, как указано в . Все термины многократного редактирования должны были содержать как минимум в четыре раза больше символов, чем правки, чтобы гарантировать, что правки действительно будут исправлениями.Это в дополнение к условию, согласно которому исправления в PubMed встречаются как минимум в десять раз чаще, чем термины, которые они должны исправлять.

Таблица 1

Ошибки, собранные за 63 дня пользовательских журналов PubMed.

Количество ошибочных слов Общее количество редактирования
1 Ошибка редактирования 769128 (87%) 769190 769128 769128 2 Редактировать ошибку 105860 (12%) 211720 211720
3 Ошибка редактирования 4932 (1%) 4932 (1%) 14796
Всего 879920 995644 995644

Собранные данные были собраны с одной буквой контекста по обе стороны редактировать.И начало, и конец слова были отмечены специальными символами, чтобы они также могли функционировать в качестве контекста и сделать процесс исправления специфичным для начала и окончания слов соответственно. Можно заметить, что наши данные показывают, что 87% всех слов с ошибками являются результатом одной ошибки редактирования. Это несколько выше, чем цифра 80%, наблюдаемая Damerau (1964), но согласуется с нашим требованием, чтобы множественные ошибочные правки происходили с буквой контекста, разделяющей их.Это естественным образом уменьшает количество видимых ошибок более высокого порядка.

ОСНОВНЫЕ ПРЕДПОЛОЖЕНИЯ МЕТОДА

Для оценки выражения (1) мы должны иметь не только информацию о вероятности правок. Мы также должны уметь оценивать априорные вероятности P ( w ). Это вероятности того, что различные слова, встречающиеся в базе данных PubMed, будут использоваться пользователями в качестве терминов запроса. Мы изучили термины, встречающиеся в базе данных PubMed, и обнаружили, что они используются в качестве терминов запроса прямо пропорционально их частоте в базе данных.Это показано в том месте, где прямая линия указывает на прямую пропорциональность. Линия несколько зашумлена на высоких частотах из-за разреженности данных и имеет небольшой изгиб на низких частотах, что указывает на то, что на самых низких частотах в запросах используется меньше терминов. Мы ожидаем такого отклонения из-за того, что миллионы очень низкочастотных терминов, как правило, неизвестны большинству пользователей. Таким образом, мы можем использовать частоту термина в базе данных в качестве суррогата вероятности того, что этот термин будет предназначен как термин запроса, введенный пользователем, при условии, что мы сбрасываем значение на низких частотах.На самом деле наше дисконтирование на низких частотах более резкое, чем изгиб кривой, потому что на этих низких частотах большая часть того, что вводят пользователи, является орфографической ошибкой, а не тем, что они имели в виду. Мы дисконтируем по формуле

Термины запроса группируются по логарифму (частота запроса) по оси x, а среднее значение журнала частоты MEDLINE по каждому бину откладывается по оси y.

F ' = ' = F * 10 0,075 * ( F -80) , F <80

(2)

, где F - это оригинальная частота базы данных и f ′ дисконтированная частота.Таким образом, наше первое основное предположение заключается в том, что мы можем позволить частоте термина в базе данных стоять на месте 90 638 P 90 639 ( 90 638 w 90 639 ) в (1) при условии, что мы применяем дисконтирование, заданное (2).

Наше второе основное предположение заключается в том, что люди делают орфографические ошибки чаще при составлении запросов, чем при составлении текста для базы данных PubMed. Это подтверждается приведенными во введении данными о частоте орфографических ошибок в поисковых запросах (до 26%) по сравнению с данными о частоте орфографических ошибок в печатном тексте менее 5% (Кукич, 1992).Печатный текст, который появляется в PubMed, обычно подвергается редакционному процессу, и во многих случаях также применяется автоматическая проверка орфографии. Кроме того, печатный текст часто является продуктом усилий нескольких авторов, и по этой причине можно ожидать, что в нем будет меньше орфографических ошибок. Таким образом, мы считаем, что наше предположение не является необоснованным. Мы используем это предположение, чтобы решить, когда исправлять слово, которое уже есть в базе данных. Предположим, что s — это слово, которое появляется в базе данных, а w — это слово, определенное вычислением выражения (1) для s .Затем, чтобы решить, должны ли мы предложить 90 638 w 90 639 в качестве поправки на 90 638 s 90 639, мы спрашиваем, выполняется ли неравенство

. Если s в основном представляет собой опечатку w , мы могли бы ожидать равенства в (3) при условии, что P ( s|w ) оценивается на основе частот ошибок, преобладающих в базе данных PubMed. В этом случае, когда мы оцениваем P ( s|w ) на основе более высоких коэффициентов ошибок, полученных из пользовательских журналов, мы ожидаем, что неравенство (3) будет выполнено.Если это так, мы принимаем это как свидетельство того, что s , вероятно, является опечаткой w . Конечно, только одно неравенство (3) дает основание для предложения 90 638 w 90 639 в качестве поправки на 90 638 s 90 639, потому что левая часть неравенства представляет собой вероятность того, что пользователь намеревается 90 638 s 90 639 в качестве термина запроса, а правая часть есть вероятность того, что пользователь намеревался ввести w в качестве термина запроса, но из-за внесения ошибок получил s .При фактическом применении (3) мы заменяем частоты базы данных с и с на вероятности P ( с ) и P ( с ) и используем дисконтирование в (2 ) там, где это уместно.

Чтобы применить формулы (1) и (3), мы должны также оценить вероятность, P ( s|w ), что при попытке произвести w будут внесены ошибки, которые фактически дадут s Обычно мы следуем методу «выравнивания максимальной вероятности» или «минимального расстояния редактирования», как описано в Jurafsky and Martin (2000).Мы оцениваем P ( s|w ) как произведение вероятностей последовательности правок, которая даст s из w . Поскольку таких последовательностей часто бывает несколько, мы берем последовательность, дающую наибольшую вероятность, в качестве нашей оценки для P ( s|w ).

АЛГОРИТМ: ОСНОВНЫЕ ФУНКЦИИ

Здесь мы начнем описание алгоритма с описания того, как осуществляется исправление орфографии на самом базовом уровне.Наша цель состоит в том, чтобы предложить исправление только в том случае, если мы можем сделать это с гарантией того, что наше предложение будет правильным как минимум в 70% случаев. Это требование в некоторой степени влияет на то, как строятся основные функции. Предположим, что s — это строка, которую необходимо исправить.

OneDitit

Мы оцениваем P ( S ) и P ( S | W ( S | W ) P ( W ) по всем W в базе данных, которые находятся в одном праве с .Это делается путем использования частот базы данных (с соответствующим дисконтированием) и редактирования вероятностей, а затем нормализации полученных оценочных значений до единицы. Пусть c обозначает термин с наибольшей оценочной вероятностью, а P c обозначает эту вероятность. Если P c >0,7 или P ( s ) <0,05, принять c в качестве коррекции. В противном случае не предлагайте никаких исправлений. Обоснование предложения c в качестве исправления, когда P ( s ) <0.05 заключается в том, что в этом случае мы можем отклонить на уровне 5% гипотезу о том, что s — это то, что имел в виду пользователь, и мы также должны были дать наше лучшее предположение в качестве исправления. Таким образом, наша стратегия состоит в том, чтобы предложить исправление, если мы совершенно уверены, что мы правы, а также когда мы совершенно уверены, что входная строка не предназначалась, даже если в последнем случае мы можем быть гораздо менее уверены, что исправление является правильным.

TwoEdit

Мы оцениваем P ( s|w ) P ( w ) по всем w в базе данных, которые находятся на расстоянии двух правок от s .Если такие строки есть, мы возвращаем наиболее вероятную в качестве принятого исправления. В противном случае коррекция не предлагается.

RecursiveEdit

Если бы мы попытались произвести исправление с двумя правками и потерпели неудачу, мы бы произвели выравнивание начального сегмента s с начальным сегментом слова w в базе данных, включающей две правки. Мы можем оценить такие попытки по тому, сколько букв в s они используют. Пусть 90 638 м 90 639 обозначают максимальный рейтинг, полученный любым таким частичным выравниванием.Затем мы запрашиваем то частичное выравнивание, которое получает рейтинг m и также имеет самую высокую вероятность среди всех таких частичных выравниваний с рейтингом m . Мы называем это лучшим частичным выравниванием. Затем мы можем повторять эту процедуру каждый раз, начиная с лучшего частичного выравнивания, полученного на предыдущей итерации. Если мы требуем, чтобы алгоритм делал некоторое продвижение по строке s на каждом этапе и прерывал процесс, если он терпит неудачу в какой-либо точке, мы получаем алгоритм, который либо производит полное выравнивание, либо завершается, не производя никакого выравнивания, только с несколько итераций.Если алгоритм завершается предложением, мы требуем, чтобы результат прошел тест на сходство с s , который мы называем проверкой работоспособности (см. ниже). Если да, то это принимается как поправка. В противном случае коррекция не предлагается.

StringSplit

Мы пытаемся ввести пробел в какой-то точке строки, чтобы преобразовать ее в два слова. Если оба результирующих слова найдены в базе данных, они становятся кандидатами на разделение для строки с рейтингом, равным наименьшей из частот в базе данных двух слов, полученных в результате разделения.В случае разделения в качестве исправления может быть предложено разделение с наивысшим рейтингом. Обычно для того, чтобы быть принятым, требуется иметь рейтинг выше некоторого нижнего предела. Если да, то в качестве коррекции предлагается раскол. В противном случае коррекция не предлагается.

Если такое слово, как «фосфатаза», разделено ошибочным введением внутреннего пробела, как в слове «фосфхатаза», это можно исправить одной операцией редактирования, которая удалит лишний пробел. Таким образом, не требуется никакого специального механизма исправления, кроме функций OneEdit, TwoEdit или RecursiveEdit, описанных выше.Однако, если два слова случайно встречаются вместе, как в слове «яд», операций редактирования может оказаться недостаточно, потому что строка «ядовитый укус» не встречается среди строк, искомых для исправления. Именно по этой причине необходим StringSplit.

В дополнение к только что приведенным основным функциям мы также используем два типа проверок, чтобы убедиться, что строка не была слишком сильно изменена в процессе исправления. Мы называем это проверками на вменяемость.

Вменяемость1

Эта проверка сравнивает первые три символа с и предполагаемое исправление.Если при сравнении символов в позиции 0, символов в позиции 1 и символов в позиции 2 между строками есть не более одного различия, то исправление проходит этот тест.

Вменяемость2

Этот тест является более обширным тестом, в котором балл засчитывается, если символ заменяется, балл засчитывается, если один или два символа в строке вставляются или удаляются, но транспозициям присваивается нулевая стоимость. Затем сравнивают строку s и предполагаемое исправление, сравнивая первое слово в каждом, второе слово в каждом и т. д.Тест считается пройденным, если в любом таком сравнении встречается стоимость преобразования, не превышающая двух баллов за каждую сравниваемую пару слов.

Оценка областей успеха

Хотя функций редактирования OneEdit, TwoEdit и RecursiveEdit достаточно для внесения исправлений в строки, они не одинаково эффективны для строк любой длины. Как правило, чем короче строка, тем сложнее ее исправить. Этому есть две причины. Во-первых, более короткая строка имеет менее полезный контекст, окружающий ошибки, по которым можно идентифицировать предполагаемую строку.Во-вторых, пространство всех струн гораздо более плотно заселено в области более коротких струн (Кукич, 1992). Эта проблема густонаселенного пространства явно является проблемой в базе данных PubMed, где очень много строк, возникающих в виде аббревиатур. Из-за этой проблемы мы проверили производительность функций редактирования с помощью моделирования. Отдельные слова были выбраны случайным образом из базы данных с вероятностью, пропорциональной их частоте в базе данных. После того, как слово было отобрано, одно, два или три редактирования случайным образом вносились в слово с использованием зависящих от контекста вероятностей редактирования, которые мы собрали из пользовательских журналов.Затем была предпринята попытка исправить орфографическую ошибку с помощью функций редактирования. Мы собрали данные в таблицы с подробными результатами для различного количества правок и в зависимости от длины строки, которую алгоритмы должны были исправить. Результаты содержатся в -. Данные показывают, что исправить очень короткие строки очень сложно. На основании этих данных мы не пытаемся исправлять отдельные слова длиной менее пяти или шести. Аналогичным образом предполагается, что для надежного исправления двух правок требуется строка длиной около девяти, и таким же образом предполагается, что для надежного исправления трех правок требуется строка длиной примерно двенадцать.Аналогичные данные можно смоделировать для двухсловных фраз. Мы использовали эти данные при построении нашего алгоритма.

Таблица 2

Для разных длин слов показано количество слов, выбранных и отредактированных для получения орфографических ошибок, а также процент таких слов, которые функции пытались исправить, и процент успеха, который они имели, когда было предложено исправление.

Таблица 3

одиночную лексему - одиночный редактировать
длина Всего Слова % попыток % успеха
3 одна тысяча семьсот восемьдесят шесть 99 24
4 6701 73 45
5 10827 88 55
6 14823 86 72
7 13511 94 88
+ Таблица 4

одиночной лексема - два редактирует
длиной Всего слова % Ударов % успех
6 14408 78 13
7 13460 61 25
8 11938 96 65
9 10124 96 80
10 7974 95 87
девяносто одна тысяча четыреста пятьдесят два одного маркеров - три правки
длина Всего Ошибка % Удары % успех
9 9485 84 39
10 7405 70 52
11 5496 69 67
12 4000 62 71
13 2835 59 76
14 1964 57 80

новая строка — одна из строк, хранящихся в дереве (Sedgewick 1998).Чтобы эффективно искать наилучшее исправление для строки запроса

s , как требуется в выражении (1), мы используем древовидную структуру (Кукич, 1992; Брилл и Мур, 2000). Все поисковые термины базы данных загружаются в это дерево. Затем, как указали Холл и Доулинг (1980), доступны два основных подхода. Можно сгенерировать все строки, которые близки (скажем, в пределах одного или двух правок) строки s и посмотреть, какие из них находятся в дереве. Или можно попытаться выполнить поиск в дереве напрямую, используя строку s , внося необходимые исправления для получения совпадения.Проблема с генерированием всех строк, близких к s в пространстве редактирования, заключается в том, что будет сгенерировано много бессмысленных строк, которые не представляют интереса, и затем придется искать каждую из них, чтобы увидеть, есть ли она в базе данных. Мы предпочитаем прямой поиск дерева из-за его эффективности. Например, если проследить совпадение первых k букв s в дереве и не удается расширить это совпадение до k + 1-я буква, то можно сделать вывод, что в первых должна быть ошибка. k + 1 символ s .Далее не нужно проверять все возможные правки, а только те, которые расширят совпадение в дереве. Это приводит к значительной экономии времени без упущения какой-либо возможной совпадающей строки в дереве.

Поскольку мы должны исправлять ошибки во фразах переменной длины, мы фактически используем в алгоритме три разных попытки. Во-первых, мы строим тройку Tr123 из всех фраз, состоящих из одной, двух или трех токенов, распознаваемых поисковой системой. Если строка запроса s состоит из одного или двух токенов, мы ищем исправление в Tr123.Это позволяет исправлению иметь больше или меньше токенов, чем запрос. Например, запрос «апоптоз», ошибочно разбитый на две лексемы, даст поправку «апоптоз», состоящую из одной лексемы, а запрос «в-клеточная лимфома», ошибочно объединенный в две лексемы, даст поправку из трех лексем «b». клеточная лимфома». Если строка запроса s состоит из трех или более токенов, мы ищем фразу s ′, состоящую из первых двух токенов в дереве Tr2p. Tr2p — это дерево, содержащее все фразы с одной или двумя токенами, которые являются начальными одной или двумя токенами фраз из трех или более токенов и распознаются поисковой системой.Если мы находим совпадение, даже исправление, мы пытаемся расширить это исправление в дереве Tr3+, которое состоит из всех фраз, состоящих из трех или более токенов, распознаваемых поисковой системой. Например, система не вносит исправления в запрос «доман» (имя человека), но при наличии запроса «домен связывания ДНК» она сначала проверяет, что «связывание ДНК» происходит в Tr2p, а затем расширяет это до исправления «домен связывания ДНК». ” в Тр3+. Таким образом, мы избегаем попыток очень длинного сопоставления, которое было бы затратным по времени, если только у нас нет доказательств того, что длинное сопоставление возможно на основе начальной части s .Если начальное совпадение s ′ с Tr2p не удается, мы ищем совпадение s ′ с Tr123 и т. д. Таким образом, алгоритм организован вокруг количества токенов, содержащихся в строке поиска s .

Мы продолжаем давать псевдокод для различных случаев или количества токенов в строке. В дальнейшем мы будем обозначать l ( s ) длину в символах, а f ( s ) обозначать частоту базы данных для любой строки s .Любая строка, отсутствующая в словаре поисковой системы, считается имеющей нулевую частоту в базе данных. Обратите внимание, что мы используем слово RETURN, чтобы сигнализировать об окончании вычисления, когда модуль либо возвращает предложенное исправление, либо нет, но в любом случае все строки, следующие за RETURN до конца модуля, игнорируются. Мы также использовали слово «этап» для обозначения различных частей алгоритма для удобочитаемости, и существует некоторая корреляция в стоимости вычислений с более высокими номерами этапов, коррелирующими с более дорогими вычислениями.

SingleTokenModule {

Стадия 1

ЕСЛИ l ( s ) < 5 THEN RETURN без исправления.

ЕСЛИ f ( s ) > 1000 ТОГДА ВОЗВРАТ без исправления.

ИНАЧЕ ЗВОНИТЕ OneEdit для s .

Этап 2

IF R = 0 и L ( S ) ≥ 9, затем

  • Call stringsplit

  • Вызов TweDit для S .

ИНАЧЕ ЕСЛИ R =1 и l ( c ) ≥ 5 ТОГДА ПОЗВОНИТЕ OneEdit по номеру c .

Этап 3

IF R = 1

, если R = 2

R = 2

Этап 4

IF L ( S ) ≥ 12 Тогда вызовите рекурсию для S .

ВЫЗОВ StringSplit.

ВОЗВРАТ без исправления.

}

В качестве примера предположим, что строка запроса «рибонфлавен». Затем, поскольку эта строка имеет длину больше 5 и не встречается в базе данных, SingleTokenModule попытается исправить.На этапе 1 вызывается OneEdit и выдает коррекцию «рибонфлавин», которая встречается в базе данных 1 раз. На этапе 2 для коррекции используется другой OneEdit, который производит «рибофлавин», который встречается в базе данных 7380 раз. На этапе 3 из-за его высокой частоты в базе данных в качестве коррекции возвращается слово «рибофлавин». Этот пример иллюстрирует два основных принципа разработки алгоритма проверки орфографии. Во-первых, небольшие изменения в строке запроса всегда предпочтительнее больших изменений.Во-вторых, изменения, которые приводят к обнаружению слова в данных, всегда более правдоподобны, чем изменения сопоставимой величины, которые этого не делают. Здесь одно редактирование переводит нас из строки «рибонфлавен» в строку «рибонфлавин», которая появляется в данных и, таким образом, может быть в худшем случае опечаткой чего-то в базе данных. Затем еще одно редактирование превращает «рибонфлавин» в высокочастотную строку «рибофлавин». Эта цепочка из двух небольших изменений имеет больше доказательств в поддержку, чем просто запрос результатов TwoEdit.Как правило, решения принимаются на основе правдоподобия результатов, где мы оцениваем правдоподобие по:

  1. Меньшие изменения более правдоподобны.

  2. Изменения, приводящие к появлению строки в базе данных, более правдоподобны, чем изменения того же масштаба, которые этого не делают.

  3. Изменения, которые производят строку с высокой частотой в базе данных, предпочтительнее, чем аналогичные по величине, но не такие.

Модуль SingleTokenModule следует этим принципам, проходя через этапы в поисках наиболее правдоподобного решения, но постепенно пробуя менее правдоподобные методы, пока либо решение не будет найдено, либо попытка не приведет к исправлению.Все различные методы исправления присутствуют, потому что мы действительно нашли их необходимыми в определенных случаях. В SingleTokenModule (и в других модулях) есть определенные константы, которые были выбраны, потому что они давали разумные результаты в испытаниях. Они были выбраны эмпирическим путем, и формальная оценка не проводилась. Мы вернемся к этому вопросу ниже.

Весь поиск в SingleTokenModule выполняется в дереве Tr123. То же самое верно и для TwoTokenModule, который мы собираемся описать.Когда нам дают запрос из двух слов, в задачу вводится новый элемент. Это вопрос контекста. Вполне возможно, что одно из слов является правильным и может быть использовано в качестве контекста для более эффективного исправления другого. С другой стороны, эти два слова не обязательно должны быть тесно связаны, как это произошло бы в осмысленной фразе. Таким образом, у нас должна быть стратегия, которая подсказывает нам, когда пытаться использовать контекст, а когда его избегать. Эта стратегия является важной частью общего плана исправления многословия.В следующем псевдокоде мы обозначим запрос с двумя токенами как s _ t , где s и t — это отдельные токены. В дальнейшем мы будем использовать основные функции редактирования, определенные в предыдущем разделе. Однако есть некоторые ограничения, которые мы сочли полезными и которые применяются к редактированию s и t независимо от l ( s _ t ).

Constraint1

Если длина токена меньше трех, не редактируйте его.Допустим, это правильно.

Constraint2

Если длина токена меньше семи, внесите в него не более одной правки.

Эти ограничения применяются к данной лексеме независимо от длины другой лексемы во фразе. Мы считаем, что токены из одного или двух символов вряд ли будут написаны с ошибками, и мы используем их в качестве фиксированных точек, с помощью которых можно направлять процесс исправления.

TwoTokenModule {

Стадия 1

IF l ( s _ t )<7 ТО ВОЗВРАТ без исправления.

Набор f м = мин( f ( s ), f ( t )).

ЕСЛИ f ( s _ t )>5 и f m >500 ТОГДА ВОЗВРАТ без исправления.

, если F ( S _ T _ T )> 0 и F M > 50 и L ( S ) ≤ 4 или L ( T ) ≤ 4

Этап 2

CALL OneEdit для s _ t и установите R =0.

ЕСЛИ R =1, ТОГДА ПОЗВОНИТЕ OneEdit по номеру c .

ЕСЛИ R =0 ТО ВЫЗВАТЬ TwoEdit для s _ t .

ЕСЛИ R =0 и f m ≥ 100 ТОГДА ВЫЗВАТЬ SingleTokenModule для каждого из s и t отдельно и ВОЗВРАТИТЬ результат.

ИНАЧЕ ЕСЛИ R =1 и f ( c ) ≥ f m ТОГДА ВЕРНИТЕ c в качестве исправления.

Этап 3

стрижки вызова на S _ T _ T

IF L ( S _ T )> 20 и F M = 0 или оба L ( s ) ≥ 7 и l ( t ) ≥ 7 THEN

ВЫЗВАТЬ SingleTokenModule для каждого из s и t отдельно и ВОЗВРАТИТЬ результат.

}

В качестве примера действия TwoTokenModule рассмотрим строку запроса «gammg globulin».Эта строка встречается в базе данных только 1 раз, а поскольку «gammg» встречается в базе данных только 2 раза, «gammg globulin» проходит этап 1 обработки и является кандидатом на исправление. OneEdit производит поправку «гамма-глобулин», и повторный вызов OneEdit не приводит к улучшению, поэтому это принимается как окончательная коррекция. Поскольку частота строки изменилась с частоты 2 за одно редактирование до конечной частоты 15 568, исправление имеет высокую вероятность. Теперь рассмотрим строку запроса «академическое отношение».Эта фраза не встречается в базе данных, поэтому проходит этап 1 и становится кандидатом на исправление как фраза. Однако единственное найденное исправление — это строка «академические способности», которая встречается в базе данных 30 раз. Из-за низкой частотности этой фразы она не принимается в качестве исправления. Мы принимаем частоту как меру правдоподобия, и «академический» встречается в базе данных 52 629 раз, а «отношение» — 144 536 раз. Мы сформулируем это как последний принцип правдоподобия при внесении исправлений.

Псевдокод для SingleTokenModule и TwoTokenModule дает подробное представление о том, как мы обрабатываем одну и две строки токена. Наконец, мы дадим несколько сокращенное описание того, как мы обрабатываем строки с тремя или более токенами. Пусть s _ t _ u обозначает такую ​​строку, где u может обозначать, возможно, более одного токена. Мы делаем несколько шагов:

  1. Мы видим, встречается ли s _ t в Tr2p.Если нет, ищем поправку для s _ t в Tr2p. Поиск такой же, как поиск в TwoTokenModule, за исключением того, что на третьем этапе мы разрешаем RecursiveEdit только в качестве опции и нам требуется только l ( s _ t )>20 для его применения. StringSplit и двойное применение SingleTokenModule на данном этапе не являются вариантами, потому что их успех преждевременно исключит другие предпочтительные варианты. Используется более слабое условие для применения RecursiveEdit, поскольку результат не будет окончательным до тех пор, пока не будет получено более длинное совпадение (с большим количеством контекста).

  2. Если в I мы найдем s _ t или поправку на s _ t в Tr2p, то мы попытаемся расширить это начальное совпадение до совпадения s _ u в Tr3+. Для этого расширения мы используем форму RecursiveEdit. Если это дает совпадение, которое проходит Sanity2, мы принимаем это как поправку для s _ t _ u и делаем. Если это не дает совпадения, мы пытаемся отказаться от решения, чтобы найти совпадение в Tr3+, которое не включает все s _ t _ u и проходит Sanity2.Если это возможно, выполняется выравнивание исправления с исходной строкой запроса, чтобы определить, какая часть строки остается для исправления. Затем мы принимаем частичное исправление и рекурсивно вызываем процесс для исправления оставшейся строки.

  3. Если I находит совпадение или исправление c в Tr2p, но II не дает совпадения в Tr3+, и если c состоит из единственного токена, мы пытаемся расширить это до совпадения в Tr123. Если это удается и совпадение проходит Sanity2, мы принимаем это как исправление и снова должны найти любую оставшуюся строку для соответствия, как в II.

  4. Если в I-III не достигается даже частичное решение, то пытаемся найти поправку для s _ t в Tr123. Это делается путем применения TwoTokenModule, опять же с небольшими изменениями. Модификаций две. Сначала на этапе 2 с высоким пределом частоты, а затем снова на этапе 3 с более низким пределом с помощью StringSplit делается попытка разделить s _ t . Если это успешно, первая часть разделения принимается как часть исправления, и процесс вызывается рекурсивно для второй части разделения и любых оставшихся токенов за ее пределами.Во-вторых, если ничего не помогает, тогда SingleTokenModule вызывается только для s , и результат принимается как частичное исправление (или, возможно, без исправления), и процесс вызывается рекурсивно для исправления t _ u .

На примере мы проиллюстрируем важность контекста при наличии трех или более токенов. Рассмотрим строку запроса «амитрофический латеральный слерсос». Первые два маркера сначала исправляются на «боковой амиотрофический», а затем система пытается расширить его, исправляя «слерсос».В этой последней строке «slersos» всего семь символов, и три ошибки обычно затруднили бы ее исправление, но здесь есть несколько строк, начинающихся с «амиотрофического латерального», отличного от правильного, и поэтому система легко исправляет «slersos» на « склероз". Благодаря исходным токенам, которые обеспечивают контекст, мы можем ослабить ограничения (Constraint1 и Constraint2) в процессе расширения.

В качестве заключительного комментария к построению алгоритма отметим, что в OneTokenModule и TwoTokenModule и менее заметно при обработке строк запроса из трех и более токенов есть ряд параметров.Эти параметры были выбраны эмпирическим путем, наблюдая за работой алгоритма на запросах, поступающих в поисковую систему PubMed, и внося коррективы. Мы не утверждаем, что включенные здесь варианты являются оптимальными. На самом деле один из сложных вопросов состоит в том, чтобы определить, что должно означать оптимальное в такой обстановке. Можно предположить критерий максимизации числа разумных предложений правописания. С другой стороны, конечной целью является угодить пользователям и оптимально облегчить их поиск.С этой точки зрения за неверные или даже нелепые предложения приходится платить. Если пользователи не верят в разумность предложений, они могут быть менее склонны их использовать. Наш подход был несколько консервативным в попытке избежать предложений с высоким риском и достичь высокой степени точности, а не общего максимального количества разумных предложений с более низкой степенью точности. Другими словами, мы больше заботились о точности, чем о воспроизведении.

Это завершает описание алгоритма.

ОЧИСТКА ПУБЛИКУЕМЫХ ДАННЫХ

Как правило, слова с ошибками в базе данных PubMed встречаются редко, и именно это свойство позволяет корректировать орфографию на основе словарного запаса базы данных. Тем не менее, некоторые термины написаны с ошибками или, по крайней мере, не оптимальны в качестве терминов запроса, которые относительно часто встречаются в PubMed. В связи с этим мы взялись попытаться разобраться с этой проблемой. Мы изучили все фразы из одного и двух слов, которые встречались по крайней мере в пороговом количестве документов в PubMed, а также были одним изменением другого термина в PubMed, частота которых в базе данных была как минимум в десять раз выше.Мы сделали предположение, что если два таких термина имели значительную тенденцию встречаться в одном и том же контексте, то член пары с более низкой частотой был написан с ошибкой или, по крайней мере, неоптимальной версией термина с более высокой частотой. Для терминов с одним токеном мы использовали порог низкой частоты 20. Для терминов с двумя токенами, которые встречаются реже, мы использовали порог низкой частоты 9. Важным соображением при выборе порога низкой частоты является просто иметь достаточно данных, чтобы позволить вычисление достоверной статистики.Мы сочли полезным обрабатывать случаи с одним токеном и двумя токенами несколько по-разному, а также в том, как они были протестированы.

Одиночная лексема

Предположим, что пара терминов, разделенных одним редактированием, представлена ​​как T 1 и T 2 . Затем мы применяем тест, основанный на гипергеометрическом распределении (Larson 1982). Ситуация проиллюстрирована в . Мы вычисляем p -значение, которое два термина могли бы встречаться одновременно в количестве документов, в которых они встречаются или более, если бы эти два термина были только случайными в их отношении друг к другу.Мы нашли в базе данных 62 720 пар, которые удовлетворяли требованиям по частоте и отличались одним редактированием. Когда был применен только что описанный гипергеометрический тест, результат составил 10 922 пары отдельных токенов, которые были связаны с 90 638 p 90 639 - значением менее 0,01. Это означает, что мы можем ожидать, что 99% этих пар терминов будут значительно связаны между собой. Пример таких пар показан на . В большинстве случаев низкочастотный член пары является орфографической ошибкой. В некоторых случаях это просто неоптимальный термин запроса, поскольку существует гораздо более частотный термин с практически таким же значением для целей поиска.

В пространстве всех документов прямоугольник представляет документы, содержащие термин T 1 , а маленький эллипс — набор документов, которые содержат термин T 2 . Пересечение этих двух наборов представляет собой перекрытие, представленное I . Статистическая значимость этого перекрытия может быть вычислена как вероятность того, что это перекрытие столь же велико или больше, чем реально наблюдаемое, если предположить, что эти два термина связаны не более чем случайным образом.Это известно как значение p и может быть оценено путем применения гипергеометрического распределения.

Таблица 5

Слева приведены некоторые относительно распространенные слова, а справа исправления, предложенные гипергеометрическим тестом. Во многих случаях слова слева написаны с ошибками.

девяносто одна тысяча сто семьдесят-восемь Неоптимальные термины и частоты корректировки & частот acetycholine 153 ацетилхолина 46852 acetycholinesterase 32 ацетилхолинэстеразы 13207 acetyglucosamine 20 ацетилглюкозамина 4995 ацетилирования 287 ацетилированный 6594 ацетилхолина 64 ацетилхолина 46852 ацетилцистеин 64 ацетилцистеин 3879 Acetylocholine 20 20 9 46852 AcetylsalicyCliciclic 157 Acetylsalicylic 5186 Achalasic 904 86 73 ахалазии 2955 achatin 27 Achatina 320 дружнее 42 достиг 179735

два маркера

В этом случае мы нашли 11 762 пары двух токеновых фраз, которые удовлетворяли требованиям частоты.Сначала мы применили критерий гипергеометрической значимости, как и в случае с одним токеном. Это привело к идентификации 1836 пар, которые были значительно связаны между собой. Если гипергеометрический тест не показал значимость на уровне 0,01, мы применяли более строгий тест. Используемые конструкции изображены там, где мы описали случай пары фраз «инфаркт миокарда» и «инфаркт миокарда». Эти две фразы различаются только своими вторыми словами, и мы использовали общее первое слово «миокардиальный» для определения контекста или набора интересующих документов.

Мы применяем наивное байесовское обучение, чтобы узнать разницу между положительным набором, помеченным G , и отрицательным набором, состоящим из объединения наборов, помеченных B1 и B2 . Из изученных весов мы оцениваем как B1 , так и B2 и ранжируем объединение двух наборов. Затем мы применяем тест WMW, чтобы узнать, выше ли сумма рангов членов B1 , чем можно было бы ожидать на случайной основе. Для ответа на этот вопрос вычисляется значение p .

В этом наборе набор документов, содержащих неправильное написание «инфаркт миокарда», соответствует прямоугольнику, а набор, содержащий правильную фразу «инфаркт миокарда», соответствует эллипсу. Мы случайным образом выбрали три набора: B1 из документов, содержащих фразу с ошибкой, G из документов, содержащих правильную фразу, но без фразы с ошибкой, и B2 из документов, не содержащих ни одной фразы, но содержащих слово «миокардиальный».Каждый из этих наборов состоял из тысячи случайно выбранных документов, если это число попадало в выбранную категорию. Если набор доступных документов был меньше одной тысячи, за образец брался весь набор. Выборка использовалась для ограничения количества вычислений, необходимых для оценки любой пары фраз. Затем мы применили наивное байесовское обучение, чтобы узнать разницу между G и B1 B2 . С полученными таким образом весами мы оценили все документы в B1 B2 и расположили их в порядке убывания количества баллов.Затем мы применили критерий Уилкоксона-Манна-Уитни, чтобы увидеть, была ли сумма рангов членов B1 меньше ожидаемой. Это означало бы, что члены B1 набрали больше очков, чем ожидалось, или, другими словами, были более похожи на членов G , чем члены B2 . Мы применили этот тест к 9926 парам, оставшимся после удаления 1836 пар, найденных с помощью гипергеометрического теста. В результате мы определили еще 5628 пар фраз, которые были значимы на уровне 0.01 уровень. Пример найденных таким образом пар фраз приведен в .

Таблица 6

Образец менее оптимальных фраз запроса слева в паре с их гораздо более частотными аналогами справа. В некоторых случаях фраза слева содержит орфографическую ошибку. В других случаях это просто не самая часто используемая форма и, следовательно, будет относительно плохой запрос на используемую концепцию.

921 60 10486
Неоптимальные термины и частоты корректировки & частот
мышечной оболочки кишечника нейронных 9 нейронов мышечной оболочки кишечника 593
myocardiac миокарда 34 инфаркт миокарда 114638
инфаркт миокарда 122 инфаркт миокарда 114638
миокарда ишемическая 870 ишемия миокарда 27214
миокарда некрозы 77 некроза миокарда 2055
миокарда реваскуляризация 234 234 234 9343 7343
10481
10 119 119 119
Miopia Astigmatism Миопский астигматизм 296 276 276 276 276 276
Пациенты Миопии 19 Мейповые пациенты 231 231

10 922 Пары одиночных токенов и 7 464 двух партун не удаляются полностью от рассмотрения.Скорее их частоты уменьшены до единицы для целей вычислений, включающих выражения (1) и (2). Таким образом, гораздо более вероятно, что они не будут выбраны в качестве исправления для запроса. Однако они остаются возможными промежуточными шагами в последовательности операций, ведущих к исправлению. Если они появляются в качестве такого промежуточного звена, шансы на то, что окончательной коррекцией будет высокочастотный член, с которым они связаны в только что описанном статистическом тестировании, возрастают.

Можно спросить, почему мы не использовали тест WMW для пар одноточечных фраз. Причина в том, что мы обнаружили много ложных срабатываний, когда пытались его использовать. Наша попытка включала изображение, похожее на . Однако у нас не было контекстного слова, подобного слову «миокардиальный», на этой картинке, чтобы сфокусировать вычисления. Поэтому мы выбрали B2 из всех оставшихся данных PubMed, за исключением тех документов, которые включали один из интересующих токенов. Тогда, если бы низкочастотный токен в паре не был орфографической ошибкой, образец B1 был бы из значимой темы, совершенно не связанной с G.В результате документы в B1 могли быть более или менее связаны с G, чем общая случайная выборка B2. Если бы они были более связаны, статистический тест мог бы быть легко удовлетворен на уровне 0,01, и все же не было бы действительно значимой связи между B1 и G . Таким образом, мы отказались от усилий. Возможно, таким образом можно было бы использовать некоторое уточнение теста. Если это так, то он может оказаться весьма полезным, потому что нельзя ожидать, что гипергеометрический тест будет работать во всех важных случаях.Это верно, потому что, когда опечатка действительно появляется в документе, это может быть постоянной ошибкой, и правильно написанный термин может не отображаться. В таких случаях тест на основе контекста, такой как тест WMW, который мы использовали, имеет гораздо больше шансов обнаружить ошибку.

ПРОБЛЕМЫ ПРОИЗВОДИТЕЛЬНОСТИ

Для базы данных PubMed попытки, используемые в алгоритме исправления орфографии, в настоящее время включают 14 267 366 строк с одним, двумя и тремя маркерами в Tr123; 2 775 111 строк из трех и более токенов в Tr3+; и 1 772 383 начальных сегмента строк из Tr3+ в Tr2p.В обычный рабочий день механизм запросов PubMed получает примерно 3 миллиона пользовательских запросов, и это генерирует более 3 миллионов запросов к алгоритму проверки орфографии. Это связано с тем, что многие запросы являются сложными и включают разбор знаков препинания и логических операторов, в результате чего создаются и проверяются на орфографию несколько фрагментов. Алгоритм проверки орфографии на самом деле предлагает исправления примерно для 10% пользовательских запросов, но любое произведенное предложение проверяется на предмет публикации (если он извлекает какие-либо документы из базы данных).Любое исправление, которое не публикуется, игнорируется. В результате пользователю предлагается исправить около 7% пользовательских запросов. Когда мы впервые начали делать предложения пользователям, они принимались ими в 36% случаев. Примерно через шесть месяцев пользователи принимали предложения со скоростью 40%. Теперь, примерно через год после развертывания, в последний понедельник было 3 275 624 запросов к поисковой системе PubMed, и 243 853 предложения заклинаний PubMed были сделаны для 80 785 уникальных IP-адресов, а 109 526 (45%) предложений заклинаний были нажаты с 45 285 уникальных IP-адресов.

Был изучен небольшой набор пользовательских запросов, 1323, и 110 из них содержали предложения, сделанные алгоритмом проверки орфографии. Из 110 предложенных исправлений 96 были признаны двумя судьями (совместно проконсультировавшимися) хорошими и 14 плохими. Это 87% успеха с 95% доверительным интервалом (81%,92%). Это намного выше целевого показателя в 70% правильных ответов, к которому мы стремились, и мы полагаем, что отчасти причина этого заключается в том, что предлагаемые исправления, которые не публикуются, игнорируются системой.

В настоящее время алгоритм проверки орфографии работает на шести компьютерах с процессором Dual Intel Xeon 3,6 ГГц, каждый из которых имеет 6 ГБ ОЗУ. Он написан на C++ и работает под Linux в 64-битном режиме. Его использование в среднем увеличило время отклика механизма запросов PubMed примерно на 25%, но на практике оно очень мало увеличивает время отклика на правильно написанные запросы. Алгоритм проверки орфографии реализован на шести серверах, потому что сейчас он используется для исправления запросов в четырнадцати различных базах данных NCBI, из которых PubMed просто самая большая.

ОБСУЖДЕНИЕ

приведены примеры исправлений, которые алгоритм способен сделать. Эти примеры выбраны потому, что они иллюстрируют влияние контекста и некоторые крайности патологии, а не потому, что опечатки типичны. Конечно, не все предлагаемые исправления так хороши, и небезынтересно посмотреть, какие ошибки допущены. Мы рассмотрели чуть более 500 предложений, сделанных программой проверки орфографии, которые не были приняты пользователями, и нашли, по нашему мнению, самые вопиющие ошибки.Они содержатся в .

Таблица 7

Примеры фраз, которые может исправить алгоритм проверки орфографии, обрабатывающий запросы PubMed, и предлагаемые исправления.

Опечатки Коррекция задается алгоритмом
инфаркт миокарда инфаркт миокарда
уха нарушение инфекция уха
miocardi alinfraction инфаркт миокарда
terminl illnss неизлечимой болезни
HIG pressue liqud chromatogph высокого давления жидкостной хроматографии
опухоли necrosisactor фактор некроза опухоли
Hmgolbin гемоглобина
Philariosis filariosis

Таблица 8

Примеры ошибок алгоритма проверки орфографии при обработке запросов PubMed.

Фраза Ошибочная коррекция
Сапна бат саун
periostin периоды
Daniel KE danieluk м
бисексуалов приставать бисексуальных Modest
поджелудочной железой и трансплантации поджелудочной железы и перевод
стволовые клеточные потери рос стволовых клеток
клейковых волос верхний воздух

можно отметить, что пять из семи встречаются в фразы, в которых были предприняты две или более попытки редактирования.Тот факт, что «Сапна Бат», имя человека, состоит из двух правок от фразы «баня в сауне», — это просто совпадение, которое не является обычным явлением. Проблема с «периостином» возникает из-за фразы «периоды», которая не должна была быть принята в словарь поисковой системы.

Проблемы с «Daniel K E» и «ros стволовых клеток» являются следствием того, что мы не применяем Constraint1 и Constraint2 соответственно, когда фраза имеет более двух токенов. Алгоритм мог бы выиграть с точки зрения точности, если бы мы это сделали, но он был бы более сложным.Как для «бисексуальных растлений», так и для «поджелудочной железы и трансплантации» доступный контекст не используется. Это потому, что ни один из них не исправляет фразу в системе. Скорее «перевод» и «приставание» исправляются изолированно. Конечно, слово «приставать» пишется правильно, но в документах PubMed оно встречается только 23 раза, а слово «скромный» встречается более 28 тысяч раз. Можно видеть, что «приставать» более разумно, чем «скромно» из-за другой части запроса, однако в настоящее время система использует контекст только в том случае, если он является частью допустимой фразы в системе.Наконец, есть случай «медных волос». Здесь слово «купер» встречается в PubMed десять раз (на момент написания статьи и не считая поля author). Один раз это имя человека, а остальные девять раз это неправильное написание слова «медь». Алгоритм исправит «медь» на «медь» (более 53 тысяч вхождений), за исключением того, что он предпочитает исправления фраз, когда контекст может более эффективно управлять процессом. Однако на этот раз выдает ошибку. Пользователя вполне могла заинтересовать болезнь Менке, вызванная нарушением всасывания меди в кишечнике и характеризующаяся курчавыми волосами (бесцветными).К сожалению, «медные волосы» не являются признаком болезни Менке, и эта фраза даже не встречается в базе данных PubMed.

Кто-то может спросить, как наша точность исправления орфографии сравнивается с точностью других, которые использовали модель зашумленного канала. Черч и Гейл (1991) сообщают о точности 87% при исправлении набора из 332 орфографических ошибок, выявленных утилитой Unix Spell , исправление которых было одобрено по крайней мере двумя из трех судей-людей. Все эти орфографические ошибки характеризовались ровно двумя возможными однократными исправлениями в списке слов, составленном исследователями из стандартных источников.Когда модель исправления орфографии была дополнена контекстной информацией через языковую модель, они получили улучшение до 89,5%. Здесь мы можем сказать, что наш показатель точности аналогичен их, хотя есть много вопросов относительно того, насколько сопоставимо тестирование. Во-первых, мы используем не языковую модель, а нечто меньшее, хотя контекст в нашем процессе не полностью игнорируется. Во-вторых, они ограничили свой процесс однократным редактированием, тогда как мы разрешили множественное редактирование. Наконец, они ограничили свое тестирование исправлением, когда в качестве ответов было только два варианта, и это, казалось бы, повысило их точность.Поэтому из такого сравнения трудно сделать выводы.

Вторая версия модели зашумленного канала для исправления правописания была предложена Бриллом и Муром (2000). Они используют более сложную модель редактирования, в которой одно редактирование может привести к исправлению нескольких символов. Они также ссылаются на более широкий контекст, чем одиночный символ, предшествующий исправлению, используемому Черчем и Гейлом, или одиночный символ с обеих сторон, который мы используем. Они изучили корпус из 10 000 слов с распространенными английскими орфографическими ошибками в сочетании с их правильным написанием.Они обучили 8 000 из них и протестировали свою систему на оставшихся 2 000. В процессе тестирования они использовали словарь из 200 000 статей, в который вошли все слова из тестового набора. Они обнаружили точность 95% без языковой модели. Чтобы оценить влияние языковой модели, они рассчитали поправки для тех же тестовых слов, которые встречались в контексте в корпусе Брауна. Это привело к показателю точности 95% и соответствующему показателю 93,9% без языковой модели (поскольку результаты вычисляются для каждого токена, а не для каждого типа).Поскольку наша точность коррекции рассчитывается также для каждого токена, именно эти последние цифры наиболее сопоставимы. Они использовали контекст из 3 символов по обе стороны от редактирования в качестве контекста для получения этого результата. Здесь их показатели производительности лучше, чем у нас. Но следует задаться вопросом, как обработка только самых распространенных ошибок в английском языке повлияет на их производительность. Для сравнения, мы имеем дело с полным спектром ошибок, которые могут возникнуть с использованием нескольких токенов, хотя наиболее распространенные ошибки будут иметь наибольшее влияние на нашу точность.Другим фактором, связанным с этим, является размер словаря, используемого в процессе исправления. В нашем случае количество уникальных токенов превышает 2,5 миллиона, а Брилл и Мур используют список из 200 000 слов. Таким образом, наш словарь более чем на порядок больше их. Пока словарь содержит правильные ответы, чем меньше словарь, тем легче процесс исправления. Чем меньше число правильных ответов, тем менее плотно они упакованы (Кукич, 1992) и тем меньше вероятность того, что разные словарные статьи будут конкурировать за исправление строки с ошибкой.

Из-за различий в способах использования контекста в запросе поисковой системы по сравнению с текстом на естественном языке, а также из-за различий в размере словаря сделать однозначные выводы из этих сравнений непросто. Одна вещь, которая кажется интересной, — это более широкий контекст внутри строки, который Брилл и Мур используют для условия редактирования. Они обнаружили повышение точности примерно на 2% при использовании окна с тремя символами по обе стороны от редактирования вместо окна только с одним символом с каждой стороны.Это говорит о том, что мы могли бы увидеть подобное улучшение, если бы наш алгоритм использовал более широкий контекст. Чего мы не знаем, так это того, как такое изменение повлияет на скорость алгоритма. Этот вопрос требует дальнейшего изучения.

Другим возможным способом улучшения алгоритма является некоторая форма фонетической коррекции. Признано, что большинство орфографических ошибок (приблизительно 80%) представляют собой единичные ошибки редактирования, когда редактирование понимается в смысле Дамерау (Damerau 1964) вставки буквы, удаления буквы, замены буквы или перестановки. две соседние буквы.Однако фонетические ошибки часто связаны с большим количеством букв и их труднее исправить (Кукич, 1992). Зобель и Дарт (1995) сравнили Soundex и Phonix (Gadd 1990) с методами, основанными на расстоянии редактирования, и пришли к выводу, что методы, основанные на фонетике, уступают подходу на расстоянии редактирования в поиске хороших совпадений для строк в большом словаре. Мы изучили алгоритм Metaphone (Philips, 1990) и попытались использовать его для исправления опечаток в симуляциях, где генерировались ошибки, такие как -. Во всех случаях мы обнаружили, что результаты хуже, чем мы смогли получить, используя модель зашумленного канала и выражения (1) и (2).По нашему опыту, фонетическая коррекция работает хорошо в некоторых случаях, но в других она идентифицирует строки как похожие, которые не должны быть идентифицированы, или не может сделать такую ​​идентификацию, когда мы этого хотим. Например, Зобель и Дарт отмечают, что «безумный» и «не» кодируются в одну и ту же строку в Soundex и Phonix. Аналогичным образом мы отмечаем, что при использовании Metaphone «фаланги» кодируются в «flnjs», а «hpalanges» кодируются в «hplnjs». Таким образом, одна ошибка редактирования может увеличиться при кодировании. Другой вопрос, который следует задать в этой настройке, заключается в том, сколько орфографических ошибок возникает в запросах PubMed, которые нельзя исправить одним или двумя правками.Это важно, потому что наш алгоритм уже достаточно хорошо работает с ошибками, состоящими из одной или двух правок. Чтобы изучить этот вопрос, мы обработали те же 63-дневные файлы журналов пользователей PubMed, из которых мы получили наши вероятности редактирования, и в аналогичной обработке собрали все пары отдельных токенов, где первый член пары не находился в пределах двух правок любой строки в базе данных PubMed, но вторая появилась в базе данных, в то время как две строки производили одну и ту же кодировку в Metaphone (обратите внимание, что мы используем полную кодировку без усечения).Мы идентифицировали 5 781 такое совпадение пар с участием 2 894 уникальных пар. Если кто-то оптимистично предположил, что можно исправить ошибочную строку запроса во всех случаях, используя кодировку Metaphone таким образом, это дало бы не более 92 дополнительных исправлений в день к тому, что мы уже делаем. Учитывая, что мы обычно обнаруживаем, что пользователи принимают более 90 000 исправлений в день, мы ожидаем максимум 0,1% увеличения того, что пользователи принимают, а более реалистично, вероятно, менее половины этого. Таким образом, неясно, стоит ли фонетическая коррекция накладных расходов, которые она повлечет за собой.

ВЫВОДЫ

Мы разработали алгоритм проверки орфографии, который достаточно точно исправляет (≅87%) и обрабатывает одно или два редактирования, а также большее количество правок, если исправляемая строка достаточно длинная. Он обрабатывает слова, которые фрагментированы или объединены. Если запросы состоят из более чем одного токена, алгоритм пытается использовать дополнительную информацию в качестве контекста, чтобы помочь процессу исправления. Алгоритм реализован в поисковой системе PubMed, где он часто делает более 200 000 предложений в день, и около 45% этих предложений принимаются пользователями.Алгоритм эффективно увеличивает среднее время ответа на запрос для пользователей всего на 25%, и большая часть этого наблюдается только для запросов с ошибками. Существует возможность улучшения алгоритма за счет использования большего количества контекста вокруг мест ошибок в словах. Существует также возможность улучшить алгоритм, научившись лучше использовать контекст, предоставляемый запросами, состоящими из нескольких токенов. В обоих случаях такие усилия должны учитывать, как поддерживать эффективность в свете огромного словарного запаса фраз (> 14 миллионов) и отдельных слов (> 2.5 миллионов) распознается поисковой системой. Существует также возможность использовать фонетическое кодирование для улучшения обработки некоторых ошибок, которые в настоящее время вызывают проблемы в системе. Однако предварительные расчеты показывают, что добиться значительного улучшения с помощью фонетических кодировок будет сложно.

Благодарности

Авторы хотели бы поблагодарить Дэвида Кентона и Прамода Парантамана за содержательные обсуждения и их работу по оценке алгоритма, а также Владимира Сиротинина и Гришу Старченко за их работу по включению алгоритма в обработку запросов поисковых систем.Мы также благодарим анонимных рецензентов за полезные предложения по улучшению статьи. Это исследование было поддержано [частично] Программой внутренних исследований NIH, Национальной медицинской библиотеки.

Ссылки

  • Биферман Д., Бергер А. Агломеративная кластеризация журнала запросов поисковой системы. Шестая международная конференция ACM SIGKDD по открытию знаний и интеллектуальному анализу данных; Бостон, Массачусетс, ACM Press. 2000. [Google Scholar]
  • Брилл Р., Мур Р.С.Улучшенная модель ошибок для исправления орфографии зашумленного канала. ACL 2000 2000 [Google Scholar]
  • Church KW, Gale WA. Оценка вероятности исправления орфографии. Статистика и вычислительная техника. 1991; 1: 93–103. [Google Scholar]
  • Damerau FJ. Техника компьютерного обнаружения и исправления орфографических ошибок. Коммуникации АКМ. 1964; 7 (3): 171–176. [Google Scholar]
  • Gadd TN. ФОНИКС: Алгоритм. Программа: Автоматизированные библиотечно-информационные системы. 1990;24(4):363–366.[Google Scholar]
  • Hall PA, Dowling GR. Приблизительное соответствие строк. Компьютерные опросы. 1980;12(4):381–402. [Google Scholar]
  • Huang CK, Chien LF, et al. Предложение релевантных терминов в интерактивном веб-поиске на основе контекстной информации в журналах сеансов запросов. Журнал Американского общества информационных наук и технологий. 2003;54(7):638–649. [Google Scholar]
  • Джурафски Д., Мартин Дж. Х. Обработка речи и языка. Река Верхнее Седло; Нью-Джерси, Прентис Холл: 2000.[Google Scholar]
  • Кукич К. Приемы автоматического исправления слов в тексте. Компьютерные исследования ACM. 1992;24(4):377–439. [Google Scholar]
  • Ларсон Х.Дж. Введение в теорию вероятностей и статистический вывод. Нью-Йорк: Джон Уайли и сыновья; 1982. [Google Scholar]
  • Leroy G, Lally AM, et al. Использование динамических контекстов для улучшения случайного поиска в Интернете. Транзакции ACM в информационных системах. 2003;21(3):229–253. [Google Scholar]
  • Макэнтайр Дж., Липман Д.PubMed: преодоление информационного разрыва. Смаж. 2001;164(9):1317–9. [Бесплатная статья PMC] [PubMed] [Google Scholar]
  • Нордли Р. «Раскрытие информации о пользователе» — сравнение первоначальных запросов и последующего развития вопросов при онлайн-поиске и взаимодействии с людьми. SIGIR’99: 22-я Международная конференция по исследованиям и разработкам в области информационного поиска, Калифорнийский университет; Беркли, ACM Press. 1999. [Google Scholar]
  • Philips L. Hanging on the Metaphone. Компьютерный язык.1990;7(12) [Google Scholar]
  • Седжвик Р. Алгоритмы на C (части 1–4) Бостон: Addison-Wesley; 1998. [Google Scholar]
  • Silverstein C, Henzinger M. Анализ очень большого журнала запросов поисковой системы. Форум СИГИР. 1999;33(1):6–12. [Google Scholar]
  • Спинк А., Вольфрам Д. и др. Поиск в Интернете: общественность и ее запросы. Журнал Американского общества информационных наук и технологий. 2001;52(3):226–234. [Google Scholar]
  • Опрос. Поиск NPD и обзор сайта портала.2000. Получено 26 сентября 2005 г. с http://www.searchenginewatch.com/sereport/article.php/2162791.
  • Ван П., Берри М.В. и др. Анализ продольных веб-запросов: тенденции и закономерности. Журнал Американского общества информационных наук и технологий. 2003;54(8):743–758. [Google Scholar]
  • Wen JR, Nie JY и др. Кластеризация запросов с использованием журналов пользователей. Транзакции ACM в информационных системах. 2002;20(1):59–81. [Google Scholar]
  • Зобель Дж., Дарт П. Поиск приблизительных совпадений в больших словарях.Программное обеспечение-Практика и опыт. 1995;25(3):331–345. [Google Scholar]

Проверка орфографии Google Chrome не работает?

Веб-браузер Google, впервые выпущенный в 2008 году для Windows, известный как Chrome, стал самым популярным браузером в большинстве стран мира. Фактически, по состоянию на октябрь 2018 года Chrome используют почти 70 процентов пользователей настольных компьютеров по всему миру. Он также занимает около 57 процентов доли рынка мобильных браузеров.

Помимо того, что Chrome используется большинством пользователей, у него есть несколько довольно интересных функций, которые могут использовать пользователи Android, Windows и Mac.Это включает в себя возможность синхронизировать вашу историю, закладки и настройки на всех используемых вами устройствах, автоматический перевод веб-страниц и защиту от сканирования загрузки.

Chrome также имеет встроенную проверку орфографии. Это означает, что Chrome обнаружит любые слова с неправильным написанием слов, а затем отправит обратно либо правильную версию, либо предложения. Это просто делает просмотр веб-страниц немного более приятным.

Но что делать, если средство проверки орфографии Google Chrome не работает? Это может быть из-за следующих проблем.

Проверка орфографии не включена

По умолчанию проверка орфографии отключена. Причина, по которой он не работает, заключается в том, что он никогда не включался.

Хорошей новостью является то, что это невероятно быстрое решение, позволяющее вам снова стать продуктивным человеком.

Сначала откройте Google Chrome и найдите эти три точки в правом верхнем углу браузера. Прокрутите вниз и нажмите Настройки .

Находясь в Settings , прокрутите вниз, пока не дойдете до Advanced Settings.

 

См. вариант для Использовать веб-службу для устранения орфографических ошибок внизу? Идите вперед и включите это, нажав кнопку справа. Если он синий, то он был включен.

Пока вы здесь, прокрутите немного вниз, пока не дойдете до Язык и введите , убедитесь, что он установлен на предпочитаемый вами язык.

Если это необходимо изменить, просто нажмите кнопку справа от языка, чтобы изменить его.

Альтернативный метод.

Этот способ не сработал? Тогда может быть ошибка с Chrome. К счастью, вы все еще можете включить проверку орфографии, выполнив следующие действия;

Не открывать Chrome. Вместо этого перейдите на https://www.google.com.

Щелкните правой кнопкой мыши в поле поиска в центре окна и выберите Проверка орфографии.

Выберите Все ваши языки и Проверьте правильность написания параметров текстового поля. Вот и все.Тебе должно быть хорошо идти.

Проверка орфографии Google Chrome по-прежнему не работает

Если вы включили проверку орфографии, но она по-прежнему не работает, попробуйте следующее;

Перейти инкогнито.

В Google Chrome есть интересная функция, называемая режимом инкогнито. Это не означает, что это защищает вас от посещения некоторых веб-сайтов NSFW во время работы. По сути, он «приостанавливает» вашу историю поиска и защищает вас от незащищенных сайтов. Это действительно предназначено для тех, кто делит компьютер.

Итак, допустим, вы искали подарок на годовщину своей второй половинки. Вы переходите в режим инкогнито, чтобы они не могли видеть, какие у вас были идеи.

Возвращаясь к проверке орфографии, проверьте, работает ли она в режиме инкогнито. Вы можете сделать это, нажав на три точки в правом верхнем углу. Затем выберите Новое окно в режиме инкогнито.

При нажатии на это появится новое окно. Это будет выглядеть так;

Если проверка орфографии не работает в режиме инкогнито, это может быть связано с тем, что проверка орфографии не включена или менеджер учетной записи установил настройки конфиденциальности.Теперь вы можете либо вернуться и включить проверку орфографии, либо продолжить использовать режим инкогнито, если это не разрешено на вашем рабочем месте.

Очистить кеш и куки.

Другим быстрым решением может быть простая очистка кеша и файлов cookie на вашем устройстве.

Снова переместите эти три точки, прокрутите вниз до Дополнительные инструменты и выберите Очистить данные просмотра.

После того, как вы нажмете на него, появится это окно.

Затем у вас есть возможность выбрать период времени, например, L ast час или Все время .После этого выберите тип информации, которую хотите удалить, и нажмите Очистить данные.

Сбросить настройки Chrome по умолчанию.

Вы также можете сбросить настройки Chrome. Причина? Установленное вами приложение или расширение изменило ваши настройки. Это не удалит сохраненные пароли или закладки, но может решить проблему проверки орфографии.

Откройте Chrome и перейдите в настройки . Прокрутите вниз и нажмите Дополнительно. В самом низу нажмите на кнопку Восстановить настройки. Это вернет ваши настройки к исходным настройкам по умолчанию.

Если все это работает, вы можете загрузить и запустить Chrome Canary или связаться с Big G. Резервное копирование электронной почты на жесткий диск
Как импортировать календарь Outlook в Google
Как настроить календарь Outlook
Как исправить проблемы синхронизации с календарем Google
Как удалить календарь GoogleКак создать календарь в Документах Google
Как экспортировать Google Календарь в Outlook или Apple
Как создавать календари на вашем iPhone и iPad
Как установить сообщение об отсутствии на работе в календаре Google
Как установить сообщение об отсутствии на работе в Outlook
Как объединить календари Microsoft Outlook
Как увидеть Google События календаря в календаре Apple
Как создать календарь в Excel
Полное руководство по календарю Google

Проверка орфографии | Справочное руководство по Apache Solr 6.6

проверка правописания

Включает или выключает предложения проверки орфографии для запроса. Если верно , будут созданы варианты написания.

проверка орфографии.q или q

Выбирает запрос для проверки орфографии.

проверка орфографии.сборка

Указывает Solr создать словарь для проверки орфографии.

проверка орфографии.сопоставить

Заставляет Solr создать новый запрос на основе наилучшего предложения для каждого термина в отправленном запросе.

проверка орфографии.maxCollations

Этот параметр указывает максимальное количество возвращаемых параметров сортировки.

проверка орфографии.maxCollationTries

Этот параметр указывает количество возможностей сортировки, которые Solr должен попробовать, прежде чем отказаться.

проверка орфографии.maxCollationEvaluations

Этот параметр указывает максимальное количество комбинаций исправления слов для ранжирования и оценки перед принятием решения о том, какие варианты сопоставления следует проверить на соответствие индексу.

проверка орфографии.collateExtendedResults

Если true, возвращает развернутый ответ с подробным описанием найденных сопоставлений. Если Spellcheck.collate имеет значение false, этот параметр будет проигнорирован.

проверка орфографии.сопоставитьMaxCollectDocs

Максимальное количество документов для сбора при тестировании потенциальных сопоставлений

проверка правописания.collateParam.*

Задает пары параметр=значение, которые можно использовать для переопределения обычных параметров запроса при проверке сопоставлений

проверка орфографии.счетчик

Задает максимальное количество возвращаемых вариантов правописания.

проверка орфографии.словарь

Указывает словарь, который следует использовать для проверки орфографии.

проверка орфографии.extendedResults

Заставляет Solr возвращать дополнительную информацию о результатах проверки орфографии, такую ​​как частота каждого исходного термина в указателе (origFreq), а также частота каждого предложения в указателе (частота). Обратите внимание, что этот формат результата отличается от нерасширенного, поскольку возвращаемый вариант слова на самом деле представляет собой массив списков, где каждый список содержит предложенный термин и его частоту.

проверка орфографии.onlyMorePopular

Ограничивает ответы проверки орфографии более популярными запросами, чем исходный запрос.

проверка орфографии.

Leave a Reply