Шумный текст - Noisy text

Шумный текст текст с различиями между поверхностной формой кодированного представления текст и предполагаемый, правильный или оригинальный текст.[1] В шум может быть из-за типографические ошибки или же разговорные выражения всегда присутствует в естественный язык и обычно снижает Качество данных таким образом, чтобы сделать текст менее доступным для автоматизированной обработки компьютерами, в том числе обработка естественного языка. Шум также мог быть внесен в процессе извлечения (например, транскрипция или же OCR ) с носителей, отличных от оригинала электронные тексты.[2]

Использование языка в компьютерных дискурсах, например чаты, электронные письма и SMS текстов, существенно отличается от стандартной формы языка. Стремление к сокращению длины сообщения, облегчающего быстрее печатать и потребность в семантический ясность, форма структуры этого текста, используемого в таких дискурсах.

По оценкам различных бизнес-аналитиков, неструктурированные данные составляет около 80% всей данные предприятия. Большая часть этих данных включает стенограммы чатов, электронные письма и другие неформальные и полуформальные внутренние и внешние коммуникации. Обычно такой текст предназначен для употребления людьми, но, учитывая объем данных, ручная обработка и оценка этих ресурсов практически невозможны. Это вызывает потребность в надежных интеллектуальный анализ текста методы.[3]

Методы снижения шума

Использование средства проверки правописания и грамматика может уменьшить количество шума в печатном тексте. Много текстовые процессоры включите это в инструмент редактирования. Онлайн, поиск Гугл включает в себя механизм предложения поисковых запросов, чтобы помочь пользователям, когда они ошибаются в своих запросах.

Смотрите также

Рекомендации

  1. ^ Кноблок, К., Лопрести, Д., Рой, С., Субраманиам, Л. В. (2007). «Специальный выпуск по аналитике зашумленного текста». Международный журнал анализа и распознавания документов. 10 (3–4): 127–128. Дои:10.1007 / s10032-007-0058-9.CS1 maint: несколько имен: список авторов (ссылка на сайт)
  2. ^ Винчиарелли, А. (2005). «Шумная категоризация текста». IEEE Transactions по анализу шаблонов и машинному анализу. 27 (12): 1882–1895. Дои:10.1109 / TPAMI.2005.248. PMID  16355657.
  3. ^ Субраманиам, Л. В., Рой, С., Фаруки, Т. А., Неги, С. (2009). Обзор типов текстового шума и методов обработки зашумленного текста. Третий семинар по аналитике зашумленных неструктурированных текстовых данных (AND).CS1 maint: несколько имен: список авторов (ссылка на сайт)