Все словари русского языка: Толковый словарь, Словарь синонимов, Словарь антонимов, Энциклопедический словарь, Академический словарь, Словарь существительных, Поговорки, Словарь русского арго, Орфографический словарь, Словарь ударений, Трудности произношения и ударения, Формы слов, Синонимы, Тезаурус русской деловой лексики, Морфемно-орфографический словарь, Этимология, Этимологический словарь, Грамматический словарь, Идеография, Пословицы и поговорки, Этимологический словарь русского языка.

автоматическая обработка текста

Лингвистика

Автомати́ческая обрабо́тка те́кста -

преобразование текста на искусственном или

естественном языке с помощью ЭВМ. Прикладные

системы и теория А. о. т. начали создаваться в конце 50‑х гг. 20 в.

(США, СССР, Франция, ФРГ и др.) и развивались в нескольких различных

приложениях: в системном программировании, издательском деле и в

вычислительной лингвистике. В системном программировании, предметом

которого является создание программного обеспечения функционирования ЭВМ

и работы пользователей, развивались инструментальные средства разработки

программ, т. е. текстов на алгоритмических языках (см. Искусственные языки). В издательском деле

А. о. т. - одно из направлений автоматизации

редакционно-издательских процессов. В этих областях термин «А. о. т.»

употребляется, как правило, в относительно узком смысле как

преобразование формы. В вычислительной лингвистике, предметом которой

является автоматический лингвистический анализ и синтез текста, а

также лингвистические аспекты общения с ЭВМ на естественном языке,

термин «А. о. т.» понимается в более широком смысле, охватывающем и

процедуры анализа содержания и синтеза (по заданному содержанию

понятного человеку) текста.

В зависимости от целей различают несколько видов А. о. т.

Преобразование текста при автоматизированном редактировании

заключается во внесении в текст, находящийся в памяти ЭВМ,

исправлений и дополнений; форматирование текста заключается в

выделении заголовков, формировании строк и страниц нужного формата,

выделении и оформлении разделов и подразделов текста для его

воспроизведения на устройствах печати ЭВМ. В процессе

автоматического набора и вёрстки текст, введённый в ЭВМ,

преобразуется в представление (код), воспроизводимое полиграфическим

оборудованием (например, фотонаборным автоматом). При

лексикографической обработке текст преобразуется в лексикографическое представление, в котором

каждому словоупотреблению соответствует определённая информация в

формируемом к этому тексту словаре.

В автоматическом лингвистическом анализе текст

последовательно преобразуется в его лексемно-морфологическое,

синтаксическое и семантическое представления. В процессе

автоматического синтеза производятся обратные

преобразования: от семантического представления через

синтаксическое и лексемно-морфологическое к собственно текстовому.

Системы автоматизированного редактирования (текстовые

редакторы) и автоматического форматирования

(форматеры), называемые вместе системами А. о. т. в узком

смысле (англ. text

processing или word processing systems), с

конца 70‑х гг. входят в состав системного программного обеспечения

практически всех типов ЭВМ. Управление текстовыми редакторами и

форматерами осуществляется через дисплей (устройство для ввода с помощью

алфавитно-цифровой клавиатуры и отображения на экране электронно-лучевой

трубки обрабатываемого текста). Изменения и дополнения в обрабатываемый

текст могут быть внесены непосредственно с помощью указателя позиции в

тексте (курсо́ра), с помощью алфавитно-цифровой клавиатуры дисплея, а

также с помощью специальных команд, воспринимаемых системой

редактирования. В последнем случае одно и то же изменение может быть

внесено одновременно во все места текста, где оно необходимо (например,

изменение написания собственного имени,

расшифровка сокращения или, наоборот,

сокращение определённого словосочетания). Текстовые редакторы и

форматеры широко используются как средства подготовки и ввода в ЭВМ

программ, программной документации, научных отчётов и других

данных.

В издательской практике системы автоматизированного редактирования

используются, как правило, совместно с системами автоматического набора

и вёрстки. В качестве составных частей в такие системы входят и

некоторые лингвистические программы, например программы переноса слов в

соответствии с орфографией данного языка,

проверки и исправления орфографии, транслитерации и транскрибирования, выделения имён собственных и

ключевых слов для автоматического составления именных и предметных

указателей (в последнем случае используются также программы

лемматизации, т. е. преобразования текстовых форм слов в

словарные).

Автоматизированные лексикографические системы, т. е. системы

автоматизации подготовки и использования словарей, включают в себя

программы и справочные данные, необходимые для лексикографической

обработки текстов. В них используются текстовые редакторы для ввода и

коррекции программ, данных и запросов к системе, программы контроля

орфографии и разметки входного текста, программы сегментации текста на слова, словосочетания, предложения и фрагменты словарных статей, программы

лемматизации и подсчёта статистики словоупотреблений, программы

загрузки, поиска и коррекции данных и др. Введённые в систему тексты

и/или словари размещаются в базах данных и снабжаются словоуказателями и

другими индексами, позволяющими по слову или его характеристикам

находить его контексты или словарные статьи, в которых оно описано.

Результатом А. о. т. в автоматизированных лексикографических

системах являются частотные словари, конкордансы (словоуказатели с

контекстами), автоматические моно- и многоязычные словари, размещаемые

в базах данных и используемые программами лексикографических систем в

качестве справочного материала при обработке новых данных. Поэтому такие

системы являются развивающимися системами. Автоматические

словари используются в системах автоматического перевода, а также в информационных

системах и системах общения с ЭВМ на естественном языке в качестве

справочников при подготовке и расширении словарей и уточнении грамматик

этих систем.

В составе лингвистического обеспечения автоматизированных

информационных систем различают три группы функций А. о. т.:

автоматическое индексирование входных документов, автоматическое

составление поисковых предписаний по тексту запросов и

автоматизированное ведение словарей системы. Ядром лингвистического

обеспечения автоматизированных информационных систем являются

информационно-поисковые тезаурусы, в

терминах которых производится индексирование вводимых в систему

текстов. Индексирование текста заключается в составлении к нему

поискового «образа», в котором указываются понятия, описываемые в

тексте, и отношения между ними. Аналогично обрабатываются и запросы к

системе. Сравнением поисковых предписаний с поисковыми образами

документов осуществляется выбор текстов запрашиваемой тематики.

Существуют и бестезаурусные системы, способные осуществлять поиск

текстов по любым сочетаниям слов, встречающихся в них. В таких системах

автоматически строятся словоуказатели к вводимым текстам.

Наиболее полно функции А. о. т. развиты в системах автоматического

перевода и системах человеко-машинного общения, где основным является

синтаксический, а в системах общения с ЭВМ - семантический анализ. Эти

наиболее сложные формы А. о. т. целиком опираются на формальный аппарат,

развитый в рамках математической

лингвистики и вычислительной лингвистики. Здесь А. о. т.

осуществляется сложными программами, называемыми языковыми, или

лингвистическими, процессорами (NLP - Natural Language

Processor). Центральной функцией языковых процессоров является

грамматический разбор (parsing). Программы

грамматического разбора (parser) используют в

качестве справочных данных формальные грамматики и словари того

языка, тексты которого служат объектом анализа или синтеза. В качестве

формальных грамматик используются расширенные грамматики непосредственных составляющих

(контекстно-свободные грамматики), трансформационные грамматики,

грамматики расширенных сетей переходов, являющиеся системами грамматик

непосредственных составляющих, и др. В качестве формальных словарей

используются прикладные (инженерные) варианты толково-комбинаторных

словарей, т. е. специальных форм семантико-синтаксических словарей,

имеющих подробную информацию о вариантных формах

слов, об их семантике и о сочетаемостных

возможностях на лексическом, семантическом и синтаксическом уровнях с

учётом морфологических ограничений. В некоторых языковых процессорах

систем автоматического перевода и систем общения с ЭВМ такие словари

могут быть использованы как для анализа, так и для синтеза текстов.

Обычно языковые процессоры содержат морфологическую, синтаксическую,

семантическую (или синтактико-семантическую) и словарную компоненты

(подсистемы программ и данных), каждая из которых реализует динамическую

модель языка на соответствующем уровне. Языковые

процессоры систем общения с ЭВМ опираются, как правило, на некоторую

систему представления знаний и взаимодействуют с ней, осуществляя

функции логического (дедуктивного) вывода. Знания часто представляются в

виде так называемых фреймов - языковых моделей определённых фрагментов

действительности или семантических сетей и образуют так называемые

базы знаний, хранимые в ЭВМ. Эти функции используются также и как

средство раскрытия неоднозначностей (разрешения омонимии), восстановления эллипсисов, установления анафорических связей в тексте и в других сложных

случаях лингвистического анализа.

С 70‑х гг. наблюдается тенденция к интеграции всех подходов к

конструированию систем А. о. т. в рамках искусственного интеллекта -

направления в информатике (computer science),

связанного с созданием сложных человеко-машинных и робототехнических

систем, моделирующих человеческую деятельность в различных сферах и

предметных областях. В таких системах текст на естественном или

искусственном языке является как источником накопления знаний системы,

так и источником данных для выбора её поведения, а также средством

взаимодействия системы с человеком. Здесь функции редактирования всё

больше сливаются с функциями содержательной обработки, образуя единый

аппарат понимания текста. Это открывает возможности для автоматизации

наиболее сложных областей человеческой деятельности, требующих

затрат прежде всего интеллектуального труда, таких, как

редакционно-издательские процессы, извлечение информации из текстов,

медицинская и техническая диагностика, экспертная деятельность.

проектирование машин и сооружений, изготовление проектной

документация, управление социально-экономическими системами. Во всех

этих случаях А. о. т. играет первостепенную роль. Однако в таких

массовых, «промышленных» применениях А. о. т. должна опираться на

мощную информационную поддержку в виде автоматизированных словарных

картотек, автоматических словарей, грамматик и других форм представления

лингвистических данных в ЭВМ. Разработка таких систем приобретает

форму машинных фондов национальных

языков, национальных автоматизированных лексикографических служб

и т. п.

Лингвистическое обеспечение в системе автоматического перевода

третьего поколения. Предварительная публикация, М., 1978;

Хисамутдинов В. Р., Авраменко В. С.,

Легоньков В. И., Автоматизированная система информационного

обеспечения разработок, М., 1980;

Андрющенко В. М., Автоматизированные лексикографические

системы, в кн.: Теоретические и прикладные аспекты вычислительной

лингвистики, М., 1981, с. 71-88;

Попов Э. В., Общение с ЭВМ на естественном языке, М.,

1982;

Белоногов Г. Г., Кузнецов Б. А., Языковые средства

автоматизированных информационных систем, М., 1983;

Модели общения и лингвистические процессоры, в кн.: Представление

знаний в человеко-машинных и робототехнических системах. Том A. -

Фундаментальные исследования в области представления знаний, М., 1984,

с. 183-210;

Борковский А., Хельбиг Г., Системы подготовки

текста, там же, том B. - Инструментальные средства разработки систем,

ориентированных на знания, М., 1984, с. 73-87;

Системы общения с ЭВМ на естественном языке, там же, том C. -

Прикладные человеко-машинные системы, ориентированные на знания, М.,

1984, с. 36-69;

Андрющенко В. М., Машинный фонд русского языка: постановка

задачи и практические шаги, «Вопросы языкознания», 1985, № 2;

Hays D. G., Introduction to computational

linguistics, N. Y., [1967];

Bátori I. S., Linguistische Datenverarbeitung,

«Sprache und Datenverarbeitung», 1977, № 1, р. 2-11;

Knuth D. E., Tau Epsilon Chi, a system for

technical text, Providence, 1979, «SIGART Newsletter», 1982, № 79;

Meyrowitz N., Dam A. van, Interactive

editing systems, pt 1-2, «Computing Surveys», 1982, v. 14, № 3;

Furuta R., Scofield J.,

Shaw A., Document formatting systems, там же.

В. М. Андрющенко.

Методические термины

АВТОМАТИ́ЧЕСКАЯ ОБРАБО́ТКА ТЕ́КСТА.

Преобразование текста на естественном языке с помощью компьютера. В зависимости от целей различают несколько видов А. о. т. Обработка, преобразование текста при автоматизированном редактировании заключается во внесении в текст, находящийся в памяти компьютера, изменений и дополнений. Форматирование текста заключается в выделении рубрик текста, формировании строк и страниц нужного формата. При лексикографической обработке текст преобразуется в лексикографическое представление, в котором каждому словоупотреблению соответствует определенная информация. Результатом А. о. т. являются частотные словари, автоматические моно- и многоязычные словари, которые используются в системах автоматического перевода и в практике обучения языку.

Полезные сервисы