Коли́чественные ме́тоды
в языкознании - использование подсчётов и
измерений при изучении языка и речи. В той мере, в какой К. м. опираются
на математическую статистику, они могут быть названы статистическими
методами. Как и все математические методы, К. м. могут
применяться к объектам самой разной природы, поэтому в языкознании они
используются для анализа единиц любого уровня. Во многих сферах
языкознания применение К. м. ничем не отличается от применения их в
других науках. Например, экспериментальная (инструментальная)
фонетика использует тот же математический аппарат, что и физика.
Применение выборочных методов статистики в языкознании аналогично их
применению в других естественных и социальных науках. В психолингвистике и социолингвистике, где обрабатываются мнения
информантов, применяются те же методы конструирования шкал, что и в
психологии и социологии.
Вместе с тем в языкознании возникают специфические аспекты применения
К. м., связанные с противопоставлением языка и речи.
Непосредственно к системе языка К. м.
применяются крайне редко и ограничиваются главным образом лексикой (количественное изучение этимологического состава словаря, процессов словообразования, распространённости разных
типов полисемии). К. м. используются также в сравнительно-историческом языкознании (см. Глоттохронология).
Основным объектом применения К. м. обычно является речь, точнее, текст. Количественные показатели дают
определённую информацию о самих текстах. На том факте, что различия
между языковыми стилями и жанрами носят
преимущественно статистический характер, основана так называемая
статистическая стилистика. Возможность через
лексику количественно отражать тематическую отнесённость текстов языка
важна для некоторых приложений лингвистики (например, в
информатике). Широкое применение К. м. для описания и классификации
текстов (например, при атрибуции текстов, в частности при установлении
авторства анонимных или псевдонимных текстов) связано с тем, что
большинство двусторонних единиц и конструкций языка могут служить
основой для различения текстов или для их квалификации.
С другой стороны, К. м., примененные к текстам, открывают путь к
изучению самого языка, поскольку сегменты текстов, являющиеся объектами
подсчётов, соотнесены с единицами языка. К. м.
позволяют количественно описывать поведение различных языковых единиц
(фонем, букв, морфем, слов) в тексте: частоту употребления единиц, их
распределение в текстах разного жанра, сочетаемость с другими единицами и т. п.
Одновременно накапливается обобщённая количеств, информация о
классах единиц, о языковых конструкциях (например, данные о средней
длине слова или предложения, о частоте употребления каких-либо
грамматических форм в тех или иных синтаксических функциях и т. п.). Такая информация
углубляет описание единиц языка. Например, простая констатация наличия
форм именительного падежа единственного числа личных местоимений в
английском, русском и латинском языках недостаточна для выявления типологических различий, если не учитывать
количественные различия в текстовом поведении соответствующих единиц:
почти абсолютная необходимость местоимения при глаголе в английском
языке, его обычность - в русском языке и редкость и стилистическая
маркированность - в латинском языке. Таким образом, создаётся
перспектива превращения обычной структурной модели языка в
структурно-вероятностную модель, в которой учитываются результаты
статистического анализа текстов (в этой модели единицы языка обладают
«весом», измеряемыми оказываются языковые противопоставления и связи).
Структурно-вероятностная модель отличается большей реалистичностью,
особенно эффективна она в диахронических и типологических исследованиях (например, при
сличении и обработке исторически последовательных текстов).
Соединение статистических методов с идеями дистрибутивного анализа легло в основу
дистрибутивно-статистического анализа, описывающего структуру
языка и структуру текста на основе очень ограниченной исходной
информации (например, принимая за данное письменный текст без
каких-либо сведений о его семантике). В этом
случае единицы языка и их отношения выделяются в процессе этого анализа,
а не используются как готовый материал.
К. м. в языкознании предполагают исследование обширных массивов
текстов, поэтому для их применения большое значение приобретают
средства доступа к текстовым данным, допускающие многократное к ним
обращение. К таким средствам относятся базы данных, хранимые в ЭВМ,
издания, подготовленные с помощью ЭВМ (частотные словари,
конкордансы - словари, фиксирующие все контексты употребления слова, и
т. п.).
Создание машинных фондов национальных языков (см. Автоматическая обработка текста) расширяет
возможность изучения языка, особенно с помощью К. м.
Андреев Н. Д., Статистико-комбинаторные методы в
теоретическом и прикладном языковедении, Л., 1967;
Головин Б. Н., Язык и статистика, М., 1971;
Алексеев П. М., Статистическая лексикография, Л.,
1975;
Шайкевич А. Я., Дистрибутивно-статистический анализ в
семантике, в кн.: Принципы и методы семантических исследований, М.,
1976;
Пиотровский Р. Г., Бектаев К. Б.,
Пиотровская А. А., Математическая лингвистика, М., 1977;
Квантитативная типология языков Азии и Африки, Л., 1982;
Guiraud P., Problèmes et méthodes de la
statistique linguistique, Dordrecht, [1959].
А. Я. Шайкевич.