Корпус как информант лингвистического эксперимента

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Основополагающий принцип лингвистического эксперимента таков: чтобы проверить, можно ли, нормально ли в речи использовать ту или иную форму, следует «спросить» это у носителя языка, обладающего на основе многократно повторявшихся в его опыте актов речевого взаимодействия «языковым чутьём», языковой привычкой. И лучше всего «спросить» не у рядового пользователя языка, а у того, кто в некоторой степени создаёт язык, его общепризнанную норму — у писателя. Эксперимент даёт возможность воспроизводить эту процедуру и поставить вопрос о приемлемости некоторой формы языкового знака перед многими носителями языка, а ответ на него давать на основе общей тенденции в ответах носителей.

По-видимому, первым сознательно поставил этот вопрос Л.В. Щерба: «Сделав какое-либо предположение о смысле того или иного слова, той или иной формы, о том или ином правиле словообразования или формообразования и т.п., следует пробовать, можно ли сказать ряд разнообразных фраз (который можно бесконечно множить), применяя это правило. Утвердительный результат подтверждает правильность постулата…

Но особенно поучительны бывают отрицательные результаты: они указывают или на неверность постулированного правила, или на необходимость каких-то его ограничений, или на то, что правила уже больше нет, а есть только факты словаря, и т.п. […] Не ожидая того, что какой-то писатель употребит тот или иной оборот, то или иное сочетание, можно произвольно сочетать слова и, систематически заменяя одно другим, меняя их порядок, интонацию, и т.п., наблюдать получающиеся при этом смысловые различия, что мы постоянно и делаем, когда что-либо пишем. Я бы сказал, что без эксперимента почти невозможно заниматься этими отраслями языкознания» [Щерба 2004: 32].

Но откуда взять исходные фразы, которые будут использоваться в эксперименте? Н.О. Селиверстова, например, утверждает, что «особенно полезными для выработки первоначальной гипотезы обычно оказываются предложения, взятые из художественных произведений: никто так точно не употребляет языковые знаки, как хороший писатель, умеющий выбирать именно тот языковой символ, информация которого наиболее точно соответствует свойствам денотата и цели сообщения» [Селиверстова 2004: 49].

При этом подобные примеры из художественной литературы распространяются на «рядовых» пользователей языка, этому способствует то, что случаи неверного или неоднозначного использования языковых единиц исключаются из исследования. Исследователь исходит из презумпции: то, как употребляет данное слово писатель (один из множества), прямо и однозначно соответствует тому, как (в норме) употребляет данное слово любой носитель языка. И при направленности исследования на установление правильности / неправильности некоторого выражения такой путь вполне оправдан. Кроме того, достаточным количеством информантов является, по мнению О.Н. Селиверстовой, 15 человек [Там же: 51, 97, 126]. «Если все опрашиваемые принадлежат к одной социальной или территориальной группе, результаты опроса считаются значимыми для данной группы говорящих. Однако практически часто можно работать и с одним-двумя информантами…» [Там же: 51]. При всём при этом результаты подобного опроса считаются значимыми для всех носителей данного языка. Ответы информантов служат в большей степени лишь подтверждением тех особенностей значений слов, которые были выявлены лингвистическим анализом. Ср. случаи, когда расхождения в оценке правильности того или иного выражения почти не влияют на выводы или вообще не комментируются [Там же: 188, 210, 249, 322–323, 343, 513], хотя количество информантов, ответы которых не вписываются в гипотезу, может быть существенным, например, 5 из 12 [Там же: 188], 2 из 4 [Там же: 318, 321] или 5 из 8 [Там же: 101]. По мнению автора, такие расхождения игнорируются в силу якобы их обусловленности индивидуальными речевыми организациями, а цель исследования состоит в выяснении закономерностей языковой системы в целом [Там же: 50].

О.Н. Селиверстова обращает внимание на то, что ответы не всякого информанта дают полные основания для выводов: «Опыт работы с информантами показал, что не все носители языка могут вообще участвовать в некоторых видах эксперимента, что, по-видимому, связано с их неспособностью или неумением осознанно относиться к процессу речевой деятельности» [Там же: 96]. Это приводит к отбору информантов. От информантов требуется умение и привычка к абстрактному мышлению и логическому анализу, поэтому для участия в экспериментах выбирались аспиранты, научные сотрудники различных специальностей (математики, физики, историки, лингвисты и т.д.), преподаватели, редакторы [Там же: 96–97]. «Важную роль играет также проблема обучения информанта. Прежде всего необходимо приучить информанта реагировать на информацию, которая передаётся о денотативной ситуации, а не на саму денотативную ситуацию» [Там же: 97]. Этим и формируется деятельность информанта, которой от него ждёт исследователь и которая приближает его к исследователю, ставя последнего в ситуацию поиска искомого и стирая почти полностью различия между таким экспериментом и интроспекцией исследователя. Причём информанты, которые не могут быть приравнены к исследователю, исключаются. Результаты, полученные таким образом, переносятся на других носителей языка, которые не осуществляют такой квазиисследовательской деятельности. Указывается также на необходимость в некоторых случаях использовать информантов «высшей категории» [Там же: 100]. Таковыми, видимо, и являются писатели.

Как видно, система отсчёта для проводимых в таком ключе исследований обладает несколькими существенными методологическими характеристиками: 1) «неправильные» высказывания (т.е. не соответствующие гипотезе) исключаются, 2) информанты проходят отбор и обучение, что приближает их действия к действиям исследователя, 3) достаточно очень небольшого числа информантов, которое иногда сводится к одному-двум.

* * *

Корпусы используются обычно для статистического или какого-то другого анализа высказываний и текстов, для проверки статистических гипотез и для подтверждения правил данного языка. Часто они используются как вспомогательный инструмент в семантических, лексикологических, лингводидактических и других исследованиях.

Например, некоторые словари приводят в качестве равноправных формы гренок и гренка. А значит, можно говорить и гренки?, и гре?нки. Интересно, что, посмотрев в корпусе, я не нашёл ровным счётом ничего по этому поводу. И это значит, что выводы о приемлемости формы гренка лексикографы выводят не собственно из фактов языка (во всяком случае, не из зафиксированной и потенциально проверяемой части), а из собственной языковой интуиции. С другой стороны, это значит, что корпус не помогает решить этот вопрос, поможет только реальный эксперимент.

В последнее время использование корпусов широко распространено и в исследованиях перевода. Здесь корпусы используются как для проверки уже выполненного перевода, так и для анализа стратегий перевода или этапов переводного процесса, если полученный результат не совпадает по некоторым параметрам с примером перевода из корпуса.

Корпусную лингвистику принято противопоставлять традиционной в нескольких аспектах, и с методологических позиций эти различия не так существенны, как может показаться на первый взгляд.

Во-первых, традиционная лингвистика якобы ориентируется, прежде всего, на изучение языка, в то время как корпусная — на изучение речи. Следует, однако, помнить, что в корпусах представлено не собственно речевое общение людей и даже не речь как процесс, а продукты такого процесса, и для изучения процесса по его продуктам необходимо иметь чётко отработанную методологическую схему выявления характеристик процесса из наблюдаемых наличных характеристик продукта.

Во-вторых, корпусная лингвистика нацелена на описание языка в том его виде, как он проявляет себя в речи, которая и представлена в форме корпуса текстов. Но если исходить из того, что система языка проявляет себя по своим внутренним правилам и законам, то на результат такого проявления не действуют никакие сторонние факторы, и результат этот можно считать комплексом правильных предложений. А традиционная лингвистика как раз и ориентируется на анализ правильных предложений, «отрицательный» материал является чаще всего лишь вспомогательным средством для подтверждения выводов, сделанных на «положительном» материале.

В-третьих, как и традиционная, корпусная лингвистика черпает материал из множества текстов и высказываний, которые, однако, более чётко систематизированы и более доступны. Корпусные данные используются в качестве подтверждений или опровержений гипотез насчёт тех или иных употреблений слов (если не брать в учёт более конкретные задачи, например, подсчёт употреблений того или иного выражения в произведениях, скажем, Ф.М. Достоевского). Это — всё тот же языковой материал, что и в любом лексико-семантическом исследовании, но прошедший «предварительную подготовку», «сортировку» для его использования в исследовании.

В-четвёртых, корпусная лингвистика-де опирается на реальные факты речевой деятельности, в то время как традиционное языкознание опирается на интуицию учёного в отборе эмпирического материала. Однако лингвистический эксперимент, например, такой, как у О.Н. Селиверстовой, тоже опирается на наблюдения за речевой деятельностью и позволяет проверять обобщения теории на фактах, полученных от носителей языка. В корпус попадают не все и любые случаи словоупотреблений, а прошедшие некоторый отбор, кроме того, не все примеры из корпуса используются в конкретном исследовании, и этот второй отбор тоже опирается часто лишь на интуицию учёного (теория, как правило, не даёт чёткого ответа о том, почему одни примеры из корпуса лучше других).

В-пятых, корпусная лингвистика позволяет работать с языковыми данными в том их виде, в котором они были использованы в речевой деятельности, а традиционный подход предпочитает искусственные изолированные от контекста примеры. В обоих случаях научное познание концентрируется не на всех и любых характеристиках объекта (конкретного высказывания или слова), а выделяет лишь некоторые из них — те, которые необходимы для целей познания. Кроме того, эти выделенные в объекте познания характеристики выступают не сами по себе, в их материальной форме, а как носители некоторых функций, характерных и для других, в данном случае не наблюдаемых, единиц. Из многообразия всех свойств слов для целей конкретного исследования выбираются лишь некоторые, которые оказываются в ходе познания обобщёнными отражениями целого комплекса взаимодействий между множеством реальных схожих в некотором отношении языковых единиц. В речевой деятельности нужные свойства слов выделяются за счёт самого характера оперирования с ними и за счёт многочисленных внеязыковых условий общения, но это также предполагает актуализацию только некоторых их свойств. Актуализация некоторых свойств объектов в рамках научного познания опирается на существование лингвистической теории, позволяющей переходить от реально наблюдаемых языковых фактов к обобщениям, содержащим в аккумулированном виде те конкретные закономерности, которые определяют поведение языковых единиц и в речевой деятельности. Грубо говоря, теория «подсказывает», как следует абстрагировать интересующие исследователя свойства слов (или других единиц) от других их свойств, а значит, какие конкретные примеры реализации таких свойств брать в рамках конкретного исследования. Значит, неважно, взяты ли конкретные примеры употребления слов из корпуса или искусственно созданы исследователем; куда важнее, чтобы теория позволяла проследить тот путь, который проходят закономерности и взаимосвязи от их конкретной языковой формы до теоретических обобщений, и не искажает ли этот путь самих выявляемых закономерностей и взаимосвязей. Корпус является в таком случае лишь удобным инструментом быстрого доступа к фактическому материалу, но само исследование последнего осуществляется тем же методологическим и гносеологическим путём, что и исследование «искусственно придуманных» примеров.

В-шестых, корпусная лингвистика действительно позволяет более широко использовать индуктивные методы обработки эмпирического материала, однако это не даёт принципиально новых сведений о языке и речевой деятельности. Становление нового знания о языке не сводится к индуктивному обобщению эмпирии; одностороннее движение от эмпирии к теории через простое суммирование фактов если и возможно, то характерно лишь для самых зачаточных этапов развития, давно преодолённых языкознанием.

Теория оперирует не собственно эмпирическими фактами, а особыми теоретическими моделями — абстрактными объектами, полученными в результате обобщения эмпирических фактов. И как раз абстрактные объекты в традиционной и корпусной лингвистике одни и те же — языковые знаки, трактуемые как единицы языковой системы и существующие по внутренним законам этой системы. Как видно, в методологическом отношении корпусная лингвистика отличается от традиционной не по качеству, а по степени: она позволяет быстрее охватить больший объём информации (конкретных словоупотреблений), чем это было возможно без использования корпусов. Но путь познания остаётся принципиально тем же: класс свойств, абстрагируемых из конкретных словоупотреблений, на начальном этапе исследования подбирается не в ходе предварительного эксперимента (связанного с некоторой гипотезой, т.е. с возможного, ещё не доказанного употребления слова), но в мыслительной деятельности субъекта познания (учёного, хотя и с опорой на теорию), эти выбранные свойства отграничиваются от остальных также на основе теоретизирования, а не экспериментальной практики, теоретическому обобщению и объяснению подвергаются не материально проявляющиеся характеристики взаимодействия реальных предметов, а выделенные теоретизированием их абстрактные аналоги.

Если лингвистический эксперимент основан на опросе информантов, то корпус является своего рода идеализированным, универсальным информантом, а исследование языка с помощью корпуса приобретает характер квазиэкспериментального. К корпусу обращаются как к такому идеализированному информанту экспериментального исследования, который уже прошёл отбор и обучение и отгорожен от сторонних факторов. Этот универсальный информант обладает всеми необходимыми для такого исследования свойствами: 1) он даёт только «положительный» материал, не нарушающий норм языка; 2) он «ориентируется» не на абстрактную языковую систему, а на речь в условиях её порождения; 3) он позволяет проверять гипотезы (в том числе рабочие) через быстрое и удобное привлечение множества примеров. Корпус не позволяет проверять гипотезы через «отрицательный» материал (неправильные фразы в корпус попросту не попадают или попадают в мизерном количестве), для этого подходит только эксперимент с реальными носителями языка.

На корпусы в последнее время многие смотрят чуть ли не как на лингвистическую панацею. Кто-то из корпусных лингвистов говорил, что с появлением корпусов наступила новая эра в языкознании. Хотя лично я думаю, что корпусная лингвистика ничем существенным (особенно в плане метода) не отличается от традиционной, просто появилась возможность охватывать большой объём материала. И как показывает пример с гре?нка?ми, далеко не всегда этот материал так уж велик (это объясняется, конечно, малой частотностью этого слова, но тем не менее). Так что, видимо, корпусам ещё далеко до безотказного инструмента проверки языковых фактов.

__________

Селиверстова О.Н. Труды по семантике. – М.: Языки славянской культуры, 2004. – 960 с.

Щерба Л.В. Языковая система и речевая деятельность. – 2-е изд., стереотип. – М.: Едиториал УРСС, 2004. – 432 с.

? ?


Источник: m.vk.com

Комментарии: