Литература и математический анализ

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Вначале я хочу отметить, что все это личное мнение, которое либо основано на источниках, либо сформировано догадками, домыслами и мировоззрением. Я не претендую на роль сколько-нибудь великого литератора.
Если вам показалась неинтересной первая часть, пропустите её. Это — история и дань исследователям. Если ищите веселья, а не академических знаний, переходите сразу ко второй части.

Мнения литераторов по многим вопросам расходятся. Причина проста: каждый видит по-своему. Но науку это сильно отягощает, ведь выработать определенный подход к изучению чего-либо становится все сложнее из-за «вольностей» и априори субъективных трактовок. Следствие этого мы уже наблюдали во времена СССР, когда смыслы и идеи представляли с угодного партии ракурса. Хорошо это или плохо — не знаю, но уверен, что неправильно.

Почти век науку о художественном слове стараются систематизировать и подвести к понятным шаблонам. В этой статье мы рассмотрим, почему литература прямо связана с математикой, как математический анализ применяют в разборах произведений и литературы и почему это может привести к тому, что в школах перестанут изучать Пушкина, Булгакова и всех других. Спойлер: ученые были в шоке.

ЧАСТЬ 1: Тогда

«Литературоведение должно быть наукой»
(Ю.М. Лотман)

Истоки математики в литературе: абьюз или сложный замысел?

Можно смело заявить, что точные науки использовали в русском литературоведении всегда. Еще на рубеже XVIII и XIX веков исследователи определяли, когда было написано «Слово о полку Игореве». Полвека спустя ученые задались вопросом, в какой хронологии выходили тексты Платона. Решение обеих задач сводилось к вычислениям, пусть и нехитрым. С течением времени у литературоведов возникали новые вопросы: действительно ли Шекспир написал то или иное произведение, каковы особенности греческих и римских авторов и как их отличать, исторично то же «Слово…» или нет? Поскольку опыт решения нелегких задач с помощью анализа в цифрах и схемах уже был, исследователи воспользовались им вновь. А потом еще, и еще, и еще…

Как вы можете заметить, все эти вопросы сводились к конкретике («да» или «нет», красное или деревянное и проч.), которая не допускала ошибок: прозевали особенности другого автора в произведении якобы Шекспира — и беда. Именно подход математический, а не эмпирический, помог науке в этом. Итак, точные количественные исследования показывают произведение или литературный период в конкретике, а метод возник из-за необходимости точно разобраться во всем.

Развитие: первые теории и враг дипломных работ

Все бы это так и осталось на уровне частных задач, если бы не модернисты, их философские течения и, позже, компьютеры. В целом попытки точного филологического анализа можно поделить на три волны: 10-20-ые годы (когда русские ученые порвали шаблоны), 70-80-ые (исследования значимые и работа интересная) и настоящее время (т.н. «лучше бы не трогали»).

Уже в начале ХХ века, когда Есенин планирует повесится, а Сталин примеряет роль лидера, сформировался т.н. русский формализм, подход конкретного и рационального познания литературы, который стал всемирно известен. Внушительный прорыв и значимые исследования связаны с Б.В. Томашевским, человеком, у которого на столе лежал том Пушкина и сложные математические формулы рядом друг с другом. Борис Викторович знаменит не только как зачинщик критики «Тихого Дона» и словами «только с чужим текстом можно было так обращаться», но и как исследователь стихосложения и всего, что с ним связано.

На первый взгляд неопытному зрителю может показаться, что его работы сложны и страны. Ну кто будет высчитывать и собирать «базу данных» об ударных и безударных, а потом говорить, что ритмическая симметрия вызвана не двухчастностью (диподийностью) ямба, а наоборот, что Пушкин избегал подобного. Это даже осознать сложно!.. А вот что легко осознать, так это то, что Томашевкий показал, как от размера стиха зависит произношение (имеется в виду, вслух: темп, тембр речи и проч.) и авторская стилистика, что этот самый размер зависит не только от языка и его особенностей, но и от эпохи, литературного течения (если классицисты писали всё максимально шаблонно, то футуристы плевать на все условности хотели — это как простой пример для наглядности) и общего замысла произведения (позднее эту мысль подхватит Гаспаров).

И здесь важно, что математика была применена на самом тексте произведения, что разрушило ряд ложных соображений, которые заводили науку в тупик. Томашевский задал новое направление в развитии литературы. Благодаря его работам и системам, последующие поколения смогли вывести общие закономерности русского стихосложения, например, что мужская рифма придаёт строгость смыслу и повествованию, разрушили бредни эмпирических исследований и вообще сделали много чего полезного. Значимо это или бесполезно? Об этом далее (спойлер: не будь этих работ, не было бы у нас ни Алисы, ни Siri, ни разговоров о культурной памяти).

Эмоционально окрашенные слова в прозе Пушкина и их связь с определенными объектами определил М.О. Лопатто, что стало ещё одним плюсом к техническому анализу текста. После создания такого метода мы можем понять, как подсознательное писателя отражает отношение к изображаемому. Сейчас подход анализа тональности используется не только в науке, помогая раскрыть дополнительные сокрытые смыслы, но и в судебном производстве (впрочем, роль и там, и там схожа).

Ну и гроза всех дипломных работ, конечно же, Н.А. Морозов. Николай Александрович разработал систему выявления плагиата. Он применил методы математической лингвистики ещё до их появления. Стоит напомнить, что компьютеров тогда не было (на дворе 20-ые годы ХХ века), а сейчас проверка на оригинальность онлайн занимает около 2-3 минут (немало). Система его была проста: от высчитывал количество служебных частей речи, их расстановку и закономерности и сравнивал с другим текстом. Если служебные части статистически расположены одинаково, проще говоря, если союзов примерно столько же, они стоят синтаксически на тех же местах, то работа — плагиат. И только спустя полвека люди придумали первый компьютерный антиплагиат.

Становление: история про заключенного, и как один ученый палочки считал

Наконец, нужно рассказать и о Б.И. Ярхо. Он придает литературе подход математический и фиксирует его в науке. Борис Исаакович считал, что фразы из серии (хрестоматийная вещь, обратите внимание!) «дух свободы, которым проникнуто все произведение» — туманность и субъективность, которая обязана быть подтверждена количественными исследованиями. Кроме того, Ярхо стал российским праотцом теории культурной памяти в литературе. Именно он сформулировал мысль о том, что новое произведение уходит корнями в предшествующие, т.е. новая литература — это старая литература, сложенная с мировоззрением и творчеством конкретного автора.

Но мы бы и не знали имени Бориса Исааковича, если бы не М.Л. Гаспаров. Дело в том, что Ярхо не оценили при жизни, более того — арестовали, обвинив в «составлении фашизированного Большого немецко-русского словаря». В итоге многие его труды забылись. И Гаспаров, считавший себя продолжателем идей Ярхо, опубликовал их уже во второй половине ХХ века. Собственно, он и в действительности был продолжателем. За именем Гаспарова плотно закрепилась популярная теория «ореола семантического метра».

Теория гласит, что метр (он же, грубо говоря, его размер) определяет содержание. Например, посмотрите на стихотворение М.Ю. Лермонтова «Выхожу один я на дорогу…» (1841) и Б.Л. Пастернака «Гамлет» (1946). Произведения разделяет 105 лет. И в том, и в другом стихотворении есть тема ночи, смерти, бога, одиночества, мотив дороги и т.д. И, интересно заметить, что стихотворение Лермонтова, как и стихотворение Пастернака, написаны пятистопным хореем. Значит, если вы решите написать что-то в пятистопном хорее, то получите что-то о ночи, смерти, боге, дороге и иже с ними; если вы напишите что-то на тему ночи, смерти, бога, дороги и иже с ними, то получите пятистопный хорей. Интересно заметить, что это работает! Почему это так — тема следующей статьи, а сейчас мы переходим к тому, что же происходило сравнительно недавно и происходит сейчас.

ЧАСТЬ 2: Сейчас

«Люди все чаще кажутся мне книгами, и порой я становлюсь в тупик перед замыслом их создателя»
(Б.И. Ярхо)

Стенфордский эксперимент: от рефлексии к действию, от крика к спокойствию

С приходом компьютеров в дома миллионов людей, лингвисты начали проводить новые эксперименты. Группа ученых из Стенфордского университета решила обработать огромный массив произведений и выявить в них какие-то закономерности. Они взяли не только признанную английскую классику, но и все, что выходило с конца XVII до начала ХХ века. Литераторы пришли к двум интересным выводам: общее количество слов, связанных с морализаторством и какой бы то ни было духовностью, становилось все меньше с течением времени, как и каких-либо эмоционально-восклицательных слов, фраз и предложений в целом. На их место пришли качественные прилагательные, глаголы действия, а весь текст стал более повествовательным (т.е. динамичным) и нейтральным в смысле восклицаний.

Причина проста: жизнь писателей и читателей меняется. Авторы вдохновляются новыми типами людей, новыми событиями, которые возникают все чаще (первый поезд или фабрика — это вам не в деревне сидеть). Аудитория теперь тоже живет динамично, из-за чего меняется запрос на тематику произведений и объем: нужно что-то либо драйвовое, либо познавательное, да так, чтобы времени много не потратить. Вместе с ними и сами авторы больше крутятся… Получается замкнутый круг, и под конец литературной тряски появляется все больше и больше рассказов и повестей, чем толстых романов. Поэтому же сейчас так популярна попса и рэп-культура, чем некогда популярный рок: либо меньше слов и меньше смысла, либо много смысла, но побыстрее (см. Oxxxymiron).

Справедливости ради стоит подчеркнуть, что в России подобные наблюдения раньше появлялись и в критике XIX века, которая ещё не знала количественного метода анализа. Наблюдательные личности видели, как ближе к середине столетия стихи отходили на второй план, а проза увеличивалась и в числе страниц, и в объемах тиражей и изданий. Правда, на тот момент это было эмпирическое утверждение, которое только потом докажут и определят, в какие годы динамика была максимальна, в какие годы, наоборот, затишье, почему так было и т.д., но выведено оно было верно. Еще эмпирически люди определяли, какие произведения хорошие и интересные, а какие — что-то неприятное. Но все сводилось к абстрактным формулировкам, вроде «автор мастерски воплотил…», в то время как с помощью вычислений ученые из Стенфорда поняли, что же отличает классику от всего остального.

Лайфхак: как написать произведение, которое зайдет?

Стенфордские ученые нашли две ключевых отличительных черты произведений, которые стали классикой. Пока в школах говорят о глубинах смысла и совершенстве поэтики (чего все-таки у классики во многом не отнять), все оказалось проще. Литераторы переложили теорию избыточности информации (представьте: вы идете покупать кофе, а бариста вам рассказывает про хлопок его фартука, а только потом о цене; вы покупаете мороженое, а перед вами распинаются про пластик стаканчика) на лингвистику. С одной стороны, избыточность — это подробности, которые за собой ничего не несут, а с другой — предсказуемость тех слов, которые будут после. То есть, вы прочитали фразу «мы разожгли костер» и уже понятно, что там есть дым, но автор пишет после этого, что «был дым». Это и ненужная подробность, и очевидность.

Так стало понятно, что в популярных, дошедших до наших дней произведениях аудитории того времени все казалось непредсказуемым, при этом легким в чтении. Во всяком случае к такому выводу пришли англичане. Как дела обстоят в русской литературе пока неизвестно, но, возможно, модели похожи. Но раз компьютерные технологии способны определить, почему произведение становится популярным, могут ли они написать то же самое?

Поэт VS Машина: случайности неслучайны (а у авангардистов пригорело)

Первые попытки создать машинные стихи приписываются к началу второй половины ХХ века. Отмечу, что Windows тогда ещё не было, и понятно, какие это были машины. В то время авангардисты подсели на иглу поиска истинного искусства. Их позиция была интересной: поэзию, как и все творчество, они видели в случайности. Вот выпал кубик цифрой 5 кверху — это прекрасно, монетка орлом вверх — искусство. Как только авангардисты добрались до компьютеров, они постарались применить их к случайной генерации стихов. Варианта сделать это было два: либо загружался какой-либо текст, будь то этикетка от таблеток или статья в газете, либо в корпус работы помещался определенный словарь поэтичных слов. Нажималась кнопка «Сделать шедевр», компьютер пыхтел и выдавал непонятный верлибр, которым потом восхищались.

Проблема заключалась в том, что такой способ генерации стихотворений далеко не случайный. Посмотрите, как много тут ограничений и условностей: ряд слов заранее определен, объем не может быть больше количества слов, т.е. тоже определен, а кроме того, авангардистам потом сообщили, что компьютеры тоже выдают результат по какой-то закономерности, но не случайности. Авангардисты расстроились и вроде как успокоились, но это не конец истории: спустя полвека ситуация меняется и машины снова привлекли к себе внимание лингвистов и творцов.

Превосходство: как рандомные стихи стали осознанными

Не так давно литераторы научили компьютер именно создавать, а не собирать стихи. В отличие от предшественников, пузатых тормознутых компьютеров, современные машины не собирают куски текста или слова в столбик в примитивные верлибры. Все происходит иначе: в ИИ загружают массив данных, например, из произведений одного автора. Она анализирует все тексты, находит взаимосвязи между абзацами, предложениями, словами, закономерности в выборе слов (что очень важно!), буквами и таким образом обучается. Как увлекательный и удивительный пример не из литературы: недавно создали сайт, где можно поговорить в мертвым программистом.

В ИИ загрузили все его переписки, соцсети, СМС и все-все текстовое. В итоге программа научилась общаться за своего прототипа. Знакомые с реальным человеком люди не находили отличий между общением с приложением и усопшим. Как мы уже поняли и что особенно важно подчеркнуть, ИИ способен находить особенности и стилистики, и семантики (т.е. смыслов) конкретного человека и воспроизводить их. Кроме того, ИИ может вводить те же самые аллюзии и реминисценции, что и автор-прототип. А это уже говорит о том, что ИИ не только копирует стиль, но и создает смыслы, а не слепо воспроизводит их. Такое поведение машин ставит в тупик современную науку о литературе.

Апокалипсис по-литературному: нейросеть завела всех в тупик

Раз машина может создавать смыслы (обозначу, что мы не говорим об их качестве, а просто как факт — этого уже достаточно), обучаясь на примере какого-то автора, то возникает вопрос: кто же все-таки создает текст? С одной стороны, автор дал исходный материал для дальнейшей работы по алгоритмам. Но автор не создавал новый текст, который выдает ИИ, а участвовал в этом косвенно. С другой стороны, как машина, работающая на алгоритмах и схемах, может создать художественное — подчеркну, художественное — произведение? Выходит, смысл не вполне полноценен, потому что собран не мировоззрением машины, а определенными исходными данными и навыками составления слов. Вы можете заметить, что человек делает так же: обрабатывает информацию через свои личные шаблоны, формирует мировоззрение и выдает, но ИИ не делает смысл абсолютно самобытным, построенным только на соображениях машины. Вместе с тем нельзя отрицать, что смысл в этом есть и читатель его видит. Он закончен, его можно воспринять и понять, даже несмотря на то, что он не уникален. И это вызывает списки вопросов и парадоксов у литераторов, до сих пор не имеющих ответов.

С широко закрытыми глазами: почему ИИ так важен для литературы

Науке внедрение искусственного интеллекта в литературу (и искусство в целом) дает многое. Получается, что ИИ в состоянии обучиться особенностям языка и мышлению автора, делать из них своеобразный концентрат и выдать не схемами и таблицами, а связанным текстом. Это значит, что изучение конкретных авторов станет более прозрачным и структурированным, осознанным, а анализ литературных эпох в своей динамике упрощается в разы. Но вместе с тем, технологии заставляют переоценить и посмотреть заново на многие каноничные теории и утверждения, которые раньше были аксиомами, как, например, то, что текст и произведение — одно и то же. Когда эти понятия разведи, многие были в ступоре. Как это повлияет на будущее — во многом загадка, но некоторые вещи и тенденции уже заметны.

ЧАСТЬ 3: Потом

Конечно, не станем говорить о том, что теперь только компьютеры будут писать стихи и прозу. Важно понимать, что и как теперь будет делать наука. Ученые подошли к тому, что, вероятно, автор пишет только текст, а смыслом его наполняет читатель. Таким образом, слова и абзацы остаются за автором, а уже смыслы именно как художественное произведение в целом формируются по ту сторону провода, т.е. читателем.

Теория спорная, но согласитесь, до появления ИИ в литературе она даже не возникала (или возникала, но под другим углом). Если все-таки роль человека, называющегося сейчас «автором», будет оценена как второплановая, то вряд ли через 100 лет мы увидим размышления о личности Пушкина в школах. Скорее, разговор пойдет о семантике его слов с косвенной привязкой к мировоззрению.

Благодаря постановке вопроса истинного автора, мы можем говорить и о теории текста, об интертексте и контексте более полно и конкретно. Теперь наука способна предметно показать, с помощью чего произведение становится глубоким (спойлер: эта тема следующего материала, в котором мы разберем, почему, если развернуть все смыслы одного произведения, количество страниц умножится кратно).

А если собрать первый и второй аспект, то речь пойдет и о культурной памяти, причем более аргументировано и осознанно, а не просто с перечислением совпадений. Мы видим, что математический подход к литературе не только помог оценить прошлое, докопаться до будущего, но и понять природу человеческого творчества хоть на какой-то процент.

Автор: Малашенко Никита

Копирование и размещение материала в других источниках возможно только с письменного разрешения автора

P.S.: Обещанный подарок в конце текста. Напишите в сообщения Блога слово «Подарок» и ждите научное исследование про литературные процессы в России Склярова в течение суток. Чтобы его получить, нужно сделать репост этой записи к себе на стену.


Источник: m.vk.com

Комментарии: