Что находится под капотом ИИ?

2025-09-25 11:23

Решил я тут недавно попробовать разобраться с техническими и математическими аспектами работы искусственного интеллекта. Заглянуть, так сказать, под капот ИИ.

И вот что у меня на текущий момент получилось.

О терминах

Термин «искусственный интеллект» звучит очень солидно и вызывает уважение. «В своей работе я использую искусственный интеллект» - звучит не менее солидно. Интеллект же, хоть и искусственный.

Термины «математическая модель» или «математическое моделирование» звучат не так солидно. А ведь «искусственный интеллект» и «математические модели/моделирование» очень тесно связаны между собой. Если я скажу, что «искусственный интеллект» – это на 99,9% «математические модели/моделирование», думаю, не сильно ошибусь.

Но тогда фраза «В своей работе я использую искусственный интеллект» превращается в «В своей работе я использую математические модели/моделирование». Первую фразу юристы могут сказать, а вот как насчет второй?

Или другой пример. Фраза «Я посоветовался с нейросетью «ИмяРек» – звучит солидно, модерново. Однако почти все современные нейросети, насколько я понимаю, основаны на технологии GPT. Сиречь – Generative Pre-trained Transformer, то бишь Генеративный Предобученный Трансформер.

Что такое «генеративный» и «предобученный»? И главное, почему он/она/оно –«трансформер»? Ответы на эти вопросы сейчас не важны. Важнее то, что фраза «Я посоветовался с нейросетью «ИмяРек» начинает звучать как «Я посоветовался с Генеративным Предобученным Трансформером». Что звучит, на мой взгляд, несколько странно.

Далее по тексту я буду специально и осознанно использовать выражения «математическая модель/моделирование» в качестве синонимов для термина «искусственный интеллект».

Об экономике, праве и математике

Мне как-то попадалась такая история (источник, к сожалению, вспомнить не могу). В районе Второй Мировой Войны в экономику пришла математика. От чего экономисты пришли в экстаз: Ура!!! Наконец-то экономика стала настоящей наукой! Теперь-то можно заниматься не словоблудием, а что-то моделировать: повысим налоги здесь, и это скажется так-то и там-то!

Насколько я понимаю, экономисты в ВУЗах сейчас изучают высшую математику, а потом в своей работе используют математические модели. Помимо экономистов математику в той или иной форме применяют физики, химики, медики, архитекторы зданий, металлурги, прочие инженеры и даже некоторые гуманитарии, включая социологов и психологов.

А как право связано с математикой? Как часто юристы используют тот огромный арсенал средств и методов, который придумала математика? Моя версия ответов: никак не связаны, почти никак не используют. Конечно, если сильно напрячься, можно вспомнить о судебной статистике. Также есть мнение, что юристы как-то могут использовать теорию игр.

Вот такое право уникальное, живет себе спокойно без математики. Заодно задумался, есть ли еще науки, максимально далекие от математики. Пока что в голову пришли только философия, филология и история. Можно посмотреть и с другой стороны: если при поступлении в ВУЗ на какую-то специальность НЕ требуются баллы по математике, значит, не нужна будущим специалистам математика, они могут спокойно работать и без нее.

Можно ли математизировать право? Кажется, что все очень просто: многие правовые нормы можно выразить через «если – то – иначе». А еще в праве много логики, которую можно попробовать заменить на математическую логику. Можно ли попробовать применить нечеткую логику, теорию графов, теорию множеств, UML-схемы или какие-нибудь группы Галуа? Не знаю. Насколько я понимаю, попытки математизировать право делались неоднократно, но так ни к чему до сих пор не привели.

О математике и средствах разработки

Если уж математическое моделирование внедряется в работу, должен быть кто-то, кто знает, понимает и может использовать:

Высшую математику в составе, как минимум, линейной алгебры, дифференциального исчисления и математической статистики. Очень сильно подозреваю, что знания аналитической геометрии, высшей алгебры, интегрального исчисления, теории множеств и теории вероятности также окажутся не лишними.
Различные средства разработки и языки программирования. Сейчас самый модный язык программирования, конечно же, Python. Для которого написаны масса очень интересных и полезный библиотек. Однако стоит только немного углубиться в эти библиотеки, как тут же выясняется, что написаны они с применением С++ и даже Фортрана. И, как мне кажется, где–то рядом маячат Matlab, Wolfram Alpha, Maple и иже с ними. Возможно, знания баз данных и SQL тоже пригодятся.

Интересно, сколько юристов удовлетворяют этим требованиям?

Также мне начинает очень сильно казаться, что замена любого специалиста математической моделью и генеративным предобученным трансформером влечет за собой расходы на тех, кто эти модель и трансформера будет разрабатывать, внедрять, а потом поддерживать в рабочем и адекватном состоянии.

О компьютерах и данных

Математическое моделирование – это много данных и много расчетов. Нет, слабо звучит. Математическое моделирование – это ОООООООЧЕНЬ МНОГО ДАННЫХ и ООООООООООООООЧЕНЬ МНОГО РАСЧЕТОВ.

Отсюда возникают вопросы:

Откуда брать данные и
Где проводить нужные расчеты?

Если компания небольшая, то и данных у нее немного. Да, расчетов в этом случае будет немного, но только и математическое моделирование будет выдавать результаты близкие к три-Пэ (пол-палец-потолок).

У крупных компаний данных будет много, и это отлично, уже есть с чем работать. Остается решить, где эти данные обрабатывать. Тут имеется два варианта.

Первый вариант: обрабатывать данные на локальных компьютерах. Однако, насколько я понимаю, обычные офисные ноутбуки и компьютеры для этого не подойдут. Нужны более мощные. Какие именно, я сейчас точно сказать не могу. В качестве ориентира, поскольку объем вычислений в математическом моделировании сопоставим с майнингом криповалют, я думаю, можно ориентироваться на те компьютеры, которые продают для майнинга. Заодно можно примерно оценить, сколько такие компьютеры потребляют электроэнергии.

Второй вариант: обрабатывать данные где-то в «облаке». Но, как шутят айтишники: «Парни, у меня плохие новости. Никакого «облака» не существует, это просто чей-то чужой компьютер». Так оно и есть. А это значит, что придется принять очень непростое решение: передавать свои, кровные, реальные, конфиденциальные, персональные и т.п. данные на чей-то чужой компьютер. И нести все риски возможной утечки этих данных. Более того, за обработку этих данных придется платить. Сколько именно – не знаю.

Таким образом возникают вопросы расходов на железо для расчетов, его приобретение, сопровождение, обслуживание, обновление. Или же расходы на аренду такого железа.

О трансформерах

Насколько я понимаю, чаще всего говорят об угрозах для юристов со стороны различных нейросетей, которым можно дать задание (написать промпт) и получить ответ. Вот с них я и начну.

То, чем занимаются нейросети, когда им кто-то дает задание, называется обработкой естественного языка – областью на стыке математики, информатики и лингвистки (я бы сказал областей, максимально далеких от права), занимающейся анализом и синтезом текстов с помощью компьютера.

Я думаю, что, если спросить любого юриста, что он знает о Конституции США или что в ней написано, можно будет услышать много разных слов и мнений. Вот только мне почему-то кажется, что ни от одного юриста мы не услышим примерно такого: «В конституции США 27 000 символов, 118 предложений, 4414 слов, 930 уникальных слов, средняя длина слова – 4,7 символа, средняя длина предложения – 37,4 слова или 225,8 символа. Чаще всего в конституции используется слово shall (191 раз, 8,49% текста) и state (48 раз, 2.13% текста). Чаще всего в тексте встречаются такие-то пары слов».

А вот математической модели только эти данные и нужны. Ей все равно, что стоит за словами shall или state. Предположим, есть текст: «When we were in Paris we visited a lot of museums. We first went to the Louvre, the largest art museum in the world. I have always been interested in art so I spent many hours there. The museum is enourmous, so a week there would not be enough.». И надо как-то определить, о чем этот текст.

Убрав лишние знаки препинания, ненужные слова типа «the», приставки и суффиксы, можно обнаружить, что слово «museum» встречается в тексте 3 раза, а слово «art» – 2. Соответственно, не зная содержания текста и даже не зная английского языка, уже можно сделать осторожный, но обоснованный вывод, что этот текст – о музее и искусстве.

И это самый простой подход, который можно усложнять и улучшать: находить в тексте наиболее часто встречающиеся пары слов; искать наиболее часто встречающиеся слова не сразу во всем тексте, а сначала в каждом абзаце, потом в каждой главе; приписывать отдельным словам «вес» и учитывать этот вес при анализе текста (например, вес слов «Louvre» и «Paris» будет выше, чем слов «museum» и «art»), придавать большее значение названию текста или глав и т.д. и т.п.

Я решил провести один эксперимент и вместо текста про Париж попробовать обработать текст английского кейса Salomon v. Salomon & Co Ltd [1897] AC 22. Само решение – это полтора десятка страниц английского текста. Однако стоит его прогнать за пару минут через математические алгоритмы, как выяснится, что в топ-5 слов этого текста входят: 'company' – 317 раз, 'share' – 83 раза, 'appellant' – 79 раз, 'business' – 77 раз, 'one' – 63 раза. Значит, это дело касается какой-то компании, акций и бизнеса. Уже не плохо. Полезно? В целом, да, полезно – за пару минут, не читая длинный документ, получить общее представление о его содержании. Но не более того.

***

Что касается генерации текстов, она также осуществляется математическими методами. Которые, насколько я понял, базируются на том, что текст – как последовательность слов без учета их смысла – описывается с помощью чисел. Как это именно происходит, видимо, надо спрашивать у лингвистов и математиков.

А раз появились числа, уже можно с ними работать. И даже ничего не зная о смысле слов, а зная только числа, которые как-то характеризуют эти слова и их последовательности, можно проводить различные математические операции с этими числами. И не важно, о каком тексте идет речь – юридическом, медицинском, романах Льва Толстого. То есть совершенно не важно, о чем в этом тексте написано.

Хороший реальный пример – написание на Питоне нейросети, которая генерирует текст в стиле Льва Толстого – можно найти здесь. Такая нейросеть способна сгенерировать такой текст: «Мне нравится, что вы знаете это, и я люблю это, – сказал он, и надеюсь на вас. Вы непротивоположная, я всегда был и буду тем и другим, я всегда противоположный».

Выглядит не очень? Ну так и усилия были приложены минимальные. А теперь представьте, что в качестве входного текста используются судебные акты, или текст каких-то кодексов. Итогом будет генерация текстов в стиле судебных актов или кодексов, без какого-либо понимания их смысла.

Имеет ли то, что получится в результате обработки этих чисел, к праву? По моему мнению, нет, не имеет, это просто результат математических статистических методов.

***

Скептики называют генеративные трансформеры стохастическим попугаем или «продвинутой версией Т9».

Но мне кажется, что в связи с этим можно вспомнить и эвристическую машину, то есть электронно-механическое устройство для решения инженерных, научных, социологических и иных проблем, Эдельвейса Захаровича Машкина из «Сказки о Тройке» братьев Стругацких.

Кстати, процесс обучения трансформера удивительным образом близок к процессу обучения эвристической машины методом длительной тренировки, описанным в этой же книге. Как известно «преимущество этого метода в простоте. Берется достаточно обширный тест, скажем, "Жизнь животных" Брема в пяти томах. Машкин садится за свой агрегат и начинает печатать слово за словом, строчку за строчкой, страницу за страницей. При этом анализатор агрегата будет анализировать, думатель… — у ей внутре ведь есть, кажется, думатель? — …думатель будет думать, и таким образом агрегат станет у вас обучаться. Вы и ахнуть не успеете, как он у вас начнет сам печатать. Вот вам рубль подъемных, и ступайте в библиотеку за Бремом…».

О классификации

В жизни возникает много задач, которые сводятся к ответу «да» или «нет» на какой-то поставленный вопрос: пойдет ли завтра дождь, является ли опухоль злокачественной, нарушены ли сроки поставки, превышена ли скорость автомобиля, является ли обвиняемый виновным и т.д. и т.п.

На языке математики все эти задачи называются задачей классификации. Общая идея решения этой задачи математическими методами сводится к тому, чтобы на основании большого объема имеющихся статистических данных попытаться сделать прогноз. Немного упрощая: если многолетние метеорологические наблюдения показывают, что при таких-то значениях температуры и влажности всегда шел дождь, а сегодня приборы показывают именно такие значения, значит, сегодня пойдет дождь.

О точности прогнозов погоды каждый может судить сам.

Похожие задачи решают медики и многие другие специалисты, у которых есть много числовых данных. Относятся ли право к таким областям, где много числовых данных? По моему мнению, нет. Преобразовывать же слова в числа, без учета смысла слов, как это делает ~~эвристическая машина Машкина~~ генеративный трансформер, мне кажется, очень опасно.

Хорошо, пусть юристам удастся собрать нужное количество числовых данных и будет создана подобная прогнозная система. И вот юрист сообщает этой системе новые данные и получает ответ в стиле «днем 28 сентября вероятность выпадения осадков 41%», «вероятность того, что опухоль злокачественная – ….%», т.е. «с вероятностью 82,3% срок поставки нарушен», «с вероятностью 96,78% скорость превышена».

Будет ли подобная система полезна юристам? Если ответ положительный – имеются все основания для того, чтобы начинать думать, где и как брать нужные числовые данные.

О регрессии

После того, как были получены положительные (хм, это с какой вероятностью – контрольной, квалифицированной или 95%+?) ответы на вопросы пойдет ли завтра дождь или нарушены ли сроки поставки и т.п., можно задаться вопросом – а сколько именно выпадет осадков или какой размер убытков будет взыскан в результате такого нарушения.

Это уже задача регрессии. Но решается она максимально похоже на задачу классификации – используя прошлые данные, пробовать делать какие-то предсказания. Все в том же стиле: «Завтра с вероятностью 42,3% выпадет 10 мм осадков», «с вероятностью 10,3% будут взысканы убытки в размере 100 руб., с вероятностью 34,5% будут взысканы убытки в размере 200 руб.».

Юристам такое надо? Если надо – задача прежняя, начинаем думать, где и как брать нужные числовые данные.

О рекомендательных моделях

С рекомендательными моделями сталкивался каждый – это и контекстная реклама и рекомендации в отношении музыки/фильма. И снова все тот же подход к решению – на основании прошлых данных (прошлого поведения) пытаться предсказать будущее.

Вот пример на условно-математическом языке, как решается эта задача для онлайн-кинотеатра:

Этап 1. Подготавливаем данные, то есть создаем матрицу предпочтений, где строками будут фильмы, столбцами — пользователи, а элементами — рейтинги.

Этап 2. Рассчитываем расстояния от каждого фильма до ближайших векторов (других фильмов) с помощью алгоритма k-ближайших соседей.

Этап 3. Берем фильм, для которой надо подобрать рекомендации, и находим в базе данных фильмы с наибольшим косинусным сходством.

Только не надо удивляться, если вдруг рекомендательная система сообщит, что фильмы «Матрица» и «Бойцовский клуб» – похожи. Это не баг, это фича! А еще точнее – это результат обработки подготовленных данных математически строгими алгоритмами.

Все очень просто, не так ли? И задача ясна, и даже решение есть. Какое может быть применение в юридической сфере? Как вариант – подсказка юристу, какие дела максимально близки к его случаю. Поиск судебного прецедента, так сказать…

О компьютерном зрении/распознавании речи

Вот это, действительно, очень крутая штука. И, главное, уже рабочая – штрафы за нарушение скорости автомобиля или за пересечение сплошной линии прилетают к собственнику автомобиля в автоматическом режиме. Значит, удалось все же перевести в математическую форму нужные нормы правил дорожного движения и КоАП?

Результаты онлайн перевода речи в субтитры тоже наблюдали многие, у каждого может быть свое мнение о качестве их работы.

Заменит ли ИИ юристов?

Из того, что я обнаружил под капотом ИИ (классификация, регрессия, рекомендательные модели), я вижу только улучшенные версии привычных интернет-поисковиков или справочных правовых систем.

И это заставляет задуматься над тем, а как именно работают эти привычные инструменты, когда юрист забивает в строке поиска: «судебная практика по ст 10 гк рф» и получает какие-то результаты. Может быть, там используются математические модели, которые сейчас называют «искусственным интеллектом», может быть какие-то другие.

Я не исключаю, что математические модели поиска, которые сейчас называются «искусственным интеллектом» лучше и быстрее, чем те, которые используются сейчас. Я также не исключаю, что в будущем в правовых системах можно будет писать так: «подобрать всю судебную практику по ст 10 гк рф и выгрузить ее в pdf-файл». Удобно? Удобно.

Однако принцип работы генеративного трансформера заставил меня еще более осторожно относиться к этому инструменту.

Также можно попробовать предложить свой вариант ответа на вопрос «заменит ли ИИ юристов?».

Да, заменит. Но случится это не раньше, чем тогда, когда нормы права удастся описать не на языке математической статистики, а в каком-то другом, но формализованном виде. В этом случае любой юрист, столкнувшись с юридической задачей, вместо того, чтобы открывать текст закона и изучать комментарии и судебную практику, запустит Excel или Python, и начнет составлять математическую модель решения стоящей перед ним юридической задачи.

Но что мне не нравится в такой версии… Мне не нравятся беспилотные автомобили, которые уже передвигаются по дорогам, так или иначе соблюдая правила дорожного движения. У такого автомобиля масса задач – узнать расстояния до соседних машин, распознать знаки дорожного движения, распознать пешеходов и велосипедистов. Задачи технически сложные, но уже примерно понятно, как решаемые. А вот как автомобиль соблюдает ПДД, я пока не пойму.

Неужели какие-то нормы и правила все же можно перевести на язык математики??? Лиха беда начало?

Телеграм: t.me/ainewsline

Источник: zakon.ru

Что находится под капотом ИИ?

Комментарии: