Большие языковые Модели, такие как ChatGPT, Пишут, Но Не Думают; И Это Важное Отличие В Стремлении к Искусственному интеллекту

2023-04-06 15:51

Роботы-словотворцы

Современные системы машинного обучения, такие как ChatGPT, DALL-E и им подобные, обладают невероятными технологическими возможностями, которые могут поразить всех нас своей способностью генерировать картинки, дополнять текст, отвечать на вопросы и, по-видимому, излагать новые мысли. Это вызвало множество споров о том, могут ли машины действовать, реагировать или даже мыслить разумно. Некоторые аргументы за или против искусственного интеллекта основаны на здравой науке и философии, некоторые - просто ложные предположения, а некоторые нагнетают страх. Это не значит, что вопрос не стоит рассмотрения. Если мы в конечном итоге создадим настоящий искусственный интеллект, это может стать одной из самых знаковых технологий нашего времени; чем-то, что превосходит все машины, которые мы когда-либо создавали, и в конечном итоге создаст интересное будущее или уничтожит его. Но прежде чем мы доберемся до этого разреженного уровня, возникнет большая путаница в том, к чему мы пришли сейчас.

В свете этих вопросов я не могу не вспомнить об одной из первых таких ранних машин, не 1980-х, 1970-х или даже 1960-х годов, а о механическом турке 18 века, который якобы был роботом, играющим в шахматы, и чудом эпохи. Хотя задолго до меня это, по-видимому, стало сенсацией. На первый взгляд это выглядело как машина, которая могла думать, или, по крайней мере, машина, которая могла думать достаточно хорошо, чтобы играть в шахматы. Увы, оказалось, что автоматом управлял как марионеткой человек, прячущийся внутри аппарата. Так что это не был ранний пример искусственного интеллекта. Просто волшебная иллюзия.

Эта идея иллюзии и иллюзорного разума имеет значение. Это постоянная тема в исследовании того, что значит быть разумным и осознающим себя существом; Могут ли машины, которые мы сейчас создаем, мыслить; Способны ли мы вообще создать настоящий искусственный интеллект и должны ли мы или не должны пытаться это сделать.

Недавняя демонстрация "больших языковых моделей" (LLM), таких как широко распространенный в настоящее время ChatGPT, вернула общий разговор об искусственном интеллекте и искусственном общем интеллекте в целом на передний план. Я не буду называть себя экспертом в философии искусственного интеллекта, но в прошлом я потратил некоторое время на чтение, изучение и написание статей в этой области. Я даже прослушал курс философии, посвященный искусственному интеллекту, который преподавал один из известных философов в этой области, Джек Коупленд, автор книги “Искусственный интеллект: философское введение”. Еще более двадцати лет назад это было отличным обоснованием логических и философских основ искусственного интеллекта.

Новые обсуждения и случайное использование вводящих в заблуждение формулировок, наконец, подтолкнули меня к тому, что я хочу начать писать об этом. Немного по аналогии с моим киберпанковским проектом, который я начал в этом году, я хотел бы представить серию слабо связанных статей об искусственном интеллекте. Я намеренно использую это слово, потому что в настоящее время это слово в массовом сознании, хотя мы можем прийти к выводу, что оно очень вводит в заблуждение. Сейчас у нас нет ничего, что действительно можно было бы считать настоящим искусственным интеллектом, по крайней мере, согласно его первоначальному определению, хотя в последнее время я заметил появление нового термина "Искусственный общий интеллект" (AGI), который, возможно, служит заменителем для этой более амбициозной цели.

Чтобы разобраться во всем этом, я хотел воспользоваться опытом в этой области. В частности, основная часть выводов, содержащихся в этой статье, взята из подготовленной к печати в 2023 году статьи “Диссоциация языка и мышления в больших языковых моделях: когнитивная перспектива” основных авторов Кайла Маховальда (доцент кафедры лингвистики Техасского университета) и Анны А. Иванова (кандидат наук в области мозга и когнитивных наук, Массачусетский технологический институт (MIT) и др. Это было ни в коем случае не единственное исследование в этой области, но я нашел его ясным и всеобъемлющим, что не всегда имеет место в психологии, когнитивистике и лингвистике.

Аргумент в краткой форме Маховальда, Ивановой и др. Проблема в том, что такие инструменты, как ChatGPT, могут говорить, поскольку они могут отвечать на наши вопросы и генерировать, казалось бы, уникальный и осмысленный текст, но они не способны к более широкому познанию, что указывает на их способность мыслить так, как думаем мы. Другими словами, они говорят, но не обязательно думают.

Легко быть обманутым. Некоторые из самых ранних размышлений на этот счет, сделанных математиком, ученым, ранним компьютерным инженером, программистом и философом Аланом Тьюрингом, предполагали, что мы можем многое судить об интеллекте объекта (человека или машины) по нашему взаимодействию с ним. Мы автоматически выдвигаем теорию мышления о ком-либо, кто, по-видимому, думает, основываясь на том, что они говорят. Однако при ближайшем рассмотрении это требует принятия одного важного допущения – что письмо / устная речь являются синонимами мышления. Другими словами, думает ли все, что может общаться? Это имеет большое значение, особенно в мире, где появляется все больше машин, которые могут поддерживать убедительную беседу, но вполне могут ничем не отличаться от кажущегося чудесным автомата для игры в шахматы из "великой иллюзии".
Что делают (и не делают) ChatGPT и ему подобные на основе лежащих в их основе больших языковых моделей

Для начала давайте изложим согласованное обоснование того, как работают эти инструменты. Следующие пояснения предназначены в основном для ChatGPT, но вполне могут быть применимы к другим системам чатов и ответов, которые используют те же методы. Все эти инструменты, какими бы волшебными ни казались их результаты, основаны на одной вещи. Можете ли вы догадаться, что это такое?

Данные.

Обрывки данных.

На самом деле, им требуется более ~ 40 терабайт данных (500 миллиардов слов) для их базового обучающего набора. В случае большинства языковых моделей данные были получены из Интернета. Вся паутина. Форумы, веб-сайты, Википедия и многое другое. Тысячи страниц, описаний, статей, новостей, просьб о помощи, разглагольствований и комментариев. Чтобы подготовить этот натиск, все слова были разбиты на лексемы – еще один способ произносить фрагменты слов. Даже такое простое слово, как "фрагменты", может превратиться в "frag", "men", "ts". Это необходимо для того, чтобы части могли быть в конечном итоге повторно собраны в виде фрагментов, фрагментированных и разрозненных фрагментов. Затем этот огромный набор данных анализируется, и модель настраивается на основе токенов.

Простая цель?

К…

...предсказать…

..тот…

....следующий....

..слово……

…...основанный..

..на…

….....предыдущий…

.слова.

Это оно. Никакой великой теории разума, памяти о прошлом и будущем, самоощущении или сложных и контекстуально встроенных ощущениях или эмоциях. Это просто статистика. Но не путайте статистику с простотой. Полностью обученная модель ассоциаций, которая работает под управлением этих чат-ботов, может содержать более 100 миллиардов параметров, которые постоянно корректируются, повторно соотносятся и настраиваются. Никакой модели языка, никакого свода правил синтаксиса или семантики, просто обширная база данных ассоциаций.

Но здесь есть один нюанс. Большой язык ассоциаций может собрать огромное количество специальной информации о структуре языка не путем изучения в том виде, в каком мы его знаем, а путем изучения большого количества языков.

В своей статье Маховальд, Иванова и др. утверждают, что языковые модели, используемые этими чат-ботами, действительно могут развить понимание как иерархической структуры, так и абстракций языка, которые мы принимаем как должное. Нужно небольшое объяснение? С удовольствием. Давайте начнем с иерархической структуры.

Что касается иерархической структуры – рассмотрим предложение: ‘Хорек забрал ключи от машины’. Значение, которое мы извлекаем из предложения, не является аддитивным, поскольку каждое слово сочетается с предыдущим, образуя общее значение. Вместо этого различные части предложения соединяются в пары и объединяются, образуя значения, которые возникают из базового предложения. ‘Ласка", "ключи" и "машина" - все это образует различные сюжеты и объекты. ‘Взял’ в паре с ‘ключами’. ‘Ключи от" сочетаются с "машиной’. Конечным результатом является то, что даже слова, находящиеся на некотором расстоянии друг от друга, такие как "ласка" и "автомобиль", в конечном итоге ассоциируются иерархически. Теперь мы знаем, что ласка собирается отправиться в путешествие. Эти иерархические отношения помогают нам не только собрать смысл, но и убедиться, что различные части предложения согласуются друг с другом. Например, как мы знаем, это должно быть "было принято", а не "есть принято".

Об абстракции – в отличие от иерархической структуры, которая больше связана с тем, как слова абстрагируются (удаляются) от своих первоначальных понятий, чтобы обрести новые, а иногда и более абстрактные значения. Снова используя предыдущий пример, слово "ласка" можно абстрагировать дальше, включив в него такие значения, как: "существительное, обозначающее мелкое млекопитающее", "выбирающийся из чего-либо", "хитрый" и "гибкий". Многие из этих более поздних значений более абстрактны, чем первоначальное значение, к которому относится это слово. применяется. Тесты с использованием этих языковых моделей показывают, что они могут сохранять иерархическую структуру и (в меньшей степени) абстракцию.

Из-за массивности языковых моделей, даже если они ничего не знают о правилах языка, они могут начать кодировать эти шаблоны в миллионы связей, разбросанных по всей модели. Это позволяет им произносить слова, но это не обязательно свидетельствует об их способности мыслить.
Как пишут современные модели большого языка, но не думаю, что

Наконец, имея эту основу на месте, мы можем вернуться к центральному предложению Маховальда, Ивановой и др. В частности, то, что (в некоторой степени способное) письмо не обязательно полностью приравнивается к мышлению. Маховальд, Иванова и др. определите два ключевых концептуальных заблуждения, которые, по-видимому, приводят к такому предположению.

Источник: www.microsoft.com

Большие языковые Модели, такие как ChatGPT, Пишут, Но Не Думают; И Это Важное Отличие В Стремлении к Искусственному интеллекту

Комментарии: