Tencent создал новую команду для разработки продукта, аналогичного ChatGPT

2023-05-27 12:31

Китайский технологический гигант Tencent создал новую команду для разработки продукта, аналогичного ChatGPT . Ожидается, что инструмент искусственного интеллекта будет называться HunyuanAide и будет построен на большой языковой модели Hunyuan.

Китайская iFlytek, специализирующаяся на создании технологий распознавания речи, представила модель генеративного искусственного интеллекта. Модель с названием SparkDesk, как отмечается, превосходит ChatGPT в понимании китайского языка и в октябре "будет сопоставимой в понимании английского". Эксперты отметили, что SparkDesk показывает хорошие результаты в выполнении основных функций ИИ-модели – это понимание языка и генерация длинных текстов.

Meta выпустила Open Pretrained Transformer (OPT) в мае 2022 года. Языковая модель OPT содержит 175 миллиардов параметров. Она обучена на нескольких общих наборах данных, включая The Pile (набор данных с 22 подмножествами из более чем 800 ГБ английского текста) и BookCorpus. OPT объединил свои предварительно обученные модели и исходный код для использования/обучения этих моделей. В настоящее время он доступен для исследовательских целей по некоммерческой лицензии.

Amazon публично выпустила AlexaTM 20B, крупномасштабную многоязычную модель в ноябре 2022 года. В ней используется архитектура кодер-декодер. Она обучена сочетанию задач моделирования каузального языка (CLM) и удаления шума. Задачи шумоподавления требуют, чтобы модель нашла недостающие отрезки и воссоздала полную версию входных данных. Задачи CLM обучают режим осмысленному продолжению вводимого текста. AlexaTM 20B фактически является первой крупнейшей многоязычной моделью seq2seq, способной к обучению за несколько шагов. Поддерживает несколько языков.

Microsoft и NVIDIA совместно разработали Megatron-Turing Natural Language Generation (NLG). Этот LLM является одной из самых больших языковых моделей с более чем 530 миллиардами параметров. Она демонстрирует непревзойденную точность в широком наборе задач на естественном языке, таких как прогнозирование завершения, понимание прочитанного, рассуждение на основе здравого смысла, выводы на естественном языке, устранение неоднозначности смысла слов и т. д.

ChatGPT в России

Согласно опросу Rambler&Co, подавляющее большинство россиян хотело бы пользоваться отечественным аналогом ChatGPT. На российском рынке уже появился GigaСhat от Сбера. GigaChat — мультимодальная версия нейросети от Сбера. Она умеет отвечать на вопросы пользователей, основываясь на конкретных цифрах и фактах, поддерживать диалог, создавать тексты, генерировать картинки на основе описаний. Она выгодно отличается от иностранных ИИ тем, что более грамотно общается на русском языке и имеет повышенный уровень безопасности. Более того, GigaChat уникален своей открытостью архитектуры, в то время как мировые разработки ориентированы на Closed AI. Пока что работает в тестовом режиме. Сбер обещает добавить GigaChat в голосовой помощник Салют.

FractalGPT — это разработка компании «Аватар Машина», которая специализируется на нейросетях-трансформерах, обрабатывающих естественный язык. В отличие от ChatGPT, FractalGPT — это не нейросеть-трансформер, а мультиагентная система, которая будет обладать ризонингом (неким подобием логического мышления), целеполаганием и эмоциями. Также FractalGPT сможет решать реально сложные задачи, которые требуют мышления, или рассуждений: математические задачи в нетривиальной постановке (которые не может решить даже GPT-4) и задачи, где требуется синтез ответа. Но ключевое отличие — робастность (нечувствительность к различным отклонениям) и расширяемость, за счет многоагентной архитектуры ядра. За счет этого ядра система способна синтезировать новое знание. Релиз запланирован на конец июня 2023 года.

Российская компания Sistemma тоже создала свой функциональный аналог ChatGPT, который работает на русском языке. Модель SistemmaGPT проходит тестирование и уже доступна для бизнеса. Модель умеет: писать качественные тексты; отвечать на вопросы; составлять программу обучения или резюме; писать код; поддерживать беседу от лица знаменитости.

Летом 2022 года Яндекс выложил в открытый доступ нейросеть YaLM 100B. Она обучалась 65 дней на 1,7 ТБ текстов из интернета, книг и множества других источников с помощью 800 видеокарт A100. В 2023 году Яндекс заявил, что разрабатывает новую нейросеть YaLM 2.0. К концу 2023 года ее интегрируют в сервисы «Поиск», «Алиса», «Почта» и другие.

«Внедрение YaLM 2.0 позволит поиску самому генерировать ответы, используя знание всего оцифрованного мира… Мы думаем, что развитие генеративных текстовых моделей сможет значительно изменить работу поисковых систем и голосовых ассистентов», — сообщил директор по развитию технологий искусственного интеллекта «Яндекса» Александр Крайнов.

ChatGPT: пределы совершенства

Технология ChatGPT, вероятно, сможет потеснить с рынка традиционные поисковики, такие как Google. Пока Google все еще предлагает переходить по ссылкам, ChatGPT делает всю работу за пользователя, еще и успевая перекинуться с ним парой-тройкой фраз. Если поисковой гигант Google выдает список релевантных запросу пользователя ссылок, по которым нужно перейти, то ChatGPT предлагает один единственный и быстрый ответ, без перехода по ссылкам и самостоятельного анализа информации. Это может сделать приложения более простыми в использовании для всех. Вместо того, чтобы требовать специально отформатированных и конкретных запросов, которые часто нужны компьютерам, использование общего языка станет гораздо более эффективным.

Потенциал ChatGPT гораздо шире всех современных поисковых систем, которые зависят от бизнес-моделей компаний. По данным Bloomberg, около 81% выручки Alphabet ($257,6 млрд) в 2021 году пришлось на рекламную выдачу в поисковике. Люди привыкли к поисковым системам, которые могут указать им ответы на их вопросы или предоставить ресурсы для расширения знаний.

ChatGPT и поисковые системы преследуют разные цели. Основная цель поисковой системы — попытаться направить пользователя к точным ресурсам. Основная цель ChatGPT — генерировать разумно звучащие ответы на входные данные с использованием естественного языка. Причем, основная цель ChatGPT не включает точность. Она, конечно, второстепенная, но разработчики декларируют, что будут стремиться к ней.

Генеральный директор Alphabet Сундар Пичаи заявил, что Google намерен добавить в свою поисковую систему возможности искусственного интеллекта для синтеза информации и ответа на сложные запросы. Первоначально эти возможности будут поддерживаться LaMDA, а затем и другими технологиями искусственного интеллекта. Пичаи заявил, что Google начнет предоставлять инструменты веб-разработчикам, производителям и компаниям в 2003 году. Также Google анонсировал новые приложения AI в Docs, Gmail, Sheets и Slides.

Многие пользователи уже опробовали языковую модель. Если задать вопрос самому ChatGPT, жив ли он, он ответит: «Нет, я не живой. Я - языковая модель искусственного интеллекта, у меня нет сознания или чувств. Я просто компьютерная программа, предназначенная для ответа на вопросы и способная генерировать выходные данные на основе шаблонов, на которых я обучался».

Однако, эффективность результатов исследования языковой модели побудила многих людей поверить в то, что модели машинного обучения способны думать как люди. Разумеется, не способны. Это становится ясно при рассмотрении систем машинного обучения, которые по большей части все еще могут очень хорошо выполнять только одну задачу одновременно. Это противоречит здравому смыслу и не соответствует человеческому уровню мышления, который может с легкостью решать задачи в режиме многозадачности. Люди могут брать информацию из одного источника и использовать ее многими различными способами. Машины же могут использовать ее исключительно для решения одной задачи.

Компьютеры никогда не были инструментами разума, способными решать вопросы, волнующие человека; это всего лишь аппараты, которые структурируют человеческий опыт с помощью чрезвычайно мощного метода манипулирования символами. На сегодняшний день GPT и его родственники дают возможность воспользоваться их предложением — использовать компьютеры не для выполнения задач, а для того, чтобы развлекаться с миром, который они создали.

ChatGPT исполнилось шесть месяцев, а он уже начинает выглядеть устаревшим. На ежегодной конференции Google, посвященной новым продуктам и технологиям, компания объявила об изменениях в своем главном продукте искусственного интеллекта: чат-бот Bard, как и GPT-4 от OpenAI, скоро в состоянии будет описывать изображения.

Модели, ориентированные только на язык, такие как оригинальный ChatGPT, теперь уступают место машинам, которые также могут обрабатывать изображения, аудио и даже сенсорные данные от роботов. Новый подход может отражать попытку приблизиться к тому, как ребенок учится, существуя в мире и наблюдая за ним. Это также может помочь компаниям создавать искусственный интеллект, который будет способен выполнять больше задач и, следовательно, быть упакован в большее количество продуктов.

GPT-4 и Bard - не единственные программы с такими расширенными возможностями. Буквально в этом месяце Meta выпустила программу под названием ImageBind, которая обрабатывает текст, изображения, аудио, информацию о глубине, инфракрасном излучении и информацию о движении и местоположении. Недавний PaLM-E от Google был обучен работе, как с языковыми данными, так и с сенсорными данными робота, и компания представила новую, более мощную модель, которая выходит за рамки текста. У Microsoft есть своя модель, которая была обучена на словах и изображениях. Генераторы преобразования текста в изображение, такие как DALL-E 2, обучаются на изображениях с подписями.

Они известны как мультимодальные модели: текст — это одна модальность, изображения – другая. Многие разработчики и исследователи надеются, что они выведут ИИ на новые высоты. Самое грандиозное будущее - это то, в котором ИИ не ограничивается написанием шаблонных эссе; а сможет осуществлять поиск в Интернете без выдумок, анимировать видео, управлять роботом или создавать веб-сайт самостоятельно.

Мультимодальный подход теоретически мог бы решить центральную проблему с языковыми моделями: даже если они могут бегло связывать слова вместе, им трудно связать эти слова с концепциями, идеями, объектами или событиями. “Когда они говорят об автомобильных пробках, у них нет никакого опыта работы с пробками, кроме того, что они связали с этим из других частей языка”, — сказала Мелани Митчелл, исследователь искусственного интеллекта и специалист по когнитивным наукам из Института Санта-Фе, - но если обучающие данные ИИ могут включать видеозаписи пробок, “они могут получить гораздо больше информации”. Изучение большего количества типов данных могло бы помочь моделям ИИ представлять физические среды и взаимодействовать с ними, разработать нечто, приближающееся к здравому смыслу, и даже решить проблемы с фальсификацией. Если модель понимает мир, у нее может быть меньше шансов что-то выдумать о нем.

Стремление к мультимодальным моделям не совсем ново; Google, Facebook и другие внедрили автоматизированные системы подписи к изображениям почти десять лет назад. Но несколько ключевых изменений в исследованиях ИИ за последние несколько лет сделали межведомственные подходы более возможными и многообещающими. В то время как на протяжении десятилетий в таких областях информатики, как обработка естественного языка, компьютерное зрение и робототехника, использовались разные методы, теперь все они используют метод программирования, называемый “глубокое обучение”. В результате их код и подходы стали более похожими, а их модели легче интегрировать друг в друга. Такие интернет-гиганты, как Google и Facebook, обрабатывают все большие наборы данных изображений и видео, и компьютеры становятся достаточно мощными, чтобы обрабатывать их.

Интернет, каким бы непостижимо большим он ни казался, содержит конечный объем текста, на котором можно обучать ИИ. И есть реальный предел тому, насколько большими и громоздкими могут стать эти программы, а также тому, сколько вычислительной мощности они могут использовать. Исследователи начинают выходить за рамки текста, чтобы сделать модели более совместимыми с данными, которые они могут собирать. Действительно, Сэм Альтман, генеральный директор OpenAI сказал, что эра масштабирования текстовых моделей, вероятно, закончилась - всего через несколько месяцев после того, как ChatGPT, по сообщениям, стал самым быстрорастущим потребительским приложением в истории.

Насколько лучше мультимодальный ИИ будет понимать мир, чем ChatGPT, и насколько более свободным будет его язык, если вообще будет, подлежит обсуждению. Хотя многие модели демонстрируют лучшую производительность по сравнению с языковыми программами - особенно в задачах, связанных с изображениями и трехмерными сценариями, такими как описание фотографий и представление результата, — в других областях они не столь выдающиеся. GPT-4 продолжает галлюцинировать, уверенно делая ложные заявления, которые абсурдны, слегка ошибочны или просто отвратительны. PaLM -E от Google на самом деле хуже справлялся с языковыми задачами, чем модель PaLM, ориентированная только на язык, возможно, потому, что добавление сенсорной информации к роботу приводило к потере части языковых данных и способностей. Тем не менее, такие исследования находятся на ранних стадиях и будут продолжаться в ближайшие годы.

Мы по-прежнему далеки от создания чего-либо, что действительно подражало бы тому, как думают люди. Несмотря на то, что такая программа, как ImageBind от Meta, может обрабатывать изображения и звук, люди также учатся, взаимодействуя с другими людьми, обладают долговременной памятью и развиваются на основе опыта и являются продуктом миллионов лет эволюции — и это лишь несколько причин, по которым искусственный интеллект и органический интеллект не совпадают.

И точно так же, как использование большего количества текстовых данных в моделях ИИ не решило давних проблем с предвзятостью и фальсификацией, использование большего количества типов данных в машинах не обязательно приведет к этому. Программа, которая использует не только искаженный текст, но и искаженные изображения, по-прежнему будет выдавать неправильные результаты, только на большем количестве носителей. Непрозрачные инфраструктуры и наборы обучающих данных затрудняют регулирование и аудит программного обеспечения; вероятность нарушений трудовых и авторских прав может только возрасти, поскольку ИИ должен удалять еще больше типов данных.

«Мультимодальный ИИ может быть даже более восприимчив к определенным видам манипуляций, (таким как изменение ключевых пикселей на изображении), чем модели, владеющие только языком, - сказала Митчелл. - Некоторая форма фальсификации, вероятно, продолжится и, возможно, будет даже более убедительной и опасной, потому что галлюцинации будут визуальными — представьте, что ИИ вызывает скандал в масштабе поддельных изображений ареста Дональда Трампа. Понятно, что мультимодальность - это не серебряная пуля или что-то в этом роде для решения многих из этих проблем».

Помимо интеллекта, мультимодальный ИИ может быть просто хорошим коммерческим предложением. Языковые модели уже стали золотой лихорадкой для Силиконовой долины: до корпоративного бума мультимодальности OpenAI, по сообщениям, ожидал выручки в 1 миллиард долларов к 2024 году; многочисленные недавние анализы предсказывали, что ChatGPT добавит десятки миллиардов долларов к годовому доходу Microsoft через несколько лет.

Мультимодальные программы просто будут предлагать клиентам больше, чем обычный текстовый ChatGPT, например, описывать изображения и видео, интерпретировать или даже создавать диаграммы, быть более полезными личными помощниками и так далее. Мультимодальный ИИ мог бы помочь консультантам и венчурным капиталистам создавать более качественные слайды, улучшать существующее, но несовершенное программное обеспечение, которое описывает изображения и окружающую среду для людей с нарушениями зрения, ускорять обработку электронных медицинских записей и вести людей по улицам не как по карте, а наблюдая за зданиями вокруг.

Источник: vk.com

Tencent создал новую команду для разработки продукта, аналогичного ChatGPT

Комментарии: