![]() |
![]() |
![]() |
|||||
![]() |
Гонка нейросетей продолжается: ChatGPT стал похож на сюжет фильма «Она» — Google отвечает своими обновлениями |
||||||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-05-16 11:00 ![]() События последних дней вновь заставили весь мир говорить о нейросетях. Сначала, 13 мая OpenAI показала новую, еще более совершенную, языковую модель GPT-4o, которая, по выражению журналистов, «вдохновлена голливудским видением искусственного интеллекта». На следующий день Google провел конференцию, на которой показал свои ИИ-новинки, включая генерацию видео по тексту и нейросеть, которая ищет ответы в сети за пользователя. Битва нейросетей продолжается? И почему последние анонсы радикально изменят опыт работы с искусственным интеллектом для миллионов пользователей? Рассказываем в материале «Собака.ru».
Новый ChatGPT — прямо из фантастических фильмов «OpenAI запускает голосового помощника, вдохновленного голливудским видением искусственного интеллекта», — таким заголовком отреагировало издание The Wall Street Journal на очередную презентацию разработчика ChatGPT. В ходе мероприятия была представлена новая языковая модель GPT-4o, которую уже называют «самым мощным ИИ» от Open AI. Причем она будет доступна пользователям бесплатно. Главное, на что был сделан упор в ходе презентации — голосовые возможности новой модели. Разработки OpenAI и раньше могли говорить, но теперь GPT делает это намного увереннее, меня интонацию и другие характеристики своего голоса. Также модель распознает эмоции собеседника, ее можно перебивать или попросить сочинить и спеть песню. При этом для того, чтобы отреагировать на голосовую команду нейросети, теперь нужно менее секунды (раньше на это уходило до 5,4 секунды). Большой шаг сделан и в сторону мультимодальности: модель может воспринимать любую комбинацию визуальной, текстовой и аудиоинформации. К примеру, пишет РБК, пользователь может загрузить фотографию меню на иностранном языке и голосом попросить перевести текст, а также дать рекомендации по заказу блюда. Также нейросеть воспринимает информацию с камеры устройства — к примеру, она может распознать на видео математическое уравнение и дать подсказки по его решению. Кроме того, GPT-4o может «увидеть» эмоции на лице собеседника и отреагировать на них, в том числе шуткой. Все это делает взаимодействие с новой ИИ-моделью максимально похожим на разговор с живым человеком... или на общение с искусственным интеллектом из научной фантастики. Так, журналисты стали сравнивать новинку с программой из фильма «Она» 2014 года. В этой картине писатель, герой Хоакина Феникса, влюбляется в «операционку» — систему на базе искусственного интеллекта. Поддержал это сравнение и глава OpenAI Сэм Альтман, опубликовавший после презентации твит со словом «Her» (ранее Альтман называл эту картину своим любимым научно-фантастическим фильмом). Директор по стратегическому маркетингу «Яндекса» Андрей Себрант в комментарии для «Собака.ru» также отмечает «рывок в человекоподобности разговорного интерфейса», прежде всего в скорости ответа. «Именно скорости мы прежде всего ждем от подобного себе собеседника – если ему каждый раз требуются секунды на размышление, а ответ формируется по словам и зачитывается бесстрастно – это точно робот по ощущениям. Многолетний опыт работы с голосовыми ассистентами (от Алексы до Алисы) для многомиллионных аудиторий показывает, что большинству людей важна и нужна такая "человечность" собеседника, и здесь достижения OpenAI очень впечатляют», — добавил он. Игорь Котенков Специалист по машинному обучению, автор Telegram-канала «Сиолошная»: Сравнение с операционкой из фильма «Она» оправдано в том смысле, что перед нами очень удобный интерфейс. Языковая модель, с которой мы привыкли общаться как с ChatGPT, теперь умеет отвечать голосом, причем нативно, без промежуточной генерации текстового ответа, как это происходило до этого. Это очень большое новшество с точки зрения технологии, потому что, как показывает вся история развития нейросетей, когда мы объединяем все системы в одну (это называется end-to-end), это приносит свои плоды. Что еще очень важно: GPT4o — самая умная модель будет доступна в режиме свободного доступа. Это даже важнее, чем [продвинутый] голосовой ассистент. Большинство пользователей до сих пор общались с бесплатной версией ChatGPT, работающей на базе модели GPT3.5. Нововведение должно принести большое количество новых впечатлений этим людям. Десятки миллионов людей [получив доступ к обновленной версии] скажут: «Ого, а я и не знал, что нейронки такие умные!» Почему не знали, потому что они не пробовали платную версию, возможности которой теперь перекочевали в открытую.
Ответ Google — более десятка новых ИИ-возможностей Сенсационная презентация OpenAI состоялась за день до конференции Google, на которой технологический гигант должен был представить свои обновления в области искусственного интеллекта. Комментаторы, открыто говорят, что это не совпадение — OpenAI и партнеры (к примеру, Microsoft) уже больше года соревнуются с Google на рынке нейросетей. Если представление GPT-4o заняло всего 26 минут, то трансляция от Google растянулась почти на два часа! Как посчитали профильные Telegram-каналы, слова «ИИ», «искусственный интеллект» и производные от них прозвучали в общей сложности 121 раз. Что не удивительно, мероприятие было практически полностью посвящено нейросетям и тому, как они помогут пользователям Gmail, и других сервисов компании — всего издание Rozetked насчитало 13 достойных упоминания анонсов (включая обновления в почте, поиске и документах). Так, летом 2024 года в Google Photo появится функция интеллектуального поиска снимков и информации о них (к примеру, можно будет попросить найти фотографию своей машины и уточнить, какой у нее номерной знак). Большое внимание привлекла новая функция интеллектуального поиска AI Overview — она сама анализирует содержания сайтов и выдает пользователю ответ в виде краткого саммари по запросу со ссылками, по которым можно найти более подробную информацию. В издании The Verge новинку назвали «будущем поиска», которое «уже здесь» (в русскоязычном сегменте новинку, однако, восприняли с большим скепсисом, отметив, что очень похожая функция уже в апреле была запущена «Яндексом»). Помимо этого Google представил свою первую нейросеть, генерирующую видео по текстовому описанию — ее прямо называют конкурентом Sora от OpenAI. Также была представлена функция Imagen 3, являющаяся самым мощным в истории компании генератором картинок по текстовым описаниям. Ну и, конечно, широкое внимание привлек Gemini Live — ИИ-ассистент, который как GPT-4o умеет работать с голосовой, визуальной и текстовой информацией, способен вести беседу с человеком без задержек и долго времени ожидания, а также запоминать контекст беседы. Впрочем, в сухом остатке конференция Google встретила куда более прохладные отзывы чем, релиз OpenAI. Андрей Себрант Директор по стратегическому маркетингу «Яндекса»: Удивительно, что Google пока не демонстрирует своего главного и мощнейшего преимущества: у него есть колоссальный портфель высокотехнологичных продуктов, которыми пользуются миллиарды людей. Глубокая интеграция ИИ-моделей в такие продукты позволяет создавать недостижимое для конкурентов (в том числе, OpenAI) новое качество. И уже много лет назад такие интеграции Google объявлял (вспомним его Duplex, который должен был вести за человека телефонные переговоры с разными сервисами) – но именно в этом направлении никаких новинок нам не показали. Суммаризация в браузере или в поиске совсем не выглядит как крутая инновация, как и помощь в написании писем. Да, нам показывают возможности собственных генеративных моделей, сопоставимые (на уровне демок) с тем, что умеют модели от OpenAI, но хочется-то увидеть революцию продуктов, которыми Google силен. «Насколько убедителен ответ Google? — добавляет специалист по машинному обучению Игорь Котенков, — Очень неубедителен. Они оправдывают звание догоняющих в этой ИИ-гонке. Многое из того, что они показали, мало того, что хуже, [чем у OpenAI], с точки зрения технологий, так оно еще и недоступно сейчас, а появится когда-нибудь потом». ![]() CkyBe / Shutterstock Новый шаг в сторону будущего? «Мы смотрим в будущее взаимодействия между нами и машинами», — так охарактеризовала презентацию GPT-4o технический директор OpenAI Мира Мурати. Некоторые авторы называют произошедшее на этой неделе «переломным моментом в эволюции искусственного интеллекта». «Разделять поступательный прогресс и прорывы в быстро развивающейся области сложно, причем прорыв может быть не в технологических метриках или новых фичах, а в восприятии, — говорит Андрей Себрант из «Яндекса», Пресловутый "вау-эффект" возникает для пользователя в тот самый момент, когда задержка голосового ответа модели сокращается с нескольких секунд до 0,3 секунды, чем оправданно гордится OpenAI. Называть ли это новым шагом – дело вкуса». Андрей Себрант Директор по стратегическому маркетингу «Яндекса»: В любом случае непрерывные количественные изменения в итоге накапливаются до стадии, когда их уже можно назвать качественными, так что само по себе быстрое «очеловечивание» отклика моделей в диалоге можно считать важным шагом. По мнению Игоря Котенкова, самое важное, что пользователи и эксперты увидели в презентации OpenAI и Google — это то, что инженеры компаний могут масштабировать свои языковые модели, сохраняя качество продукта. «Как следствие людям становится легче пользоваться их решениями, — говорит он. — Большие языковые модели могут прорастать во все больше количество продуктов. Если раньше модель стоила, по-моему, 30 долларов за миллион слов, то сейчас она стоит 7 долларов. Вот получается, что появляются новые бизнес-кейсы, бизнес-сценарии использования ИИ-инструментов там, где раньше по экономике это не пролазило». ![]() CkyBe / Shutterstock Неожиданное послесловие Впрочем, на презентациях OpenAI и Google события в мире искусственного интеллекта не закончились. Вскоре после презентации GPT-4o стало известно об уходе из OpenAI одного из основателей компании Ильи Суцкевера, уроженца Нижнего Новгорода. Он являлся главным научным сотрудником компании, а в ноябре 2023 года оказался в центре скандала со временным увольнением из компании другого сооснователя Сэма Альтмана. Тогда говорилось, что Суцкевера смущает недостаточное внимание партнеров к возможным последствиям развития ИИ для человечества. «Спустя почти десять лет я принял решение покинуть OpenAI, — написал Суцкевер в своих социальных сетях, — Траектория развития компании была просто чудесной, и я уверен, что OpenAI создаст AGI, который будет одновременно безопасным и полезным... Для меня было честью и привилегией работать вместе [с коллегами], и я буду очень скучать по всем. Пока и спасибо за все. Я с нетерпением жду того, что будет дальше — проекта, который очень важен для меня лично, о котором я поделюсь подробностями в свое время». Сэм Альтман, несмотря на прошлогодний конфликт, отметил, что сожалеет об уходе коллеги и назвал его «одним из величайших умов своего поколения» и отметив, что без него «OpenAI не смогла бы стать тем, чем является сейчас». В чем причина решения Суцкевера и как оно скажется на компании и ее положении в гонке ИИ пока неизвестно. Источник: www.sobaka.ru Комментарии: |
||||||