ИИ-модель Gemini: что это и как ей пользоваться

2024-03-11 07:00

Фото: Shutterstock

В начале декабря 2023 года Google представила модель искусственного интеллекта Gemini, а в феврале 2024 обновленную версию — Gemini 1.5. По словам разработчиков, Gemini лучше, чем самая продвинутая модель ИИ GPT-4

Содержание:

Что такое модель ИИ Gemini
Возможности
Как пользоваться
Примеры использования

Что такое Gemini

Gemini — это модель искусственного интеллекта, разработанная компанией Google DeepMind. Она доступна в трех версиях:

Gemini Nano — на смартфонах Google Pixel 8 Pro;
Gemini Pro — на ее основе теперь работает чат-бот Gemini (ранее известный как Google Bard). Позволяет генерировать тексты и изображения, задавать вопросы и искать информацию. Контекстное окно составляет 32 тыс. токенов. Это значит, что пользователь может отправить нейросети запрос объемом 32 тыс. единицы информации. Единицей информации могут буквы, символы, слова, части слова, предложения и т.д.;
Gemini Ultra — ИИ-модель, где реализовано наибольшее количество функций, конкурент GPT-4.

Возможности Gemini

Gemini Nano делает краткое содержание записей с диктофона, предлагает варианты ответов в переписках в мессенджерах WhatsApp, Line и KakaoTalk и лучше защищает персональные данные от утечек.

Демонстрационный ролик смартфона Google Pixel 8 Pro со встроенной моделью ИИ Gemini Nano.

(Видео: YouTube)

Gemini Pro умеет генерировать тексты — от ответа на вопрос «Как дела?» до компьютерного кода на разных языках программирования, распознавать, описывать содержание изображений, генерировать картинки, делать краткий пересказ текста.

Модель ИИ Gemini Ultra умеет распознавать и анализировать тексты, изображения, аудио и даже видео (этого GPT-4 еще не умеет), а также генерировать текст и изображения. Примеры возможностей Gemini Ultra:

распознает рукописный текст на изображениях;
проверяет наличие ошибок в тексте (как в письменном, так и на изображении) и объясняет, что нужно исправить и почему;
создает отдельный интерфейс для каждой задачи, например, пошаговую инструкцию с иллюстрациями, как приготовить блюдо;
генерирует компьютерный код, таблицы, различные виды текстов и изображений;
ведет с пользователем «осознанный» диалог.

Согласно заявлениям Google, Gemini Ultra превзошел GPT-4 по 30 из 32 тестов. Gemini лучше отвечает на вопросы, понимает запросы пользователей, пишет код на Python, решает сложные математические задачи, расшифровывает аудио.

Одно из главных преимуществ модели от Google — взаимодействие с видео. В демонстрационном ролике было показано, как Gemini распознает и озвучивает действия, происходящие на видео, предсказывает, что будет дальше, и предлагает варианты развития событий. Также модель предложила пользователю сыграть в игру, сравнивала предметы по разным характеристикам, предложила и проиллюстрировала, что можно сделать с двумя клубками пряжи, распознала гитару и включила мелодию на гитаре.

Взаимодействие Gemini Ultra с видео.

(Видео: YouTube)

Как пользоваться Gemini в России

Воспользоваться Gemini Nano можно только на смартфонах Pixel 8 Pro.

Gemini Ultra доступна в веб-версии на сайте Gemini Advanced и в одноименных приложениях на Android и iOS. Однако его использование платное — $19,99 в месяц. Есть бесплатный двухмесячный пробный период. В России Gemini Advanced недоступен без VPN.

Gemini Pro можно воспользоваться бесплатно в чат-боте Gemini. Для этого нужно войти в аккаунт Google. В России инструмент недоступен без VPN.

Интерфейс чат-бота Gemini

Примеры использования Gemini

В Gemini Advanced на базе Gemini Ultra пока нет возможности взаимодействовать с видео. По словам компании, Gemini Ultra в Gemini Advanced лучше, чем Gemini Pro в чат-боте Gemini понимает запросы и ведет диалог с пользователем. Постепенно разработчики будут добавлять и другие функции, в том числе работу с видео.

Демонстрационный ролик Gemini Advanced.

(Видео: YouTube)

Пользователь может создавать контент в чат-боте Gemini, в который встроен Gemini Pro. Для этого в диалоговом окне нужно написать запрос. «РБК Тренды» попробовали сгенерировать стихотворение, компьютерный код и описать изображение.

Чат-бот Gemini на основе нейросети Gemini Pro сгенерировал стихотворение о весне

Чат-бот Gemini на основе нейросети Gemini Pro распознал и описал изображение

Чат-бот Gemini на основе нейросети Gemini Pro решил задачу на Python

В феврале 2024-го появились сообщения о том, что чат-бот Gemini неточно генерирует изображения по историческим запросам. Нейросеть по запросам «солдаты нацистской Германии» или «отцы-основатели Америки» могла выдать изображения людей разных рас. По словам генерального директора Google Сундара Пичаи, разработчики уже решают эту проблему. Сейчас функция генерации изображений в чат-боте Gemini временно отключена.

Gemini 1.5

В феврале 2024 года Google DeepMind представила Gemini 1.5 — обновленную версию модели Gemini Pro. Разработчики расширили контекстное окно до 1 млн токенов. Это количество токенов сопоставимо с 1ч видео, 11ч аудио, 30 тыс. строками кода, 700 тыс. словами.

Gemini 1.5 умеет:

Анализировать, классифицировать и обобщать большие объемы контента в рамках запроса пользователя. Например, на основе стенограммы полета «Аполлона-11» на Луну, которая занимает 402 страницы, нейросеть может «рассуждать» о разговорах, событиях и деталях, упоминающихся в документе.
Понимать и «рассуждать» на основе видеоконтента. Например, нейросеть может проанализировать сюжетные повороты, события и детали 44-минутного немого фильма Бастера Китона.
Лучше понимает отправленный пользователем компьютерный код, предлагает для него более полезные варианты модификации, лучше объясняет, как работают разные части кода.

Результаты тестирования Gemini 1.5 превзошли первую версию Gemini Pro в 87% тестов. Сейчас новая версия нейросети доступна для ограниченного круга разработчиков и корпоративных клиентов. Когда Gemini 1.5 станет доступен для широкого круга пользователей, пока неизвестно.

Источник: trends.rbc.ru



		ИИ-модель Gemini: что это и как ей пользоваться
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2024-03-11 07:00 ИИ проекты Фото: Shutterstock В начале декабря 2023 года Google представила модель искусственного интеллекта Gemini, а в феврале 2024 обновленную версию — Gemini 1.5. По словам разработчиков, Gemini лучше, чем самая продвинутая модель ИИ GPT-4 Содержание: Что такое модель ИИ Gemini Возможности Как пользоваться Примеры использования Что такое Gemini Gemini — это модель искусственного интеллекта, разработанная компанией Google DeepMind. Она доступна в трех версиях: Gemini Nano — на смартфонах Google Pixel 8 Pro; Gemini Pro — на ее основе теперь работает чат-бот Gemini (ранее известный как Google Bard). Позволяет генерировать тексты и изображения, задавать вопросы и искать информацию. Контекстное окно составляет 32 тыс. токенов. Это значит, что пользователь может отправить нейросети запрос объемом 32 тыс. единицы информации. Единицей информации могут буквы, символы, слова, части слова, предложения и т.д.; Gemini Ultra — ИИ-модель, где реализовано наибольшее количество функций, конкурент GPT-4. Возможности Gemini Gemini Nano делает краткое содержание записей с диктофона, предлагает варианты ответов в переписках в мессенджерах WhatsApp, Line и KakaoTalk и лучше защищает персональные данные от утечек. Демонстрационный ролик смартфона Google Pixel 8 Pro со встроенной моделью ИИ Gemini Nano. (Видео: YouTube) Gemini Pro умеет генерировать тексты — от ответа на вопрос «Как дела?» до компьютерного кода на разных языках программирования, распознавать, описывать содержание изображений, генерировать картинки, делать краткий пересказ текста. Модель ИИ Gemini Ultra умеет распознавать и анализировать тексты, изображения, аудио и даже видео (этого GPT-4 еще не умеет), а также генерировать текст и изображения. Примеры возможностей Gemini Ultra: распознает рукописный текст на изображениях; проверяет наличие ошибок в тексте (как в письменном, так и на изображении) и объясняет, что нужно исправить и почему; создает отдельный интерфейс для каждой задачи, например, пошаговую инструкцию с иллюстрациями, как приготовить блюдо; генерирует компьютерный код, таблицы, различные виды текстов и изображений; ведет с пользователем «осознанный» диалог. Согласно заявлениям Google, Gemini Ultra превзошел GPT-4 по 30 из 32 тестов. Gemini лучше отвечает на вопросы, понимает запросы пользователей, пишет код на Python, решает сложные математические задачи, расшифровывает аудио. Одно из главных преимуществ модели от Google — взаимодействие с видео. В демонстрационном ролике было показано, как Gemini распознает и озвучивает действия, происходящие на видео, предсказывает, что будет дальше, и предлагает варианты развития событий. Также модель предложила пользователю сыграть в игру, сравнивала предметы по разным характеристикам, предложила и проиллюстрировала, что можно сделать с двумя клубками пряжи, распознала гитару и включила мелодию на гитаре. Взаимодействие Gemini Ultra с видео. (Видео: YouTube) Как пользоваться Gemini в России Воспользоваться Gemini Nano можно только на смартфонах Pixel 8 Pro. Gemini Ultra доступна в веб-версии на сайте Gemini Advanced и в одноименных приложениях на Android и iOS. Однако его использование платное — $19,99 в месяц. Есть бесплатный двухмесячный пробный период. В России Gemini Advanced недоступен без VPN. Gemini Pro можно воспользоваться бесплатно в чат-боте Gemini. Для этого нужно войти в аккаунт Google. В России инструмент недоступен без VPN. Интерфейс чат-бота Gemini Примеры использования Gemini В Gemini Advanced на базе Gemini Ultra пока нет возможности взаимодействовать с видео. По словам компании, Gemini Ultra в Gemini Advanced лучше, чем Gemini Pro в чат-боте Gemini понимает запросы и ведет диалог с пользователем. Постепенно разработчики будут добавлять и другие функции, в том числе работу с видео. Демонстрационный ролик Gemini Advanced. (Видео: YouTube) Пользователь может создавать контент в чат-боте Gemini, в который встроен Gemini Pro. Для этого в диалоговом окне нужно написать запрос. «РБК Тренды» попробовали сгенерировать стихотворение, компьютерный код и описать изображение. Чат-бот Gemini на основе нейросети Gemini Pro сгенерировал стихотворение о весне Чат-бот Gemini на основе нейросети Gemini Pro распознал и описал изображение Чат-бот Gemini на основе нейросети Gemini Pro решил задачу на Python В феврале 2024-го появились сообщения о том, что чат-бот Gemini неточно генерирует изображения по историческим запросам. Нейросеть по запросам «солдаты нацистской Германии» или «отцы-основатели Америки» могла выдать изображения людей разных рас. По словам генерального директора Google Сундара Пичаи, разработчики уже решают эту проблему. Сейчас функция генерации изображений в чат-боте Gemini временно отключена. Gemini 1.5 В феврале 2024 года Google DeepMind представила Gemini 1.5 — обновленную версию модели Gemini Pro. Разработчики расширили контекстное окно до 1 млн токенов. Это количество токенов сопоставимо с 1ч видео, 11ч аудио, 30 тыс. строками кода, 700 тыс. словами. Gemini 1.5 умеет: Анализировать, классифицировать и обобщать большие объемы контента в рамках запроса пользователя. Например, на основе стенограммы полета «Аполлона-11» на Луну, которая занимает 402 страницы, нейросеть может «рассуждать» о разговорах, событиях и деталях, упоминающихся в документе. Понимать и «рассуждать» на основе видеоконтента. Например, нейросеть может проанализировать сюжетные повороты, события и детали 44-минутного немого фильма Бастера Китона. Лучше понимает отправленный пользователем компьютерный код, предлагает для него более полезные варианты модификации, лучше объясняет, как работают разные части кода. Результаты тестирования Gemini 1.5 превзошли первую версию Gemini Pro в 87% тестов. Сейчас новая версия нейросети доступна для ограниченного круга разработчиков и корпоративных клиентов. Когда Gemini 1.5 станет доступен для широкого круга пользователей, пока неизвестно. Источник: trends.rbc.ru Комментарии:

ИИ-модель Gemini: что это и как ей пользоваться

Комментарии: