Представляем Gemini: нашу крупнейшую и самую мощную модель искусственного интеллекта

2023-12-07 14:42

Примечание генерального директора Google и Alphabet Сундара Пичаи:

Каждый технологический сдвиг — это возможность продвинуть научные открытия, ускорить прогресс человечества и улучшить жизнь. Я считаю, что переход, который мы наблюдаем сейчас с ИИ, будет самым глубоким в нашей жизни, гораздо более масштабным, чем переход к мобильным устройствам или Интернету до него. ИИ обладает потенциалом создавать возможности — от повседневных до необыкновенных — для людей во всем мире. Это принесет новые волны инноваций и экономического прогресса, а также будет способствовать развитию знаний, обучения, творчества и производительности в невиданных ранее масштабах.

Вот что меня волнует: возможность сделать ИИ полезным для всех и во всем мире.

Спустя почти восемь лет нашего пути в качестве компании, ориентированной на искусственный интеллект, темпы прогресса только ускоряются: миллионы людей теперь используют генеративный искусственный интеллект в наших продуктах, чтобы делать то, что они не могли сделать даже год назад, от поиска ответов до более сложных вопросы по использованию новых инструментов для совместной работы и творчества. В то же время разработчики используют наши модели и инфраструктуру для создания новых генеративных приложений ИИ, а стартапы и предприятия по всему миру растут благодаря нашим инструментам ИИ.

Это невероятный импульс, и тем не менее, мы только начинаем прикасаться к тому, что возможно.

Мы подходим к этой работе смело и ответственно. Это означает, что мы должны быть амбициозными в наших исследованиях и использовать возможности, которые принесут огромную пользу людям и обществу, одновременно создавая меры безопасности и работая совместно с правительствами и экспертами над устранением рисков по мере того, как ИИ становится более способным. И мы продолжаем инвестировать в самые лучшие инструменты, базовые модели и инфраструктуру и внедрять их в наши и другие продукты, руководствуясь нашими принципами искусственного интеллекта .

Теперь мы делаем следующий шаг в нашем путешествии с Gemini, нашей самой функциональной и универсальной моделью, демонстрирующей самые современные характеристики во многих ведущих тестах. Наша первая версия, Gemini 1.0, оптимизирована для разных размеров: Ultra, Pro и Nano. Это первые модели эпохи Близнецов и первая реализация видения, которое у нас было, когда мы сформировали Google DeepMind ранее в этом году. Эта новая эра моделей представляет собой одно из крупнейших научных и инженерных усилий, предпринятых нашей компанией. Я искренне рад тому, что нас ждет впереди, и тем возможностям, которые Близнецы откроют для людей во всем мире.

- Сундар

Представляем Близнецов

Демис Хассабис, генеральный директор и соучредитель Google DeepMind, от имени команды Gemini

Искусственный интеллект был в центре внимания моей жизни, как и многих моих коллег-исследователей. С тех пор, как я был подростком программировал искусственный интеллект для компьютерных игр, и на протяжении многих лет, когда я работал исследователем нейробиологии, пытаясь понять работу мозга, я всегда верил, что если мы сможем создавать более умные машины, мы сможем использовать их на благо человечества в невероятных масштабах. пути.

Это обещание ответственного мира, наделенного искусственным интеллектом, продолжает стимулировать нашу работу в Google DeepMind. В течение долгого времени мы хотели создать новое поколение моделей ИИ, вдохновленных тем, как люди понимают мир и взаимодействуют с ним. ИИ, который ощущается не как умное программное обеспечение, а скорее как что-то полезное и интуитивно понятное — опытный помощник или помощник.

Сегодня мы стали на шаг ближе к этому видению, представляя Gemini , самую функциональную и универсальную модель, которую мы когда-либо создавали.

Gemini — это результат масштабных совместных усилий команд Google, в том числе наших коллег из Google Research. Он был создан с нуля как мультимодальный, что означает, что он может обобщать и легко понимать, обрабатывать и комбинировать различные типы информации, включая текст, код, аудио, изображения и видео.

Gemini также является нашей самой гибкой моделью, способной эффективно работать на любых устройствах — от центров обработки данных до мобильных устройств. Его современные возможности значительно улучшат возможности разработчиков и корпоративных клиентов по созданию и масштабированию с помощью ИИ.

Мы оптимизировали нашу первую версию Gemini 1.0 для трех разных размеров:

Gemini Ultra — наша самая крупная и наиболее эффективная модель для решения очень сложных задач.
Gemini Pro — наша лучшая модель для масштабирования под широкий круг задач.
Gemini Nano — наша самая эффективная модель для задач на устройстве.

Современное исполнение

Мы тщательно тестировали наши модели Gemini и оценивали их производительность при выполнении самых разных задач. От естественного понимания изображений, аудио и видео до математических рассуждений, производительность Gemini Ultra превосходит текущие результаты по 30 из 32 широко используемых академических тестов, используемых в исследованиях и разработках моделей большого языка (LLM).

С результатом 90,0% Gemini Ultra является первой моделью, превзошедшей экспертов-людей по MMLU (многозадачному пониманию языка), который использует комбинацию 57 предметов, таких как математика, физика, история, право, медицина и этика, для тестирования как мировых знания и способности решать проблемы.

Наш новый эталонный подход к MMLU позволяет Gemini использовать свои способности к рассуждению, чтобы более тщательно подумать, прежде чем отвечать на сложные вопросы, что приводит к значительным улучшениям по сравнению с использованием первого впечатления.

A chart showing Gemini UltraБЂ™s performance on common text benchmarks, compared to GPT-4 (API numbers calculated where reported numbers were missing).

Gemini превосходит самые современные показатели производительности по ряду тестов, включая текст и кодирование.

Gemini Ultra также получил современный балл 59,4% по новому тесту MMMU , который состоит из мультимодальных задач, охватывающих различные области, требующих продуманного рассуждения.

По протестированным нами тестам изображений Gemini Ultra превзошла предыдущие современные модели без помощи систем распознавания символов (OCR), которые извлекают текст из изображений для дальнейшей обработки. Эти критерии подчеркивают природную мультимодальность Близнецов и указывают на ранние признаки более сложных мыслительных способностей Близнецов.

Более подробную информацию смотрите в нашем техническом отчете Gemini .

A chart showing Gemini UltraБЂ™s performance on multimodal benchmarks compared to GPT-4V, with previous SOTA models listed in places where capabilities are not supported in GPT-4V.

Gemini превосходит самые современные показатели по целому ряду мультимодальных показателей.

Возможности нового поколения

До сих пор стандартный подход к созданию мультимодальных моделей заключался в обучении отдельных компонентов для разных модальностей и их последующем объединении для примерной имитации некоторых из этих функций. Эти модели иногда могут хорошо справляться с определенными задачами, например с описанием изображений, но с трудом справляются с более концептуальными и сложными рассуждениями.

Мы разработали Gemini как мультимодальный продукт, предварительно обученный с самого начала различным модальностям. Затем мы доработали его с помощью дополнительных мультимодальных данных, чтобы еще больше повысить его эффективность. Это помогает Gemini легко понимать и анализировать все виды входных данных с нуля, что намного лучше, чем существующие мультимодальные модели, а его возможности соответствуют современному уровню практически во всех областях.

Узнайте больше о возможностях Gemini и посмотрите, как это работает .

Сложные рассуждения

Сложные мультимодальные возможности рассуждения Gemini 1.0 могут помочь разобраться в сложной письменной и визуальной информации. Это делает его уникальным специалистом в обнаружении знаний, которые трудно различить среди огромных объемов данных.

Его замечательная способность извлекать ценную информацию из сотен тысяч документов посредством чтения, фильтрации и понимания информации поможет совершить новые прорывы на цифровых скоростях во многих областях, от науки до финансов.

Понимание текста, изображений, аудио и т. д.

Gemini 1.0 был обучен одновременно распознавать и понимать текст, изображения, аудио и многое другое, поэтому он лучше понимает нюансы информации и может отвечать на вопросы, касающиеся сложных тем. Благодаря этому он особенно хорош для объяснения рассуждений в таких сложных предметах, как математика и физика.

Расширенное кодирование

Наша первая версия Gemini может понимать, объяснять и генерировать высококачественный код на самых популярных в мире языках программирования, таких как Python, Java, C++ и Go. Его способность работать на разных языках и анализировать сложную информацию делает его одной из ведущих базовых моделей кодирования в мире.

Gemini Ultra преуспевает в нескольких тестах кодирования, включая HumanEval , важный отраслевой стандарт для оценки производительности задач кодирования, и Natural2Code, наш внутренний резервный набор данных, который использует источники, созданные авторами, а не информацию из Интернета.

Gemini также можно использовать в качестве двигателя для более совершенных систем кодирования. Два года назад мы представили AlphaCode , первую систему генерации кода искусственного интеллекта, которая достигла конкурентного уровня производительности на соревнованиях по программированию.

Используя специализированную версию Gemini, мы создали более совершенную систему генерации кода AlphaCode 2 , которая отлично справляется с решением задач конкурентоспособного программирования, выходящих за рамки кодирования и включающих сложную математику и теоретическую информатику.

При оценке на той же платформе, что и исходный AlphaCode, AlphaCode 2 демонстрирует значительные улучшения, решая почти вдвое больше проблем, и, по нашим оценкам, он работает лучше, чем 85% участников соревнований — по сравнению с почти 50% для AlphaCode. Когда программисты сотрудничают с AlphaCode 2, определяя определенные свойства для примеров кода, он работает еще лучше.

Мы рады, что программисты все чаще используют высокопроизводительные модели искусственного интеллекта в качестве инструментов для совместной работы, которые могут помочь им рассуждать о проблемах, предлагать проекты кода и помогать с реализацией — чтобы они могли быстрее выпускать приложения и разрабатывать более качественные сервисы.

Более подробную информацию смотрите в нашем техническом отчете AlphaCode 2 .

Более надежный, масштабируемый и эффективный

Мы обучили Gemini 1.0 в масштабе нашей оптимизированной для искусственного интеллекта инфраструктуры с использованием тензорных процессоров (TPU) v4 и v5e , разработанных Google . И мы разработали ее так, чтобы она стала нашей самой надежной и масштабируемой моделью для обучения и самой эффективной в обслуживании.

На TPU Gemini работает значительно быстрее, чем более ранние, меньшие по размеру и менее мощные модели. Эти специально разработанные ускорители искусственного интеллекта легли в основу продуктов Google на базе искусственного интеллекта, которые обслуживают миллиарды пользователей, таких как Поиск, YouTube, Gmail, Карты Google, Google Play и Android. Они также позволили компаниям по всему миру экономически эффективно обучать крупномасштабные модели ИИ.

Сегодня мы анонсируем самую мощную, эффективную и масштабируемую систему TPU на сегодняшний день — Cloud TPU v5p , предназначенную для обучения передовых моделей искусственного интеллекта. Этот TPU следующего поколения ускорит разработку Gemini и поможет разработчикам и корпоративным клиентам быстрее обучать крупномасштабные генеративные модели искусственного интеллекта, позволяя новым продуктам и возможностям быстрее доходить до клиентов.

Ряд суперкомпьютеров-ускорителей искусственного интеллекта Cloud TPU v5p в центре обработки данных Google.

В основе лежит ответственность и безопасность.

В Google мы стремимся продвигать смелый и ответственный искусственный интеллект во всем, что мы делаем. Опираясь на принципы искусственного интеллекта Google и надежную политику безопасности наших продуктов, мы добавляем новые средства защиты, учитывающие мультимодальные возможности Gemini. На каждом этапе разработки мы рассматриваем потенциальные риски, работаем над их тестированием и смягчением.

Gemini на сегодняшний день проводит наиболее полную оценку безопасности среди всех моделей искусственного интеллекта Google, в том числе на предмет предвзятости и токсичности. Мы провели новые исследования в таких областях потенциального риска, как киберпреступления, убеждение и автономия, а также применили лучшие в своем классе методы состязательного тестирования Google Research , чтобы помочь выявить критические проблемы безопасности до развертывания Gemini.

Чтобы выявить «слепые пятна» в нашем подходе к внутренней оценке, мы работаем с разнообразной группой внешних экспертов и партнеров, чтобы провести стресс-тестирование наших моделей по ряду проблем.

Чтобы диагностировать проблемы безопасности контента на этапах обучения Gemini и гарантировать, что его результаты соответствуют нашим политикам, мы используем такие тесты, как Real Toxicity Prompts — набор из 100 000 подсказок с различной степенью токсичности, взятых из Интернета, разработанный экспертами из Института Аллена. для ИИ. Более подробная информация об этой работе появится в ближайшее время.

Чтобы ограничить вред, мы создали специальные классификаторы безопасности для идентификации, маркировки и сортировки контента, например, связанного с насилием или негативными стереотипами. В сочетании с надежными фильтрами этот многоуровневый подход призван сделать Gemini более безопасным и инклюзивным для всех. Кроме того, мы продолжаем решать известные проблемы, связанные с моделями, такими как фактичность, обоснование, атрибуция и подтверждение.

Ответственность и безопасность всегда будут иметь центральное значение при разработке и внедрении наших моделей. Это долгосрочное обязательство, требующее совместной работы, поэтому мы сотрудничаем с отраслью и более широкой экосистемой в определении лучших практик и установлении контрольных показателей безопасности через такие организации, как MLCommons , Frontier Model Forum и его AI Safety Fund , а также нашу Secure AI Framework (SAIF) , которая была разработана, чтобы помочь снизить риски безопасности, характерные для систем искусственного интеллекта в государственном и частном секторах. Мы продолжим сотрудничать с исследователями, правительствами и группами гражданского общества по всему миру при разработке Gemini.

Делаем Gemini доступными для всего мира

Gemini 1.0 теперь распространяется на целый ряд продуктов и платформ:

Gemini Pro в продуктах Google

Мы делаем Gemini миллиардами людей с помощью продуктов Google.

Начиная с сегодняшнего дня, Бард будет использовать доработанную версию Gemini Pro для более сложных рассуждений, планирования, понимания и многого другого. Это самое большое обновление Bard с момента его запуска. Он будет доступен на английском языке в более чем 170 странах и территориях, и в ближайшем будущем мы планируем расширить его возможности и поддерживать новые языки и местоположения.

Мы также добавляем Gemini в Pixel . Pixel 8 Pro — первый смартфон, созданный для работы под управлением Gemini Nano, который поддерживает новые функции, такие как «Сведение итогов» в приложении «Запись» и «Умный ответ» в Gboard, начиная с WhatsApp, а в следующем году появятся новые приложения для обмена сообщениями.

В ближайшие месяцы Gemini будет доступен в других наших продуктах и сервисах, таких как Поиск, Реклама, Chrome и Duet AI.

Мы уже начинаем экспериментировать с Gemini в поиске, где он ускоряет процесс генерации поиска (SGE) для пользователей, сокращая на 40 % задержку на английском языке в США, а также улучшая качество.

Строим с Близнецами

Начиная с 13 декабря разработчики и корпоративные клиенты смогут получить доступ к Gemini Pro через Gemini API в Google AI Studio или Google Cloud Vertex AI .

Google AI Studio — это бесплатный веб-инструмент для разработчиков, позволяющий быстро создавать прототипы и запускать приложения с помощью ключа API. Когда пришло время создать полностью управляемую платформу искусственного интеллекта, Vertex AI позволяет настроить Gemini с полным контролем данных и воспользоваться преимуществами дополнительных функций Google Cloud для обеспечения корпоративной безопасности, конфиденциальности, управления данными и соответствия требованиям.

Разработчики Android также смогут использовать Gemini Nano, нашу самую эффективную модель для выполнения задач на устройстве, через AICore, новую системную возможность, доступную в Android 14, начиная с устройств Pixel 8 Pro. Подпишитесь на раннюю предварительную версию AICore .

Gemini Ultra скоро появится

Для Gemini Ultra в настоящее время мы завершаем обширные проверки доверия и безопасности, в том числе объединяем доверенные внешние стороны, а также дорабатываем модель с помощью точной настройки и обучения с подкреплением на основе отзывов людей (RLHF), прежде чем сделать ее широко доступной.

В рамках этого процесса мы сделаем Gemini Ultra доступным для избранных клиентов, разработчиков, партнеров и экспертов по безопасности и ответственности для раннего экспериментирования и получения отзывов, прежде чем представить его разработчикам и корпоративным клиентам в начале следующего года.

В начале следующего года мы также запустим Bard Advanced — новую передовую технологию искусственного интеллекта, которая предоставит вам доступ к нашим лучшим моделям и возможностям, начиная с Gemini Ultra.

Эра Близнецов: будущее инноваций

Это важная веха в развитии искусственного интеллекта и начало новой эры для нас в Google, поскольку мы продолжаем быстро внедрять инновации и ответственно расширять возможности наших моделей.

На данный момент мы добились большого прогресса в Gemini и прилагаем все усилия для дальнейшего расширения его возможностей для будущих версий, включая улучшения в планировании и памяти, а также увеличение контекстного окна для обработки еще большего количества информации для предоставления более качественных ответов.

Мы воодушевлены удивительными возможностями мира, наполненного ответственным искусственным интеллектом, — будущего инноваций, которое повысит креативность, расширит знания, продвинет науку и изменит образ жизни и работы миллиардов людей по всему миру.

Источник: blog.google

Представляем Gemini: нашу крупнейшую и самую мощную модель искусственного интеллекта

Комментарии: