От слов к миру: пространственный интеллект - следующий рубеж ИИ

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2025-11-11 17:39

ИИ теория

В 1950 году, когда вычисления были не более чем автоматизированной арифметикой и простой логикой, Алан Тьюринг задал вопрос, который до сих пор звучит так: могут ли машины думать? Потребовалось замечательное воображение, чтобы увидеть то, что он увидел: что интеллект когда-нибудь может быть построен, а не рожден. Это понимание позже запустило неустанный научный квест под названием Искусственный интеллект (ИИ). Двадцать пять лет в моей собственной карьере в области ИИ, я все еще вдохновляюсь видением Тьюринга. Но насколько мы близки? Ответ не прост.

Сегодня ведущие технологии ИИ, такие как большие языковые модели (LLM), начали трансформировать то, как мы получаем доступ и работаем с абстрактными знаниями. Тем не менее, они остаются словесниками во тьме; красноречивыми, но неопытными, знающими, но необоснованными. Пространственный интеллект изменит то, как мы создаем и взаимодействуем с реальным и виртуальным мирами — революционным повествованием, творчеством, робототехникой, научными открытиями и за их пределами. Это следующий рубеж ИИ.

Погоня за визуальным и пространственным интеллектом была Полярной звездой, направляющей меня с тех пор, как я вышел на поле. Вот почему я потратил годы на создание ImageNet, первого крупномасштабного набора данных визуального обучения и бенчмаркинга и одного из трех ключевых элементов, позволяющих рождение современного ИИ, наряду с алгоритмами нейронной сети и современными вычислениями, такими как графические процессоры (GPU). Вот почему моя академическая лаборатория в Стэнфорде провела последнее десятилетие, сочетая компьютерное зрение с роботизированным обучением. И именно поэтому мои соучредители Джастин Джонсон, Кристоф Ласснер, Бен Милденхолл и я создали World Labs более года назад: впервые реализовать эту возможность в полном объеме.

В этом эссе я объясню, что такое пространственный интеллект, почему он имеет значение и как мы строим мировые модели, которые разблокируют его — с воздействием, которое изменит творческий потенциал, воплощенный интеллект и человеческий прогресс.

Пространственный интеллект: строительные леса человеческого познания

ИИ никогда не был более захватывающим. Генеративные модели ИИ, такие как LLM, перешли от исследовательских лабораторий к повседневной жизни, став инструментами творчества, производительности и общения для миллиардов людей. Они продемонстрировали возможности, которые когда-то считались невозможными, создавая связный текст, горы кода, фотореалистичные изображения и даже короткие видеоклипы с легкостью. Вопрос уже не в том, изменит ли ИИ мир. По любому разумному определению, это уже есть.

Тем не менее, многое все еще находится за пределами нашей досягаемости. Видение автономных роботов остается интригующим, но спекулятивным, далеким от атрибутов повседневной жизни, которые футурологи давно обещали. Мечта о массовом ускорении исследований в таких областях, как курирование болезней, открытие новых материалов и физика элементарных частиц, остается в значительной степени нереализованной. И обещание ИИ, который действительно понимает и расширяет возможности людей-творцов — независимо от того, запутывают ли студенты, изучающие концепции в молекулярной химии, архитекторы, визуализирующие пространства, кинематографисты, строящие миры, или кто-либо, ищущий полностью захватывающий виртуальный опыт, остается вне досягаемости.

Чтобы узнать, почему эти возможности остаются неуловимыми, нам нужно изучить, как развивался пространственный интеллект и как он формирует наше понимание мира.

Видение долгое время было краеугольным камнем человеческого интеллекта, но его сила возникла из чего-то еще более фундаментального. Задолго до того, как животные смогли гнездиться, заботиться о своих детенышах, общаться с языком или строить цивилизации, простой акт восприятия тихо вызвал эволюционное путешествие к интеллекту.

Эта, казалось бы, изолированная способность почерпывать информацию из внешнего мира, будь то проблеск света или чувство текстуры, создала мост между восприятием и выживанием, который только становился все сильнее и более сложным по мере того, как поколения уходили. Слой за слоем нейронов вырос из этого моста, образуя нервные системы, которые интерпретируют мир и координируют взаимодействия между организмом и его окружением. Таким образом, многие ученые предположили, что восприятие и действие стали основной петлей, движущей эволюцией интеллекта, и основой, на которой природа создала наш вид — окончательным воплощением восприятия, обучения, мышления и выполнения.

Пространственный интеллект играет фундаментальную роль в определении того, как мы взаимодействуем с физическим миром. Каждый день мы полагаемся на него для самых обычных действий: парковать автомобиль, представляя себе сужающийся промежуток между бампером и бордюром, ловя набор ключей, разбрасываемых по комнате, перемещаясь по переполненному тротуару без столкновения, или сонно наливая кофе в кружку, не глядя. В более экстремальных обстоятельствах пожарные перемещаются по разрушающимся зданиям через движущийся дым, делая суждения о стабильности и выживании, общаясь через жесты, язык тела и общий профессиональный инстинкт, для которого нет лингвистической замены. И дети проводят все свои довербальные месяцы или годы, изучая мир через игривые взаимодействия со своей средой. Все это происходит интуитивно, автоматически — машинам с беглостью еще предстоит достичь.

Пространственный интеллект также является основой нашего воображения и творчества. Рассказчики создают уникальные богатые миры в своем сознании и используют многие формы визуальных средств массовой информации, чтобы донести их до других, от древней наскальной живописи до современного кино и захватывающих видеоигр. Будь то дети, строящие песчаные замки на пляже или играющие в Minecraft на компьютере, пространственно заземленное воображение формирует основу для интерактивного опыта в реальном или виртуальном мире. И во многих отраслевых приложениях моделирование объектов, сцен и динамических интерактивных сред приводит к бесчисленному количеству критически важных случаев использования бизнеса от промышленного дизайна до цифровых двойников и роботизированного обучения.

История полна определяющих цивилизацию моментов, когда пространственный интеллект играл центральную роль. В Древней Греции эратовы превратили тени в геометрию — измерение 7-градусного угла в Александрии в тот момент, когда солнце не отбрасывало тень в Сиене — для расчета окружности Земли. «Вращающаяся Дженни» Харгрива произвела революцию в текстильном производстве благодаря пространственному пониманию: расположение нескольких шпинделей бок о бок в одном кадре позволило одному рабочему вращать несколько нитей одновременно, увеличивая производительность в восемь раз. Уотсон и Крик обнаружили структуру ДНК, физически создавая трехмерные молекулярные модели, манипулируя металлическими пластинами и проволокой, пока пространственное расположение пар оснований не вступит в силу. В каждом случае пространственный интеллект двигал цивилизацию вперед, когда ученым и изобретателям приходилось манипулировать объектами, визуализировать структуры и рассуждать о физических пространствах - ни один из которых не может быть захвачен только в тексте.

Пространственный интеллект - это строительные леса, на которых строится наше познание. Это происходит, когда мы пассивно наблюдаем или активно стремимся к творчеству. Это движет нашими рассуждениями и планированием, даже по самым абстрактным темам. И это важно для того, как мы взаимодействуем — устно или физически, с нашими сверстниками или с самой окружающей средой. Хотя большинство из нас не раскрывают новые истины на уровне Эратосфена в большинстве дней, мы обычно думаем одинаково — осознавая сложный мир, воспринимая его через наши чувства, а затем используя интуитивное понимание того, как он работает в физических, пространственных терминах.

К сожалению, сегодняшний ИИ пока не думает так.

За последние несколько лет действительно был достигнут огромный прогресс. Мультимодальные LLM (MLLM), обученные с объемными мультимедийными данными в дополнение к текстовым данным, внедрили некоторые основы пространственного осознания, и сегодняшний ИИ может анализировать картинки, отвечать на вопросы о них и генерировать гиперреалистичные изображения и короткие видео. И благодаря прорывам в датчиках и тактильных ощущениях наши самые продвинутые роботы могут начать манипулировать объектами и инструментами в условиях сильно ограниченности.

Тем не менее, откровенная истина заключается в том, что пространственные возможности ИИ остаются далекими от человеческого уровня. И границы быстро раскрываются. Современные модели MLLM редко работают лучше, чем на частоте расстояния, ориентации и размера, или «умственно» вращающихся объектов, регенерируя их с новых углов. Они не могут перемещаться по лабиринтам, распознавать ярлыки или предсказывать базовую физику. Видеоролики, созданные ИИ — зарождающиеся и да, очень крутые — часто теряют согласованность через несколько секунд.

В то время как современный ИИ может преуспеть в чтении, письме, исследованиях и распознавании паттернов в данных, эти же модели имеют фундаментальные ограничения при представлении или взаимодействии с физическим миром. Наш взгляд на мир целостный — не только то, на что мы смотрим, но и на то, как все связано пространственно, что это значит и почему это важно. Понимание этого через воображение, рассуждения, созида и взаимодействие, а не только описания, — это сила пространственного интеллекта. Без него ИИ отключается от физической реальности, которую он стремится понять. Он не может эффективно управлять нашими автомобилями, направлять роботов в наших домах и больницах, обеспечивать совершенно новые способы захватывающего и интерактивного опыта для обучения и отдыха или ускорять открытия в области материаловедения и медицины.

Философ Витгенштейн однажды написал, что «пределы моего языка означают пределы моего мира». Я не философ. Но я знаю, по крайней мере, для ИИ, есть больше, чем просто слова. Пространственный интеллект представляет собой границу за пределами языка — способность, которая связывает воображение, восприятие и действие и открывает возможности для машин, чтобы по-настоящему улучшить человеческую жизнь, от здравоохранения до творчества, от научных открытий до повседневной помощи.

Следующее десятилетие ИИ: создание действительно пространственно интеллектуальных машин

Итак, как мы создаем пространственно-интеллектуальный ИИ? Каков путь к моделям, способным рассуждать с видением Эратосфена, проектировать с точностью промышленного дизайнера, создавать с воображения рассказчика и взаимодействовать с окружающей средой с беглостью первого респондента?

Построение пространственно интеллектуального ИИ требует чего-то еще более амбициозного, чем LLM: мировые модели, новый тип генеративных моделей, чьи возможности понимания, рассуждения, генерации и взаимодействия с семантически, физически, геометрически и динамически сложными мирами - виртуальными или реальными - находятся далеко за пределами досягаемости современных LLM. Область зарождается, с современными методами, начиная от абстрактных моделей рассуждения и заканчивая системами генерации видео. World Labs была основана в начале 2024 года на основе этой убежденности: что фундаментальные подходы все еще устанавливаются, что делает это определяющим вызовом следующего десятилетия.

В этой новой области наиболее важным является установление принципов, которыми руководствуется развитие. Для пространственного интеллекта я определяю мировые модели с помощью трех основных возможностей:

1. 1. Генеративно: Мировые модели могут генерировать миры с перцептивной, геометрической и физической консистенцией.

Мировые модели, которые открывают пространственное понимание и рассуждения, также должны генерировать свои собственные моделируемые миры. Они должны быть способны порождать бесконечно разнообразные и разнообразные смоделированные миры, которые следуют семантическим или перцептивным инструкциям, оставаясь при этом геометрически, физически и динамически последовательными, независимо от того, представляют ли они реальные или виртуальные пространства. Научное сообщество активно изучает, должны ли эти миры быть представлены неявно или явно с точки зрения врожденных геометрических структур. Кроме того, в дополнение к мощным скрытым представлениям, я считаю, что результаты универсальной мировой модели должны также позволить генерировать явное, наблюдаемое состояние миров для многих различных случаев использования. В частности, его понимание настоящего должно быть связно привязано к его прошлому; к предыдущим состояниям мира, которые привели к нынешнему.

2. 2. Мультимодальные: Мировые модели являются мультимодальными по дизайну

Так же, как это делают животные и люди, мировая модель должна быть в состоянии обрабатывать входные данные, известные как «подсказки» в области генеративного ИИ, в широком диапазоне форм. Учитывая частичную информацию — будь то изображения, видео, карты глубин, текстовые инструкции, жесты или действия — мировые модели должны предсказывать или генерировать мировые государства как можно полнее. Это требует обработки визуальных входов с точностью реального зрения при интерпретации семантических инструкций с равной легкостью. Это позволяет как агентам, так и людям общаться с моделью о мире с помощью различных входных данных и получать различные результаты взамен.

3. 3. Интерактивный: Мировые модели могут выводить следующие состояния на основе входных действий

Наконец, если действия и/или цели являются частью подсказки для мировой модели, ее результаты должны включать следующее состояние мира, представленное либо неявно, либо явно. Когда дается только действие с или без целевого состояния в качестве входного, мировая модель должна производить выход, соответствующий предыдущему состоянию мира, состоянию цели, если таковое имеется, и его семантическим значениям, физическим законам и динамичным поведению. По мере того, как пространственно интеллектуальные мировые модели становятся более мощными и прочными в своих рассуждениях и генерационных возможностях, вполне возможно, что в случае данной цели сами мировые модели смогут предсказать не только следующее состояние мира, но и следующие действия, основанные на новом состоянии.

Масштабы этой проблемы превосходят все, с чем ИИ сталкивался раньше.

В то время как язык является чисто генеративным явлением человеческого познания, миры играют по гораздо более сложным правилам. Здесь, на Земле, например, гравитация управляет движением, атомные структуры определяют, как свет производит цвета и яркость, и бесчисленные физические законы ограничивают каждое взаимодействие. Даже самые причудливые, творческие миры состоят из пространственных объектов и агентов, которые подчиняются физическим законам и динамическим поведению, которые их определяют. Согласование всего этого последовательно — семантического, геометрического, динамического и физического — требует совершенно новых подходов. Размерность представления мира значительно сложнее, чем одномерный, последовательный сигнал, подобный языку. Достижение мировых моделей, которые обеспечивают универсальные возможности, которыми мы пользуемся как люди, потребует преодоления нескольких грозных технических барьеров. В World Labs наши исследовательские группы посвящены достижению фундаментального прогресса в достижении этой цели.

Вот некоторые примеры наших текущих тем исследований:

  • Новая, универсальная функция задач для обучения: определение универсальной функции задачи, столь же простой и элегантной, как предсказание следующего токена в LLM, уже давно является центральной целью исследования мировых моделей. Сложности как их входных, так и выходных пространств делают такую функцию по своей сути более трудной для формулирования. Но пока многое еще предстоит изучить, эта целенаправленная функция и соответствующие представления должны отражать законы геометрии и физики, почитая фундаментальную природу мировых моделей как обоснованных представлений как воображения, так и реальности.

  • Крупномасштабные учебные данные: :Мировые модели обучения требуют гораздо более сложных данных, чем текстопроцессорное курирование. Перспективная новость: огромные источники данных уже существуют. Интернет-коллекции изображений и видеороликов представляют собой обильный, доступный учебный материал — проблема заключается в разработке алгоритмов, которые могут извлекать более глубокую пространственную информацию из этих двумерных изображений или сигналов на основе видеокадров (т.е. RGB). Исследования, проведенные за последнее десятилетие, показали силу законов масштабирования, связывающих объем данных и размер модели в языковых моделях; ключом к разблокировке мировых моделей является создание архитектур, которые могут использовать существующие визуальные данные в сопоставимом масштабе. Кроме того, я бы не стал недооценивать силу высококачественных синтетических данных и дополнительных методов, таких как глубина и тактильная информация. Они дополняют данные интернет-масштаба в критические этапы процесса обучения. Но путь вперед зависит от лучших сенсорных систем, более надежных алгоритмов извлечения сигналов и гораздо более мощных методов нейронного моделирования.

  • Новая модельная архитектура и репрезентативное обучение: исследование мировой модели неизбежно будет способствовать прогрессу в области архитектуры моделей и алгоритмов обучения, особенно за пределами нынешних парадигм MLLM и диффузии видео. Оба эти типичного токенализируют данные в 1D или 2D-последовательности, что делает простые пространственные задачи излишне сложными - например, подсчет уникальных стульев в коротком видео или запоминание того, как выглядела комната час назад. Могут помочь альтернативные архитектуры, такие как 3D или 4D-осознанные методы для токенизации, контекста и памяти. Например, в World Labs наша недавняя работа над генеративной моделью на основе кадров в реальном времени под названием RTFM продемонстрировала этот сдвиг, который использует пространственно обоснованные кадры в качестве формы пространственной памяти для достижения эффективного генерирования в реальном времени при сохранении стойкости в генерируемом мире.

Очевидно, что мы все еще сталкиваемся с огромными проблемами, прежде чем мы сможем полностью разблокировать пространственный интеллект с помощью мирового моделирования. Это исследование – не просто теоретическое упражнение. Это основной двигатель для нового класса творческих и производительных инструментов. И прогресс в World Labs был обнадеживающим. Недавно мы поделились с ограниченным числом пользователей мельницей, первой в истории мировой моделью, которая может быть вызвана мультимодальными входами для создания и поддержания согласованной 3D-среды для пользователей и рассказчиков, чтобы исследовать, взаимодействовать и строить дальше в своем творческом рабочем процессе. И мы прилагаем все усилия, чтобы сделать его доступным для общественности в ближайшее время!

Мрамор - это только наш первый шаг в создании действительно пространственно разумной мировой модели. По мере ускорения прогресса исследователи, инженеры, пользователи и бизнес-лидеры начинают признавать его исключительный потенциал. Следующее поколение мировых моделей позволит машинам достичь пространственного интеллекта на совершенно новом уровне — достижение, которое откроет основные возможности, которые все еще в значительной степени отсутствуют в современных системах ИИ.

Использование мировых моделей для построения лучшего мира для людей

Важно, что мотивирует развитие ИИ. Как один из ученых, который помог вступить в эпоху современного ИИ, моя мотивация всегда была ясна: ИИ должен увеличивать человеческие возможности, а не заменять его. В течение многих лет я работал над тем, чтобы привести разработку, развертывание и управление ИИ в соответствие с человеческими потребностями. Экстремальные повествования о техно-утопии и апокалипсисе в наши дни изобилуют, но я продолжаю придерживаться более прагматичного взгляда: ИИ разрабатывается людьми, используется людьми и управляется людьми. Он всегда должен уважать авторитет и достоинство людей. Его магия заключается в расширении наших возможностей; в том, чтобы сделать нас более творческими, связанными, продуктивными и реализованными. Пространственный интеллект представляет это видение — ИИ, который дает возможность человеческим создателям, опекунам, ученым и мечтателям достичь того, что когда-то было невозможно. Это убеждение является тем, что движет моей приверженность пространственным интеллектом как к следующему великому рубежу ИИ.

Применения пространственного интеллекта охватывают различные временные линии. Сейчас появляются креативные инструменты — World Labs’ Marble уже передает эти возможности в руки создателей и рассказчиков. Робототехника представляет собой амбициозный среднесрочный горизонт, поскольку мы совершенствуем петлю между восприятием и действием. Наиболее преобразующие научные применения займут больше времени, но обещают глубокое влияние на процветание человека.

На всех этих временных линиях несколько областей выделяются своим потенциалом для изменения человеческих возможностей. Потребуются значительные коллективные усилия, более чем может достичь одна команда или компания. Это потребует участия во всей экосистеме ИИ — исследователи, новаторы, предприниматели, компании и даже политики — работая над общим видением. Но это видение стоит того, чтобы его реализовать. Вот что ждет это будущее:

Творчество: Сверхмощное повествование и захватывающий опыт

«Творчество — это развлечение интеллекта». Это одна из моих любимых цитат моего личного героя Альберта Эйнштейна. Задолго до письменного языка люди рассказывали истории — рисовали их на стенах пещер, передавали их из поколения в поколение, строили целые культуры на общих повествованиях. Истории - это то, как мы понимаем мир, соединяемся на расстоянии и времени, исследуем, что значит быть человеком, и, самое главное, находим смысл в жизни и любви внутри себя. Сегодня пространственный интеллект может трансформировать то, как мы создаем и используем повествования, таким образом, чтобы уважать их фундаментальное значение, и расширить их влияние от развлечений до образования, от дизайна до строительства.

Мраморная платформа World Labs будет передавать беспрецедентные пространственные возможности и редакционную управляемость в руки кинематографистов, гейм-дизайнеров, архитекторов и рассказчиков всех видов, что позволит им быстро создавать и итерировать в полностью исследуемых 3D-мирах без накладных расходов на традиционное программное обеспечение для 3D-дизайна. Творческий акт остается таким же жизненно важным и человеческим, как и всегда; инструменты ИИ просто усиливают и ускоряют то, чего могут достичь создатели. Это включает в себя:

  • Повествовательный опыт в новых измерениях: кинематографисты и гейм-дизайнеры используют Мрамор, чтобы вызвать в воображении целые миры без ограничений бюджета или географии, исследуя различные сцены и перспективы, которые было бы трудно исследовать в рамках традиционного производственного конвейера. По мере того, как границы между различными формами медиа и развлечений размываются, мы приближаемся к принципиально новым видам интерактивного опыта, которые сочетают в себе искусство, симуляцию и игру — персонализированные миры, где любой, а не только студии, может создавать и населять свои собственные истории. С появлением новых, более быстрых способов поднять концепции и раскадровки в полный опыт, повествования больше не будут связаны с одной средой, а создатели могут свободно строить миры с общими линиями на бесчисленных поверхностях и платформах.

  • Пространственные повествования через дизайн: по сути, каждый искусственный объект или построенное пространство должны быть спроектированы в виртуальном 3D до его физического создания. Этот процесс является очень итеративным и дорогостоящим с точки зрения времени и денег. Имея в своем распоряжении пространственно интеллектуальные модели, архитекторы могут быстро визуализировать структуры, прежде чем вкладывать месяцы в проекты, проходя через пространства, которые еще не существуют — по сути, рассказывая истории о том, как мы можем жить, работать и собираться. Промышленные и модельеры могут мгновенно воплотить воображение в форму, исследуя, как объекты взаимодействуют с человеческими телами и пространствами.

  • Новый иммерсивный и интерактивный опыт: сам опыт является одним из самых глубоких способов, которыми мы, как вид, создаем смысл. На протяжении всей истории человечества существовал один уникальный трехмерный мир: физический, который мы все разделяем. Только в последние десятилетия, благодаря играм и ранней виртуальной реальности (ВР), мы начали мельком видеть, что значит делиться альтернативными мирами нашего собственного создания. Теперь пространственный интеллект в сочетании с новыми форм-факторами, такими как VR и гарнитуры расширенной реальности (XR) и иммерсивными дисплеями, возвышает эти переживания беспрецедентными способами. Мы приближаемся к будущему, где шаг в полностью реализованные многомерные миры становится таким же естественным, как открытие книги. Пространственный интеллект делает мироустройство доступным не только для студий с профессиональными производственными командами, но и для отдельных создателей, преподавателей и всех, у кого есть видение, чтобы поделиться.

Робототехника: Воплощенный интеллект в действии

Животные от насекомых до человека зависят от пространственного интеллекта, чтобы понимать, перемещаться и взаимодействовать со своими мирами. Роботы ничем не отличаются. Пространственно осознаемые машины были мечтой этой области с момента ее создания, включая мою собственную работу с моими студентами и сотрудниками в моей исследовательской лаборатории в Стэнфорде. Вот почему я так взволнован возможностью использовать их с помощью моделей, которые строит World Labs.

  • Масштабирование роботизированного обучения с помощью мировых моделей: прогресс роботизированного обучения зависит от масштабируемого решения жизнеспособных обучающих данных. Учитывая огромные пространства состояния возможностей, которые роботы должны научиться понимать, рассуждать, планировать и взаимодействовать, многие предположили, что для создания обобщаемых роботов требуется комбинация интернет-данных, синтетического моделирования и реального захвата человеческой демонстрации. Но в отличие от языковых моделей, обучающих данных мало для современных роботизированных исследований. Мировые модели будут играть в этом решающую роль. По мере того, как они увеличивают свою точность восприятия и вычислительную эффективность, результаты мировых моделей могут быстро сократить разрыв между симуляцией и реальностью. Это, в свою очередь, поможет обучать роботов симуляциям бесчисленных состояний, взаимодействий и сред.

  • Companions and collaborators: Роботы как человеческие коллаборационисты, будь то помощь ученым на лабораторной скамье или помощь пожилым людям, живущим в одиночестве, могут расширить часть рабочей силы, остро нуждающейся в большем количестве труда и производительности. Но это требует пространственного интеллекта, который воспринимает, рассуждает, планирует и действует, в то время как — и это самое главное — оставаясь в сочувствии в соответствии с человеческими целями и поведением. Например, лабораторный робот может обращаться с инструментами, чтобы ученый мог сосредоточиться на задачах, требующих ловкости или рассуждений, в то время как домашний помощник может помочь пожилому человеку готовить, не уменьшая его радости или автономии. По-настоящему пространственно разумные мировые модели, которые могут предсказать следующее состояние или, возможно, даже действия, соответствующие этому ожиданию, имеют решающее значение для достижения этой цели.

  • Расширяющиеся формы воплощения: человекоподобные роботы играют роль в мире, который мы создали для себя. Но полная польза от инноваций будет исходить от гораздо более разнообразных проектов: наноботов, которые доставляют лекарство, мягких роботов, которые перемещаются по узким пространствам, и машин, построенных для глубокого моря или космического пространства. Независимо от их формы, будущие модели пространственного интеллекта должны интегрировать как среду, в которой обитают эти роботы, так и их собственное воплощенное восприятие и движение. Но ключевой проблемой в разработке этих роботов является отсутствие обучающих данных в этих широких разновидностях воплощенных форм-факторов. Мировые модели будут играть решающую роль в имитационных данных, учебных средах и задачах сравнения для этих усилий.

Более длинный горизонт: Наука, здравоохранение и образование

В дополнение к творческим и роботокоммуникационным приложениям, глубокое влияние пространственного интеллекта также будет распространяться на области, где ИИ может повысить человеческий потенциал таким образом, чтобы спасти жизни и ускорить открытие. Я выделяю ниже три области приложений, которые могут быть глубоко преобразующими, хотя само собой разумеется, что случаи использования пространственного интеллекта действительно расширяются во многих других отраслях.

В научных исследованиях пространственно интеллектуальные системы могут моделировать эксперименты, параллельно проверять гипотезы и исследовать среды, недоступные для людей — от глубоких океанов до далеких планет. Эта технология может трансформировать вычислительное моделирование в таких областях, как наука о климате и исследования материалов. Интегрируя многомерное моделирование с реальным сбором данных, эти инструменты могут снизить вычисление барьеров и расширить то, что каждая лаборатория может наблюдать и понимать.

В здравоохранении пространственный интеллект изменит все, от лаборатории до постели. В Стэнфорде мои студенты и сотрудники провели много лет, работая с больницами, учреждениями по уходу за престарелыми и пациентами на дому. Этот опыт убедил меня в преобразующем потенциале пространственного интеллекта здесь. ИИ может ускорить открытие лекарств, моделируя молекулярные взаимодействия в многомерных измерениях, улучшая диагностику, помогая рентгенологам выявлять закономерности в медицинской визуализации, и позволяя системы мониторинга окружающей среды, которые поддерживают пациентов и лиц, осуществляющих уход, без замены человеческой связи, которая требует заживление, не говоря уже о потенциале роботов в оказании помощи нашим медицинским работникам и пациентам во многих различных условиях.

В образовании пространственный интеллект может обеспечить иммерсивное обучение, которое делает абстрактные или сложные концепции осязаемыми, и создавать итеративный опыт, столь необходимый для того, как наш мозг и тела устроены в обучении. В эпоху ИИ потребность в более быстром и эффективном обучении и переквалификации особенно важна как для детей школьного возраста, так и для взрослых. Студенты могут исследовать клеточную технику или пройтись по историческим событиям в многомерности. Учителя получают инструменты для персонализации обучения через интерактивную среду. Профессионалы — от хирургов до инженеров — могут безопасно практиковать сложные навыки в реалистичных симуляциях.

Во всех этих областях возможности безграничны, но цель остается неизменной: ИИ, который увеличивает человеческий опыт, ускоряет человеческие открытия и усиливает заботу о человеке, а не заменяет суждение, творчество и эмпатию, которые являются центральными для людей.

Заключение

В последнее десятилетие ИИ стал глобальным явлением и переломным моментом в технологиях, экономике и даже геополитике. Но как исследователь, педагог, а теперь и предприниматель, это все еще дух, стоящий за 75-летним вопросом Тьюринга, который вдохновляет меня больше всего. Я до сих пор разделяю его чувство удивления. Это то, что каждый день воодушевляет меня проблемой пространственного интеллекта.

Впервые в истории мы готовы создавать машины, чтобы соответствовать физическому миру, чтобы мы могли полагаться на них как на настоящих партнеров в самых больших проблемах, с которыми мы сталкиваемся. Независимо от того, ускоряете ли мы, как мы понимаем болезни в лаборатории, революционизируя то, как мы рассказываем истории, или поддерживаем нас в наши самые уязвимые моменты из-за болезни, травмы или возраста, мы находимся на пороге технологий, которые поднимают аспекты жизни, о которых мы заботимся больше всего. Это видение более глубокой, богатой, более благоприятной жизни.

Спустя почти полмиллиарда лет после того, как природа выпустила первые проблески пространственного интеллекта у предков животных, нам посчастливилось оказаться среди поколения технологов, которые вскоре могут наделить машины такими же способностями и достаточно привилегированными, чтобы использовать эти возможности для благ людей во всем мире. Наши мечты о действительно разумных машинах не будут полными без пространственного интеллекта.


Источник: drfeifei.substack.com

Комментарии: