В начале 1960-х годов математики Андрей Колмогоров и Владимир Арнольд решили проблему, которую в 1900 году поставил Давид Гильберт. Еще через 60 лет идеи Колмогорова и Арнольда нашли применения в новой архитектуре нейросетей. В математике все происходит не слишком быстро, зато основательно.
Искусственные нейронные сети — алгоритмы, вдохновленные биологическим мозгом — находятся в центре современного искусственного интеллекта, и чат-ботов, и генераторов изображений. Но они с их невероятным количеством нейронов оказываются своего черными ящиками. Их внутренняя работа недоступна пользователям. Нельзя ли поискать что-то подобное, но более понятное и менее энергоемкое? Оказывается, можно.
Исследователи создали принципиально новую архитектуру нейронных сетей, которая в некотором смысле превосходит традиционные системы. Ее сторонники говорят, что эти новые сети лучше интерпретируемы и более точны, даже когда число параметров у них гораздо меньше. Разработчики надеются, что способ, которым новые нейросети учатся представлять физические данные поможет ученым открыть новые законы природы.
В течение последнего десятилетия инженеры в основном совершенствовали проекты нейронных сетей методом проб и ошибок, говорит Брис Менар, физик из Университета Джонса Хопкинса, который изучает, как работают нейронные сети, но не участвовал в новой работе, опубликованной на сервере препринтов arXiv. «Здорово видеть, что на столе есть новая архитектура», — говорит он, особенно та, которая разработана с чистого листа.
Один из способов думать о нейронных сетях — это аналогия с нейронами (или узлами), и синапсами (или связями между этими узлами). В традиционных нейронных сетях, так называемых многослойных персептронах (MLP), у каждого синапса, есть вес — число, которое определяет, насколько сильна связь между этими двумя нейронами. Нейроны расположены слоями, так что нейрон из одного слоя принимает входные сигналы от нейронов предыдущего слоя, взвешенные по силе их синаптической связи. Затем каждый нейрон применяет простую функцию к сумме своих входов, так называемую функцию активации и передает сигнал в следующий слой. И там процесс повторяется.
В традиционных нейронных сетях, иногда называемых многослойными персептронами [слева], каждый синапс связан с числом или весом, и каждый нейрон применяет простую функцию активации к сумме своих входов. В новой архитектуре Колмогорова-Арнольда [справа] каждый синапс, связывается со своей функцией, а нейроны суммируют выходные данные этих функций.
В новой архитектуре синапсы играют более сложную роль. Вместо того чтобы просто обозначить, насколько сильна связь между двумя нейронами, синапсы узнают полную природу этой связи — функцию, которая отображает вход в выход. В отличие от функции активации, используемой нейронами в традиционной архитектуре, эта функция может быть более сложной — фактически это «сплайн» или комбинация нескольких функций — и эта функция может разной у разных синапсов. Нейроны, с другой стороны, становятся проще — они просто суммируют выходы всех своих предыдущих синапсов.
Новые сети называются сетями Колмогорова-Арнольда (KAN), в честь двух великих русских математиков, которые показали, как можно с помощью комбинации простых функций, получить функцию любой сложности. Идея заключается в том, что KAN будут обеспечивать большую гибкость при обучении представлению данных, используя при этом меньше изученных параметров.
Как работает KAN-архитектура
Исследователи протестировали свои KAN-сети на относительно простых научных задачах. В некоторых экспериментах они брали простые физические законы, такие как скорость, с которой два релятивистских объекта проходят рядом друг с другом. Ученые использовали эти уравнения для генерации данных ввода-вывода, затем для каждой физической функции обучали сеть и тестировали. Ученые обнаружили, что увеличение размера KAN улучшает ее производительность более быстрыми темпами, чем увеличение размера MLP. При решении частных дифференциальных уравнений KAN был в 100 раз точнее MLP, у которого было в 100 раз больше параметров. Это серьезное преимущество.
Cети Колмогорова-Арнольда созданы в честь двух великих математиков, Андрея Колмогорова и Владимира Арнольда. KAN математически обоснованы, точны и интерпретируемы.
В другом эксперименте ученые обучили сети предсказывать один атрибут топологических узлов, называемый их сигнатурой, на основе других атрибутов узлов. MLP достигал 78% точности теста, используя около 300 000 параметров, в то время как KAN достигал 81,6% точности теста, используя около 200 параметров.
Более того, исследователи могли визуально отображать структуру KAN и смотреть на формы функций и структуру каждой связи. Вручную или автоматически они могли обрезать слабые связи и заменять некоторые функции активации более простыми, например синусоидой или экспонентой. Они могли свести всю сеть в интуитивно понятную формулу (включая все функции активации компонентов). В некоторых случаях эта формула идеально реконструировать физическую функцию, которая и создала набор данных.
«В будущем мы надеемся, что это может стать полезным инструментом для повседневных научных исследований», — говорит Цзымин Лю, соавтор работы из Массачусетского технологического института. — «Если у нас есть набор данных, который мы не знаем, как интерпретировать, мы просто передаем его в KAN, и он может генерировать некоторые гипотезы. Мы просто смотрим на этот "мозг" (то есть схему KAN), и даже можете провести операцию на нем, если захотим».
Цзымин Лю говорит: «Это как инопланетная жизнь, которая смотрит на вещи с другой точки зрения, но является в некотором роде понятной для людей».
Десятки статей уже ссылались на препринт KAN. «Архитектура показалась мне захватывающей в тот же момент, когда я ее увидел», — говорит Александр Боднер, из Университета Сан-Андрес в Аргентине. В течение недели он и его соавторы объединили KAN со сверточными нейронными сетями (CNN), — популярной архитектурой для обработки изображений. Ученые проверили свои сверточные KAN-сети на их способность категоризировать рукописные цифры или предметы одежды.
Лучшая KAN-сеть приблизительно соответствовала производительности традиционной CNN (99% точности для обеих сетей на цифрах, 90% для обеих сетей на одежде), но использовала примерно на 60% меньше параметров. Наборы данных были простыми, но Боднер говорит, что и другие команды с большей вычислительной мощностью начали масштабировать сети. Другие ученые начали объединять KAN с трансформерами, — архитектурой, популярной в больших языковых моделях.
Одним из недостатков KAN-сетей является то, что им требуется больше времени для обучения на параметр — отчасти потому, что они не могут использовать преимущества графических процессоров. Но им нужно меньше параметров. Лю отмечает, что даже если KAN не заменят гигантские CNN и трансформеры для обработки изображений и языка, время обучения не будет проблемой для многих физических задач.
Архитектуры нейросетей
Сможет ли ИИ написать «Войну и мир-2». Архитектура SSM и линейный трансформер
Разработан ИИ, построенный на модели нейрона Ходжкина-Хаксли
Архитектура битовых нейросетей
Ученый ищет способы, которыми эксперты могут вставлять свои предыдущие знания в KAN — скажем, вручную выбирая функции активации — и легко извлекать из них знания с помощью простого интерфейса. Когда-нибудь, говорит он, KAN-сети помогут физикам открыть высокотемпературные сверхпроводники или способы управления ядерным синтезом.