Массово параллельная оптическая Фурье-нейронная сеть

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Машинный интеллект стал движущим фактором современного общества. Однако его спрос опережает базовую электронную технологию из-за ограничений, заданных фундаментальной физикой, таких как емкостная зарядка проводов, а также системной архитектурой хранения и обработки данных, что приводит к появлению последних тенденций к неоднородности процессора. Специальные ускорители, основанные на оптике свободного пространства , обладают фундаментальным гомоморфизмом для массивно-параллельной обработки информации в реальном времени с учетом волновой природы света.

Однако первоначальные результаты разочаровывают проблемами обработки данных и медленными темпами оптическая программируемость. Здесь мы вводим новую амплитуду-только Фурье-оптический процессор парадигмы, способный обрабатывать крупномасштабные ~(1000x1000) матрицы с одним временным шагом и 100 МКС-короткой задержкой. Концептуально направление информационного потока ортогонально двумерной программируемой сети, которая использует 106 параллельные каналы технологии отображения, а также демонстрация прототипа, выполняющего свертки в виде пиксельного умножения в области Фурье , достигающего Пета-операций в секунду пропускной способности. Необходимые преобразования в области реального Фурье выполняются пассивно оптическими линзами с нулевой статической мощностью. Мы образцово реализуем сверточную нейронную сеть (CNN), выполняющую классификационные задачи на 2 мегапиксельные большие матрицы со скоростью 10 кГц, которые по задержке превосходят текущий графический процессор и технологию отображения на основе фазы. 1 и 2 порядка величины соответственно. Обучение этого оптического сверточного слоя задачам классификации изображений и его использование в гибридной оптико-электронной Си-эн-эн показывает точность классификации 98% (Модифицированный Национальный институт стандартов и технологий) и 54% (CIFAR-10). Интересно, что только амплитудный CNN по своей сути устойчив к когерентному шуму в отличие от фазовых парадигм и имеет задержку более чем на 2 порядка ниже, чем системы на основе жидких кристаллов. Такая амплитудно-только массово параллельная оптическая вычислительная парадигма показывает, что отсутствие фазы информация может быть учтена с помощью обучения, что открывает возможности для высокопроизводительной ускорительной технологии для машинного интеллекта с приложениями в обработке данных на границе сети, в центрах обработки данных или в предварительной обработке информации или фильтрации для принятия решений почти в реальном времени.

1. Введение

В последние годы глубокое обучение процветает благодаря своей способности изучать паттерны в данных и выполнять интеллектуальные решения, превосходящие в некоторых случаях человеческие [1-3Сверточные нейронные сети (CNNs) лежат в основе многих новых приложений машинного обучения, особенно тех, которые связаны с анализом визуальных образов. С точки зрения нейронной сети (NN), CNN извлекает специфические особенности , представляющие интерес, используя линейные математические операции—свертки—которые объединяют две части информации, а именно карту признаков и ядро, чтобы сформировать третью функцию (преобразованную карту признаков). Интересно, что эти слои свертки ответственны за потребление большинства (~80%) вычислительных ресурсов при выполнении задач вывода [4]. На самом деле, свертка между картой объектов (nxn) и ядро (kxk) требует вычислительной сложности O(n2k2) в реальной пространственной области, следовательно, без выполнения каких-либо преобразований. Это приводит к значительной задержке и расходу вычислительной мощности, особенно для наборов данных, содержащих значительно большие карты объектов, или требующих глубоких CNN для достижения высокой точности [5], даже когда сеть была обучена и инициализирована память. Для этой цели используются параллельные данные специализированных архитектур, таких как графические процессоры Графические процессоры (GPU) и тензорные процессоры (TPU), обеспечивающие высокую степень программируемости, обеспечивают значительный прирост производительности по сравнению с процессорами общего назначения.

При использовании для реализации deep NN выполнение вывода на больших двумерных наборах данных, таких как изображения, TPU и графические процессоры, довольно энергозатратно и требует длительного времени вычислений (>tensofmilliseconds), которая является функцией сложности задачи и требуемой точности, что приводит к многообразным операциям со сложным ядром и более крупной картой объектов.

Как бы то ни было, повышение вычислительной эффективности CNNs по-прежнему остается сложной задачей из-за широкого применения во многих приложениях. Поэтому необходимо переосмыслить способ работы современных вычислительных платформ , заменив последовательные и временные операции и связанный с ними непрерывный доступ к памяти массивно распараллеленными, но распределенными динамическими блоками, продвигаясь к эффективным вычислительным парадигмам после CMOS и системным реализациям. Внутренний параллелизм, произвольное произведение большой ширины полосы пропускания пространства [6] и одновременное низкое энергопотребление делают оптику свободного пространства особенно привлекательным кандидатом для глубокого обучения, вычислений и, в частности, для классификации изображений и распознавания образов с использованием CNNs в режиме реального времени (низкая задержка). В этом контексте еще в 1960-е годы [7] оптическая фильтрация и корреляции, основанные на пространственном преобразовании Фурье изображений в частотной области, использовались для экстраполяции сходства (специфических признаков) между изображениями и сигнатурами [8]. Впоследствии исследовательские группы построили оптические корреляторы, процессоры свертки [9,10] и матричные умножители [11], с конкурентоспособными показателями для того периода, хотя огромное развитие цифровой электроники расстроило эти усилия. Однако ранние успехи таких оптических процессоров не выходили за пределы стадий прототипа из-за отсутствия практических устройств для моделирования нейронных плоскостей [12] и невозможности подачи этих потенциально высокопроизводительных (~POPS/s) процессоры достаточно с передним концом данных.

Возросший объем данных и требования к параллельным вычислениям наряду с последними достижениями в области технологии цифровых дисплеев открывают новые возможности для массивно-параллельных оптических ускорителей. Оптические системы свободного пространства предлагают обработку больших матриц (несколько мегапикселей), а требуемые CNN свертки могут быть выполнены в виде более простых точечных умножений в области Фурье, где пересечения областей (от вещественного к Фурье-пространству и обратные) выполняются пассивно в Фурье-оптике 4f

система. Однако высокая параллельность и присущие ей операции, обусловленные природой оптического сигнала, сталкиваются с жесткостью современных оптических инструментов, которым не хватает высокоскоростной программируемости. Например, последние оптические системы, используемые в качестве сверточного слоя, выполняющего вывод после обучения, полагаются на фиксированные ядра, реализованные в виде изготовленных на 3D-принтере дифракционных масок [13], или медленно изменяющиеся (десятки Герц) пространственные модуляторы света (SLMs) [14-16С другой стороны , современные высокоскоростные (гигагерцовые) программируемые метаповерхности и перестраиваемые оптические фазированные решетки все еще ограничены с точки зрения разрешения матрицы и фазового контраста [17,18 ].

Здесь мы вводим и экспериментально демонстрируем новую вычислительную парадигму , основанную на амплитудно-только (АО) электрооптических свертках между большими матрицами или изображениями с использованием килогерцово-быстрых перепрограммируемых цифровых микромирных устройств высокого разрешения (DMDs), основанных на двух этапах преобразования Фурье (FTs), без поддержки какой-либо интерферометрической схемы. Маломощный лазерный луч активно моделируется электронно сконфигурированным DMDs как в объектной, так и в Фурье-плоскости a 4f

система, кодирующая информацию только по амплитуде волнового фронта. Путем индивидуального управления 2 миллионами программируемых микромирроров с глубиной разрешения 8 бит и частотой вращения 1031 Гц (~20kHz с разрешением 1 бит), можно добиться перепрограммируемых операций для (близкого) реального времени, которое составляет около 100x более низкая задержка системы по отношению к текущим оптическим ускорителям свертки (SLM-basedsystems10) обработка изображений, с максимальной пропускной способностью 4-peta операций в секунду при 8-битном разрешении, эмулирующая на одной платформе несколько сверточных слоев NN.

Кроме того, хотя это исследование не оспаривает научного понимания того, что фазовая информация более важна, чем амплитудная, в обработке изображений [18], например, при передаче непрерывного тонального изображения для сохранения его визуальной разборчивости, например [19], это исследование показывает, что добавление устойчивости к системе с помощью парадигмы обучения способно объяснить недостаток информации (здесь фаза). То есть, используя робастность НН, достигаемую с помощью аппаратно-специфического обучения, мы показываем, что можно преодолеть потерю информации, связанной с фазой модулированного излучения, что позволяет выполнять интеллектуальную классификацию в своевременно обученном НН и одновременно достигать высокой точности [модифицировано Национальный институт стандартов и технологий (MNIST) и CIFAR-10 классификация] и пропускная способность (10 000 конв/с ~2000x1000 большие матрицы). Эта архитектура экспериментально подтверждает мощность АО 4f системная оптическая вычислительная парадигма и далее открывает архитектуры NN с компонентами, которые читабельно доступны для параллельного выполнения интеллектуальных задач в почти реальном времени, например в свободном пространстве связи [20] в центрах обработки данных для обработки данных локально на краю сети, без связи по длинным маршрутам с центрами обработки данных или облаками.

2. результаты

Типология архитектуры системы для реализации слоя только амплитудного Фурье- фильтра (АО-ФФ) для выполнения фильтрации синергетически реализована в оптике [21]; когерентный оптический процессор изображений основан на 4f система, в которой имеется четыре фокусных расстояния объектива f отделение объекта от плоскости изображения , интеркалированной двумя Фурье-трансформирующими линзами [Рис.1, а)]. Эта настройка состоит из входной (объектной) плоскости, обрабатывающей (Фурье) плоскости и выходной (изображение) самолет. Подлежащие обработке данные и ядро, фильтрующее их в плоскости Фурье, пространственно модулируются в соответствии с электрооптической трансдукцией. Концептуально такой подход к свободному пространству обеспечивает трехмерный параллелизм, который элегантен, поскольку он развязывается в плоскости (x,y направления) программируемость (здесь обеспечивается ДМД), от направления информационного потока (z направление).

Рис. 1. нейронная сеть Фурье только с амплитудой. а) схематическое представление а 4f система, основанная на DMDs. Амплитуда маломощного источника света модулируется в соответствии с рисунком (входные данные). Полученное таким образом изображение преобразуется Фурье и умножается на эталонные данные в плоскости Фурье a 4f система, влияющая только на ее амплитуду. Результат продукта преобразуется обратно, и Квадрат его интенсивности изображается камерой, демонстрирующей то же самое пространственное разрешение (размер пикселя и шаг) DMDs. (b) экспериментальная реализация амплитудного фильтра Фурье на основе ДМД 4f система. c) структура CNN для набора данных CIFAR 10. Оптический амплитудный фильтр Фурье используется в качестве слоя свертки, а последующие слои реализуются электронным способом. Ядра, полученные в ходе физически значимой тренировки, загружаются во второй ДМД. После свертки слоя нелинейное пороговое значение применяется к выходу (выпрямленная линейная единичная функция) и объединяется вместе. Сплющенный слой сворачивает пространственные размеры выхода в размер канала к которому следует полностью соединенный слой и нелинейная активация функция. d) технологическая схема учебного процесса. Физическая модель только амплитудного слоя Фурье-фильтра используется для обучения всего CNN. (c) получение весов для ядра , загружаемого во второй DMD слоя свертки. Экспериментально полученные результаты фильтрации Фурье только по амплитуде подаются на слой FC для выполнения окончательного предсказания по невидимым данным.

С предположением, что фазовая информация более релевантна, чем амплитудная [22], другие 4f реализации опираются на фазовую модуляцию , основанную на SLMs10 SLMs используют пиксельную фазовую задержку , вносимую изменением эффективного показателя преломления через ориентацию двулучепреломляющих жидких кристаллов, к которым приложено напряжение. Напротив, для нашей реализации эта трансдукция достигается с помощью ДМД, принадлежащей к семейству микрооптико-электромеханических систем (МОЭМС). Они состоят из микромирных решеток, которые накладывают пространственно изменяющуюся модуляцию интенсивности света путем быстрого наклона отдельных микромир, которые отклоняют входной свет. В деталях каждый пиксель DMD является состоит из наклонного зеркала и блока памяти, хранящего воспроизводимый узор ; зеркало переворачивается в соответствии с цифровым значением, хранящимся в памяти, чтобы свет либо проходил, либо отклонялся. Предполагая одинаковое разрешение пикселей (2 мегапикселя или 4K), легкодоступные DMDs характеризуются по крайней мере на 2 порядка быстрее (десятки килогерц) скорость оседания по сравнению с SLMs (десятки герц), что делает их перспективной платформой для оптических вычислений, таким образом, является предметом настоящего исследования.

В нашем оптическом двигателе [Рис. 1(б)] коллимированный маломощный лазерный луч (633 Нм, He–Ne лазер) расширяется до равномерного интереса всей активной области первого ДМД в объекте плоскость, которая, независимо наклоняя каждый микромир своего массива в соответствии с предварительно загруженным изображением, определяет входное изображение (карту объектов). ДМД в плоскости объекта ориентирован с углом наклона 12° по отношению к нормальному падению и повернут в плоскости на 45°. Свет , отраженный от ДМД, преобразуется Фурье, проходя через первую Фурье-объектив на одном фокусном расстоянии, f

, кроме первого DMD в объекте самолет. Паттерн во втором ДМД, имеющий зеркальную ориентацию относительно первого, действует как пространственная Маска в плоскости Фурье, своевременно выбирая пространственно-частотные компоненты входного изображения. Частотно-фильтрованное изображение обратно Фурье преобразуется в реальное пространство второй Фурье-линзой и снимается высокоскоростной камерой [Рис. 1b)]. Оба этапа преобразования ФТ выполняются полностью пассивно, то есть с нулевым статическим энергопотреблением, что резко контрастирует с выполнением сверток в виде умножения точечных продуктов в электронике [5].

На системном уровне компьютер загружает как входное изображение, так и ядро (1920x1080

, 8 бит, 1000 Гц), которые хранятся в его памяти в DMDs с помощью кабеля HDMI или напрямую генерируется через поле программируемой вентильной матрицы (ППВМ) (Виртекс 7), который подключается к цифровой обработка света (DLP) табло (Техас инструмент) из двух DMDs через последовательное соединение, с целью уменьшения задержки в предоставлении сигналов и позволяет для обработки в то время как потоковые данные. Следовательно, АО Изображения с Фурье-фильтром детектируются с помощью камеры устройства с зарядовой связью (CCD) (1000 кадров/с с 8-битным разрешением), подключенной через PCI-express к единому системному интерфейсу, который может хранить данные или обрабатывать их , реализуя другие задачи NN, такие как максимальный пул, функция активации и полностью подключенный уровень (FC). Для эмуляции более глубоких нейронных сетей, состоящих из нескольких слоев, результирующее изображение может быть потенциально загружено в первый DMD (см. Более подробную информацию в разделе 1 дополнения 1.

Учитывая вышеупомянутые технические характеристики, система использует (1) обширный параллелизм, заданный высоким разрешением пикселей камеры и DMDs (2 мегапикселя); (2) собственные и полностью пассивные операции, обусловленные волновой природой оптического излучения, что позволяет осуществлять пассивное преобразование Фурье с использованием линз (Интеграл Френеля) и пиксельное умножение в плоскости Фурье (принцип Гюйгенса); (3) на порядок более высокие скорости обновления по сравнению с СУО на основе жидких кристаллов; таким образом, (4) обеспечивает номинальную пропускную способность, эквивалентную 4 операциям peta в год. во-вторых, выполняются операции свертки пространственной области (скользящее окно) с разрешением, заданным DMDs (1920x1080

на 8 бит), обновление с частотой ~1kHz и с частотой кадров приема камеры CCD 1 кГц. Стоит подчеркнуть, что, в отличие от других реализаций [13,16] в котором ядра являются фиксированными фазовыми масками (дифракционными элементами или оптическими прозрачными пленками) и не могут быть скорректированы после тренировки без физической замены их, в нашем сверточном слое как карты объектов, так и ядра могут обновляться с одинаковой высокой скоростью (10 кГц). Это может быть особенно выгодно для эмуляции на одном и том же оборудовании, более глубоком Архитектура CNN, которая включает в себя несколько сверточных слоев, в которых пакетная нормализация и максимальное объединение выполняются в электрической области. Обратите внимание, что наш сверточный слой уже обеспечивает прямая нелинейность (порог) без необходимости всех оптических нелинейностей, как это предлагается другими схемами [23], что обеспечивает аналогичные эффекты выпрямленного линейного блока (РЭУ) [24]. Подробно, после линейной операции, вычисленной в пространственной частотной фильтрации (свертке), выполняемой 4f система, на плоскости изображения напряженность электрического поля, связанная со светом, возведена в квадрат (x2

функция) при обнаружении камерой. Кроме того, мы показываем, что для нашей сетевой архитектуры и набора данных дополнительные нелинейности не дают никаких особых преимуществ (Дополнение 1, раздел 10). Полностью оптическая нелинейность в сочетании с этим Фурье-оптическим подходом CNN будет описана в другом месте.

Предлагаемый АО-ФФ может быть особенно полезен в системах, в которых входные изображения уже кодируются в когерентном излучении (first?DMD отсутствует). Более подробно, если входы уже находятся в оптической области, то система, которая своевременно обучается с использованием предложенного алгоритма, может вести себя как пассивный фильтр и поэтому работать в реальном времени, причем время выполнения ограничено только временем интеграции камеры. AO-FF может обнаруживать изображения внутри изображений (например, в стеганографии и оптических иллюзиях, как показано в разделе 2 приложения 1), демонстрируя немедленное использование в дополненном визуальном восприятии или в классификации сложных паттернов, таких как распознавание радужной оболочки 8-битного сканирования или распознавание паттернов в ЛИДАРНОМ приложении.

Интересно, что пространственная частотная фильтрация, выполняемая DMD , нечувствительна к фазовой информации. Хорошо известно, что полный контроль на местах может быть достигнут, но здесь он нежелателен. В 1963 году Ван дер Люгт предложил способ получения плоской частотной маски, которая сохраняет эффективный фазовый и амплитудный контроль, несмотря на использование только диаграмм поглощения [7], используя Фурье-голограммы входного изображения. Другое пространственное управление полным полем может быть достигнуто с помощью нескольких интерферометрических схем [25], таких как интерферометр Рэлея или Маха-Зендера , голограммы ли [26], суперпиксель [27], а также более поздние высокоточные методы [28] и голографическая реконструкция на основе NN [29]. Полный контроль над оптическим полем, будучи выгодным с точки зрения обработки изображений, достигается ценой (1) увеличения сложности системы, требующей дополнительной оптики и громоздких выравниваний; и (2) уменьшения общего размера фазовой маски или необходимости в корректирующих измерениях и последующего снижения общего параллелизма. По этим причинам, в отличие от других демонстраций [30], мы сознательно решили обучить CNN учитывать потери информации, связанные с фазой, и неточную реконструкцию изображений, выполняя свертки.

Разработанная архитектура CNN состоит из одного слоя свертки, в котором наборы ядер свертываются с входными изображениями. Сверточные слои обычно интеркалируются объединяющим слоем, что уменьшает размерность матрицы с последующим нелинейным пороговым значением. Типичные многослойные CNN состоят из слоев сверточных узлов, за которыми следуют слои полностью Соединенных узлов. Здесь мы используем наш экспериментальный оптический АО Фурье-сверточный слой, выходной сигнал которого объединяется вместе, за которым следует полностью связанный слой и нелинейное пороговое значение, оба выполняются в электронном виде. Сверточный слой имеет 16 узлов, и каждый сверточный узел использует 208x208кернел

Параметры ядра включают в себя веса, которые изучаются в ходе процедуры обучения [Рис. 1(в)]. Си-эн-эн обучается с помощью PyTorch, который является агностиком к оптическому оборудованию. Поэтому он использует набор функций, которые исчерпывающе описывают слой свертки Фурье , чтобы точно смоделировать физическую систему. Мы принимаем концепцию быстрого преобразования Фурье (FFT) на основе обучения области Фурье [31], вместе с усовершенствованной аппаратной моделью для точного моделирования всего процесса и изучения Весов ядра во время обучения. Значения ядра, являющиеся изучаемыми параметрами сверточного слоя, инициализируются непосредственно в области Фурье. При этом ядра не нуждаются в преобразовании в область Фурье, как это требуется в работах [32,33], что хорошо соответствует нашей физической модели. Для полного использования максимальной скорости обновления DMD мы ограничиваем значения ядра реальными и двоичными; поэтому в обучении необходим пользовательский шаг бинаризации. CNN обучается с использованием двух классических наборов данных для распознавания изображений, чтобы продемонстрировать обучаемость этой системы, а также ее бенчмаркинг , а именно набора данных MNIST рукописных цифр и CIFAR-10, более сложной задачи классификации изображений. Обученное ядро используется в качестве входного паттерна в свободном пространстве 4f

система и результаты сверток используются для валидации физической модели и последующего последовательного обучения ФК НН [Рис. 1(г)].

Для получения правильного обучения и, следовательно, высокоточного вывода при выполнении свертки с использованием оптического оборудования физическая модель , встроенная в фазу обучения, должна точно описывать когерентный оптический двигатель, включая его аналоговые вычислительные аппроксимации и неточности (Подробнее см. Раздел 3 приложения 1).

Чтобы проверить правильность модели и сравнить полученные результаты с экспериментальной реализацией оптического двигателя, сначала мы фильтруем, например, 8-битное изображение талисмана GWU (колониальный), используя различные пространственные частотные фильтры (дополнение 1). Результаты свертки , полученные с помощью модели и экспериментальной реализации, свидетельствуют о качественном и количественном согласии, получающем высокие значения (>0.7

для всех ядер, кроме фильтра нижних частот) структурное сходство (SSIM), которое связано с деградацией изображения как воспринимаемого изменения структурной информации, так и крайне низких абсолютных ошибок, демонстрируемых <0.1 среднеквадратичная ошибка (подробнее в разделе Раздел 4 дополнения 1).

Используя огромное количество параллелизма, доступного в оптическом оборудовании (2 мегапикселя), сверточный слой AO на основе Фурье может быть дополнительно распараллелен, если входные изображения (208x208pixel

) меньше по сравнению с разрешением , предлагаемым DMD и камерой. В нашем эксперименте мы выложили плитку на входной плоскости и пакетно обработали до 46 изображений, используя одно и то же ядро в плоскости Фурье. Альтернативно, один и тот же входной сигнал может быть одновременно отфильтрован несколькими ядрами; в этом случае преобразованное Фурье изображение направляется к различным (неперекрывающимся) частям DMD (или различным DMDs) в плоскости Фурье с использованием подходящих разветвителей пучка, массива зеркал и хорошо измеренных массивов микролинз. В конечном счете каждый продукт является обратным преобразованием Фурье (с использованием второй Матрицы линзлета) и визуализируется различными датчиками. Отфильтрованные изображения могут быть интегрированы одним и тем же датчиком, выполняя уменьшение размерности. Дополнительную информацию об экспериментальной реализации схем распараллеливания см. В разделе 5 приложения 1.

После валидации модели и установления схем распараллеливания необходимо продемонстрировать работоспособность полностью оптической Фурье-нейронной сети (AO-FNN), мы сначала обучили процессор как классификатор изображений, выполняя автоматическую классификацию рукописных цифр (MNIST). Для этой задачи мы обучаем однослойный сверточный слой, за которым следует слой FC, с 55 000 изображениями (5000 проверочных изображений) из базы данных рукописных цифр MNIST. Входные цифры кодируются как амплитуда и сеть обучается получать ядра (16,208x208 двоичные изображения) для умножения в плоскости Фурье , подаваемой на второй ДМД [Рис.2(а)]. Более подробная информация об обучении приведена в разделе 6 Приложения 1.

Рис. 2. экспериментальное тестирование классификатора MNIST. а) ядро, полученное в ходе обучения нейронной сети Фурье для классификации рукописных цифр (набор данных MNIST). (b) выходной результат эмулированной и экспериментальной реализации первого слоя для различных ядер (x

ось) и входные изображения (y ось). (в) карта структурного сходства, которая сравнивает результаты, полученные экспериментально, и результаты, полученные при эмуляции для разных цифр (y ось) и ядра (x

ось). Мы использовали экспериментальный вывод для обучения только полностью Связного слоя, чтобы компенсировать расхождения и повысить точность вывода (см. визуализацию 1).

После обучения сеть была протестирована вслепую, приняв полученное ядро, используя невидимые изображения из тестового набора данных MNIST (не используемые в рамках обучения / валидации), достигнув 98% точность классификации (Таблица 1На этом этапе для проверки аппаратной реализации мы выполняем свертки между ядрами и невидимыми картами объектов с помощью оптического движка. Результаты эмулированных и экспериментальных слоев свертки сравниваются с точки зрения преобразованных карт признаков и точности классификации. Поскольку наша имитационная модель уже учитывает некоторые неидеальности оптического оборудования, результаты свертки аппаратной реализации достаточно хорошо соответствуют результатам моделирования; их формы почти идентичны [Рис. 2b)]. Хотя совпадение не является идеальным количественно, выделено более низким SSIM [Рис. 2с)]. Это происходит из-за нескольких совпадающих факторов, включая (а) небольшое смещение в оптической установке, (б) модель , которая учитывает нефизическое отражение границ сетки, и (в) неидеальный динамический диапазон камеры. Точные пиксельные значения аппаратных результатов отличаются от результатов моделирования; таким образом, если результаты свертки , полученные с помощью оптического оборудования, будут подаваться в полностью связанный слой, веса которого обучаются с использованием результатов моделирования, фактическая точность классификации будет значительно снижена (92%). Тем не менее, Веса ядра Фурье все еще несут ту же репрезентативную информацию, что и имитационная модель, и что полностью связанные веса слоев должны быть обновлены, чтобы соответствовать результатам аппаратной свертки, таким образом компенсируя количественные расхождения между моделью, используемой для обучения, и аппаратной реализацией. Поэтому мы реализовали скрытый процесс тонкой настройки, который использует результаты аппаратной свертки для переобучения полностью связанных Весов слоя с уменьшенным числом обучающих выборок. В деталях мы выполняем тонкую настройку, которая использует существующие знание, полученное имитационной моделью из полного обучающего набора и изучающее отображение результатов эксперимента на результаты моделирования , компенсирует его (раздел 8). Этот подход оказывается особенно полезным, и точность результатов настройки оборудования показывает значительное улучшение (98%) по сравнению с тем, что было сделано без точной настройки (92%). Кроме того, этот подход тонкой настройки, который компенсирует расхождения между аппаратными средствами и моделями, может быть использован, если оптический двигатель обрабатывает данные в жестких условиях окружающей среды, для таких приложений, как сверхразрешение на характеристиках обнаружения объектов в спутниковых снимках, которое может привести к случайным рассогласованиям.

Для более сложного набора данных, такого как CIFAR-10, который содержит цветные изображения 10 классов, с 6000 изображениями на класс, точность вывода для моделируемой модели составляет 62%, что также близко к регулярно используемой модели свертки пространственной области с полной битовой точностью, для аналогичной архитектуры нейронной сети (один conv. слой) реализован в различных технологиях, таких как однослойная электронная CNN или только фаза 4f

схемы (точность 51%). Это многообещающий результат, так как мы показываем, что при моделировании наша сеть с бинаризованными весами ядра способна получить (почти) аналогичный уровень точности, как обычная свертка пространственной области, используя полные прецизионные функции (32 бит). Это может быть объяснено эффективностью тренинга самого 4f

система, а также тот факт, что в свертке Фурье имеется больше обучаемых параметров, обусловленных большим размером ядра по сравнению с версией пространственной свертки ( подробнее в разделе 11 дополнения 1).

Скрытые степени свободы, предоставляемые оптическим двигателем , считаются “свободными", поскольку время свертки в оптической системе не зависит от размера ядра, пока размер находится в пределах разрешения DMD. После точной настройки с использованием содержащегося числа (5000) аппаратных результатов точность классификации составляет 54%, что является респектабельным, учитывая, что она составляет около 90% от номинальных достижимых результатов (табл.1).

Таблица 1. результат свертки области нормального пространства, наша свертка Фурье Имитационная модель, аппаратная модель с тонкой настройкой и без нее

Просмотр Таблицы

Рис. 3. Характеристики амплитудно-только оптического Фурье-двигателя и его потенциал производительности. а) сравнение общего времени обработки для выполнения свертки в зависимости от изображения (матрицы) разрешение (выраженное в мегапикселях) сравнение амплитуды-только Фильтр Фурье (Красная сплошная линия) для графического процессора P100 Nvidia (синяя пунктирная линия подгонки, точки экспериментальных данных) и a 4f

система на основе пространственных модуляторов света (серая линия). Здесь мы рассматриваем свертку между двумя изображениями (входным и ядром) с одинаковым разрешением пикселей , выраженным в мегапикселях. Отметка в 2 мегапикселя устанавливает текущее максимальное разрешение DMD этой экспериментальной реализации, но не представляет технологического предела. Круговая диаграмма иллюстрирует разбивку задержки для DMD-based 4f система при выполнении свертки. Общая задержка состоит из времени работы DMD (скорость переключения зеркал—зеленый срез), времени интеграции камеры (желтый срез) и времени полета фотона в оптической установке (фиолетовый срез). (б) программируемый электрооптический пространственный модулятор света, сгруппированный по принципу функционирования, определяет производительность процессора, определяемую размером матрицы-скоростью-продуктом (серые линии iso-производительности). Образцово -показательный, 100x улучшение по сравнению с ОДС на основе системы (например, Optalysys) является прямой функцией размера матрицы и частота обновления: перевозчик допинг (графена [34,35], ТШО [36]), с изменением фазы (ПКМ [37], органических полимеров [18], LCOS-ОДС Гайю-2), MOEMS (Тексас инструментс: 2MPx-DLP9000 и 4 K-DLP660TE, аналоговые MOEMS [38]), а также электромеханические [39], которые позволяют значительно увеличить пропускную способность и снизить латентность предлагаемого 4f

система. Сюжет разделен на новые технологии, устройства COTS и потенциальные аппаратные средства с быстродействующими электрооптическими устройствами с частотой ГГц в миллион пикселей, которые могут пространственно модулировать свет для информационных наук и зондирования следующего поколения.

Предоставить некоторые подробности, касающиеся эффективности и производительности Роман вычислительная схема на основе 2-мегапиксельной DMDs, АО-ФФ может выполнять между извилин больших матриц, преобразования подсчетам, в 10 раз быстрее, чем видеокарта NVIDIA Р100, обычно используемой для высокопроизводительных вычислений, и более чем на 2 порядка быстрее чем архитектур с использованием пространственных модуляторов света, потребляя при аналогичной мощности. С точки зрения эффективности [Рис. 3(а)], большая часть энергопотребления и времени обработки нашего оптического двигателя поступает со стадии преобразования сигнала, от цифровой электроники к оптической области и наоборот. В нашей оптической системе время обработки для выполнения 8-битной свертки задается суммой всех задержек, включая генерацию паттернов (DMDs), время пролета фотонов через оптическую установку, обнаружение ПЗС-камерой (камерой) и, в конечном счете, передачу для последующей программной обработки. Для 2-мегапиксельного 8-битного входного сигнала и изображений ядра, наибольший вклад в задержку вносит время захвата камеры, за которым следует скорость переключения DMD. Время распространения пренебрежимо мало, так как, учитывая 4f

расстояния в игру и оптические инструменты, это составляет несколько наносекунд. Принимая во внимание, что время получения высокоскоростной камеры является функцией разрешения обнаруживаемого изображения и представляет собой узкое место этой текущей реализации. Более высокоскоростная камера может сократить время обработки в 2 раза, сохраняя ту же скорость DMD и разрешение.

Глядя на будущий потенциал этого 4f

основанная на гибридной ускорительной парадигме, разработка более быстрых и высокоточных пространственных модуляторов и высокоскоростных механизмов обнаружения имеют решающее значение для продвижения к реализации интеллектуальных функциональных возможностей [Рис. 3(б)]. Например, DMDs с более высоким разрешением ( разрешение 4 K) и камеры приведут к еще большему параллелизму (в 16 раз превышающему текущую пропускную способность) по сравнению с нашим прототипом. Интересно, что на исследовательском уровне аналоговая версия MOEMS может достигать высокой скорости модуляции (~10мчz) без торга с разрешением пикселя (~10 мегапиксели) [38]. Использование аналоговых МОЭМС для пространственной модуляции оптического сигнала в сочетании со сверхскоростной камерой (МГц, >>4к разрешение), для преобразования отфильтрованного сигнала в электрическую область, может повысить пропускную способность системы примерно на 4 Порядка. Однако для такой конфигурации электронный интерфейс будет узким местом системы, которая должна быть способна доставлять паттерны и получать данные с общей пропускной способностью в десятки раз больше. ~100 Тера операций в секунду. Тем не менее, наш АО 4f

демонстрация оптических процессоров открывает путь к будущим реализациям; например, использование новых технологических компонентов, таких как микрометровые металлические линзы, гигагерцовые быстро перепрограммируемые метаповерхности и высокоскоростные фотодиодные матрицы, позволило бы обеспечить высокую конкурентоспособность, увеличив при этом пропускную способность вычислений до экс-операций в секунду, не меняя при этом энергопотребление. Однако на современном этапе эти компоненты все еще оспариваются с точки зрения разрешения матрицы и достижимого фазового контраста [17,18Эти устройства требуют материалов и конфигураций устройств, которые могут обеспечить эффективное взаимодействие света и материи, совместимость с КМОП, простую и четкую перестройку и достаточную зрелость для масштабирования.

3. выводы

Таким образом, мы продемонстрировали только амплитудный электрооптический фильтр Фурье с высокой скоростью программирования и пропускной способностью. Динамика Фурье-фильтрация реализуется с помощью цифровых микромирных устройств, как в объектной, так и в Фурье-плоскости оптического объекта. 4f система. В качестве доказательства принципа демонстрации мы построили нейронную сеть, которая использует в качестве сверточного слоя электрооптический сверточный движок для классификации рукописных цифр (MNIST) и цветных изображений (CIFAR-10). Мы обучили сеть вне чипа, используя детальную физическую модель, которая описывает электрооптическую систему и ее неидеальности, такие как оптические аберрации и рассогласования. После экспериментальной проверки модели и переподготовки следующего полностью связанного слоя для компенсации расхождений значений мы получили точность классификации 98% и 54% для MNIST и CIFAR-10, соответственно, с пропускной способностью до 1000 сверток в секунду между двумя 2-мегапиксельными изображениями, что на 1 порядок быстрее, чем у современного графического процессора. Кроме того, наш научный вклад подчеркивает, что потери информации и неточности, возникающие из-за пренебрежения фазой оптического волнового фронта, могут быть компенсированы степенью надежности, обеспечиваемой обучением нейронной сети, которое дает интеллектуальную классификацию с такой же высокой точностью, как и та, которая получается только с помощью фазового оптического двигателя, при этом отличаясь высокой степенью надежности. На 2 порядка быстрее программируемость. Система также может быть использована для параллельной фильтрации изображений меньшего разрешения, а также путем использования ad hoc электронный интерфейс ввода-вывода, эмулирующий более глубокие нейронные сети, достигающие большого количества соединений и миллионов нейронов. Эта парадигма и аппаратная реализация оптических движков для искусственных нейронных сетей является перспективной альтернативой другой архитектуре машинного обучения, поскольку они могут использовать возможности параллельных вычислений и энергоэффективность, присущие оптическим системам. Наши результаты, представленные для различных задач вывода, указывают на потенциал того, что наша интеллектуальная схема обработки информации может открыть новые перспективы гибкой и компактные платформы, которые могут быть трансформирующими для различных применений, начиная от анализа изображений и заканчивая классификацией изображений и сверхразрешающей визуализацией на беспилотных летательных аппаратах, а также могут обеспечить широкополосную свободную космическую связь в центрах обработки данных, разумно предварительно обрабатывая данные локально на краю сети.


Источник: www.osapublishing.org

Комментарии: