Массово параллельная оптическая Фурье-нейронная сеть |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2020-12-20 10:01 Машинный интеллект стал движущим фактором современного общества. Однако его спрос опережает базовую электронную технологию из-за ограничений, заданных фундаментальной физикой, таких как емкостная зарядка проводов, а также системной архитектурой хранения и обработки данных, что приводит к появлению последних тенденций к неоднородности процессора. Специальные ускорители, основанные на оптике свободного пространства , обладают фундаментальным гомоморфизмом для массивно-параллельной обработки информации в реальном времени с учетом волновой природы света. Однако первоначальные результаты разочаровывают проблемами обработки данных и медленными темпами оптическая программируемость. Здесь мы вводим новую амплитуду-только Фурье-оптический процессор парадигмы, способный обрабатывать крупномасштабные ~(1000x1000) матрицы с одним временным шагом и 100 МКС-короткой задержкой. Концептуально направление информационного потока ортогонально двумерной программируемой сети, которая использует 106 параллельные каналы технологии отображения, а также демонстрация прототипа, выполняющего свертки в виде пиксельного умножения в области Фурье , достигающего Пета-операций в секунду пропускной способности. Необходимые преобразования в области реального Фурье выполняются пассивно оптическими линзами с нулевой статической мощностью. Мы образцово реализуем сверточную нейронную сеть (CNN), выполняющую классификационные задачи на 2 мегапиксельные большие матрицы со скоростью 10 кГц, которые по задержке превосходят текущий графический процессор и технологию отображения на основе фазы. 1 и 2 порядка величины соответственно. Обучение этого оптического сверточного слоя задачам классификации изображений и его использование в гибридной оптико-электронной Си-эн-эн показывает точность классификации 98% (Модифицированный Национальный институт стандартов и технологий) и 54% (CIFAR-10). Интересно, что только амплитудный CNN по своей сути устойчив к когерентному шуму в отличие от фазовых парадигм и имеет задержку более чем на 2 порядка ниже, чем системы на основе жидких кристаллов. Такая амплитудно-только массово параллельная оптическая вычислительная парадигма показывает, что отсутствие фазы информация может быть учтена с помощью обучения, что открывает возможности для высокопроизводительной ускорительной технологии для машинного интеллекта с приложениями в обработке данных на границе сети, в центрах обработки данных или в предварительной обработке информации или фильтрации для принятия решений почти в реальном времени. 1. Введение В последние годы глубокое обучение процветает благодаря своей способности изучать паттерны в данных и выполнять интеллектуальные решения, превосходящие в некоторых случаях человеческие [1-3Сверточные нейронные сети (CNNs) лежат в основе многих новых приложений машинного обучения, особенно тех, которые связаны с анализом визуальных образов. С точки зрения нейронной сети (NN), CNN извлекает специфические особенности , представляющие интерес, используя линейные математические операции—свертки—которые объединяют две части информации, а именно карту признаков и ядро, чтобы сформировать третью функцию (преобразованную карту признаков). Интересно, что эти слои свертки ответственны за потребление большинства (~80%) вычислительных ресурсов при выполнении задач вывода [4]. На самом деле, свертка между картой объектов (nxn) и ядро (kxk) требует вычислительной сложности O(n2k2) в реальной пространственной области, следовательно, без выполнения каких-либо преобразований. Это приводит к значительной задержке и расходу вычислительной мощности, особенно для наборов данных, содержащих значительно большие карты объектов, или требующих глубоких CNN для достижения высокой точности [5], даже когда сеть была обучена и инициализирована память. Для этой цели используются параллельные данные специализированных архитектур, таких как графические процессоры Графические процессоры (GPU) и тензорные процессоры (TPU), обеспечивающие высокую степень программируемости, обеспечивают значительный прирост производительности по сравнению с процессорами общего назначения. При использовании для реализации deep NN выполнение вывода на больших двумерных наборах данных, таких как изображения, TPU и графические процессоры, довольно энергозатратно и требует длительного времени вычислений (>tensofmilliseconds), которая является функцией сложности задачи и требуемой точности, что приводит к многообразным операциям со сложным ядром и более крупной картой объектов. Как бы то ни было, повышение вычислительной эффективности CNNs по-прежнему остается сложной задачей из-за широкого применения во многих приложениях. Поэтому необходимо переосмыслить способ работы современных вычислительных платформ , заменив последовательные и временные операции и связанный с ними непрерывный доступ к памяти массивно распараллеленными, но распределенными динамическими блоками, продвигаясь к эффективным вычислительным парадигмам после CMOS и системным реализациям. Внутренний параллелизм, произвольное произведение большой ширины полосы пропускания пространства [6] и одновременное низкое энергопотребление делают оптику свободного пространства особенно привлекательным кандидатом для глубокого обучения, вычислений и, в частности, для классификации изображений и распознавания образов с использованием CNNs в режиме реального времени (низкая задержка). В этом контексте еще в 1960-е годы [7] оптическая фильтрация и корреляции, основанные на пространственном преобразовании Фурье изображений в частотной области, использовались для экстраполяции сходства (специфических признаков) между изображениями и сигнатурами [8]. Впоследствии исследовательские группы построили оптические корреляторы, процессоры свертки [9,10] и матричные умножители [11], с конкурентоспособными показателями для того периода, хотя огромное развитие цифровой электроники расстроило эти усилия. Однако ранние успехи таких оптических процессоров не выходили за пределы стадий прототипа из-за отсутствия практических устройств для моделирования нейронных плоскостей [12] и невозможности подачи этих потенциально высокопроизводительных (~POPS/s) процессоры достаточно с передним концом данных. Возросший объем данных и требования к параллельным вычислениям наряду с последними достижениями в области технологии цифровых дисплеев открывают новые возможности для массивно-параллельных оптических ускорителей. Оптические системы свободного пространства предлагают обработку больших матриц (несколько мегапикселей), а требуемые CNN свертки могут быть выполнены в виде более простых точечных умножений в области Фурье, где пересечения областей (от вещественного к Фурье-пространству и обратные) выполняются пассивно в Фурье-оптике 4f система. Однако высокая параллельность и присущие ей операции, обусловленные природой оптического сигнала, сталкиваются с жесткостью современных оптических инструментов, которым не хватает высокоскоростной программируемости. Например, последние оптические системы, используемые в качестве сверточного слоя, выполняющего вывод после обучения, полагаются на фиксированные ядра, реализованные в виде изготовленных на 3D-принтере дифракционных масок [13], или медленно изменяющиеся (десятки Герц) пространственные модуляторы света (SLMs) [14-16С другой стороны , современные высокоскоростные (гигагерцовые) программируемые метаповерхности и перестраиваемые оптические фазированные решетки все еще ограничены с точки зрения разрешения матрицы и фазового контраста [17,18 ]. Здесь мы вводим и экспериментально демонстрируем новую вычислительную парадигму , основанную на амплитудно-только (АО) электрооптических свертках между большими матрицами или изображениями с использованием килогерцово-быстрых перепрограммируемых цифровых микромирных устройств высокого разрешения (DMDs), основанных на двух этапах преобразования Фурье (FTs), без поддержки какой-либо интерферометрической схемы. Маломощный лазерный луч активно моделируется электронно сконфигурированным DMDs как в объектной, так и в Фурье-плоскости a 4f система, кодирующая информацию только по амплитуде волнового фронта. Путем индивидуального управления 2 миллионами программируемых микромирроров с глубиной разрешения 8 бит и частотой вращения 1031 Гц (~20kHz с разрешением 1 бит), можно добиться перепрограммируемых операций для (близкого) реального времени, которое составляет около 100x более низкая задержка системы по отношению к текущим оптическим ускорителям свертки (SLM-basedsystems10) обработка изображений, с максимальной пропускной способностью 4-peta операций в секунду при 8-битном разрешении, эмулирующая на одной платформе несколько сверточных слоев NN. Кроме того, хотя это исследование не оспаривает научного понимания того, что фазовая информация более важна, чем амплитудная, в обработке изображений [18], например, при передаче непрерывного тонального изображения для сохранения его визуальной разборчивости, например [19], это исследование показывает, что добавление устойчивости к системе с помощью парадигмы обучения способно объяснить недостаток информации (здесь фаза). То есть, используя робастность НН, достигаемую с помощью аппаратно-специфического обучения, мы показываем, что можно преодолеть потерю информации, связанной с фазой модулированного излучения, что позволяет выполнять интеллектуальную классификацию в своевременно обученном НН и одновременно достигать высокой точности [модифицировано Национальный институт стандартов и технологий (MNIST) и CIFAR-10 классификация] и пропускная способность (10 000 конв/с ~2000x1000 большие матрицы). Эта архитектура экспериментально подтверждает мощность АО 4f системная оптическая вычислительная парадигма и далее открывает архитектуры NN с компонентами, которые читабельно доступны для параллельного выполнения интеллектуальных задач в почти реальном времени, например в свободном пространстве связи [20] в центрах обработки данных для обработки данных локально на краю сети, без связи по длинным маршрутам с центрами обработки данных или облаками. 2. результаты Типология архитектуры системы для реализации слоя только амплитудного Фурье- фильтра (АО-ФФ) для выполнения фильтрации синергетически реализована в оптике [21]; когерентный оптический процессор изображений основан на 4f система, в которой имеется четыре фокусных расстояния объектива f отделение объекта от плоскости изображения , интеркалированной двумя Фурье-трансформирующими линзами [Рис.1, а)]. Эта настройка состоит из входной (объектной) плоскости, обрабатывающей (Фурье) плоскости и выходной (изображение) самолет. Подлежащие обработке данные и ядро, фильтрующее их в плоскости Фурье, пространственно модулируются в соответствии с электрооптической трансдукцией. Концептуально такой подход к свободному пространству обеспечивает трехмерный параллелизм, который элегантен, поскольку он развязывается в плоскости (x,y направления) программируемость (здесь обеспечивается ДМД), от направления информационного потока (z направление). Рис. 1. нейронная сеть Фурье только с амплитудой. а) схематическое представление а 4f система, основанная на DMDs. Амплитуда маломощного источника света модулируется в соответствии с рисунком (входные данные). Полученное таким образом изображение преобразуется Фурье и умножается на эталонные данные в плоскости Фурье a 4f система, влияющая только на ее амплитуду. Результат продукта преобразуется обратно, и Квадрат его интенсивности изображается камерой, демонстрирующей то же самое пространственное разрешение (размер пикселя и шаг) DMDs. (b) экспериментальная реализация амплитудного фильтра Фурье на основе ДМД 4f система. c) структура CNN для набора данных CIFAR 10. Оптический амплитудный фильтр Фурье используется в качестве слоя свертки, а последующие слои реализуются электронным способом. Ядра, полученные в ходе физически значимой тренировки, загружаются во второй ДМД. После свертки слоя нелинейное пороговое значение применяется к выходу (выпрямленная линейная единичная функция) и объединяется вместе. Сплющенный слой сворачивает пространственные размеры выхода в размер канала к которому следует полностью соединенный слой и нелинейная активация функция. d) технологическая схема учебного процесса. Физическая модель только амплитудного слоя Фурье-фильтра используется для обучения всего CNN. (c) получение весов для ядра , загружаемого во второй DMD слоя свертки. Экспериментально полученные результаты фильтрации Фурье только по амплитуде подаются на слой FC для выполнения окончательного предсказания по невидимым данным. С предположением, что фазовая информация более релевантна, чем амплитудная [22], другие 4f реализации опираются на фазовую модуляцию , основанную на SLMs10 SLMs используют пиксельную фазовую задержку , вносимую изменением эффективного показателя преломления через ориентацию двулучепреломляющих жидких кристаллов, к которым приложено напряжение. Напротив, для нашей реализации эта трансдукция достигается с помощью ДМД, принадлежащей к семейству микрооптико-электромеханических систем (МОЭМС). Они состоят из микромирных решеток, которые накладывают пространственно изменяющуюся модуляцию интенсивности света путем быстрого наклона отдельных микромир, которые отклоняют входной свет. В деталях каждый пиксель DMD является состоит из наклонного зеркала и блока памяти, хранящего воспроизводимый узор ; зеркало переворачивается в соответствии с цифровым значением, хранящимся в памяти, чтобы свет либо проходил, либо отклонялся. Предполагая одинаковое разрешение пикселей (2 мегапикселя или 4K), легкодоступные DMDs характеризуются по крайней мере на 2 порядка быстрее (десятки килогерц) скорость оседания по сравнению с SLMs (десятки герц), что делает их перспективной платформой для оптических вычислений, таким образом, является предметом настоящего исследования. В нашем оптическом двигателе [Рис. 1(б)] коллимированный маломощный лазерный луч (633 Нм, He–Ne лазер) расширяется до равномерного интереса всей активной области первого ДМД в объекте плоскость, которая, независимо наклоняя каждый микромир своего массива в соответствии с предварительно загруженным изображением, определяет входное изображение (карту объектов). ДМД в плоскости объекта ориентирован с углом наклона 12° по отношению к нормальному падению и повернут в плоскости на 45°. Свет , отраженный от ДМД, преобразуется Фурье, проходя через первую Фурье-объектив на одном фокусном расстоянии, f , кроме первого DMD в объекте самолет. Паттерн во втором ДМД, имеющий зеркальную ориентацию относительно первого, действует как пространственная Маска в плоскости Фурье, своевременно выбирая пространственно-частотные компоненты входного изображения. Частотно-фильтрованное изображение обратно Фурье преобразуется в реальное пространство второй Фурье-линзой и снимается высокоскоростной камерой [Рис. 1b)]. Оба этапа преобразования ФТ выполняются полностью пассивно, то есть с нулевым статическим энергопотреблением, что резко контрастирует с выполнением сверток в виде умножения точечных продуктов в электронике [5]. На системном уровне компьютер загружает как входное изображение, так и ядро (1920x1080 , 8 бит, 1000 Гц), которые хранятся в его памяти в DMDs с помощью кабеля HDMI или напрямую генерируется через поле программируемой вентильной матрицы (ППВМ) (Виртекс 7), который подключается к цифровой обработка света (DLP) табло (Техас инструмент) из двух DMDs через последовательное соединение, с целью уменьшения задержки в предоставлении сигналов и позволяет для обработки в то время как потоковые данные. Следовательно, АО Изображения с Фурье-фильтром детектируются с помощью камеры устройства с зарядовой связью (CCD) (1000 кадров/с с 8-битным разрешением), подключенной через PCI-express к единому системному интерфейсу, который может хранить данные или обрабатывать их , реализуя другие задачи NN, такие как максимальный пул, функция активации и полностью подключенный уровень (FC). Для эмуляции более глубоких нейронных сетей, состоящих из нескольких слоев, результирующее изображение может быть потенциально загружено в первый DMD (см. Более подробную информацию в разделе 1 дополнения 1. Учитывая вышеупомянутые технические характеристики, система использует (1) обширный параллелизм, заданный высоким разрешением пикселей камеры и DMDs (2 мегапикселя); (2) собственные и полностью пассивные операции, обусловленные волновой природой оптического излучения, что позволяет осуществлять пассивное преобразование Фурье с использованием линз (Интеграл Френеля) и пиксельное умножение в плоскости Фурье (принцип Гюйгенса); (3) на порядок более высокие скорости обновления по сравнению с СУО на основе жидких кристаллов; таким образом, (4) обеспечивает номинальную пропускную способность, эквивалентную 4 операциям peta в год. во-вторых, выполняются операции свертки пространственной области (скользящее окно) с разрешением, заданным DMDs (1920x1080 на 8 бит), обновление с частотой ~1kHz и с частотой кадров приема камеры CCD 1 кГц. Стоит подчеркнуть, что, в отличие от других реализаций [13,16] в котором ядра являются фиксированными фазовыми масками (дифракционными элементами или оптическими прозрачными пленками) и не могут быть скорректированы после тренировки без физической замены их, в нашем сверточном слое как карты объектов, так и ядра могут обновляться с одинаковой высокой скоростью (10 кГц). Это может быть особенно выгодно для эмуляции на одном и том же оборудовании, более глубоком Архитектура CNN, которая включает в себя несколько сверточных слоев, в которых пакетная нормализация и максимальное объединение выполняются в электрической области. Обратите внимание, что наш сверточный слой уже обеспечивает прямая нелинейность (порог) без необходимости всех оптических нелинейностей, как это предлагается другими схемами [23], что обеспечивает аналогичные эффекты выпрямленного линейного блока (РЭУ) [24]. Подробно, после линейной операции, вычисленной в пространственной частотной фильтрации (свертке), выполняемой 4f система, на плоскости изображения напряженность электрического поля, связанная со светом, возведена в квадрат (x2 функция) при обнаружении камерой. Кроме того, мы показываем, что для нашей сетевой архитектуры и набора данных дополнительные нелинейности не дают никаких особых преимуществ (Дополнение 1, раздел 10). Полностью оптическая нелинейность в сочетании с этим Фурье-оптическим подходом CNN будет описана в другом месте. Предлагаемый АО-ФФ может быть особенно полезен в системах, в которых входные изображения уже кодируются в когерентном излучении (first?DMD отсутствует). Более подробно, если входы уже находятся в оптической области, то система, которая своевременно обучается с использованием предложенного алгоритма, может вести себя как пассивный фильтр и поэтому работать в реальном времени, причем время выполнения ограничено только временем интеграции камеры. AO-FF может обнаруживать изображения внутри изображений (например, в стеганографии и оптических иллюзиях, как показано в разделе 2 приложения 1), демонстрируя немедленное использование в дополненном визуальном восприятии или в классификации сложных паттернов, таких как распознавание радужной оболочки 8-битного сканирования или распознавание паттернов в ЛИДАРНОМ приложении. Интересно, что пространственная частотная фильтрация, выполняемая DMD , нечувствительна к фазовой информации. Хорошо известно, что полный контроль на местах может быть достигнут, но здесь он нежелателен. В 1963 году Ван дер Люгт предложил способ получения плоской частотной маски, которая сохраняет эффективный фазовый и амплитудный контроль, несмотря на использование только диаграмм поглощения [7], используя Фурье-голограммы входного изображения. Другое пространственное управление полным полем может быть достигнуто с помощью нескольких интерферометрических схем [25], таких как интерферометр Рэлея или Маха-Зендера , голограммы ли [26], суперпиксель [27], а также более поздние высокоточные методы [28] и голографическая реконструкция на основе NN [29]. Полный контроль над оптическим полем, будучи выгодным с точки зрения обработки изображений, достигается ценой (1) увеличения сложности системы, требующей дополнительной оптики и громоздких выравниваний; и (2) уменьшения общего размера фазовой маски или необходимости в корректирующих измерениях и последующего снижения общего параллелизма. По этим причинам, в отличие от других демонстраций [30], мы сознательно решили обучить CNN учитывать потери информации, связанные с фазой, и неточную реконструкцию изображений, выполняя свертки. Разработанная архитектура CNN состоит из одного слоя свертки, в котором наборы ядер свертываются с входными изображениями. Сверточные слои обычно интеркалируются объединяющим слоем, что уменьшает размерность матрицы с последующим нелинейным пороговым значением. Типичные многослойные CNN состоят из слоев сверточных узлов, за которыми следуют слои полностью Соединенных узлов. Здесь мы используем наш экспериментальный оптический АО Фурье-сверточный слой, выходной сигнал которого объединяется вместе, за которым следует полностью связанный слой и нелинейное пороговое значение, оба выполняются в электронном виде. Сверточный слой имеет 16 узлов, и каждый сверточный узел использует 208x208кернел Параметры ядра включают в себя веса, которые изучаются в ходе процедуры обучения [Рис. 1(в)]. Си-эн-эн обучается с помощью PyTorch, который является агностиком к оптическому оборудованию. Поэтому он использует набор функций, которые исчерпывающе описывают слой свертки Фурье , чтобы точно смоделировать физическую систему. Мы принимаем концепцию быстрого преобразования Фурье (FFT) на основе обучения области Фурье [31], вместе с усовершенствованной аппаратной моделью для точного моделирования всего процесса и изучения Весов ядра во время обучения. Значения ядра, являющиеся изучаемыми параметрами сверточного слоя, инициализируются непосредственно в области Фурье. При этом ядра не нуждаются в преобразовании в область Фурье, как это требуется в работах [32,33], что хорошо соответствует нашей физической модели. Для полного использования максимальной скорости обновления DMD мы ограничиваем значения ядра реальными и двоичными; поэтому в обучении необходим пользовательский шаг бинаризации. CNN обучается с использованием двух классических наборов данных для распознавания изображений, чтобы продемонстрировать обучаемость этой системы, а также ее бенчмаркинг , а именно набора данных MNIST рукописных цифр и CIFAR-10, более сложной задачи классификации изображений. Обученное ядро используется в качестве входного паттерна в свободном пространстве 4f система и результаты сверток используются для валидации физической модели и последующего последовательного обучения ФК НН [Рис. 1(г)]. Для получения правильного обучения и, следовательно, высокоточного вывода при выполнении свертки с использованием оптического оборудования физическая модель , встроенная в фазу обучения, должна точно описывать когерентный оптический двигатель, включая его аналоговые вычислительные аппроксимации и неточности (Подробнее см. Раздел 3 приложения 1). Чтобы проверить правильность модели и сравнить полученные результаты с экспериментальной реализацией оптического двигателя, сначала мы фильтруем, например, 8-битное изображение талисмана GWU (колониальный), используя различные пространственные частотные фильтры (дополнение 1). Результаты свертки , полученные с помощью модели и экспериментальной реализации, свидетельствуют о качественном и количественном согласии, получающем высокие значения (>0.7 для всех ядер, кроме фильтра нижних частот) структурное сходство (SSIM), которое связано с деградацией изображения как воспринимаемого изменения структурной информации, так и крайне низких абсолютных ошибок, демонстрируемых <0.1 среднеквадратичная ошибка (подробнее в разделе Раздел 4 дополнения 1). Используя огромное количество параллелизма, доступного в оптическом оборудовании (2 мегапикселя), сверточный слой AO на основе Фурье может быть дополнительно распараллелен, если входные изображения (208x208pixel ) меньше по сравнению с разрешением , предлагаемым DMD и камерой. В нашем эксперименте мы выложили плитку на входной плоскости и пакетно обработали до 46 изображений, используя одно и то же ядро в плоскости Фурье. Альтернативно, один и тот же входной сигнал может быть одновременно отфильтрован несколькими ядрами; в этом случае преобразованное Фурье изображение направляется к различным (неперекрывающимся) частям DMD (или различным DMDs) в плоскости Фурье с использованием подходящих разветвителей пучка, массива зеркал и хорошо измеренных массивов микролинз. В конечном счете каждый продукт является обратным преобразованием Фурье (с использованием второй Матрицы линзлета) и визуализируется различными датчиками. Отфильтрованные изображения могут быть интегрированы одним и тем же датчиком, выполняя уменьшение размерности. Дополнительную информацию об экспериментальной реализации схем распараллеливания см. В разделе 5 приложения 1. После валидации модели и установления схем распараллеливания необходимо продемонстрировать работоспособность полностью оптической Фурье-нейронной сети (AO-FNN), мы сначала обучили процессор как классификатор изображений, выполняя автоматическую классификацию рукописных цифр (MNIST). Для этой задачи мы обучаем однослойный сверточный слой, за которым следует слой FC, с 55 000 изображениями (5000 проверочных изображений) из базы данных рукописных цифр MNIST. Входные цифры кодируются как амплитуда и сеть обучается получать ядра (16,208x208 двоичные изображения) для умножения в плоскости Фурье , подаваемой на второй ДМД [Рис.2(а)]. Более подробная информация об обучении приведена в разделе 6 Приложения 1. Рис. 2. экспериментальное тестирование классификатора MNIST. а) ядро, полученное в ходе обучения нейронной сети Фурье для классификации рукописных цифр (набор данных MNIST). (b) выходной результат эмулированной и экспериментальной реализации первого слоя для различных ядер (x ось) и входные изображения (y ось). (в) карта структурного сходства, которая сравнивает результаты, полученные экспериментально, и результаты, полученные при эмуляции для разных цифр (y ось) и ядра (x ось). Мы использовали экспериментальный вывод для обучения только полностью Связного слоя, чтобы компенсировать расхождения и повысить точность вывода (см. визуализацию 1). После обучения сеть была протестирована вслепую, приняв полученное ядро, используя невидимые изображения из тестового набора данных MNIST (не используемые в рамках обучения / валидации), достигнув 98% точность классификации (Таблица 1На этом этапе для проверки аппаратной реализации мы выполняем свертки между ядрами и невидимыми картами объектов с помощью оптического движка. Результаты эмулированных и экспериментальных слоев свертки сравниваются с точки зрения преобразованных карт признаков и точности классификации. Поскольку наша имитационная модель уже учитывает некоторые неидеальности оптического оборудования, результаты свертки аппаратной реализации достаточно хорошо соответствуют результатам моделирования; их формы почти идентичны [Рис. 2b)]. Хотя совпадение не является идеальным количественно, выделено более низким SSIM [Рис. 2с)]. Это происходит из-за нескольких совпадающих факторов, включая (а) небольшое смещение в оптической установке, (б) модель , которая учитывает нефизическое отражение границ сетки, и (в) неидеальный динамический диапазон камеры. Точные пиксельные значения аппаратных результатов отличаются от результатов моделирования; таким образом, если результаты свертки , полученные с помощью оптического оборудования, будут подаваться в полностью связанный слой, веса которого обучаются с использованием результатов моделирования, фактическая точность классификации будет значительно снижена (92%). Тем не менее, Веса ядра Фурье все еще несут ту же репрезентативную информацию, что и имитационная модель, и что полностью связанные веса слоев должны быть обновлены, чтобы соответствовать результатам аппаратной свертки, таким образом компенсируя количественные расхождения между моделью, используемой для обучения, и аппаратной реализацией. Поэтому мы реализовали скрытый процесс тонкой настройки, который использует результаты аппаратной свертки для переобучения полностью связанных Весов слоя с уменьшенным числом обучающих выборок. В деталях мы выполняем тонкую настройку, которая использует существующие знание, полученное имитационной моделью из полного обучающего набора и изучающее отображение результатов эксперимента на результаты моделирования , компенсирует его (раздел 8). Этот подход оказывается особенно полезным, и точность результатов настройки оборудования показывает значительное улучшение (98%) по сравнению с тем, что было сделано без точной настройки (92%). Кроме того, этот подход тонкой настройки, который компенсирует расхождения между аппаратными средствами и моделями, может быть использован, если оптический двигатель обрабатывает данные в жестких условиях окружающей среды, для таких приложений, как сверхразрешение на характеристиках обнаружения объектов в спутниковых снимках, которое может привести к случайным рассогласованиям. Для более сложного набора данных, такого как CIFAR-10, который содержит цветные изображения 10 классов, с 6000 изображениями на класс, точность вывода для моделируемой модели составляет 62%, что также близко к регулярно используемой модели свертки пространственной области с полной битовой точностью, для аналогичной архитектуры нейронной сети (один conv. слой) реализован в различных технологиях, таких как однослойная электронная CNN или только фаза 4f схемы (точность 51%). Это многообещающий результат, так как мы показываем, что при моделировании наша сеть с бинаризованными весами ядра способна получить (почти) аналогичный уровень точности, как обычная свертка пространственной области, используя полные прецизионные функции (32 бит). Это может быть объяснено эффективностью тренинга самого 4f система, а также тот факт, что в свертке Фурье имеется больше обучаемых параметров, обусловленных большим размером ядра по сравнению с версией пространственной свертки ( подробнее в разделе 11 дополнения 1). Скрытые степени свободы, предоставляемые оптическим двигателем , считаются “свободными", поскольку время свертки в оптической системе не зависит от размера ядра, пока размер находится в пределах разрешения DMD. После точной настройки с использованием содержащегося числа (5000) аппаратных результатов точность классификации составляет 54%, что является респектабельным, учитывая, что она составляет около 90% от номинальных достижимых результатов (табл.1). Таблица 1. результат свертки области нормального пространства, наша свертка Фурье Имитационная модель, аппаратная модель с тонкой настройкой и без нее Рис. 3. Характеристики амплитудно-только оптического Фурье-двигателя и его потенциал производительности. а) сравнение общего времени обработки для выполнения свертки в зависимости от изображения (матрицы) разрешение (выраженное в мегапикселях) сравнение амплитуды-только Фильтр Фурье (Красная сплошная линия) для графического процессора P100 Nvidia (синяя пунктирная линия подгонки, точки экспериментальных данных) и a 4f система на основе пространственных модуляторов света (серая линия). Здесь мы рассматриваем свертку между двумя изображениями (входным и ядром) с одинаковым разрешением пикселей , выраженным в мегапикселях. Отметка в 2 мегапикселя устанавливает текущее максимальное разрешение DMD этой экспериментальной реализации, но не представляет технологического предела. Круговая диаграмма иллюстрирует разбивку задержки для DMD-based 4f система при выполнении свертки. Общая задержка состоит из времени работы DMD (скорость переключения зеркал—зеленый срез), времени интеграции камеры (желтый срез) и времени полета фотона в оптической установке (фиолетовый срез). (б) программируемый электрооптический пространственный модулятор света, сгруппированный по принципу функционирования, определяет производительность процессора, определяемую размером матрицы-скоростью-продуктом (серые линии iso-производительности). Образцово -показательный, 100x улучшение по сравнению с ОДС на основе системы (например, Optalysys) является прямой функцией размера матрицы и частота обновления: перевозчик допинг (графена [34,35], ТШО [36]), с изменением фазы (ПКМ [37], органических полимеров [18], LCOS-ОДС Гайю-2), MOEMS (Тексас инструментс: 2MPx-DLP9000 и 4 K-DLP660TE, аналоговые MOEMS [38]), а также электромеханические [39], которые позволяют значительно увеличить пропускную способность и снизить латентность предлагаемого 4f система. Сюжет разделен на новые технологии, устройства COTS и потенциальные аппаратные средства с быстродействующими электрооптическими устройствами с частотой ГГц в миллион пикселей, которые могут пространственно модулировать свет для информационных наук и зондирования следующего поколения. Предоставить некоторые подробности, касающиеся эффективности и производительности Роман вычислительная схема на основе 2-мегапиксельной DMDs, АО-ФФ может выполнять между извилин больших матриц, преобразования подсчетам, в 10 раз быстрее, чем видеокарта NVIDIA Р100, обычно используемой для высокопроизводительных вычислений, и более чем на 2 порядка быстрее чем архитектур с использованием пространственных модуляторов света, потребляя при аналогичной мощности. С точки зрения эффективности [Рис. 3(а)], большая часть энергопотребления и времени обработки нашего оптического двигателя поступает со стадии преобразования сигнала, от цифровой электроники к оптической области и наоборот. В нашей оптической системе время обработки для выполнения 8-битной свертки задается суммой всех задержек, включая генерацию паттернов (DMDs), время пролета фотонов через оптическую установку, обнаружение ПЗС-камерой (камерой) и, в конечном счете, передачу для последующей программной обработки. Для 2-мегапиксельного 8-битного входного сигнала и изображений ядра, наибольший вклад в задержку вносит время захвата камеры, за которым следует скорость переключения DMD. Время распространения пренебрежимо мало, так как, учитывая 4f расстояния в игру и оптические инструменты, это составляет несколько наносекунд. Принимая во внимание, что время получения высокоскоростной камеры является функцией разрешения обнаруживаемого изображения и представляет собой узкое место этой текущей реализации. Более высокоскоростная камера может сократить время обработки в 2 раза, сохраняя ту же скорость DMD и разрешение. Глядя на будущий потенциал этого 4f основанная на гибридной ускорительной парадигме, разработка более быстрых и высокоточных пространственных модуляторов и высокоскоростных механизмов обнаружения имеют решающее значение для продвижения к реализации интеллектуальных функциональных возможностей [Рис. 3(б)]. Например, DMDs с более высоким разрешением ( разрешение 4 K) и камеры приведут к еще большему параллелизму (в 16 раз превышающему текущую пропускную способность) по сравнению с нашим прототипом. Интересно, что на исследовательском уровне аналоговая версия MOEMS может достигать высокой скорости модуляции (~10мчz) без торга с разрешением пикселя (~10 мегапиксели) [38]. Использование аналоговых МОЭМС для пространственной модуляции оптического сигнала в сочетании со сверхскоростной камерой (МГц, >>4к разрешение), для преобразования отфильтрованного сигнала в электрическую область, может повысить пропускную способность системы примерно на 4 Порядка. Однако для такой конфигурации электронный интерфейс будет узким местом системы, которая должна быть способна доставлять паттерны и получать данные с общей пропускной способностью в десятки раз больше. ~100 Тера операций в секунду. Тем не менее, наш АО 4f демонстрация оптических процессоров открывает путь к будущим реализациям; например, использование новых технологических компонентов, таких как микрометровые металлические линзы, гигагерцовые быстро перепрограммируемые метаповерхности и высокоскоростные фотодиодные матрицы, позволило бы обеспечить высокую конкурентоспособность, увеличив при этом пропускную способность вычислений до экс-операций в секунду, не меняя при этом энергопотребление. Однако на современном этапе эти компоненты все еще оспариваются с точки зрения разрешения матрицы и достижимого фазового контраста [17,18Эти устройства требуют материалов и конфигураций устройств, которые могут обеспечить эффективное взаимодействие света и материи, совместимость с КМОП, простую и четкую перестройку и достаточную зрелость для масштабирования. 3. выводы Таким образом, мы продемонстрировали только амплитудный электрооптический фильтр Фурье с высокой скоростью программирования и пропускной способностью. Динамика Фурье-фильтрация реализуется с помощью цифровых микромирных устройств, как в объектной, так и в Фурье-плоскости оптического объекта. 4f система. В качестве доказательства принципа демонстрации мы построили нейронную сеть, которая использует в качестве сверточного слоя электрооптический сверточный движок для классификации рукописных цифр (MNIST) и цветных изображений (CIFAR-10). Мы обучили сеть вне чипа, используя детальную физическую модель, которая описывает электрооптическую систему и ее неидеальности, такие как оптические аберрации и рассогласования. После экспериментальной проверки модели и переподготовки следующего полностью связанного слоя для компенсации расхождений значений мы получили точность классификации 98% и 54% для MNIST и CIFAR-10, соответственно, с пропускной способностью до 1000 сверток в секунду между двумя 2-мегапиксельными изображениями, что на 1 порядок быстрее, чем у современного графического процессора. Кроме того, наш научный вклад подчеркивает, что потери информации и неточности, возникающие из-за пренебрежения фазой оптического волнового фронта, могут быть компенсированы степенью надежности, обеспечиваемой обучением нейронной сети, которое дает интеллектуальную классификацию с такой же высокой точностью, как и та, которая получается только с помощью фазового оптического двигателя, при этом отличаясь высокой степенью надежности. На 2 порядка быстрее программируемость. Система также может быть использована для параллельной фильтрации изображений меньшего разрешения, а также путем использования ad hoc электронный интерфейс ввода-вывода, эмулирующий более глубокие нейронные сети, достигающие большого количества соединений и миллионов нейронов. Эта парадигма и аппаратная реализация оптических движков для искусственных нейронных сетей является перспективной альтернативой другой архитектуре машинного обучения, поскольку они могут использовать возможности параллельных вычислений и энергоэффективность, присущие оптическим системам. Наши результаты, представленные для различных задач вывода, указывают на потенциал того, что наша интеллектуальная схема обработки информации может открыть новые перспективы гибкой и компактные платформы, которые могут быть трансформирующими для различных применений, начиная от анализа изображений и заканчивая классификацией изображений и сверхразрешающей визуализацией на беспилотных летательных аппаратах, а также могут обеспечить широкополосную свободную космическую связь в центрах обработки данных, разумно предварительно обрабатывая данные локально на краю сети. Источник: www.osapublishing.org Комментарии: |
|