Новый подход к использованию фотонных технологий в машинном обучении

В опубликованной статье «Фотонные процессоры создают условия для более производительного машинного обучения» в журнале «Applied Physics Review» авторы Марио Мискульо и Волькер Соргер из факультета электротехники и вычислительной техники в Университете Джорджа Вашингтона (США), описывают новый подход к выполнению вычислений нейронной сети для машинного обучения с использованием ядер фотонных тензоров вместо графических процессоров (GPU).

Марио Мискульо — доцент кафедры электротехники и вычислительной техники в университете Джорджа Вашингтона. Марио является руководителем подгруппы команды нейроморфных вычислений OPEN Lab, возглавляемой профессором доктором Волкером Дж. Соргером. Марио получил степень магистра в области электротехники и вычислительной техники в Туринском политехническом институте, работая в качестве исследователя в Гарварде/MIT. Он защитил докторскую диссертацию по оптоэлектронике в Университете Генуи в Итальянском технологическом институте, работая научным сотрудником в Молекулярном литейном заводе в Национальной лаборатории им. Лоуренса в Беркли. Его интересы распространяются на науку и инженерию, включая нанооптику и взаимодействие света с веществом, метаповерхности, оптику Фурье и фотонные нейроморфные вычисления.

Авторы предполагают, что в результате этого подхода, производительность обработки оптических потоков данных может стать на 2-3 порядка выше, чем у GPU. Авторы также уверены в том, что фотонные процессоры могут исключительно хорошо работать на периферийных устройствах в сетях 5G.

Волькер Соргер — доцент кафедры электротехники и вычислительной техники, руководитель лаборатории нанофотоники с ортогональной физикой (OPEN) в Университете Джорджа Вашингтона. Получил докторскую степень в Калифорнийском университете, Беркли.

Области его исследований включают в себя оптоэлектронные устройства, плазмонику и нанофотонику, а также фотонно-аналоговую обработку информации и нейроморфные вычисления. Среди его достижений — первая демонстрация полупроводникового плазмонного лазера, аттоджоуль модуляторов, а также быстрых фотонных нейронных сетей PMAC/s и процессоров аналоговых сигналов в реальном времени. За свою работу доктор Соргер получил множество наград, в том числе Президентскую премию за быструю карьеру для ученых и инженеров (PECASE), премию AFOSR для молодых исследователей, премию имени Хегарти за инновации и награду Национальной академии наук года. Д-р Соргер является главным редактором Журнала по нанофотонике, председателем отделения OSA по фотонике и оптоэлектронике, и участвует в заседаниях совета директоров OSA , SPIE и стипендиального комитета. Д-р Соргер является старшим членом IEEE, OSA и SPIE.

В исследуемом подходе ядро фотонного тензора выполняет умножения матриц параллельно, тем самым улучшая скорость и эффективность глубокого обучения. Нейронные сети обучаются тому, как научиться выполнять неконтролируемые решения и строить классификацию невидимых данных. После того как нейронная сеть обучена работе с данными, она может сделать вывод, чтобы распознать и классифицировать объекты, шаблоны, а также найти сигнатуру в данных.

Фотонный процессор TPU хранит и обрабатывает данные параллельно, используя электрооптическое соединение, которое позволяет эффективно считывать и записывать оптическую память, при этом фотонный TPU взаимодействует с другими архитектурами.

«Мы выяснили, что фотонные платформы с встроенной оптической памятью могут выполнять те же самые операции, что и тензорные процессоры. При этом они потребляют меньше энергии и гораздо производительнее. Их можно использовать, чтобы совершать вычисления со скоростью света», — рассказал Марио Мискульо, один из разработчиков.

Большинство нейронных сетей распутывают несколько слоев взаимосвязанных нейронов с целью имитации работы человеческого мозга. Эффективным способом представления этих сетей является составная функция, которая умножает матрицы и векторы вместе. Это представление позволяет выполнять параллельные операции через архитектуры, специализирующиеся на векторизованных операциях, таких как матричное умножение.

Photonic-tensor-core-and-dot-product-engine

Источник: Статья Марио Мискульо и Волькера Соргера. (a) Ядро фотонного тензора (PTC) состоит из 16 световодов, который по своей природе и независимо выполняет построчное умножение и накопление по точкам.

(b) Механизм точечного произведения выполняет умножение между двумя векторами. Шестая строка входной матрицы задается сигналами WDM, которые модулируются быстродействующими (например, Маха-Цендера) модуляторами. J-й столбец матрицы ядра загружается в фотонную память путем правильной установки ее весовых состояний. Используя взаимодействие световой материи с памятью фазового перехода, входные сигналы, своевременно спектрально отфильтрованные микрокольцевыми резонаторами (MRR), взвешиваются в квантованной схеме электропоглощения (то есть амплитудной модуляции), таким образом выполняя поэлементное умножение, Поэлементное умножение некогерентно суммируется с помощью фотоприемника, и называется операцией MAC.

Чем труднее задача и выше требования к точности прогноза, тем сложнее становится сеть. Такие сети требуют больших объемов данных для вычислений и большей мощности для обработки этих данных. Современные цифровые процессоры, подходящие для глубокого обучения, такие как графические процессоры (GPU) или тензорные процессоры (TPU), ограничены в выполнении сложных операций высокой точности в силу мощности, необходимой для этого. А также из-за медленной передачи электронных данных между процессором и памятью.

Разработчики и авторы статьи показали, что производительность TPU может быть на 2-3 порядка выше, чем у электрического TPU. Фотоны идеально подходят для вычислительных сетей и операций, распределенных по узлам, которые выполняют интеллектуальные задачи с высокой пропускной способностью на границе сетей, таких как 5G. Сигналы данных от камер наблюдения, оптических датчиков и других источников могут уже быть в виде фотонов.

«Фотонные специализированные процессоры могут сэкономить огромное количество энергии, сокращая время отклика и обработки данных», — добавил Мискульо. Для конечного пользователя это означает, что в таком случае данные обрабатываются намного быстрее, потому что их большая часть предварительно обрабатывается, а это означает, что только некоторая часть данных может отправлена в облако или центр обработки данных.

Новый подход для оптической и электрической передачи данных

В разбираемой статье представлен пример выбора оптического маршрута для выполнения задач машинного обучения. В большинстве нейронных сетей (НС), которые раскрывают несколько слоев взаимосвязанных нейронов/узлов, каждый нейрон и слой, а также связи самой сети важны для задачи, в которой сеть была обучена. В рассматриваемом связанном слое нейронные сети сильно зависят от математических операций векторной матрицы, в которых большие матрицы входных данных и весов умножаются в соответствии с процессом обучения. Сложные многослойные глубокие НС требуют значительной широты полосы пропускания и низкой задержки, чтобы удовлетворить операции, необходимые для выполнения умножения больших матриц без ущерба для эффективности и скорости.

Как эффективно умножать эти матрицы? В процессорах общего назначения матричные операции выполняются последовательно, при этом требуется постоянный доступ к кэш-памяти, что создает узкое место архитектуры фон Неймана. Специализированные архитектуры, такие как графические процессоры и TPU, помогают уменьшить влияние этих узких мест, позволяя использовать некоторые эффективные модели машинного обучения.

GPU и TPU особенно полезны в сравнении с CPU. Но когда они используются для обучения глубоких НС, выполняя вывод для больших двумерных наборов данных, таких как изображения, они могут потреблять много энергии и требуют более продолжительного времени выполнения вычислений (более десятков миллисекунд). Матричное умножение для менее сложных задач логического вывода по-прежнему испытывает проблемы с задержкой, в основном из-за ограничений доступа к различным иерархиям памяти и задержек при выполнении каждой инструкции в графическом процессоре.

Авторы статьи предполагают, что с учетом этого контекста необходимо изучить и заново изобрести операционные парадигмы современных логических вычислительных платформ, в которых матричная алгебра опирается на постоянный доступ к памяти. В этом отношении волновая природа света и связанные с ним неотъемлемые операции, такие как интерференция и дифракция, могут играть важную роль в повышении вычислительной пропускной способности и одновременном снижении энергопотребления нейроморфных платформ.

Разработчики предполагают, что будущие технологии должны выполнять вычислительные задачи в той области, в которой лежат их изменяющиеся во времени входные сигналы, используя их собственные физические операции. С этой точки зрения фотоны идеально подходят для вычислений распределенных по узлам сетей, выполняющих интеллектуальные задачи над большими данными на границе сети (например, 5G), где сигналы данных могут существовать уже в форме фотонов (например, камера видеонаблюдения, оптический датчик и т. д.), таким образом, предварительно фильтруя и интеллектуально регулируя объем трафика данных, который разрешается направлять по направлению к центрам обработки данных и облачным системам.

Именно здесь они разбирают новый подход с использованием ядра фотонного тензора (PTC), способного выполнять умножение и накопление матриц 4 ? 4 с обученным ядром за один шаг (т.е. не итеративно); иными словами, после обучения весовые коэффициенты НС сохраняются в 4-битной многоуровневой фотонной памяти, непосредственно реализованной на кристалле, без необходимости использования дополнительных электрооптических схем или динамической памяти с произвольным доступом (DRAM). Фотонные запоминающие устройства имеют нанофотонные схемы с низкими потерями и фазовым переходом на основе проводников из G2Sb2Se5, наносимых на планаризованный волновод, который может быть обновлен с помощью электротермического переключения, таким образом способным считываться полностью оптически. Электротермическое переключение осуществляется с помощью вольфрамовых нагревательных электродов, которые взаимодействуют с датчиком памяти изменения фазы (PCM).

Таблица. Сравнение производительности тензорных ядер.

Источник: Статья Марио Мискульо и Волькера Соргера. Ядро фотонного тензора (PTC) с электронной подачей данных (в левом столбце) обеспечивает увеличение пропускной способности в 2–8 раза по сравнению с T4 и A100 от Nvidia, а для оптических данных (например, камеры) увеличение составляет примерно в 60 раз (площадь микросхемы ограничена одним кристаллом ? 800 мм2).

Тесты показали, что производительность фотонных чипов в два-три раза выше, чем у представленных на рынке сегодня. Скорость обработки данных в них может достигать двух петафлопс в секунду, при этом они потребляют около 80 ватт энергии, из которых 95% будет тратиться на поддержку работы чипа, а всего 5% — на вычисления.

Авторы статьи подчеркивают, что эта работа представляет собой первый подход к реализации процессора фотонного тензора, хранящего данные и обрабатывающего их параллельно. Такой процессор может масштабировать количество операций умножения с накоплением (MAC) на несколько порядков, в то же время значительно снижая потребление энергии и задержки в сравнении с существующими аппаратными ускорителями, а также обеспечивать аналитику в реальном времени.

В отличие от цифровой электроники, которая полагается на логические элементы, в интегрированной фотонике умножение с накоплением и многие другие линейные алгебраические операции могут выполняться не итеративно, извлекая выгоду из внутреннего параллелизма, обеспечиваемого электромагнитной природой сигналов световой материи. В этом отношении интегрированная фотоника является идеальной платформой для отображения конкретных сложных операций в аппаратных средствах.

Новый подход к использованию фотонных технологий в машинном обучении

Комментарии: