Усреднение на римановых многообразиях и алгоритмы обучения без учителя на базе нейронной ассоциативной памяти

Д. В. НОВИЦКИЙ

Институт проблем математических машин и систем НАН Украины, Киев

University of Massachusetts Amherst, Department of Computer Science, MA, USA

УСРЕДНЕНИЕ НА РИМАНОВЫХ МНОГООБРАЗИЯХ И АЛГОРИТМЫ ОБУЧЕНИЯ БЕЗ УЧИТЕЛЯ НА БАЗЕ НЕЙРОННОЙ АССОЦИАТИВНОЙ ПАМЯТИ*

В работе предлагается алгоритм обучения без учителя и кластеризации. Данный алгоритм основан на ассоциативной памяти типа Хопфилди с псевдоинверсным правилом обучения. Матрицы весов таких сетей можно представить в виде элементов многообразия Грассмана. Процедура обучения без учителя формулируется как обобщенное усреднение на этом многообразии.

Ключевые слова: ассоциативная память, кластеризация, многообразие Грассмана

Введение

Данная работа посвящена использованию методов римановой геометрии в теории ассоциативной памяти (АП). Оказывается, что римановы многообразия, возникающие в линейной алгебре (такие как многообразия Штифеля и Грассмана), являются удобными объектами для представления синаптических матриц нейросетей ассоциативной памяти. Использование многообразия Грассмана дает возможность построить на базе ассоциативной памяти алгоритм обучения без учителя и кластеризации.

Наш алгоритм основан на псевдоинверсной ассоциативной памяти [1]. Эта АП, как и другие сети типа Хопфилда, способны обучаться, в некотором смысле, «без учителя». Запоминаемые данные не снабжаются метками классов. Однако, такая нейросеть не может использоваться для кластеризации, поскольку неспособна обобщать данные: все обучающие образы запоминаются «как есть». Это значит, что такая система не сможет выделить центры кластеров в массиве данных.

Эта проблема частично решена в [2] и [3]. Авторы данных работ предлагают алгоритм адаптивной фильтрации. Этот алгоритм обладает некоторой способностью обобщать данные, однако матрица сети здесь не является проективной. Это приводит к искажению и порче сети по мере накопления данных. После некоторого количества обучающих данных такая система перестает функционировать как ассоциативная память.

В отличие от [3, 8], по нашему методу всегда производятся проекционные матрицы. С помощью техники обобщенного усреднения на римановых многообразиях строится синаптическая матрица сети. АП с такой матрицей содержит образы, обобщающие обучающие данные. То есть эти векторы могут использоваться как центры кластеров, а их области притяжения выступят в роли самих кластеров.

Предлагаемый метод связан с усреднением подпространств [4] и оптимизацией на многообразии Грассмана [4]. Применение геометрических методов в адаптивной фильтрации исследуется в [6]. Статистическим оценкам инвариантных подпространств посвящена работа [7], где построены оценки Рао-Крамера на МГ.

Поскольку наш алгоритм основан на неитеративной нейропарадигме, он имеет преимущество по скорости. Действительно, даже для больших массивов данных требуется малое количество эпох. Эта особенность делает алгоритм ассоциативной кластеризации привлекательным по сравнению с другими нейропарадигмами, используемыми для этих целей, например, с самоорганизующимися картами Кохонена [8]. Действительно, обучение карт Кохонена – процесс медленный, и зачастую требуются миллионы эпох.

Предварительные замечания

Псевдоинверсная (проекционная) ассоциативная память. Наш алгоритм основан на автоассоциативной памяти с псевдоинверсным правилом обучения [1]. В сетях этого типа запоминаются биполярные векторы: vk?{-1, 1}n, k=1…m . Пусть эти векторы образуют столбцы матрицы V размером m?n. Синаптическая матрица C дается соотношением:

, (1)

где V+ – матрица, псевдообратная к V по Муру-Пенроузу. Ее можно вычислить напрямую по формуле V+= (VTV)-1VT или по формулам Гревиля [9, 11].

Ассоциативный поиск осуществляется с помощью процедуры экзамена: входной вектор x0 служит начальной точкой итераций вида:

(2)

где f – монотонная нечетная функция, такая что . К векторному аргументу она применяется покомпонентно. Устойчивую неподвижную точку этого отображения будем называть аттрактором. Расстояние по Хэммингу между входным вектором x0 и запомненным образом vk такое, что процедура экзамена все еще сходится к vk и называется аттракторным радиусом.

Введем также коэффициент различия r(x, C), между вектором x и проекционной матрицей C. Он определяется формулой

(3)

Заметим, что r(C,x)=0 если x?imC и r(C,x)=1 если x?kerC.

Многообразие Грассмана. Существует известная математическая модель, позволяющая описать множество всех линейных подпространств размерности m в Rn и наделить его метрической структурой. Это риманово многообразие Грассмана (МГ). Риманова структура этого многообразия позволяет определить касательные пространства, метрику, геодезическое расстояние. В данной работе рассматриваются только вещественные многообразия Грассмана.

Определение 1. Множество всех матриц Y размера n?m, таких, что YTY=I c римановой метрикой, индуцированной стандартным вложением в , называется многообразием Штифеля и обозначается Vn,m.

Определение 2. Многообразие всех классов эквивалентности матриц Y из многообразия Штифеля по отношению , где U – произвольная ортогональная матрица размером m?m называется многообразием Грассмана и обозначается Gn,m.

Это многообразие является многообразием всех m-мерных подпространств Rn . В самом деле, каждый элемент многообразия Штифеля задает ортонормированный базис в таком подпространстве, а эквивалентность в определении 2 обеспечивает независимость от выбора базиса. Таким образом, многообразие Грассмана есть фактор многообразия Штифеля относительно действия ортогональной группы: [4].

Из линейной алгебры известно, что существует взаимно-однозначное соответствие между самосопряженными проекционными операторами ранга m, m-мерными линейными подпространствами и элементами многообразия Грассмана . Это соответствие задает

Лемма 1. Каждому m-мерному подпространству взаимно-однозначно соответствует симметричный проекционный оператор C ранга m и точка c на многообразии Грассмана Gn,m .

Доказательство. Выберем в Lm какой-нибудь ортонормированный базис. Пусть векторы этого базиса суть столбцы матрицы Y. Тогда C=YYT – самосопряженный проекционный оператор, образ которого совпадает с Lm. Обратно, для каждого симметричного проекционного оператора C Lm=imC. Соответствие линейных подпространств и элементов Gn,m было показано выше. ?

Существуют различные представления точек многообразия Грассмана. Одно из таких представлений базируется на использовании ортогональных n?m-матриц. Один элемент МГ есть класс эквивалентности таких матриц (см. выше). Устранить эту неоднозначность можно, избрав представление с помощью проекционных матриц: лемма 1 гласит, что каждая такая матрица (взаимно) однозначно определяет элемент МГ. Однако это представление избыточно: используется n2 (или n(n-1)/2 при хранении симметричной матрицы в треугольном виде) вещественных чисел, в то время как размерность МГ составляет всего лишь m(n-m).

Кроме того, представление Грассмана можно использовать для сравнения наборов собственных векторов синаптических матриц, получаемых при различных отклонениях от проекционного алгоритма. Действительно, почти любое искажение исходной матрицы снимает вырождение: m-кратное собственное значение 1 распадается на m различных СЗ. Получившиеся при этом собственные векторы могут сильно отличаться от запоминаемых в матрице. Чтобы корректно сравнить две такие сети, надо определить расстояние между инвариантными подпространствами в целом. В этом случае метрика на многообразии Грассмана служит хорошей мерой близости.

Способы измерения расстояния на МГ различны. Геодезическое расстояние в римановой метрике можно найти, используя сингулярное разложение матриц (SVD, см. [4]). Также можно измерить расстояние как норму разности между двумя проекционными матрицами. Обычно в этом случае используется матричная 2-норма. Для снижения сложности вычисления мы воспользуемся нормой Фробениуса. В таком случае, расстояние между двумя проекционными матрицами X и Y равно

r(Х, Y) = ||X – Y||Fro .

Алгоритм

Постановка задачи. Пусть у нас имеется выборка, содержащая K образов: x1…xK? Rn. Ассоциативную память, которая содержит образы, обобщающие данные выборки, будем строить так:

Сначала разобьем их случайным образом на группы по m штук. Число m<n не должно превышать количество кластеров, которые мы хотим получить. Затем построим по каждой группе матрицу проекционной АП Ck, k=1…N. Для того чтобы объединить все экземпляры ассоциативной памяти в одной «обобщенной» матрице, прибегнем к обобщенному усреднению на римановом многообразии.

Обобщенное усреднение на многообразии. Рассмотрим конечное множество точек некоторого метрического пространства M c расстоянием r(x,y): {xi}. Обобщенным средним данного множества точек будем называть элемент:

(4)

Аналогично, точка

(5)

называется обобщенной медианой данного множества.

Нетрудно видеть, что если M – эвклидово пространство, то обобщенные среднее и медиана совпадают с обычным средним и медианой соответственно.

Как вычислить обобщенное среднее на многообразии Грассмана. Существует несколько представлений элементов многообразия Грассмана Gn,m. Остановимся на представлении в виде проекционных матриц ранга m – такое представление наиболее естественно для задач ассоциативной памяти. В качестве расстояния выберем норму Фробениуса разности матриц. Тогда задача об обобщенном среднем превращается в следующую задачу минимизации

(6)

Преобразуем целевую функцию следующим образом:

Таким образом, задача (6) сводится к поиску проекционной матрицы ранга m ближайшей к среднему арифметическому матриц Ck.

Статистические оценки. Примем следующую модель случайных векторов, представляющих данные кластерной структурой. Пусть случайный вектор состоит из центра кластера (принимающего конечное количество значений, каждое с фиксированной вероятностью), и аддитивного шума. В этих предположениях мы можем построить оценки статистической сходимости алгоритма ассоциативной кластеризации.

Утверждение 3.1. Предположим, что случайный вектор x может быть представлен в виде х = х0 + x, где СВ x0 принимает значения , а x есть случайный некоррелированный вектор с ковариационной матрицей s2I. Пусть C – матрица проекции на линейную оболочку m > p векторов с таким распределением. Тогда инвариантное подпространство математического ожидания C совпадает с пространством, натянутым на центры .

Доказательство. Перейдем к ортогональному разложению, C=YYT: YTY=I. Столбцы ортогональной матрицы Y имеют ту же линейную оболочку, что и , а h есть случайная матрица с нулевым средним и некоррелированными компонентами. Вычислим среднее значение C:

Мы показали, что EC коммутирует с C0; значит, они имеют общее инвариантное подпространство. ?

Матрица, полученная по алгоритму (6) из выборочного среднего, близка к матрице C0 проекции на линейную оболочку центров. Ассоциативная память с такой весовой матрицей содержит векторы, приближенные к неизвестным центрам кластеров; их можно извлечь, используя процедуру ассоциативного поиска.

Постановка эксперимента

Эксперименты выполнялись на случайно сгенерированных биполярных данных (с кластерной структурой). В данной серии экспериментов используется метод поиска аттракторов путем случайного старта. Начальная точка процедуры экзамена (2) выбиралась случайно; итерации продолжались до достижения неподвижной точки. Процедура ассоциативного поиска выполнялась T=10000 раз. Найденные аттракторы сортировались по частоте встречаемости или по коэффициенту различия с матрицей сети.

Использованная сеть также содержала n = 256 нейронов, радиус кластеров составлял H = 64. Матрица сети была получена путем усреднения N = 10000 проекционных матриц. В ходе экспериментов путем конвергенции со случайным стартом были найдены центры всех кластеров. Аттракторы сравнивались с (известными) центрами кластеров, при этом множество центров совпало с множеством первых p аттракторов.

Цель данных экспериментов – доказать способность сети работать с данными, имеющими внутреннюю (заранее известную) «кластерную» структуру. Обучающие данные состоят из подмножеств, «размазанных» вокруг центров кластеров. Следовательно, можно судить, когда алгоритм способен восстановить эти центры.

Данные. Для всех экспериментов использовались 256-мерные векторы данных с биполярными компонентами {+1,-1}.

Сначала были получены p центров кластеризации. Векторы данных как таковые были построены путем добавления к центрам биполярного шума интенсивности h. Это означает, что для получения вектора данных мы случайным образом выбирали h компонент одного из центров и изменяли их знак. Интенсивность шума h была равномерно распределена от 1 до H. Число H будем называть радиусом кластера. Для каждого кластера было построено равное количество точек данных K. Мы выбрали K=1000 для всех испытаний (тестов). Перед началом обучения нейросети данные равномерно перемешивались.

Сеть. Сначала N экземпляров НАП были обучены по псевдоинверсному алгоритму (правилу). Каждая сеть запоминала m случайно отобранных образов (векторов данных). Синаптические матрицы этих сетей усреднялись по вышеописанному алгоритму, в результате получалась проекционная матрица X. Такая сеть использовалась в режиме экзамена для поиска центров кластеризации.

Поиск аттракторов. Для поиска аттракторов мы использовали процедуру экзамена (2). Начальная точка итераций выбиралась случайно, итерации продолжались до достижения неподвижной точки (аттрактора).

Процедура ассоциативного поиска запускалась 10000 раз, все найденные аттракторы сохранялись. Затем все найденные аттракторы сортировались по частоте или по коэффициенту различия.

Экспериментальные результаты

Для исследования поведения сети мы провели вышеописанные эксперименты для различных значений параметров.

Использованная сеть содержала n=256 нейронов, радиус кластеров составлял H=64. Матрица сети была получена путем усреднения N=10000 проекционных матриц. В ходе экспериментов путем конвергенции со случайным стартом были найдены центры всех кластеров. Аттракторы сравнивались с (известными) центрами кластеров, при этом множество центров совпало с множеством первых p аттракторов.

Рис. 1. Частоты появления аттракторов ассоциативной сети с алгоритмом

кластеризации для разных m при p = 8

Рис. 1 соответствует случаю фиксированного числа кластеров p = 8; изменялась размерность инвариантного пространства m. Число m также совпадало с количеством образов, хранившихся в каждом экземпляре псевдоинверсной ассоциативной памяти. Видно, что центры кластеров обнаруживаются описанным методом в широком диапазоне значений m>p. Однако, с увеличением m вероятность сойтись к центру падает, а число паразитных аттракторов растет. При m =3 2 обе вероятности одного порядка, дальнейшее увеличение m делает их одинаковыми, и информация о центрах кластеров теряется.

Следующая серия экспериментов относится к случаю m = p. На рис. 2 аттракторы отсортированы по частоте, разница между центрами и паразитными положениями равновесия падает по мере роста числа кластеров. При m = p = 32 сеть оказалась неспособной полностью решить задачу: лишь 24 центра из 32 были найдены.

Рис. 2. Частоты появления аттракторов ассоциативной сети с алгоритмом

кластеризации для разных p при m=p

На рис. 3 показан другой способ отбора аттракторов: они отсортированы по значению коэффициента различия r(x,C) с синаптической матрицей сети. Такие эксперименты показывают, что разница между полезными и паразитными аттракторами по коэффициенту различия выражена значительно сильнее. Это отношение примерно одинаково для различных конфигураций сети. То есть, коэффициент различия можно использовать для эффективного обнаружения центров. Однако, если поиск по коэффициенту различия используется в сочетании со случайными стартами мы не можем гарантировать, что число запусков сети в режиме экзамена было достаточным для обнаружения центров всех кластеров. Такая ситуация показана на рис. 3, при p = 32. Здесь при помощи сортировки по коэффициенту различия из 32 центров было найдено только 28.

Эксперименты показали также необходимость использования динамической процедуры экзамена (2). Если конвергенция к неподвижной точке не проводилась, вероятности обнаружить центр кластера и паразитный аттрактор были практически равны.

Рис. 3. Коэффициенты различия аттракторов ассоциативной сети с алгоритмом кластеризации для разных p и m = p

Выводы

Проведенные эксперименты показывают, что можно построить нейронные сети ассоциативной памяти, способные обобщать данные. Это открывает возможность создания систем кластеризации на их основе. Неитеративная природа ассоциативной памяти делает ее привлекательной по сравнению с общепринятыми нейропарадигмами, предназначенными для обучения без учителя.

К сожалению, задание значения параметра m ассоциативного кластеризатора требует априорного знания о характере обрабатываемых данных. Это число должно быть больше или равно числу кластеров p, но в то же время не должно превышать последнее в несколько раз. Кроме того, m ограничено емкостью ассоциативной памяти хопфилдовского типа [11]. Эти ограничения можно преодолеть, изменяя метрику или тип многообразия, используемый в алгоритме.

Важно также, что в нашем подходе используются методы оптимизации на римановых многообразиях. Геометрические методы уже доказали свою эффективность в задачах вычислительной линейной алгебры, адаптивной фильтрации и др. (например, [4]). Есть основания полагать, что их применение перспективно и в области искусственных нейронных сетей, распознавания образов. В данной работе используются многообразия одного типа (Грассмана). Обобщение предлагаемого метода на произвольные римановы многообразия с использованием соответствующих алгоритмов (например, описанных в [12]), позволит решить более широкий класс задач.

Список литературы

1. Personnaz L., Guyon I., Dreyfus G. Collective computational properties of neural networks: New learning mechanisms.// Phys. Rev. A, 1986. V.Р. .

2. Reznik A. M. Non-Iterative Learning for Neural Networks. //Proceedings of the International Joint Conference on Neural Networks. Washington DC, July 10-16, 1999.

3. Sitchov A. S. Methods of Improvement of Neural Associative Memory and its Application to Hybrid Modular Neural Networks.//Ph. D. thesis, IMMSP of NAS of Ukraine, Kyiv, Ukraine 2003 (in Ukrainian).

4. Absil P.-A., Mahony R., Sepulchre R. Riemannian geometry of Grassmann manifolds with a view on algorithmic computation.//Acta Applicandae Mathematicae, 2004. V. 80. № 2. Р. 199–220.

5. Edelman А., Arias Т., Smith S. The Geometry of Algorithms with Orthogonality Constraints.// Siam J. Matrix Anal. Appl. V. 20. № 2. Р. 303-353.

6. Smith S. T. Geometric Optimization Methods for Adaptive Filtering.// Ph. D. Thesis. Harvard Univ. Cambridge MA, 1993.

7. Smith S. T. Intrinsic Cramer-Rao bounds and subspace estimation accuracy. 2004.

8. Kohonen, Teuvo Self-organizing maps. //Third edition. Springer Series in Information Sciences, 30. Springer-Verlag Berlin, 2001.

9. Duda R., Hart Р. Pattern Classification. NY: John Wiley & Sons, 2001.

10. Albert. Regression and the Moore-Penrose pseudoinverse.// Academic Press, NY-London, 1972.

11., , Щетенюк матриц в проблеме проектирования ассоциативной памяти // Кибернетика и системный анализ, 2000. № 3. С. 18-27.

12.Dedieu J.-P., Nowicki D. Symplectic methods for the approximation of the exponential map and the Newton iteration on Riemannian submanifolds// Journal of Complexity, Volume 21, Issue 4, August 2005, Pages 487-501, ISSN X, 10.1016/j. jco.2004.09.010.

* Данная работа выполнена при частичной поддержке Office of Naval Research, USA, грант №R.

Усреднение на римановых многообразиях и алгоритмы обучения без учителя на базе нейронной ассоциативной памяти

Комментарии: