Как линейная алгебра раскрыла в языке скрытый сексизм

2016-09-30 15:35

алгоритмы машинного обучения, искусственный интеллект

Как линейная алгебра раскрыла в языке скрытый сексизм. Попутно с тем, как нейронные сети раскрывают всю структуру языка, они помогли найти то, о чем никто и не догадывался - признаки скрытой половой дискриминации.

Еще в 2013 году несколько сотрудников Google провели исследование, в ходе которого пропустили через нейронную сеть три миллиона слов из Google News. Целью было раскрыть принципы следования слов друг за другом.

Результат, выданный сетью, был сложен для восприятия, но команда Google обнаружила, что его можно представить в качестве модели с использованием векторов в трехсотмерном пространстве.

Оказалось, что слова с похожими значениями занимали аналогичные части этого векторного пространства. И связи между словами могут быть отражены в рамках простой линейной алгебры. Например, «мужчина - король так же, как женщина - королева», или используя общие обозначения «мужчина: король: женщина: королева». Сразу появляются другие связи, такие как «сестра: женщина: брат: мужчина» и так далее. Эти связи так же известны как «словесные соответствия».

Этот набор данных был назван Word2vec и оказался чрезвычайно полезным. Многие исследователи начали его использовать для лучшего представления различных процессов - от машинного перевода до интеллектуального поиска в интернете.

Но сегодня Толга Болукбасы из Бостонского университета и несколько сотрудников из Microsoft Research утверждают, что с этой базой данных есть одна проблема: она явно неравноправна к женщинам.

У них есть множество доказательств в качестве подтверждения своих доводов. Все начинается с подачи запроса векторному пространству для поиска соответствий. Например, можно поставить вопрос следующим образом: «Париж : Франция :: Токио : х», и это даст вам ответ х=Япония.

Но спросите базу «отец : врач :: мать : х», и она вам ответит х = медсестра. А запрос «мужчина: программист :: женщина: х» дает вам х = домохозяйка.

Другими словами, словесные соответствия ведут себя крайне сексистски. Это происходит потому, что любая необъективная позиция в статьях, из которых состоит основной фонд данных Word2vec, будет неизбежно отражена в геометрии векторного пространства. Болукбасы с коллегами это приводит в отчаяние. «Можно было бы надеяться, что выборка Google News будет менее склонна к половой дискриминации, так как многие из ее авторов являются профессиональными журналистами», - говорит он.

Так что же делать? У бостонской команды есть решение. Поскольку векторное пространство является математическим множеством, оно может быть изменено стандартными математическими приемами.

Решение очевидно. Сексизм можно рассматривать как своего рода искривление этого векторного пространства. В самом деле, гендерная принадлежность может быть свойством, которое может потребоваться найти в векторном пространстве. Так что решением является вопрос применения обратного искривления для сохранения общей структуры пространства.

Такова теория. На практике сложность заключается в измерения этого искривления. Команда делает это путем поиска векторного пространства для пар слов, которые создают векторы наподобие «она: он». Это открывает огромный список гендерных аналогий. Например: она: он; акушерка: врач; вышивка: столярное дело; медсестра: доктор; проститутка: трус; парикмахерша: цирюльник; голая: с голым торсом; грудь: задница; хихиканье: ухмылка; няня: шофер и т.д.

Исследователи хотят понять, являются ли данные аналогии приемлемыми или нет. Для этого они пользуются услугами Mechanical Turk - созданного Amazon в 2005 году интернет-рынка краудсорсерского труда. Они продемонстрировали десяти работникам каждую из аналогий и спросили, показались ли они им содержащими предубеждения. Аналогии определяются предвзятыми, если более половины работников признают их таковыми.

Результат получился интересным. Данный метод ясно показал явное гендерное нарушение в таких парах, как акушерка: врач; вышивка: столярное дело и медсестра: доктор, и небольшое искривление в таких парах: женственность: мужественность; женский монастырь: мужской монастырь; сумочка: портфель и т.д.

Отформатировав исчерпывающий перечень пар с гендерным несоответствием, команда использовала эту информацию, чтобы выяснить, как это отражено в векторном пространстве и как его можно изменить, чтобы исправить это искривление. Они называют этот процесс «жесткое обратное смещение».

В конце концов, они воспользовались измененным векторным пространством для создания нового списка гендерных аналогий и снова попросили рабочих оценить их. Это породило такие аналогии: она:он; курица: петух; горничная: дворецкий; девчонки: парни; дочь: сын и т.д.

Они утверждают, что по результатам опроса рабочих этот процесс значительно уменьшает отклонения. «Эмпирическим методом оценки мы демонстрируем, что наш алгоритм жесткого обратного смещения позволяет значительно снизить как прямую, так и косвенную дискриминацию по половому признаку, сохраняя при этом само соответствие», - рассказывает Болукбасы с коллегами.

Конечным результатом является векторное пространство, в котором значительно снижен гендерный перекос.

Это очень важно в применении на практике. Каждый перекос в системе соответствия слов, находящихся в Word2vec, автоматически переносится в каждое использующее их приложение. Одним из примеров является использование системы для улучшения поиска в сети. Если фраза «программист» более тесно связана с мужским полом, чем с женским, то поиск термина «резюме программиста» может ранжировать мужчин выше, чем женщин. «Соответствия слов не только отражают стереотипы, но и усиливают их», - говорят в команде Болукбасы.

Очевидно, что язык наполнен множеством примеров половой дискриминации, которые трудно оправдать. Возникает интересный вопрос, в какой степени следует использовать данный вид векторного пространства, чтобы исправить это.

«Другой точкой зрения на искажения в соответствии слов является то, что они всего лишь отражают предубеждения в обществе, и поэтому скорее следует исправлять общество, чем соответствия в системе, - говорит Болукбасы. - Тем не менее за счет уменьшения перекоса в современных компьютерных системах (или, по крайней мере, предотвращения его усиления), которые в большой степени зависят от системы соответствий, мы надеемся хоть немного способствовать уменьшению половой дискриминации в обществе».

Это кажется достойной целью. Как приходит к выводу бостонская команда, «По крайней мере, машинное обучение не должно быть использовано для непреднамеренного усиления этих искажений».

Источник: rb.ru

Как линейная алгебра раскрыла в языке скрытый сексизм

Комментарии: