«В сфере машинного обучения сильный разброс. У Google не будет всех данных в мире» |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-01-21 05:06 Партнер фонда Andreessen Horowitz Бенедикт Эванс объясняет, почему успехи Google и Facebook в освоении искусственного интеллекта не делают их лидерами в этой области. Перевод издания «Идеономика». Машинное обучение, вероятно, самая фундаментальная тенденция современных технологий. Поскольку основа машинного обучения — это данные, много-много данных, то довольно часто можно услышать опасения, что компании, уже обладающие множеством данных, станут еще сильнее. В этом есть доля правды, но в довольно узком смысле, и в связи с тем, что в области машинного обучения наблюдается значительный разброс возможностей, возможны как централизация, так и децентрализация. Во-первых, что значит — «машинное обучение опирается на данные»? Благодаря академической культуре, из которой происходит машинное обучение, почти все новое, что появляется в этой сфере, публикуется сразу после создания. Эти статьи можно читать и пользоваться ими. Но что вы создаете? В прошлом, если разработчик программного обеспечения хотел создать систему для распознавания чего-либо, он выстраивал логические шаги («правила»). Чтобы распознать кошку на картинке, нужно сформулировать правила, позволяющие найти шерсть, лапы, глаза, заостренные уши и так далее, соединить все это и надеяться, что сработает. Теоретически — возможно, а на практике это все равно, что пытаться сделать механическую лошадь: дело настолько сложное, что становится нецелесообразным. Мы не можем описать все логические шаги, необходимые человеку, чтобы ходить или распознавать кошек. Поэтому в машинном обучении вместо написания правил статистическому алгоритму дают примеры (множество примеров), и этот алгоритм генерирует модель, которая умеет различать категории. Вы предлагаете ему 100 тысяч картинок, помеченные как «кошка», и 100 тысяч картинок, помеченные «нет кошки», и машина распознает разницу. Машинное обучение заменяет задаваемые вручную логические этапы автоматически определяемыми паттернами в данных и работает намного лучше для очень широкого класса вопросов. Самое очевидное — это компьютерное зрение, язык и речь, но варианты использования гораздо шире. Есть разработки, позволяющие машинному обучению работать с относительно небольшим набором данных, но на данный момент (очень) больше данных почти всегда — лучше. Отсюда вопрос: если машинное обучение позволяет вам делать новые и важные вещи, и оно тем лучше, чем больше у вас данных, означает ли это, что компании, которые уже добились лидерских позиций и имеют много данных, становятся еще сильнее? Как далеко заходит эффект «победитель получает все»? Легко представить, что замкнутый круг делает победителя сильнее: «Больше данных = более точная модель = более качественный продукт = больше пользователей = больше данных». Отсюда напрашиваются выводы типа «у Google/Facebook/Amazon есть все данные в мире» или даже «у Китая есть все данные в мире». Они олицетворяют страх, что сильнейшие технологические компании станут еще сильнее, равно как и страны с большим населением и «разрешительным» отношением к централизованному использованию данных. Ну, все не совсем так. Во-первых, хотя вам и нужно много данных для машинного обучения, все они относятся к конкретной узкой проблеме, которую вы пытаетесь решить. У GE много телеметрических данных с газовых турбин, у Google много поисковых данных, а у Amex много данных о мошенничестве с кредитными картами. Нельзя использовать данные о турбинах как примеры для обнаружения мошеннических транзакций, или веб-поиск, чтобы найти газовые турбины, которые могут выйти из строя. То есть машинное обучение — это технология общего назначения. Можно использовать ее для обнаружения мошенничества или распознавания лиц — но приложения, которые создаются на ее основе, не универсальны. Каждый из созданных инструментов умеет делать что-то одно. Это почти то же самое, как и все предыдущие волны автоматизации: стиральная машина умеет стирать одежду, а не мыть посуду или готовить еду, шахматная программа не может платить налоги, система машинного перевода не распознает кошек. И приложения, которые мы создаем, и наборы данных, которые для этого требуются, специфичны для конкретной задачи, которую мы пытаемся решить (хотя опять же, предпринимаются попытки сделать так, чтобы алгоритмы машинного обучения могли переключаться с одного набора данных на другой). Это означает, что в сфере машинного обучения будет сильный разброс. У Google не будет «всех данных в мире» — у Google будут все данные Google. У Google будут более релевантные результаты поиска, у GE будет улучшенная телеметрия, а у Vodafone — более качественный анализ паттернов в телефонных звонках и планирование сети. И это разные вещи, созданные разными компаниями. Google становится лучше в своей нише, но это не значит, что компания каким-то образом становится лучше во всем. Далее, отталкиваясь от этого, можно утверждать, что крупные компании в каждой отрасли становятся сильнее: у Vodafone, GE и Amex есть «все данные» в их сфере, и это мешает свободной конкуренции. Но здесь опять все сложнее: есть много разных интересных вопросов о том, кто именно владеет данными, насколько они уникальны, на каких уровнях они уникальны, и где может быть правильная точка агрегации и анализа. К примеру: будучи промышленной компанией, храните ли вы свои собственные данные и создаете ли системы машинного обучения для их анализа или же платите подрядчику, делающему это за вас? Покупаете ли вы готовый продукт, который уже обучен на основе данных других компаний? Добавляете ли вы свои данные к ним или к алгоритмам, основанным на них? Нужны ли вообще поставщику ваши данные, или имеющихся данных уже достаточно? Ответы будут отличаться в разных частях вашего бизнеса, в разных отраслях и для разных вариантов использования. Взглянем на это с другой стороны. Если вы создаете компанию, чтобы решать реальные проблемы с помощью машинного обучения, существуют два основных вопроса касательно данных: откуда взять первичные данные для обучения моделей, чтобы получить первого клиента, и сколько данных на самом деле нужно? Конечно, второй вопрос разбивается на множество других: решается ли проблема при помощи относительно небольшого объема данных, которые вы можете довольно легко получить (но и многие конкуренты тоже могут), или вам нужно гораздо больше данных, которые получить трудно? И если это так, то есть ли сетевой эффект, приносящий выгоду? Наблюдается ли динамика, при которой победитель получает все? Обязательно ли продукт становится лучше с большим количеством данных, или имеет место S-образная кривая? Когда как.
На практике, поскольку машинное обучение распространяется практически на все, один стартап может взять несколько направлений. Наша портфельная компания Everlaw производит программное обеспечение для анализа юридической информации: если вы предъявляете кому-то иск, а вам присылают в ответ кипу бумаг, программа помогает ее обобщить. Благодаря машинному обучению можно проанализировать эмоциональный тон миллиона электронных писем («покажите тревожные письма»), не обучая эту модель на основе ваших конкретных данных, потому что примеры настроений не обязательно должны исходить из конкретного иска (или любого другого иска). И наоборот, можно выполнять кластерный анализ («покажите письма, которые примерно одинаковы с этим») ваших конкретных данных, не выходя за пределы вашего кейса. Я недавно разговаривал с производителем очень больших автомобилей, который использует машинное обучение, чтобы получить более точный детектор спущенных шин. Система обучается на данных (много-много признаков спущенных и не спущенных шин), конечно, но эти данные несложно получить. Как я сказал ранее, перед стартапом, занимающимся машинным обучением, стоят два вопроса: как получить данные, и сколько их нужно? Но это только технические вопросы. Также нужно решить, как выходить на рынок, определить целевой рынок, понять, насколько ценна для клиентов проблема, которую вы решаете — и так далее, и так далее. То есть довольно скоро не будет никаких «стартапов», которые занимаются искусственным интеллектом вообще — это будут компании, занимающиеся конкретно анализом промышленных процессов, или юридические платформы, или компании по оптимизации продаж.
Машинное обучение — это важный структурный элемент, который делает возможными новые и важные вещи, и который будет везде, как сегодня базы данных на основе SQL. Если вы им не пользуетесь, как это делают ваши конкуренты, вы будете отставать. Некоторые люди будут создавать совершенно новые компании — частично успех Walmart объясняется использованием баз данных для более эффективного управления запасами и логистикой. Но сегодня, если вы начинаете вести розничную торговлю и говорите «…и мы будем использовать базы данных», это не делает ваш бизнес выдающимся и интересным — SQL проник повсюду, а затем растворился в бизнесе. То же самое произойдет с машинным обучением. Источник: vc.ru Комментарии: |
|