Подборка статей о машинном обучении: кейсы, гайды и исследования за февраль 2020

Вслед за январским постом встречайте второй выпуск дайджеста. Здесь вас ждёт список англоязычных материалов за февраль, которые написаны без лишнего академизма. Публикации содержат примеры кода и ссылки на непустые репозитории. Упомянутые технологии лежат в открытом доступе и многие из них не требуют сверхмощного железа для тестирования. Статьи поделены на четыре типа:
Анонсы опенсорсных инструментов и датасетов Практические руководства для PyTorch и TensorFlow Кейсы применения машинного обучения Исследования в области ML

Анонсы опенсорсных инструментов

ClearGrasp Алгоритм призван решить проблему с распознаванием прозрачных объектов, которые неравномерно отражают и преломляют свет. Для работы подойдет любая стандартная RGB-D камера. PyTorch3D Facebook анонсировал высокомодульную и оптимизированную библиотеку для PyTorch, которая упрощает глубокое обучение моделей на трехмерных изображениях. Hydra Новый фреймворк из эко-системы PyTorch, который призван решить проблемы, связанные со сложностью проектов. Предоставляет возможности управления проектом через командную строку и конфигурационные файлы. TensorFlow.js для React Native Инструмент не использует webview для рендеринга и не зависит от API веб-платформ, которые используются в браузере. Таким образом, это новая интеграционная платформа с бэкэндом, который подходит для этой среды.
Matrix Compression Operator Оператор позволяет использовать любую функцию матричного сжатия, заданную как факторизацию, и создавать API тензорного потока, чтобы динамически применять это сжатие во время обучения любой переменной тензорного потока. Torchmeta Библиотека мета-обучения предоставляет единый интерфейс для разных датасетов, чтобы упростить создание новых алгоритмов. AutoFlip Часто требуется изменить ориентацию экрана с горизонтальной (16:9 или 4:3) на вертикальную. Наконец появился фреймворк, который помогает динамически обрезать кадры с минимальными потерями. Инструмент определяет границы кадра и движущиеся объекты, оставляя на экране только самое важное.

Constrained Optimization Library Инструмент для TensorFlow, который позволяет уменьшить степень нечестных результатов при решении задач из реального мира, когда учитывается множество дополнительных параметров (например при выдаче банковских кредитов). Инструмент алгоритмически преобразует ограничения в выборке данных в игру с нулевой суммой для двух игроков. Poincare Maps С помощью гиперболической геометрии инструмент раскрывает иерархические отношения попарных сходств различных клеток. Это позволяет использовать машинное обучение для картографирования и анализа развития клеток организмов. PyTorch Lightning + Torchbearer Создатели высокоуровневой абстракции Torchbearer объединили усилия с набирающей популярность PyTorch Lightning и теперь работают в их команде. Абстракция автоматизирует разработку, делает код стандартизированным, поддерживаемым и масштабируемым. Таким образом, чтобы исследователи могли больше сосредоточиться на науке, а не работе с кодовой базой. Open Images V6 Состоялся релиз шестой версии датасета Open Images, в котором существенно расширили тип маркировки и комментариев к изображениям. Капшены к фотографиям настолько подробные, что также повлияют на дальнейшее развитие междисциплинарных исследований, где компьютерное зрение совмещается с обработкой естественного языка.
CCMatrix: набор данных для обучения моделей перевода Датасет состоит из 4,5 миллиардов битекстовых предложений в 576 языковых парах и поможет в создании более совершенных NMT-моделей.

Руководства

Распределенный метод главных компонент с использованием TFX Как TensorFlow Transform позволяет применять метод главных компонент в масштабируемой форме, используя ресурсы вычислительных кластеров, и как включить обработку преобразований в TFX-пайплайн.
Ускорение нейронных сетей с использованием TensorNetwork в Keras Материал о том, как пользоваться библиотекой TensorNetwork для обработки тензорных сетей в контексте машинного обучения.
TensorFlow Lattice: гибкое, контролируемое и интерпретируемое машинное обучение Вводный обзор о возможностях библиотеки для обучения ограниченных и интерпретируемых решетчатых моделей.

Кейсы

AR-маски с TensorFlow.js Купленный Loreal стартап ModiFace делится опытом применения машинного обучения в контексте AR-масок. На примере бьюти-бренда показано, как машинное обучение может применяться в еcommerce.
Распознавание номерных знаков в реальном времени Пошаговый кейс доказывает, что машинное обучение доступно теперь каждому. Автор рассказывает, как в домашних условиях собрать бюджетное устройство, создать модель, обучить ее, разместить её на AWS, а также разработать клиентскую часть.
Определение уровня загрязнения воздуха с помощью телефона Кейс по созданию приложения, которое определяет уровень загрязнения воздуха по фото с камеры телефона. Проблема, которую нужно было решить —краудсорсить данные от разных пользователей для дальнейшего обучения модели, но при этом обеспечить сохранность пользовательских данных.
Добавления эффекта объема двухмерным изображениям Facebook делится опытом разработки свёрточной нейронной сети программы, которая создает эффект объемной фотографии для двухмерных изображений. При создании потребовалось решить массу проблем, как при обучении модели, так и при оптимизации системы для поддержки мобильных телефонов.

Как не разориться при стремительном росте пользователей Как создатели Dungeon AI масштабировались, чтобы поддерживать 1 млн пользователей, и с помощью Cortex сделали микросервис на основе модели машинного обучения.

Исследования

Использование “Радиоактивных данных” Метод “Радиоактивных данных” позволяет определять, что модель машинного обучения была обучена с использованием конкретного набора данных. Это может помочь исследователям и инженерам отслеживать, какой набор данных использовался для обучения модели, чтобы они могли лучше понять, как различные наборы данных влияют на производительность различных нейронных сетей.
TyDi QA: датасет из вопросов и ответов на разных языках Google опубликовала исследование и наборы данных, состоящий из 200 000 пар вопросов и ответов из 11 языков, представляющих широкий спектр языковых явлений. Участникам исследования предлагали на основе текста задать сопутствующий вопрос, ответ на который не содержится в тексте, после чего предлагалось найти ответ на вопрос в статье Википедии. И эти данные составили датасет.
Искусственное создание наборов данных для клинических исследований В силу разных ограничений очень сложно создавать наборы данных с фотографиями кожных новообразований. Теперь появился инструмент, который генерирует необходимые данные для последующего обучения. DermGAN принимает в качестве входных данных реальное изображение и соответствующую ему предварительно сгенерированную семантическую карту с основными характеристиками реального изображения (тип кожи, состояние кожи, местоположение новообразования), из которой генерирует новый синтетический пример с запрошенными характеристиками. Ускоренное МРТ-сканирование Цель проекта – ускорить МРТ-сканирование пациентов в 10 раз с помощью ИИ. Снимки генерируются с помощью DNN из необработанных данных, и в этом процессе часто появляются артефакты. Исследование рассказывает, как вредоносное машинное обучение помогло сократить их количество.
Оптимизация инфраструктуры для рекомендаций на основе DNN Исследование анализирует разные инфраструктуры, которые используются для выдачи персонализированных рекомендаций товаров, видео и пр. с помощью DNN. Также предоставляются инструменты чтобы проверить, насколько хорошо работают рекомендации, сделанные на основе DNN в производственном масштабе. Например, проводится бенчмарк серверов Intel, используемых в датацентрах (Broadwell, Haswell, Skylake). Txt2? Обзор нового подхода к обучению с подкреплением. Он призван помочь решить сложную задачу, в которой агенту необходимо совершать несколько шагов, на основе цели и знания об окружении, которое может меняться. Модель должна научиться играть в игру, где нужно побеждать монстров на основе определенных правил (Read to Fight Monsters).
Обучение CNN на изображениях со сверхвысоким разрешением Существующие методы параллелизма данных и моделей позволяют обучать нейронные сети с миллиардами параметров, но при этом обучение на данных, состоящих из изображений с высоким разрешением, вроде снимков КТ, остается проблемой. В этой работе рассматривается применимость конволюционных нейронных сетей на изображениях сверхвысокого разрешения (есть код проекта).
Обучение модели ориентированию на картах Street View Google собирает заявки от исследователей, которые готовы помочь создать набор данных для последующего обучений нейронных сетей пространственной ориентации.
T5: новый инструмент для трансферного обучения В результате крупномасштабного опроса исследователи определили лучшее методики трансфертного обучения и применили эти идеи для создания предобученной модели T5, а также датасет на которой она обучалась. В мартовской подборке ожидайте статьи о применении ML в борьбе с COVID-19: определение температуры людей в реальном времени по инфракрасному излучению, диагностика вируса, отслеживание вспышек эпидемии и прочее. А пока на этом всё. Спасибо за внимание!

Подборка статей о машинном обучении: кейсы, гайды и исследования за февраль 2020

Комментарии: