Статьи
- Catalyst 101 — Accelerated PyTorch — вводная статья о фреймворке Catalyst.
- FP64, FP32, FP16, BFLOAT16, TF32, and other members of the ZOO — краткое описание форматов с плавающей запятой и где они используются.
- Classification of Brain MRI as Tumor/Non Tumor — об обучении и применении простых CNN для анализа MPT головного мозга.
- Using AI to predict retinal disease progression — о новой ML-модели, которую создал DeepMind совместно с Moorfields Eye Hospital и Google Health для распознавания развития заболевания сетчатки.
- Beyond fashion: Deep Learning with Catalyst — одно из самых полных руководств по настройке DL-пайплайна с Catalyst и развертыванию модели в продакшене.
- Automation in Manufacturing: Emerging Trends and Solutions — о трендах и решениях использования ML на производствах.
- Model Evaluation Metrics in Machine Learning — подробное объяснение метрик ML моделей для задач классификации.
- Making an Augmented Reality product using Computer Vision — технические детали использования компьютерного зрения для продукта дополненной реальности.
- Machine Learning in Healthcare: Fundamental Challenges vs. Immense Opportunities — о челенжах и возможностях использования ML в здравоохранении.
- Optimize Response Time of your Machine Learning API In Production — о том, как на продакшене минимизировать время отклика DL-модели.
- Monitoring Machine Learning Models in Production — детальное руководство о мониторинге ML-моделей в продакшене.
- Meet my assistant, an ML-based system — про CADx (computer-aided diagnosis) системы в здравоохранении и использование ML-моделей в них.
- Random Forest Regression: When Does It Fail and Why? — об экстраполяции — основной проблеме использования случайного леса для регрессии.
- Tesseract OCR: Text localization and detection — про Tesseract OCR для обнаружения и распознавания текста на изображениях.
- Top Down Introduction to BERT with HuggingFace and PyTorch — обзорная статья о BERT и разбор популярных кейсов его использования.
Научные статьи
Ежедневно в канале #article_essence Slack-чата Open Data Science сообщества обсуждаются разные научные статьи. Кто еще не присоединился к нашему сообществу, приглашаю сделать это, а пока предлагаю свежую подборку из канала.
- Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization — самый простой и надёжный на данный момент способ визуализировать «а куда же смотрит нейронка».
- SegAttnGAN: Text to Image Generation with Segmentation Attention — усовершенствование архитектуры для text to image AttnGAN, суть которого в том, что в генератор изображения добавлен вход сегментационной маски генерируемого объекта. Также разработан вариант с self-attention, когда маска генерируется непосредственно из текста с помощью отдельного генератора.
- Identity-Preserving Realistic Talking Face Generation — новая SOTA в talking head generation, где отдельное внимание уделили раздельному получению ландмарок лица, а также обучили отдельную сеть для генерации моргания глаз.
- Single-Stage Semantic Segmentation from Image Labels — новая работа по weakly supervised семантической сегментации, в которой для получения карт сегментации используются только метки классов. Достаточно проста в обучении, показывает себя либо наравне либо лучше текущей state of the art.
- SuperGlue: Learning Feature Matching with Graph Neural Networks — Хорошо работающая графовая нейронная сеть для матчинга локальных фичей и получения гомографии (альтернатива RANSAC). Основана на графовом механизме внимания.
- SurfelGAN: Synthesizing Realistic Sensor Data for Autonomous Driving — GAN для генерации синтетики для обучения self-driving машин, генерирует различные виды одного маршрута, используя данные с лидара, а также семантическую и инстанс сегментацию
- Consistent Video Depth Estimation — способ получения точной и геометрически правдоподобной карты глубины для всех кадров видео, используя предобученную single-image depth estimation модельку.
- Unsupervised Intra-domain Adaptation for Semantic Segmentation through Self-Supervision — новая сота в Unsupervised Domian Adaptaion (это когда обученную на большом количестве синтетики модель адаптируют к реальным данным без лейблов на реальных данных)
Датасеты
- VoxClamantis - корпус по фонетике на 700 языков.
- VGGFACE2 — один из крупнейших датасетов для распознавания лиц, содержащий 3.3М изображений.
- ePillID Dataset — датасет для идентификации таблеток.
- Real World Masked Face Dataset — датасет для распознавания лиц с масками.
- Holopix50k — датасет стереоизображений дикой природы, содержащий 49 368 пар изображений.
- CQ500 — датасет из 491 CT сканого головного мозга.
Видео
- Feature Stores for ML.
- ICLR 2020 Recordings: Workshops, Papers.
- Introduces Data-Center-Scale Accelerated Computing (NVIDIA GTC 2020 Keynote).
- Pattern-Exploiting Training for NLP.
- ScaledML 2020.
Спасибо, что дочитали этот выпуск. Надеюсь, каждый нашел для себя полезное. Буду благодарен за любые предложения для следующего дайджеста.
Присоединяйтесь к Telegram-каналу дайджеста и его страницам в соцсетях: Medium, Facebook, Twitter, LinkedIn.