В этой статье мы поговорим о последних инновационных решениях на основе TCN. Для начала на примере детектора движения рассмотрим архитектуру временных сверточных сетей (Temporal Convolutional Network) и их преимущества перед традиционными подходами, такими как сверточные нейронные сети (CNN) и рекуррентные нейронные сети (RNN). Затем поговорим о последних примерах применения TCN, включая улучшение прогнозирования трафика, локализатор и детектор звука и вероятностное прогнозирование.
Краткий обзор TCN
В фундаментальной работе Леа и др. (2016) было впервые предложено использовать временные сверточные сети для сегментации действий на основе видео. Обычно процесс разбивается на два этапа: во-первых, вычисление низкоуровневых признаков с использованием (чаще всего) CNN, которая кодирует пространственно-временную информацию, и во-вторых, ввод низкоуровневых признаков в классификатор, который получает высокоуровневую временную информацию с помощью (чаще всего) RNN. Главным недостатком такого подхода является потребность в двух отдельных моделях. TCN предлагает унифицированный подход, чтобы покрыть оба уровня информации по принципу иерархии.
На рисунке ниже представлена структура энкодера-декодера, информацию по архитектуре можно найти в первых двух ссылках в конце статьи. Наиболее критические вопросы решаются следующим образом: TCN может взять ряд любой длины и на выходе получить ту же самую длину. Казуальная (casual) свертка используется там, где присутствует полностью сверточная одномерная архитектура сети. Ключевой характеристикой является то, что выходное значение в момент времени t свертывается только с теми элементами, которые произошли по времени до него.


Улучшение прогнозирования трафика
Сервисы райдшеринга и онлайн-навигации могут улучшить прогнозирование трафика и изменить пребывание на дорогах к лучшему. Уменьшение количества пробок, уменьшение загрязнения окружающей среды, безопасное и быстрое вождение – вот всего несколько целей, которых можно достичь за счет улучшения прогнозирования дорожного движения. Поскольку эта проблема основывается на данных в реальном времени, необходимо использовать накопленные данные о трафике. По этой причине Дай и др. (2020) недавно представили гибридную пространственно-временную графовую сверточную сеть (Hybrid Spatio-Temporal Graph Convolutional Network, H-STGCN). Основная идея заключается в том, чтобы использовать преимущества отношения кусочно-линейной скользящей плотности потока и преобразовывать предстоящий объем трафика в его эквивалент времени движения. Одним из наиболее интересных подходов, которые они использовали в своей работе, является свертка графа для получения временной зависимости. Составная матрица смежности отражает врожденные характеристики аппроксимации трафика (чтобы узнать больше, читайте статью Ли 2017 года). В следующей архитектуре представлены четыре модуля для описания всего процесса прогнозирования.

Локализация и обнаружение звуковых событий
Область локализации и обнаружения звуковых событий (SELF) продолжает расти. В автономной навигации понимание среды играет большую роль. Гирджис и др. (2020) недавно предложили новую архитектуру звуковых событий SELF-TCN. Группа исследователей утверждает, что их фреймворк превосходит современные решения в этой области, сокращая время обучения. В их SELDnet (архитектура представлена ниже) многоканальная аудиозапись, дискретизированная на частоте 44,1 кГц, извлекает, применяя кратковременное преобразование Фурье, фазу и величину спектра и выделяет их в виде отдельных входных признаков. Затем соединяются сверточные блоки и рекуррентные блоки (двунаправленные GRU), а затем идет полностью соединенный блок. На выходе из SELDnet можно получить обнаружение звуковых событий и направление, откуда пришел звук.


Вероятностное прогнозирование
Новый фреймворк, разработанный Ченом и др. (2020) может быть применен для оценки плотности вероятности. Прогнозирование временных рядов улучшает многие сценарии принятия бизнес-решений (например, управление ресурсами). Вероятностное прогнозирование позволяет извлекать информацию из исторических данных и минимизировать неопределенность будущих событий. Когда задача прогнозирования состоит в том, чтобы предсказать миллионы связанных временных рядов (как в розничном бизнесе), требуются непомерно большие трудовые и вычислительные ресурсы для оценки параметров. Чтобы разрешить эти трудности, авторы предложили систему оценки плотности и прогнозирования на основе CNN. Их структура может выучить скрытую корреляцию между рядами. Научная новизна в их работе заключается в предложенной ими глубокой TCN, представленной в их архитектуре:

Заключение
В этой статье мы рассмотрели последние работы, связанные с временными сверточными сетями, которые превосходят по тем или иным характеристикам классические подходы CNN и RNN в решении задач временных рядов.
Источники
- Lea, Colin, et al. “Temporal convolutional networks: A unified approach to action segmentation.” European Conference on Computer Vision. Springer, Cham, 2016.
- Lea, Colin, et al. “Temporal convolutional networks for action segmentation and detection.” proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.
- Yan, Jining, et al. “temporal convolutional networks for the Advance prediction of enSo.” Scientific Reports 10.1 (2020): 1–15.
- Li, Yaguang, et al. “Diffusion convolutional recurrent neural network: Data-driven traffic forecasting.” arXiv preprint arXiv:1707.01926 (2017).
- Rethage, Dario, Jordi Pons, and Xavier Serra. “A wavenet for speech denoising.” 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.
- Chen, Yitian, et al. “Probabilistic forecasting with temporal convolutional neural network.” Neurocomputing (2020).
- Guirguis, Karim, et al. “SELD-TCN: Sound Event Localization & Detection via Temporal Convolutional Networks.” arXiv preprint arXiv:2003.01609 (2020).