Какую ценность представляют отсканированные гербарные коллекции

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2017 год во многом стал поворотным в понимании того, какую невероятную ценность представляют отсканированные гербарные коллекции и что они могут дать для всеобщего прогресса в эпоху, когда deep convolutional neural networks, big data и machine learning - это реальность.

Итак, в прошедшем году вышло три статьи, в которых перед машиной поставлена задача научиться определять растения. Это настоящий deep learning - компьютер изучает тысячи отсканированных и определенных гербарных образцов. В отличие от программирования, которое постепенно остается в прошлом, машина самостоятельно делает выводы о том, почему группа образцов получила тэг "Trifolium repens", а другая - "Trifolium pratense". По сути это "другая" классификация растений, основанная на анализе изображений с целью назвать растение.

В отличие от живых растений и их фотографий у гербарных образцов есть одно важное преимущество - все части растения расположены в одной плоскости, всегда отсняты в фокусе и (если растение верно собрано) представляют все его части сразу. В общем, идеальный объект для автоматизированного анализа изображений.

Для чего это нужно? Давайте представим себе картину в абсолюте: все возможные гербарные образцы отсканированы. Это примерно 400 млн листов.

(1) ОПРЕДЕЛЕНИЕ С НУЛЯ. Среди 400 млн образцов есть те, которые не определены до семейства. Кураторы коллекций, а за ними и исследователи получат возможность "передвинуть" образец в дереве жизни с толстой ветки сосудистых растений на более тонкий сук семейства, рода, а, если повезет, то и вида. Это, как минимум, позволит сократить огромные запасы неопределенных до семейств растений, собранных в вегетативном состоянии в тропиках. Такие завалы есть в любом большом гербарии. Соответственно, большие коллекции, до которых не доходили знатоки, вовлекаются в научный оборот.

(2) ВЫЯВЛЕНИЕ ОШИБОК. Из тысяч образцов Acer platanoides наверняка найдутся такие, которые относятся, например, к другому виду. Машина сможет тэгировать образцы, которые являются самыми непохожими на создавшийся в ее представлении "образ" вида. То есть машинный интеллект поможет автоматически найти тысячи ошибок - неверных определений. Во всяком случае, даст знать, что вероятность того, что данный гербарный образец относится к Acer platanoides составляет не 96, а 38%. А вот с уверенностью на 98% это может оказаться Acer pseudoplatanus.

(3) НОВЫЕ ВИДЫ?! Что-то машине может показаться совсем непохожим на ее "образы". Это может быть неплохой подсказкой ученому: проверь, а вдруг новый вид? Или хотя бы тот, что "отсутствует в базе".

На всех этапах в приведенных примерах велика роль ботаника-знатока растений, который пока является единственным мерилом того ошиблась ли машина или нет. Ценность фундаментальных людских знаний при таком подходе только повышается.

Хотя... Вы знаете, я помню как Каспаров побеждал Deep Blue. Спустя пару лет стало ясно: машина играет в шахматы лучше человека. Почему бы ей не научиться в один день определять кавказские горечавки лучше человека? Или мятлики? Или овсяницы?

Помечтали? Но для реализации хотя бы 1% изложенного выше футуриса нужно еще сделать многое. Мировые гербарные фонды оцифрованы примерно на 15%. Они пока не сведены в единое сетевое хранилище с общими кодами доступа. Ну и, конечно, сами схемы deep learning еще будут совершенствоваться. Но я точно знаю одно: когда каша заварится и большой проект начнется, Гербарий Московского университета будет главным поставщиком графических данных по растениям России, почти всех стран бывшего Союза и Монголии. Еще для двух десятков государств это будет хорошее подспорье для совершенствования методов и навыков.

Реальные результаты таковы:

- 90% верно названных до вида образцов для выборки в 1200 видов европейских растений;

-96% правильно разделенных двух близких семейств (99%, если автоматически отсеивать "сомнительные" образцы).

Вот цитаты, кстати:

1) Our evaluation shows that the accuracy for species identification with deep learning technology, based on herbarium images, reaches 90.3% on a dataset of more than 1200 European plant species (Carranza-Rojas et al. 2017).

2) We then show that such a network can correctly distinguish two morphologically similar plant families 96% of the time. Discarding the most challenging specimen images increases accuracy to 99% (Schuettpelz et al., 2017).

В общем, будущее наступило в 2017 году.

PS. Когда я в 1999 г. поступил в МГУ, то впервые увидел Интернет. В 2003 г. на курсах гербарного дела в Кью (Лондон) увидел, как постепенно типовые коллекции сканируются на перевернутом "хербскане", а по ночам отправляются из памяти компьютера на сервер. В конце 2015 г. мы в Гербарии МГУ получили 36 терабайт графических материалов, отсканировав половину фондов в tiff-формате на 300 dpi. А в начале 2018 г. мы занимаем шестое место в мире по онлайн доступ к сканам среди мировых гербариев. Мог ли я себе такое представить в те дни, когда я поступал в университет? Вряд ли.

Ссылки для любознательных:

Carranza-Rojas J, Goeau H, Bonnet P, Mata-Montero E, Joly A (2017) Going deeper in the automated identification of herbarium specimens. BMC Evolutionary Biology 17 (1): 181. https://doi.org/10.1186/s12862-017-1014-z

Schuettpelz, E., Frandsen, P. B., Dikow, R. B., Brown, A., Orli, S., Peters, M., ... & Dorr, L. J. (2017). Applications of deep convolutional neural networks to digitized natural history collections. Biodiversity data journal, (5). (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5680669/)

Zhu, Y., Durand, T., Chenin, E., Pignal, M., Gallinari, P., & Vignes-Lebbe, R. (2017). Using a Deep Convolutional Neural Network for Extracting Morphological Traits from Herbarium Images. Proceedings of TDWG, 1, e20400. (https://biss.pensoft.net/article/20400/download/pdf/)


Источник: www.ncbi.nlm.nih.gov

Комментарии: