Какую ценность представляют отсканированные гербарные коллекции

2018-01-21 19:33

машинное обучение python, архитектура нейронных сетей, Методы научного исследования

2017 год во многом стал поворотным в понимании того, какую невероятную ценность представляют отсканированные гербарные коллекции и что они могут дать для всеобщего прогресса в эпоху, когда deep convolutional neural networks, big data и machine learning - это реальность.

Итак, в прошедшем году вышло три статьи, в которых перед машиной поставлена задача научиться определять растения. Это настоящий deep learning - компьютер изучает тысячи отсканированных и определенных гербарных образцов. В отличие от программирования, которое постепенно остается в прошлом, машина самостоятельно делает выводы о том, почему группа образцов получила тэг "Trifolium repens", а другая - "Trifolium pratense". По сути это "другая" классификация растений, основанная на анализе изображений с целью назвать растение.

В отличие от живых растений и их фотографий у гербарных образцов есть одно важное преимущество - все части растения расположены в одной плоскости, всегда отсняты в фокусе и (если растение верно собрано) представляют все его части сразу. В общем, идеальный объект для автоматизированного анализа изображений.

Для чего это нужно? Давайте представим себе картину в абсолюте: все возможные гербарные образцы отсканированы. Это примерно 400 млн листов.

(1) ОПРЕДЕЛЕНИЕ С НУЛЯ. Среди 400 млн образцов есть те, которые не определены до семейства. Кураторы коллекций, а за ними и исследователи получат возможность "передвинуть" образец в дереве жизни с толстой ветки сосудистых растений на более тонкий сук семейства, рода, а, если повезет, то и вида. Это, как минимум, позволит сократить огромные запасы неопределенных до семейств растений, собранных в вегетативном состоянии в тропиках. Такие завалы есть в любом большом гербарии. Соответственно, большие коллекции, до которых не доходили знатоки, вовлекаются в научный оборот.

(2) ВЫЯВЛЕНИЕ ОШИБОК. Из тысяч образцов Acer platanoides наверняка найдутся такие, которые относятся, например, к другому виду. Машина сможет тэгировать образцы, которые являются самыми непохожими на создавшийся в ее представлении "образ" вида. То есть машинный интеллект поможет автоматически найти тысячи ошибок - неверных определений. Во всяком случае, даст знать, что вероятность того, что данный гербарный образец относится к Acer platanoides составляет не 96, а 38%. А вот с уверенностью на 98% это может оказаться Acer pseudoplatanus.

(3) НОВЫЕ ВИДЫ?! Что-то машине может показаться совсем непохожим на ее "образы". Это может быть неплохой подсказкой ученому: проверь, а вдруг новый вид? Или хотя бы тот, что "отсутствует в базе".

На всех этапах в приведенных примерах велика роль ботаника-знатока растений, который пока является единственным мерилом того ошиблась ли машина или нет. Ценность фундаментальных людских знаний при таком подходе только повышается.

Хотя... Вы знаете, я помню как Каспаров побеждал Deep Blue. Спустя пару лет стало ясно: машина играет в шахматы лучше человека. Почему бы ей не научиться в один день определять кавказские горечавки лучше человека? Или мятлики? Или овсяницы?

Помечтали? Но для реализации хотя бы 1% изложенного выше футуриса нужно еще сделать многое. Мировые гербарные фонды оцифрованы примерно на 15%. Они пока не сведены в единое сетевое хранилище с общими кодами доступа. Ну и, конечно, сами схемы deep learning еще будут совершенствоваться. Но я точно знаю одно: когда каша заварится и большой проект начнется, Гербарий Московского университета будет главным поставщиком графических данных по растениям России, почти всех стран бывшего Союза и Монголии. Еще для двух десятков государств это будет хорошее подспорье для совершенствования методов и навыков.

Реальные результаты таковы:

- 90% верно названных до вида образцов для выборки в 1200 видов европейских растений;

-96% правильно разделенных двух близких семейств (99%, если автоматически отсеивать "сомнительные" образцы).

Вот цитаты, кстати:

1) Our evaluation shows that the accuracy for species identification with deep learning technology, based on herbarium images, reaches 90.3% on a dataset of more than 1200 European plant species (Carranza-Rojas et al. 2017).

2) We then show that such a network can correctly distinguish two morphologically similar plant families 96% of the time. Discarding the most challenging specimen images increases accuracy to 99% (Schuettpelz et al., 2017).

В общем, будущее наступило в 2017 году.

PS. Когда я в 1999 г. поступил в МГУ, то впервые увидел Интернет. В 2003 г. на курсах гербарного дела в Кью (Лондон) увидел, как постепенно типовые коллекции сканируются на перевернутом "хербскане", а по ночам отправляются из памяти компьютера на сервер. В конце 2015 г. мы в Гербарии МГУ получили 36 терабайт графических материалов, отсканировав половину фондов в tiff-формате на 300 dpi. А в начале 2018 г. мы занимаем шестое место в мире по онлайн доступ к сканам среди мировых гербариев. Мог ли я себе такое представить в те дни, когда я поступал в университет? Вряд ли.

Ссылки для любознательных:

Carranza-Rojas J, Goeau H, Bonnet P, Mata-Montero E, Joly A (2017) Going deeper in the automated identification of herbarium specimens. BMC Evolutionary Biology 17 (1): 181. https://doi.org/10.1186/s12862-017-1014-z

Schuettpelz, E., Frandsen, P. B., Dikow, R. B., Brown, A., Orli, S., Peters, M., ... & Dorr, L. J. (2017). Applications of deep convolutional neural networks to digitized natural history collections. Biodiversity data journal, (5). (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5680669/)

Zhu, Y., Durand, T., Chenin, E., Pignal, M., Gallinari, P., & Vignes-Lebbe, R. (2017). Using a Deep Convolutional Neural Network for Extracting Morphological Traits from Herbarium Images. Proceedings of TDWG, 1, e20400. (https://biss.pensoft.net/article/20400/download/pdf/)

Источник: www.ncbi.nlm.nih.gov



		Какую ценность представляют отсканированные гербарные коллекции
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Психология Работа головного мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовые компьютеры Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2018-01-21 19:33 машинное обучение python, архитектура нейронных сетей, Методы научного исследования 2017 год во многом стал поворотным в понимании того, какую невероятную ценность представляют отсканированные гербарные коллекции и что они могут дать для всеобщего прогресса в эпоху, когда deep convolutional neural networks, big data и machine learning - это реальность. Итак, в прошедшем году вышло три статьи, в которых перед машиной поставлена задача научиться определять растения. Это настоящий deep learning - компьютер изучает тысячи отсканированных и определенных гербарных образцов. В отличие от программирования, которое постепенно остается в прошлом, машина самостоятельно делает выводы о том, почему группа образцов получила тэг "Trifolium repens", а другая - "Trifolium pratense". По сути это "другая" классификация растений, основанная на анализе изображений с целью назвать растение. В отличие от живых растений и их фотографий у гербарных образцов есть одно важное преимущество - все части растения расположены в одной плоскости, всегда отсняты в фокусе и (если растение верно собрано) представляют все его части сразу. В общем, идеальный объект для автоматизированного анализа изображений. Для чего это нужно? Давайте представим себе картину в абсолюте: все возможные гербарные образцы отсканированы. Это примерно 400 млн листов. (1) ОПРЕДЕЛЕНИЕ С НУЛЯ. Среди 400 млн образцов есть те, которые не определены до семейства. Кураторы коллекций, а за ними и исследователи получат возможность "передвинуть" образец в дереве жизни с толстой ветки сосудистых растений на более тонкий сук семейства, рода, а, если повезет, то и вида. Это, как минимум, позволит сократить огромные запасы неопределенных до семейств растений, собранных в вегетативном состоянии в тропиках. Такие завалы есть в любом большом гербарии. Соответственно, большие коллекции, до которых не доходили знатоки, вовлекаются в научный оборот. (2) ВЫЯВЛЕНИЕ ОШИБОК. Из тысяч образцов Acer platanoides наверняка найдутся такие, которые относятся, например, к другому виду. Машина сможет тэгировать образцы, которые являются самыми непохожими на создавшийся в ее представлении "образ" вида. То есть машинный интеллект поможет автоматически найти тысячи ошибок - неверных определений. Во всяком случае, даст знать, что вероятность того, что данный гербарный образец относится к Acer platanoides составляет не 96, а 38%. А вот с уверенностью на 98% это может оказаться Acer pseudoplatanus. (3) НОВЫЕ ВИДЫ?! Что-то машине может показаться совсем непохожим на ее "образы". Это может быть неплохой подсказкой ученому: проверь, а вдруг новый вид? Или хотя бы тот, что "отсутствует в базе". На всех этапах в приведенных примерах велика роль ботаника-знатока растений, который пока является единственным мерилом того ошиблась ли машина или нет. Ценность фундаментальных людских знаний при таком подходе только повышается. Хотя... Вы знаете, я помню как Каспаров побеждал Deep Blue. Спустя пару лет стало ясно: машина играет в шахматы лучше человека. Почему бы ей не научиться в один день определять кавказские горечавки лучше человека? Или мятлики? Или овсяницы? Помечтали? Но для реализации хотя бы 1% изложенного выше футуриса нужно еще сделать многое. Мировые гербарные фонды оцифрованы примерно на 15%. Они пока не сведены в единое сетевое хранилище с общими кодами доступа. Ну и, конечно, сами схемы deep learning еще будут совершенствоваться. Но я точно знаю одно: когда каша заварится и большой проект начнется, Гербарий Московского университета будет главным поставщиком графических данных по растениям России, почти всех стран бывшего Союза и Монголии. Еще для двух десятков государств это будет хорошее подспорье для совершенствования методов и навыков. Реальные результаты таковы: - 90% верно названных до вида образцов для выборки в 1200 видов европейских растений; -96% правильно разделенных двух близких семейств (99%, если автоматически отсеивать "сомнительные" образцы). Вот цитаты, кстати: 1) Our evaluation shows that the accuracy for species identification with deep learning technology, based on herbarium images, reaches 90.3% on a dataset of more than 1200 European plant species (Carranza-Rojas et al. 2017). 2) We then show that such a network can correctly distinguish two morphologically similar plant families 96% of the time. Discarding the most challenging specimen images increases accuracy to 99% (Schuettpelz et al., 2017). В общем, будущее наступило в 2017 году. PS. Когда я в 1999 г. поступил в МГУ, то впервые увидел Интернет. В 2003 г. на курсах гербарного дела в Кью (Лондон) увидел, как постепенно типовые коллекции сканируются на перевернутом "хербскане", а по ночам отправляются из памяти компьютера на сервер. В конце 2015 г. мы в Гербарии МГУ получили 36 терабайт графических материалов, отсканировав половину фондов в tiff-формате на 300 dpi. А в начале 2018 г. мы занимаем шестое место в мире по онлайн доступ к сканам среди мировых гербариев. Мог ли я себе такое представить в те дни, когда я поступал в университет? Вряд ли. Ссылки для любознательных: Carranza-Rojas J, Goeau H, Bonnet P, Mata-Montero E, Joly A (2017) Going deeper in the automated identification of herbarium specimens. BMC Evolutionary Biology 17 (1): 181. https://doi.org/10.1186/s12862-017-1014-z Schuettpelz, E., Frandsen, P. B., Dikow, R. B., Brown, A., Orli, S., Peters, M., ... & Dorr, L. J. (2017). Applications of deep convolutional neural networks to digitized natural history collections. Biodiversity data journal, (5). (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5680669/) Zhu, Y., Durand, T., Chenin, E., Pignal, M., Gallinari, P., & Vignes-Lebbe, R. (2017). Using a Deep Convolutional Neural Network for Extracting Morphological Traits from Herbarium Images. Proceedings of TDWG, 1, e20400. (https://biss.pensoft.net/article/20400/download/pdf/) Источник: www.ncbi.nlm.nih.gov Комментарии:

Какую ценность представляют отсканированные гербарные коллекции

Комментарии: