Как правильно искать и читать научные статьи?

2018-02-02 19:00

В этом туториале рассмотрим, как искать и эффективно читать научные статьи по машинному обучению и анализу данных, где эти навыки наиболее востребованы.

Научные статьи

Почему именно научные статьи? Если вам необходимо знать актуальное академическое мнение по какому-либо вопросу, то оно изложено в последних научных публикациях. Легко согласиться с мнением эксперта, но чтобы самому стать экспертом, нужно развить критическое мышление и детально разбираться в интересующей вас области. Необходимо регулярно читать последние публикации. Это требует терпения и практики, однако результаты оправдают затраченное время.

Кроме того, в научных статьях рассматриваются современные вопросы и их решения, что открывает возможность быть на шаг впереди конкурентов. Крупные компании экономят собственные ресурсы, следя за работами научного сообщества. Вместо трудоемкой разработки алгоритмов можно реализовать лучшие из решений, предлагаемых в научных статьях.

Как выбирать и где искать научные статьи?

Reddit

Один из самых простых путей для поиска публикаций по вашей тематике, это чтение специализированных веток на Reddit. Так, например, пользователями ветки MachineLearning еженедельно добавляются подборки актуальных публикаций. Если вы делаете первые шаги в этой области, ветки полезны не только ссылками на сами научные статьи, но и активным обсуждением членами сообщества, чего обычно не хватает в тематических архивах статей.

Персональные тематические архивы научных статей

Статьи могут быть собраны в структурированный архив отдельными людьми, сообществами или корпорациями. Так, Андреем Карпатовым, руководителем отдела по разработкам в сфере искусственного интеллекта в компании Tesla, создан сайт Arxiv Sanity.

Этот ресурс представляет собой архив научных публикаций по различным областям машинного обучения. Можно сортировать публикации по времени или популярности, вступать в обсуждения и т. д.

Тематические архивы публикаций

Одной из сложностей в публикации научных работ является длительная процедура издания, в частности процессы рецензирования, корректуры и верстки журнала. Многие ученые для того, чтобы своевременно ознакомить научное сообщество с полученными результатами до выхода статьи в журнальной версии, выкладывают предварительные тексты своих работ, называемые препринтами.

Самыми крупными архивами препринтов по тематике Computer Science являются Cite Seer X и arXiv.org.

Сайт arXiv.org базируется на серверах библиотеки Корнеллского университета, исходно ресурс в большей мере был посвящен статьям по физике, но доля публикаций по Computer Science стремительно растет. Однако научные статьи по машинному обучению нужно искать в другой категории – в статьях по статистике.

Корпоративные архивы статей

Крупные корпорации не только используют публикации научного сообщества, но тратят существенные деньги на исследования в собственных лабораториях. Это позволяет им работать на опережение, первыми вводить в свое программное обеспечение новые решения и задавать современные стандарты.

Результаты этой работы публикуются в тематических журналах и добавляются в корпоративные архивы. Так, на сайте Research at Google можно найти публикации, распределенные по 21 категории, связанных с различными сферами исследований.

Британская компания Deepmind, ставшая подразделением Google в 2014 году, продолжает вести архив публикаций, специализирующийся на статьях, посвященных искусственному интеллекту.

Поиск статей

Все указанные выше источники – тематические. Однако часто на практике требуется найти публикацию, которой по каким-то причинам нет в перечисленных архивах. Самым популярным ресурсом по поиску научных статей является Google Академия (Google Scholar).

Если вам нужна не конкретная статья, а вы ищите публикации по заинтересовавшей теме, рассматривайте в первую очередь самые последние и хорошо цитируемые источники.

Как читать научные статьи?

Казалось бы, вопрос в подзаголовке довольно дурацкий. Берешь статью и читаешь от начала до конца. Но, следуя такой линейной стратегии, большинство новичков отказываются от этого занятия – научные статьи это не художественная литература, и требует напряженной работы.

Чтобы сделать процесс более эффективным, опытные читатели рекомендуют использовать стратегию многостадийного чтения. Мы рассмотрим это на примере чтения публикации в три прохода.

Первое прочтение: беглый обзор

В процессе работы со статьями важно иметь четко поставленную цель. Статьи сами по себе не лучший способ для того, чтобы прокачать свои навыки. Если есть цель, вы более осмысленно и мотивированно работаете с конкретной статьей, даже если в ней представлен сложный материал.

Научные публикации всегда строятся по очень близкому сценарию: Введение – Методы – Результаты – Обсуждение. Нередко научные статьи сопровождаются дополнительными материалами (Supplementary Materials), которые для удобства чтения выносятся за пределы публикации, однако являются важной частью исследования. Например, в машинном обучении это могут быть массивы экспериментальных данных или программная реализация алгоритма.

Чтение любой статьи начинается с заголовка, по которому вы понимаете, интересна ли вам тема статьи или нет. После заголовка следует аннотация (abstract), содержащая выжимку из работы, описывающую ключевые моменты исследования и достигнутые результаты. На первом этапе для вас это самая важная часть текста.

Если аннотация вас заинтересовала, бегло просмотрите введение. Во введении авторы исследования приводят ссылки к другим публикациям, которые обычно в виде списка литературы приводятся в конце публикации. Далее пробегитесь глазами по всей статье, оцените ее объем и структуру. Прочитайте заголовки и подзаголовки. Просмотрите рисунки. При первом просмотре никогда не акцентируйте внимание на математических выкладках. Прочитайте заключение работы, в нем должно быть сделано обобщение полученных результатов – более полное, чем того позволяет аннотация.

При первом прочтении главное – понять структуру статьи, цель и задачи работы, использующиеся инструменты и достигнутые результаты, внесенный авторами вклад. Может оказаться, что вы поймете, что тема слишком далека от ваших интересов. Экономьте свое время, беритесь за чтение только тех статей, которые стоят потраченного времени. Но если беглый просмотр вас удовлетворил, приступайте ко второму этапу.

Второе прочтение: работа с конспектом

После того как вы убедились, что прочтение статьи принесет пользу, очень полезно завести файл заметок – конспекта публикации, в который вы запишите все новые и непонятные вещи. Если вы используете Python, для этой цели отлично подойдет Jupiter Notebook, в котором можно одновременно писать обычный текст, записывать математические изображения и запускать программный код.

Если вы взяли статью из комментируемого источника, просмотрите ее обсуждение. Сравните первые впечатления с замечаниями людей. Занесите в конспект моменты, на которые стоит заострить внимание.

При втором чтении изучайте статью уже более вдумчиво. Изучая введение, соотнесите ссылки, предоставляемые авторами, со списком литературы: может быть, вы уже читали некоторые работы, или авторы дают ссылки на интересные ресурсы. На основе списка литературы вы можете создать специальный список работ для дальнейшего чтения – в них могут содержаться те вопросы, что не рассматриваются в читаемой публикации, так как они были подробно рассмотрены там.

Очевидно, что при чтении вам встретятся незнакомые вещи. В этом нет ничего страшного, копируйте в электронный конспект всё непонятное, особенно наиболее часто встречающиеся термины. Ни в коем случае не ищите сразу их определения. Иначе вы будете слишком часто отвлекаться, терять нить рассказа и будете утомлены переключением между основным текстом и поиском определений.

Постарайтесь пока рассмотреть публикацию с позиций тех знаний, которыми вы уже обладаете. Разберитесь в общих чертах, на «высоком уровне», в математических выкладках. Поймите принципы приведенных в статье алгоритмов. Выпишите в конспект незнакомые математические концепции и функции. Не забывайте читать подписи рисунков и графиков – часто в них даются дополнительные разъяснения.

Третье прочтение: математика, алгоритмы, программирование

После второго прочтения конспект будет полон незнакомых терминов и концепций. Перед заключительным чтением раскройте в конспекте все незнакомые термины. Посмотрите дополнительные ресурсы по тому, что только что изучили: статьи, туториалы, видео, добавьте в конспект поясняющие схемы и скриншоты.

При третьем чтении сфокусируйтесь на математике. Разберите детально каждую математическую строчку. Используйте ручку и бумагу. Обращайтесь к Википедии, когда вам нужно разобраться в более общих вопросах. Если какие-то шаги пропущены как очевидные, выполните их самостоятельно, чтобы убедиться в собственном понимании каждого шага рассуждения. Если в исследовании имеются экспериментальные данные, оцените их воспроизводимость.

Когда вы, наконец, будете считать, что полностью разобрались во всех вопросах, попробуйте написать соответствующий статье программный код. Переведите уравнения на язык функций, введите необходимые параметры, используйте сопроводительные материалы. Если есть код, доступный на GitHub или другом ресурсе, скачайте и просмотрите его, запустите. В коде наверняка встретятся поясняющие комментарии, которые помогут понять практические моменты применения предлагаемых в статье решений. Поиграйте с частями кода и значениями параметров, чтобы понять их влияние на работу алгоритма в целом.

Заключение

Если у вас остались какие-то вопросы, задайте их в сообществе, посвященном публикациям в вашей области исследований. Если же все ресурсы исчерпали себя, попробуйте написать авторам статьи. Для этого в работе после списка авторов обычно указывается e-mail автора-корреспондента.

Еще один полезный прием – читать статьи в заинтересованной компании, например, вместе с коллегами по работе. То, что кажется сложным при чтении одному, может существенно упроститься в результате обсуждений. Если почувствовали, что хорошо разобрались в теме, и думаете, что ваш опыт будет полезен для сообщества, напишите об этом статью на популярном сайте или запишите видео. В этом вам отлично поможет конспект, составленный на втором этапе и дополненный кодом на третьем чтении. Полученный вами отклик зарекомендует вас в сообществе как эксперта в этой области, а задаваемые другими пользователями вопросы позволят выявить лакуны в знаниях.

Источник: proglib.io

Как правильно искать и читать научные статьи?

Комментарии: