Лекция учёного и предпринимателя Рикардо Сабатини о потрясающей плотности упаковки информации

2017-04-08 17:24

машинное обучение python, Теория эволюции

Лекция учёного и предпринимателя Рикардо Сабатини о потрясающей плотности упаковки информации, записанной в геноме, о том, что делает наше тело – нашим, как методы Big data и машинное обучение помогут улучшить наши знания о геноме и позволят персонализировать лечение генетических заболеваний и рака.

Публикую перевод лекции Анны Котовой на русский язык и видео с русскими субтитрами.

https://www.ted.com/talks/riccardo_sabatini_how_to_read_the_genome_and_build_a_human_being/transcript?language=ru

0:11 Следующие 16 минут мы с вами проведём в путешествии к тому, что, возможно, является величайшей мечтой человечества: к пониманию кода жизни.

0:20 Для меня это путешествие началось много-много лет назад, когда я увидел первый 3D-принтер.Просто потрясающий принцип: 3D-принтеру необходимы три вещи — немного информации, исходный материал и энергия, и тогда он способен напечатать любой не существовавший ранее предмет.

0:37 Я тогда занимался физикой и, возвращаясь как-то домой, осознал, что на самом деле всегда был знак?м с 3D-принтером. Как и любой из нас. Этот принтер — моя мама.

0:45 (Смех)

0:46 Мама взяла три ингредиента: немного информации — в данном случае от себя и от папы, —исходный материал и энергию, то есть пищу, и через несколько месяцев она произвела на свет меня — не существовавший ранее объект.

1:01 Шокировав маму новостью о том, что она на самом деле 3D-принтер, я был совершенно зачарован одним из ингредиентов, самым первым — информацией. Сколько нужно информации, чтобы произвести человека? Много? Мало? Сколько нужно флеш-карт, чтобы всё уместилось?

1:20 Я когда-то изучал физику и представил человека как конструкцию LEGO гигантских размеров. Вообразите, что она состоит из маленьких атомов: водорода, углерода, азота. Тогда получается, что если составить список всех атомов, из которых состоит человек, то можно его создать. Что ж, можно произвести подсчёты и получить совершенно невероятное число. Количество атомов, тот самый файл, который нужно сохранить на флешке, чтобы создать ребёнка... На самом деле вам придётся заполнить такими флешками целый «Титаник», точнее, 2 000 таких «Титаников». ВОТ ОНО — ЧУДО ЖИЗНИ. ОТНЫНЕ, ВСТРЕТИВ БЕРЕМЕННУЮ ЖЕНЩИНУ, ПОМНИТЕ: ОНА СОБИРАЕТ ВОЕДИНО САМЫЙ БОЛЬШОЙ МАССИВ ИНФОРМАЦИИ, О КОТОРОМ ВЫ КОГДА-ЛИБО СЛЫШАЛИ. КУДА ДО НЕГО БОЛЬШИМ ДАННЫМ И ПРОЧИМ ШТУКАМ. ЭТО САМЫЙ БОЛЬШОЙ В МИРЕ МАССИВ ДАННЫХ.

2:21 (Аплодисменты)

2:25 К счастью, природа намного разумнее молодого физика и за 4 миллиарда лет умудрилась упаковать всю эту информацию в маленький кристаллик под названием ДНК. Впервые мы увидели ДНК в 1950 году, когда Розалинд Франклин, замечательная женщина-учёный, смогла получить её снимок. Но понадобилось больше 40 лет, чтобы забраться в человеческую клетку, достать этот кристаллик, развернуть и впервые его прочесть. Код оказался довольно простой азбукой — всего четыре буквы: А, Т, С и G. И чтобы создать человека, понадобится 3 миллиарда этих букв. 3 миллиарда. Насколько это много? Само число нам ни о чём не говорит.

3:11 Я задумался, как понагляднее объяснить, насколько этот код грандиозен и огромен. Мне понадобится помощь, и кто лучше может представить вам код жизни, чем человек, впервые его расшифровавший, Крейг Вентер? Итак, добро пожаловать на сцену, Крейг Вентер.

3:31 (Аплодисменты, в студию вносят на тележках более чем 175 томов книг)

3:38 Не сам Крейг во плоти, но, впервые в истории, ген?м конкретного человека, распечатанный постранично, буква за буквой, 262 000 страниц информации, 450 килограммов, доставленных из США в Канаду, — спасибо Бруно Бодену и компании Lulu.com, которые всё организовали. Это был целый подвиг.

4:06 Вот наглядное представление кода жизни. А сейчас я впервые могу проделать кое-что занятное. Я могу заглянуть внутрь и почитать. Давайте-ка я возьму интересную книжку, к примеру, вот эту. У меня тут закладка — том довольно увесистый. Давайте я покажу вам, как выглядит код жизни. Тысячи, тысячи, тысячи, миллионы букв. И они явно что-то означают. Давайте заглянем вот сюда. Я вам почитаю:

4:43 (Смех)

4:45 «ААG, AAT, ATA».

4:49 Для вас это ничего не значащие буквы, но эта последовательность отвечает за цвет глаз Крейга. Я покажу вам ещё одну книгу. Здесь чуть посложнее.

5:01 Хромосома 14, том 132.

5:04 (Смех)

5:06 Как и следовало ожидать.

5:08 (Смех)

5:13 «AТT, CTT, GATT».

5:19 Этому человеку повезло, потому что, пропади хотя бы две буквы вот в этом месте — всего две буквы из трёх миллиардов, — он был бы обречён на ужасный недуг: муковисцидоз. Лекарств от него не придумано, мы не знаем, что с этим делать, — и всего лишь две буквы отделяют нас от этой болезни.

5:38 Удивительная, мощная книга, которая помогла мне понять и показать вам нечто весьма примечательное. ТО, ЧТО ДЕЛАЕТ МОЕ ТЕЛО МОИМ, А ВАШЕ - ВАШИМ, — ВСЕГО ЛИШЬ ПЯТЬ МИЛЛИОНОВ БУКВ, ПОЛОВИНА ТОМА. В ОСТАЛЬНОМ НАШИ ГЕНОМЫ СОВЕРШЕННО ИДЕНТИЧНЫ. ЧУДО ЖИЗНИ, КОИМ ВЫ ЯВЛЯЕТЕСЬ, — ЭТО ВСЕГО ПЯТЬ СОТЕН СТРАНИЦ. ВСЁ ОСТАЛЬНОЕ У ВСЕХ ОДИНАКОВО. ВСПОМНИТЕ ОБ ЭТОМ, КОГДА УСЛЫШИТЕ, ЧТО ВСЕ МЫ РАЗНЫЕ. ВСЁ ЭТО У НАС ОДИНАКОВО.

6:14 Теперь, когда я вас заинтересовал, задам новый вопрос: а как читать этот код? Как в нём разобраться? Что ж, даже если вы специалист по сбору мебели из IKEA, на то, чтобы раскусить эту инструкцию, вам не хватит всей жизни.

6:30 (Смех)

6:31 В 2014 году два знаменитых участника TED, Питер Диамандис и Крейг Вентер, решили создать новую компанию. Так появилась Human Longevity, миссией которой было испытать всё, что можно испытать, исследовать всё, что можно исследовать в этих книгах, с одной целью: воплотить в реальность мечту о персонализированной медицине, понять, что нужно сделать, чтобы улучшить здоровье и разгадать все загадки этих книг.

6:59 Замечательная команда — 40 специалистов по обработке данных и многие другие люди, прекрасные коллеги. Идея на самом деле очень проста. Мы используем технологию под названием «машинное обучение». С одной стороны, у нас есть тысячи геномов. С другой стороны, мы собрали огромнейшую базу данных о различных индивидуумах: фенотипы, 3D-снимки, магнитный резонанс — чего там только нет. Две противоположные стороны связаны секретом трансляции генов. Мы создали для этого машину и научили её — вообще-то, не одну, а много-много машин — научили понимать и транслировать геном в фенотип. Что это за буквы, за что они отвечают? Такой подход применим повсюду, но в геномике он особенно замысловат. Потихоньку мы развивались и ставили перед собой различные задачи. Мы начали с простого — с общих характеристик. С ними удобно работать, потому что они общие, они есть у каждого.

8:01 Мы начали задаваться вопросами. Можно ли предугадать рост? Можно ли прочесть эти тома и угадать ваш рост? На самом деле можно — с точностью до 5 сантиметров. Индекс массы тела часто связан с образом жизни, но его тоже можно предсказать с погрешностью в 8 килограммов. Спрогнозировать цвет глаз? Можем. С точностью 80%. Цвет кожи? С точностью 80%. Можем ли мы угадать возраст? Да, потому что, по всей видимости, код меняется с возрастом: укорачивается, какие-то кусочки теряются, какие-то появляются. Мы считываем сигналы, мы создаём модель.

8:39 Вот интересная задачка: можем ли мы предугадать черты лица? Это непросто, потому что гены, отвечающие за черты лица, зашифрованы в миллионах букв. Лицо человека трудно поддаётся определению. Над этим пришлось поработать отдельно: изучить и объяснить машине, что такое лицо, а затем встроить эти данные в алгоритм. Если вы разбираетесь в машинном обучении, вы понимаете, насколько это сложно.

9:03 Спустя 15 лет после первой расшифровки, в октябре этого года, мы начали получать первые сигналы. Это был очень волнующий момент. Здесь вы видите лицо участницы эксперимента нашей лаборатории, мы работали с этим лицом. Мы берём данные его черт, упрощаем их, так как нам не нужно всё — многие особенности и дефекты приобретаются уже в течение жизни. Мы делаем лицо более симметричным и запускаем наш алгоритм. Результаты, которые я вам покажу, — это то, что нам удалось предсказать на основе образца крови.

9:40 (Аплодисменты)

9:42 Секундочку. Сейчас вы переводите взгляд слева направо, справа налево: вашему мозгу хочется найти признаки идентичности этих изображений. Для чистоты эксперимента давайте сделаем по-другому. Пожалуйста, поищите различия, их здесь немало. Самый сильный сигнал отвечает за пол, затем возраст, индекс массы тела, этническую принадлежность. Разобраться в этих сигналах совсем непросто. Но то, что вы здесь видите, даже различия, показывает, что мы на верном пути, мы всё ближе к истине. Уже только это будоражит эмоции.

10:20 Это ещё один наш испытуемый, а это полученный прогноз. Лицо не такое крупное, не совсем удалось передать строение черепа, но всё равно — очень близко. Вот другой испытуемый, а вот наш расчёт. Когда мы обучали машину, мы не использовали эти изображения. Это так называемый «резерв». Но в случае с этими людьми вам трудно оценить наш успех. Мы всё опубликуем в научной статье, вы сможете её почитать.

10:52 Однако Крис поставил передо мной непростую задачу. Возможно, я рисковал, но я попытался спрогнозировать внешность человека, которого вы способны узнать. Итак, в этой пробирке с кровью — поверьте, вы даже не представляете, на что нам пришлось пойти, чтобы добыть эту пробирку, — в этой пробирке находится биологическая информация, необходимая для полной расшифровки генома. Достаточно вот такого количества. Мы сделали расшифровку, я вас проведу через процесс. Слой за слоем складывается наша картинка. С помощью этой пробирки мы определили, что это мужчина. И это действительно мужчина. Мы предсказали, что его рост — 1,76 см. Рост испытуемого — 1,77 см. Мы рассчитали, что он весит 76 кг, оказалось — 82 кг. Предсказанный возраст — 38 лет. Испытуемому 35. Определили цвет его глаз. Более тёмный оттенок. Теперь цвет кожи. Почти угадали. Вот его лицо.

11:56 Настаёт момент истины: вот наш испытуемый.

12:01 (Смех)

12:03 Я сделал это нарочно. У меня очень специфическая национальность. Южноевропеец, итальянец — мы вечно не вписываемся в модели. А для нашей модели этническая принадлежность очень важна. Но есть ещё кое-что. Одна из черт, которую мы часто используем для узнавания лиц, никогда не будет отражена в геноме. Это наш свободный выбор, это то, как я выгляжу. В моём случае — не прическа, а форма бороды. Сейчас я вам покажу — и это Photoshop и ничего больше, никакого моделирования — мы перенесём бороду вот сюда. И сразу же всё становится гораздо лучше.

12:41 Итак, зачем мы этим занимаемся? Конечно, не для того, чтобы угадывать рост или получать красивые картинки по данным крови. Мы делаем это потому, что эта технология, этот метод, машинное обучение в генетике, помогает нам понять, как мы функционируем, как работает наше тело, как оно стареет, как возникают заболевания, как появляется и развивается рак, как действуют лекарства и действуют ли они на вас лично.

13:18 Это сложнейшая задача. Над этой задачей мы работаем вместе с тысячами других исследователей по всему миру. Это называется «персонализированная медицина». Это переход от статистического подхода, когда вы капля в море, к персонализированному подходу, когда мы читаем все эти книги и точно понимаем все ваши особенности. Но задача эта особенно сложна, потому что сегодня из всех этих томов мы изучили, вероятно, примерно 2% — 4 тома из более чем 175.

13:57 Но я сегодня говорю не об этом, потому что всё ещё впереди. Над этим работают лучшие умы планеты. Мы научимся лучше предсказывать, модель станет точнее. И чем больше мы будем узнавать, тем больше перед нами будет вставать вопросов, с которыми нам не приходилось сталкиваться раньше: вопросов о жизни, о смерти, о рождении и воспитании детей.

14:31 Мы касаемся самых потаённых деталей того, как работает сама жизнь. Эту революцию нельзя ограничивать рамками науки и технологии. Это должно обсуждаться глобально. Нам нужно задуматься о будущем человечества. Нужно взаимодействовать с творческими людьми, художниками, философами, политиками. Это касается каждого, потому что это будущее нашего биологического вида. Без страха, но с пониманием того, что решения, которые мы примем в ближайшем будущем, способны навсегда изменить ход истории.

15:14 Спасибо.

15:15 (Аплодисменты)

Источник: vk.com

Лекция учёного и предпринимателя Рикардо Сабатини о потрясающей плотности упаковки информации

Комментарии: