Введение в геномику для программистов |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-05-22 03:42 Об авторе. Энди Томасон — ведущий программист Genomics PLC. Он с 70-х годов занимается графическими системами, играми и компиляторами; специализация — производительность кода.
Гены: краткое введение Геном человека состоит из двух копий примерно по 3 миллиарда пар оснований ДНК, для кодирования которых используются буквы A, C, G и T. Это около двух бит на каждую пару оснований: 3 000 000 000 ? 2 ? 2 / 8 = 1 500 000 000 или около 1,5 ГБ данных. Генетические вариации Люди настолько похожи, что для представления человека обычно достаточно хранить небольшой набор «вариаций». ##fileDate=20090805 ##source=myImputationProgramV3.1 ##reference=1000GenomesPilot-NCBI36 ##phasing=partial #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003 20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 1/1:43:5:.,. Здесь у нас три человека с именами NA00001, NA00002 и NA00003 (мы в мире генетики очень серьёзно относимся к безопасности персональных данных), у которых в позиции 14370 хромосомы 20 есть определённые отличия 0|0 , 1|0 и 1|1 от G до A.На человека приходится два числа, поскольку у всех нас две копии хромосомы 20 (по одной от каждого родителя; исключение составляют только половые хромосомы). Мне не повезло, что у меня только одна Х-хромосома, поэтому я унаследовал дальтонизм от деда через мать). Возможны такие варианты: 0|0 обе хромосомы соответствует эталонному образцу 1|0 и 0|1 только одна хромосома отличается от эталона 1|1 обе хромосомы отличаются от эталона Файлы VCF считаются «фазированными», если можно выяснить, на какой конкретно хромосоме находится вариант или, по крайней мере, где он расположен относительно соседей. На практике трудно сказать, из какой хромосомы произошла ДНК, поэтому приходится строить догадки! Таким образом, у нас есть битовый вектор 001011 , которого достаточно, чтобы классифицировать трёх людей в этой вариации. Это гаплотипы или вариации отдельных хромосом.Исследования GWAS С помощью этого битового вектора мы можем попытаться выяснить, какие части генома влияют на болезни или другие индивидуальные свойства, такие как цвет волос или рост. Для каждого варианта мы строим гаплотип для измеряемых признаков (фенотип). Haplotype Height Person 0 1.5m NA00001 0 1.5m 1 1.75m NA00002 0 1.75m 1 1.95m NA00003 1 1.95m Обратите внимание, что у каждого два гаплотипа, потому что у нас пары хромосом. Здесь мы видим, что варианты 1 связаны с более высоким ростом, а значения соответствуют линейной регрессии: beta Изменение роста с изменением вариации. standard error Показатель погрешности. На практике в данных действительно много шума, а погрешность обычно больше, чем beta , но часто у нас есть несколько вариантов, где beta намного превышает погрешность. Это соотношение — Z-оценка и связанное с ней p-значение — показывает, какие варианты с наибольшей вероятностью влияют на рост.Самый простой способ осуществить регрессию — применить инверсию Мура — Пенроуза. Составляем ковариационную матрицу 2?2 со скалярным произведением двух векторов, а решаем задачу методом наименьших квадратов. У нас триллионы точек данных, поэтому важно сделать это эффективно. Проклятие неравновесного сцепления Поскольку мы наследуем от родителей большие фрагменты генома, то определённые области ДНК выглядят очень похоже: они гораздо более похожи, чем это диктует случай. -1 Совершенно противоположные вариации. 0 Вариации не похожи. 1 Вариации абсолютно одинаковы. Для определения схожести вариаций создаём большие квадратные матрицы LD для определённых мест в геноме. На практике многие из вариаций вокруг этого места почти идентичны варианту в середине. Матрица выглядит примерно так, с большими квадратами сходства. v0 v2 v4 v6 v8 va vc ve vg v1 v3 v5 v7 v9 vb vd vf v0 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 v1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 v2 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 v3 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 v4 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 v5 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 v6 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 v7 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 v8 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 v9 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 va 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 vb 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 vc 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 vd 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 ve 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 vf 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 vg 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 Реальные значения не 0 или 1, но очень похожи. В промежутке между v7 и v8 произошла рекомбинация. Из-за этого v0..v7 отличается от v8..vg. Проблема сходства в том, что мы знаем, что один из вариантов в группе что-то вызвал, но не знаем, какой. Это ограничивает разрешение нашего геномного микроскопа, и для решения проблемы придётся использовать дополнительные методы, такие как функциональная геномика. Заключение В конце концов, никогда нельзя быть уверенным на 100%, какой именно участок генома вызвал конкретную индивидуальную особенность, в этом суть генетики. Биология — не точная машина с идеальными деталями фабричного изготовления. Это кипящая масса случайностей, которые каким-то образом создают то, что мы называем жизнью. Вот почему так важна статистика, или «машинное обучение», как теперь её модно называть. Источник: habr.com Комментарии: |
|