вход на сайт

Имя пользователя :
Пароль :

Восстановление пароля Регистрация

Высоко аннотированная последовательность всего генома корейского человека

Библиотека бактериальной искусственной хромосомы (BAC) была сконструирована из геномной ДНК AK1. Геномные местоположения около 100000 клонов АК1 ВАС были определены путем секвенирования ( Дополнительная таблица 1 ). Массивно параллельное секвенирование ДНК было выполнено с использованием последовательного синтеза с химией обратимых терминаторов на анализаторах генома Illumina с использованием двух взаимодополняющих стратегий ( Таблица 1 , Дополнительная таблица 2 а также Дополнительный рис. 1 ). Сначала отобранные геномные области секвенировали на очень большой глубине, используя перекрывающиеся клоны ВАС. Хромосома 20 секвенировалась таким образом с 155-кратным охватом, как и 390 других областей генома, на которые обычно влияют варианты количества копий (CNV) (в среднем 151-кратное покрытие). Во-вторых, секвенирование целого генома было выполнено для всего генома до средней глубины 27,8 × с использованием библиотек геномной ДНК АК1 с различными размерами вставок для обеспечения равномерного охвата. Некоторые последовательности были получены с использованием переформулированного реагента расщепления, который более полно удалял флуорофоры тимина. Это улучшило фазировку и уменьшило фоновые сигналы, частоту появления ошибок и смещение ГХ при более длительных чтениях ( Дополнительный рис. 2 ), что приводит к увеличению выхода последовательности и длины считывания до 18 гигабаз (Gb) на ячейку потока и 106 нуклеотидов соответственно. Среднее качество последовательности составило 24 ( Q балл 3 ) и 74,4% последовательностей выровнены по эталонному геному человека (сборка NCBI 36.3) с использованием инструмента выравнивания GSNAP, допускающего 5% несовпадений 7 , 8 , 9 , В общей сложности было представлено 99,8% эталонного генома, и не было оценено смещение охвата, за исключением ожидаемых разрывов в центромерах и других гетерохроматических областях ( Дополнительное обсуждение ). Таблица 1: Обзор библиотек и данных о последовательности

Биоинформационные фильтры были обучены обнаруживать и генотипировать SNP в выровненных последовательностях. Фильтры, полученные путем сравнения генотипов SNP, полученных в результате секвенирования, с результатами массива генотипирования Illumina 370K, дали положительную прогностическую ценность и чувствительность обнаружения SNP на уровне 99,9% и 95,0% соответственно ( Дополнительный Рис. 3 а также Дополнительная таблица 3 ), а точность генотипа SNP 99,1% ( Дополнительный Рис. 4 а также Дополнительная таблица 4 ). Эти фильтры обнаружили 3 453 653 SNP в геноме AK1 (плотность 1,21 на килобазу (кб)), из которых 17,1% были новыми и 10 162 не были синонимами ( Дополнительные таблицы 5 и 6 ). Эти результаты были подтверждены гибридизацией геномной ДНК из AK1 с генотипирующим массивом Illumina 610K, глубоким секвенированием клонов BAC хромосомы 20 и повторным секвенированием по Сэнгеру генома AK1 ( Дополнительные таблицы 7, 8 а также Дополнительное обсуждение ). Количество SNP, обнаруженных в геноме AK1, было таким же, как у Джеймса Уотсона, выше, чем у Крейга Вентера и китайского YH, и меньше, чем у африканца йоруба, NA18507 ( Рис. 1а, б а также Дополнительная таблица 9 ), что может отражать различия в технических процедурах или индивидуальную изменчивость 1 , 2 , 3 , 4 , Перекрытие среди 9 527 824 SNP, обнаруженных в этих пяти секвенированных геномах, указывает на то, что 21% SNP AK1 были уникальными, а 8% были общими для всех ( Рис. 1б ). В общей сложности 2110403 SN1 AK1 были гетерозиготными, что дало более высокое разнообразие SNP, чем в геномах Venter, Watson или YH, но меньше, чем у йоруба (соотношение гетерозигот / гомозигот SNP 1,57 и разнообразие нуклеотидов (π) 7,40 × 10- 4; Дополнительное обсуждение ). Последовательность других геномов с использованием единых технических процедур необходима для оценки доли генетической дисперсии, объясняемой различиями внутри и между популяциями людей.

Рисунок 1: Географическая карта и диаграмма Венна для пяти секвенированных геномов, распределения инделя и корреляции плотностей SNP-инделя.Рисунок 1: Географическая карта и диаграмма Венна для пяти секвенированных геномов, распределения инделя и корреляции плотностей SNP-инделя

а , географическая карта, показывающая районы происхождения пяти секвенированных геномов. Тип МТ, митохондриальная гаплогруппа. б , количество SNP, перекрывающихся между пятью геномами. c , Корреляция между SNP-индил плотности на хромосоме 6 (за окно 10-килобайт). Сверху: плотность SNP, плотность инделя, плотность SNP-инделя (скользящее среднее из десяти окон размером 10 кб), плотность SNP в части хромосомы 6 и плотность инделя в той же части хромосомы 6. Ось x представляет нуклеотид положение в Мб.

Мы применили те же самые биоинформационные фильтры к последовательности генома AK1 для обнаружения индейцев ( Дополнительные методы ). Эталонный геном NCBI содержал 7910 экзонных несоответствий по сравнению с эталонным транскриптом ( Дополнительное обсуждение ). Исключая их, фильтры SNP обнаружили 170 202 инделя (плотность 0,060 на килобайт), из которых 71 995 были гомо- или гемизиготными. Шестьдесят два процента инделей были новыми, а 55,9% были удалены ( Дополнительные таблицы 10 и 11 ). Обнаруженный диапазон размеров составлял от -29 до +5 нуклеотидов с приблизительно нормальным распределением частот ( Дополнительный Рис. 5 ). Двести двенадцать индейцев AK1 картированы в кодирующих доменах, что в три раза больше, чем сообщалось для генома YH, и одна четвертая от того, что сообщалось для генома Вентера 1 , 4 ( Дополнительный Рис. 6 а также Дополнительная таблица 12 ). Эти отмеченные различия отражают существенные различия между отдельными лицами или между техническими процедурами, подчеркивая необходимость определения основополагающих стандартов данных. Результаты Indel были подтверждены повторным секвенированием Сэнгером геномной ДНК AK1 и глубоким секвенированием ВАС-хромосомных клонов 20, что показало, что чувствительность обнаружения Indel была менее 80%, тогда как прогностическая ценность положительного результата составляла 100% ( Дополнительное обсуждение ). Недооценка инделя была неизбежна в локальных повторяющихся или гомополимерных последовательностях, содержащих индлс в конце чтения или рядом с ним ( Дополнительное обсуждение ). Семьдесят индексов кодирующих доменов были гомозиготными, из которых 26 были генами с записями онлайн-менделевского наследования у человека (OMIM), 13 из которых имели медицинские фенотипы ( Дополнительная таблица 13 ).

Весьма значимые парные корреляции плотности SNP и инделя наблюдались по всему геному (корреляция Пирсона 10 был 0,40 всего генома, P <10-300; Рис. 1с , Дополнительный Рис. 7 а также Дополнительная таблица 14 ). Эта корреляция SNP-индель, по-видимому, является общим явлением в отдельных геномах человека, а не техническим артефактом, поскольку она также была обнаружена в геноме YH ( Дополнительная таблица 14 ) и сообщалось о других эукариотах, включая приматов 11 , 12 , 13 , 14 , 15 , 16 , SNP-независимая ковариация плотности не была функцией глубины покрытия или плотности генов ( Дополнительная таблица 14 ). Геномная корреляция SNP и плотности плотности в отдельных геномах человека является новым открытием, и предполагает, что объединение молекулярных или временных соображений лежит в основе генерации и / или удаления обоих типов вариантов 11 , 12 , 13 , 14 , 15 , 16 ,

Несколько дополнительных подходов были использованы для обнаружения CNV в AK1 ( Дополнительный Рис. 8 ). Для больших делеций генома AK1 мы использовали события, идентифицированные при глубоком секвенировании 1132 клонов BAC, в качестве тренировочного набора ( Дополнительный Рис. 9 ). Большинство из них показали снижение охвата, преобладание гомозиготных SNP (для гетерозиготных делеций) и выравнивание «растянутых» парных прочтений в последовательностях целого генома ( Дополнительный Рис. 10 ). Мы использовали эти критерии, чтобы отфильтровать делеции кандидатов, обнаруженные с помощью новой, специально разработанной 24-миллионной сравнительной геномной гибридизации (CGH) с набором зондов, которая обнаружила в общей сложности 1237 областей CNV ( Дополнительный Рис. 11 а также Дополнительная таблица 15 ), а также генотипирование микрочипов ( Дополнительная таблица 16 ). Рисунок 2а показывает пример делеции в геноме AK1, обнаруженной как секвенированием BAC, так и CGH с характеристиками, упомянутыми выше. Рисунок 2b показана другая делеция, где падение охвата при секвенировании всего генома было не таким заметным, как при секвенировании BAC. Тем не менее, последняя область содержит все другие особенности удалений, иллюстрируя полезность секвенирования BAC для обнаружения CNV. 238 областей, которые соответствовали этим консервативным критериям, представляют собой наиболее достоверный список истинных делеций, все же идентифицированных в отдельной последовательности генома ( Дополнительный Рис. 10 а также Дополнительная таблица 17 ). Удаления в AK1 варьировались от 277 до 196 900 баз в длину и составили 2,4 Мб. Сто сорок восемь из них ранее не были описаны в базе данных геномных вариантов по состоянию на 10 ноября 2008 года (DGV; http://projects.tcag.ca/variation/ ).

Рисунок 2: Типичные примеры геномных вариаций в АК1.

а) Гомозиготная делеция, идентифицированная с помощью целевого гаплоидного секвенирования (вверху) и диплоидного секвенирования (внизу). Растянутые пары секвенирования и падение покрытия секвенирования определяют удаление в обеих панелях. Chr, хромосома. б) Гетерозиготная делеция, идентифицированная с помощью целевого гаплоидного секвенирования (вверху) и подтвержденная диплоидным секвенированием (внизу). Растянутые пары подтверждают удаление в диплоидной последовательности, но полное падение покрытия не обнаружено. c ) Увеличение числа копий идентифицируется с помощью микрочипа CGH (вверху) и подтверждается увеличенным охватом соответствующей области генома путем диплоидного секвенирования (внизу). Для всех панелей: синяя, кратность покрытия; горизонтальные красные линии, растянутые пары последовательностей; зеленый, область CNV в DGV; серый, ген; вертикальные красные столбики, гомозиготные SNP; вертикальные черные полосы, гетерозиготные SNP; и прерывистые вертикальные серые линии определяют границы структурных вариантов.

Увеличение числа копий в AK1 было выбрано консервативно с тремя подходами для разных размеров вставок: (1) массив CGH, описанный выше, давал вставки в диапазоне от 2,15 до 1,06 Мб, (2) выровненные конечные последовательности BAC давали вставки от 16,8 до 357,1 кб и (3) выровненные считывания парного конца с длинной вставкой позволили получить вставки от 0,9 до 2,2 кб ( Дополнительные таблицы 18–20 ). Эти регионы были подтверждены увеличением секвенирования этих геномных областей ( Дополнительные рисунки 12–14 ). Пример показан в Рис. 2с в котором повышенный сигнал на микрочипе совпал с соответствующим значительным усилением покрытия секвенирования. Геном AK1 содержал 77 копий по количеству копий, что составило 7,0 Мб. Тридцать три (42,8%) из них отсутствовали в DGV и поэтому считались новыми.

Несинонимичные SNP, обнаруженные в AK1, сравнивали с теми, которые были идентифицированы в геномах YH и Yoruban. 3 , 4 (которые были установлены с использованием технических подходов, аналогичных используемым здесь) ( Рис. 3а ). Хотя только 37% SN1 AK1 были распределены между этими тремя геномами, 57% генов, которые содержали несинонимичные SNPs в AK1, были общими для всех трех ( Рис. 3а а также Дополнительное обсуждение ). Эти данные указывают на то, что у этих людей подмножество генов обогащено несинонимичными SNP. Онтологический анализ этого подгруппы генов показал обогащение функций, связанных с адаптацией к окружающей среде, таких как сенсорная функция, иммунологическая функция и сигнальная трансдукция ( Дополнительная таблица 21 ). Возможно, эти гены имеют повышенное разнообразие и / или много псевдогенов.

Рисунок 3: Потенциальное значение вариантов AK1 и сравнение несинонимичных SNP среди трех секвенированных геномов.Рисунок 3: Потенциальное значение вариантов AK1 и сравнение несинонимичных SNP среди трех секвенированных геномов

a , Top, число несинонимичных SNP (nsSNP) и генов, содержащих несинонимические SNP, сравнивается между корейским (AK1), ханьским (YH) и йорубанским (NA18507) геномами. Внизу, сравнение несинонимных SNP и генов, содержащих несинонимические SNP в AK1, с геномами YH и Yoruban. Общие обозначения, общие для трех геномов. Левая ось: количество nsSNP (синее) или генов, содержащих nsSNP (красное); правая ось: отношение (%) количества генов nsSNP к количеству nsSNP (зеленое). б , семьсот семьдесят три SNP, потенциально связанные с клиническими фенотипами, полученными из базы данных данных мутаций генов человека (HGMD), OMIM, SNPedia и других гипотез. СД, сахарный диабет; NIDDM, инсулиннезависимый сахарный диабет; Туберкулез, туберкулез. с , гены, затронутые крупными гомозиготными и гетерозиготными хромосомными делециями.

Используя Trait-o-matic - алгоритм высокопроизводительной аннотации вариантов - было идентифицировано 773 SNP, которые могли быть связаны с клиническими фенотипами (JV Thakuria и GM Church, рукопись готовится; Дополнительная таблица 22 ). Из них 269 были относительно распространенными SNP, ранее связанными с риском сложных расстройств или признаков. Например, геном AK1 содержал 90 SNP, которые показали ассоциации с восприимчивостью к различным видам рака, 34 SNP с сахарным диабетом II типа, 13 с болезнью Альцгеймера и семь с ревматоидным артритом. Однако эти данные следует интерпретировать с осторожностью, поскольку факторы риска развития сложных заболеваний, например ревматоидного артрита, различаются в популяции северо-западной Европы и Кореи 17 и потому что перевод генетического бремени в оценку риска для полигенных признаков является зачаточным. Геном AK1 также содержал 504 несинонимичных SNP в генах, связанных со сложными или менделевскими расстройствами или признаками. Из них 22 были стоп-кодонами и пять были гомозиготными. Среди менделевских черт AK1 был гомозиготным по варианту, придающему сухую ушную серу 18 это имеет высокую частоту аллелей у корейцев. Были идентифицированы восемнадцать вариантов фармакогенетической значимости, потенциально влияющих на дозирование, эффективность и / или токсичность агонистов β-2-адренорецепторов, статинов, росиглитазона, варфарина, циталопрама, абакавира, дебрисохина, блеомицина, фторурацила и арамицина-C ( Рис. 3б ).

CNVs показали ассоциации с общими, сложными расстройствами у людей. Сто шесть шести генов были затронуты потерями CNV в AK1 ( Рис. 3с ). Одним геном, удаленным в геноме АК1, был лейкоцитарный иммуноглобулин-подобный рецептор ( LILRA3 ). Большинство северо-восточных азиатов имеют функциональную потерю или удаление этого локуса, что, как полагают, находится под положительным или сбалансированным отбором. 19 ,

Мы получили последовательность генома корейского индивида с помощью уникальной комбинации секвенирования ружья с целым геномом, целевого секвенирования ВАС и специально разработанного массива CGH с высоким разрешением. Эта комбинация подходов улучшила точность обнаружения SNP, инделя и CNV и поможет в сборке смежных последовательностей. Соглашение о технических стандартах для отдельных последовательностей генома поможет в сравнении геномов и, в конечном итоге, в связи с фенотипическими различиями.

Поиск по сайту
Меню
Реклама на сайте
Архив новостей
Реклама на сайте

Реклама на сайте







Архив сайта
Информация
www.home-4-homo.ru © 2016 Copyright. Все права защищены.

Копирование материалов допускается только с указанием ссылки на сайт.