Преобразование VCF в двоичный набор файлов PLINK .bed для проверки родословных ошибок с помощью KING: Как инструменты преобразования создают файл PLINK .fam, не запрашивая априори семейные отношения?

Я пытаюсь преобразовать VCF из ~ 15K семплов (~ 4K семейств) в двоичный формат PLINK, чтобы проверить наличие ошибок в родословной с помощью KING.

входные файлы должны быть в двоичном формате PLINK, например ex.bed, ex.fam и ex.bim.

Существует несколько инструментов для преобразования VCF в PLINK. двоичный формат, а именно. bed, .bim. и файлы .fam из «двоичного набора файлов».

Однако VariantsToBinaryPed из GATK3 — единственный известный мне инструмент, который требует в качестве входных данных файл, указывающий семейные отношения между образцами a priori , чтобы создать вышеупомянутый файл .fam (первые 6 столбцов файла .ped PLINK).

У меня вопрос, как все другие инструменты преобразования VCF -> PLINK выявляют взаимосвязи для вывода файла .fam двоичного набора файлов PLINK?

Действительно ли информация, содержащаяся в файле .fam, или любая информация о родословных/образцах метаданных, входит в файл .bed?

Потому что, если это не так … тогда мне действительно не нужно обо всем этом беспокоиться — я мог бы просто создать набор файлов .binary из VCF, как указано в учебнике KING (без указания настраиваемого .fam), и затем просто укажите мой собственный .fam при запуске KING:

  king -b ex.bed --fam ex.fam --bim ex.bim --related   

Однако я считаю, что информация о родословной каким-то образом закодирована в файле .bed, хотя другие инструменты для преобразования VCF в PLINK, такие как вышеупомянутый VariantsToBinaryPed из GATK, особенно требуют файла метаданных. для создания двоичного набора файлов PLINK.

И можно ли передать в качестве входных данных файл .fam (или аналогичный) этим инструментам, если примерные отношения действительно известны (из родословной), как в моем случае?

Спасибо!


ОБНОВЛЕНИЕ:

По какой-то причине количество образцов в моем VCF меньше, чем количество образцов в моем файле .fam (который включает все образцы, которые были секвенированы). Я унаследовал эти файлы, поэтому я не уверен, что критерием был или почему эти ~ 700 образцов не попали в VCF.

Есть ли способ указать PLINK2 игнорировать это несоответствие, или мне нужно вернуться и выяснить, какие образцы были отфильтрованы в VCF и удалили их из .fam?


UPDATE 2

Stepping назад — в конечном итоге моя цель — использовать это для проверки родословной с помощью KING — В их учебнике указано, что сначала нужно преобразовать VCF в двоичный формат PLINK, и дана команда:

Файл VCF с данными последовательности можно легко преобразовать в двоичный формат PLINK с помощью PLINK2:

  plink2 --vcf example.vcf.  gz --make-bed --out ex  

Я понимаю, что эта команда выведет двоичный набор файлов PLINK (например, fam, ex.bed, ex.bim), однако , У меня уже есть. fam с известными взаимосвязями между образцами, что я и хочу проверить на наличие ошибок с помощью KING. Разумеется, должен быть способ прочитать VCF в PLINK и взять FID из предоставленного .fam, чтобы создать двоичный набор файлов с известным файлом .fam?

Еще раз спасибо.

Оцените статью
techsly.ru
Добавить комментарий