Я пытаюсь преобразовать VCF из ~ 15K семплов (~ 4K семейств) в двоичный формат PLINK, чтобы проверить наличие ошибок в родословной с помощью KING.
входные файлы должны быть в двоичном формате PLINK, например ex.bed, ex.fam и ex.bim.
Существует несколько инструментов для преобразования VCF в PLINK. двоичный формат, а именно. bed, .bim. и файлы .fam
из «двоичного набора файлов».
Однако VariantsToBinaryPed из GATK3 — единственный известный мне инструмент, который требует в качестве входных данных файл, указывающий семейные отношения между образцами a priori , чтобы создать вышеупомянутый файл .fam
(первые 6 столбцов файла .ped
PLINK).
У меня вопрос, как все другие инструменты преобразования VCF -> PLINK
выявляют взаимосвязи для вывода файла .fam
двоичного набора файлов PLINK?
Действительно ли информация, содержащаяся в файле .fam, или любая информация о родословных/образцах метаданных, входит в файл .bed?
Потому что, если это не так … тогда мне действительно не нужно обо всем этом беспокоиться — я мог бы просто создать набор файлов .binary из VCF, как указано в учебнике KING (без указания настраиваемого .fam), и затем просто укажите мой собственный .fam при запуске KING:
king -b ex.bed --fam ex.fam --bim ex.bim --related
Однако я считаю, что информация о родословной каким-то образом закодирована в файле .bed, хотя другие инструменты для преобразования VCF в PLINK, такие как вышеупомянутый VariantsToBinaryPed из GATK, особенно требуют файла метаданных. для создания двоичного набора файлов PLINK.
И можно ли передать в качестве входных данных файл .fam
(или аналогичный) этим инструментам, если примерные отношения действительно известны (из родословной), как в моем случае?
Спасибо!
ОБНОВЛЕНИЕ:
По какой-то причине количество образцов в моем VCF меньше, чем количество образцов в моем файле .fam (который включает все образцы, которые были секвенированы). Я унаследовал эти файлы, поэтому я не уверен, что критерием был или почему эти ~ 700 образцов не попали в VCF.
Есть ли способ указать PLINK2 игнорировать это несоответствие, или мне нужно вернуться и выяснить, какие образцы были отфильтрованы в VCF и удалили их из .fam?
UPDATE 2
Stepping назад — в конечном итоге моя цель — использовать это для проверки родословной с помощью KING — В их учебнике указано, что сначала нужно преобразовать VCF в двоичный формат PLINK, и дана команда:
Файл VCF с данными последовательности можно легко преобразовать в двоичный формат PLINK с помощью PLINK2:
plink2 --vcf example.vcf. gz --make-bed --out ex
Я понимаю, что эта команда выведет двоичный набор файлов PLINK (например, fam, ex.bed, ex.bim), однако , У меня уже есть. fam с известными взаимосвязями между образцами, что я и хочу проверить на наличие ошибок с помощью KING. Разумеется, должен быть способ прочитать VCF в PLINK и взять FID из предоставленного .fam, чтобы создать двоичный набор файлов с известным файлом .fam?
Еще раз спасибо.