RNASeq_similarity_matrix: visually identify sample mix-ups in RNASeq data using a 'genomic' sequence similarity matrix

Nicolaas C Kist; Robert A Power; Andrew Skelton; Seth D Seegobin; Moira Verbelen; Bushan Bonde; Karim Malki

doi:10.1093/bioinformatics/btz821

RNASeq_similarity_matrix: visually identify sample mix-ups in RNASeq data using a 'genomic' sequence similarity matrix

Bioinformatics. 2019 Nov 26:btz821. doi: 10.1093/bioinformatics/btz821. Online ahead of print.

Authors

Nicolaas C Kist¹, Robert A Power^{1

2}, Andrew Skelton¹, Seth D Seegobin¹, Moira Verbelen¹, Bushan Bonde¹, Karim Malki^{1

3}

Affiliations

¹ Statistical Sciences and Innovation, UCB Celltech, Slough SL1 3WE, UK.
² St Edmund Hall, University of Oxford, Oxford OX1 4AR, UK.
³ Social, Genetic and Developmental Psychiatry Centre, Institute of Psychiatry, Psychology and Neuroscience, King's College London, London, UK.

PMID: 31769800
DOI: 10.1093/bioinformatics/btz821

Abstract

Motivation: Mistakes in linking a patient's biological samples with their phenotype data can confound RNA-Seq studies. The current method for avoiding such sample mixups is to test for inconsistencies between biological data and known phenotype data such as sex. However, in DNA studies a common QC step is to check for unexpected relatedness between samples. Here, we extend this method to RNA-Seq, which allows the detection of duplicated samples without relying on identifying inconsistencies with phenotype data.

Summary: We present RNASeq_similarity_matrix: an automated tool to generate a sequence similarity matrix from RNA-Seq data, which can be used to visually identify sample mix-ups. This is particularly useful when a study contains multiple samples from the same individual, but can also detect contamination in studies with only one sample per individual.

Availability: RNASeq_similarity_matrix has been made available as a documented GPL licensed Docker image on www.github.com/nicokist/RNASeq_similarity_matrix.

Supplementary information: Supplementary data are available at Bioinformatics online.