A fejlődés nem áll meg. Míg az első egysejtes elemzésemnél a jól bevált genomikai módszereket gyúrták át az egysejtes világ igényeinek megfelelően, addigra mára sokkal kiforrottabb céleszközök segítik a kutatók életét. Az egyik ilyen eszköz a CellRanger, amit a 10x Genomics ajánl a mintáik elemzéséhez. Habár úgy tűnik rengeteg információ van róla a dokumentációban, azért könnyű elveszni benne. Ezért álljon itt néhány dolog, ami segít eligazodni a káoszban.
A CellRanger melyik alprogramját futtassam?
Három alprogram van: count, multi, aggr. Count: egyféle mintán kell futtatni. Multi: többféle adat van ugyan ahhoz a mintához. Aggr: van több minta. A 10x dokumentációja nem program szerint csoportosítja a leírásokat, hanem kísérleti elrendezés szerint. Tehát a count három helyen is szerepelhet. Erre figyelni kell. A különbség legtöbbször nem is a paraméterekben van, hanem a paraméterként beadott CSV-ben. Egy oszloppal kevesebb, és más elemzésed lesz.
Hol vannak a nyers eredmények?
Az eredmény minden esetben egy mátrix lesz. A mátrix megvan egyben, H5 formátumban, vagy három tömörített fájlban. Barcodes.tsv.gz: ez a sorok azonosítója, kis túlzással ezek lennének a sejtek, ha egy tökéletes világban élnénk. Features.tsv.gz: ez az oszlopok azonosítója. Gyakorlatilag a gének. Matrix.mtx.gz: Ez a mátrixunk. Első oszlop a sor száma a barcodes fájlból, a második az oszlop száma a features-ből, a harmadik a cella értéke. Nullás cellákat nem tartalmaz, hogy spóroljanak a hellyel.
Nekem X darab mintám van, hogy találom meg ezeket egyetlen táblázatban?
Itt kezdenek érdekesek lenni a dolgok. Az aggr kimenetében a barcode azonosító végén van egy -x, ahol x a minta számát jelöli. Tehát ha három mintánk van, akkor lesz -1, -2, -3 végű barcode-unk. A sorrend az lesz, amit az aggr-nak paraméterként a CSV fájlban megadtunk.
Miként tölthetem be ezt R-be?
A DropletUtils csomag használatával. Ez elkészíti a SingleCellExperiment osztályt, amit az összes többi Bioconductor csomag is használ. Betölti a H5-t is, de kezeli a három különálló fájlt is.
Miként tölthetem be ezt Pythonba?
A Scanpy csomag read_10x_h5() vagy read_10x_mtx() metódusaival.
Hol vannak a molekulalác szekvenciák?
Ha volt VDJ meghatározás is, akkor FASTA formátumban megvannak a szekvenciák a vdj_reference alkönyvtárban.
Hogyan tudom megfeleltetni a molekulaláncokat és a barcode-okat?
Van egy táblázat filtered_contig_annotations.tsv néven, ahol felsorolják a barcode-okat és a clonotype-okat, ami az oldalláncok nevei.