Tre million grunner til at jeg ikke ser ut som deg

Simen skrev strålende om genvarianter i Aftenposten nylig. Alle mennesker har de samme 20 000 genene, men vi har ulike varianter av disse. Om vi sammenligner to menneskers genom så er de omtrent 0.1% forskjellige. Siden genomet består av tre milliarder baser (Aer, Ter, Cer og Ger) utgjør det ca tre millioner forskjeller mellom deg og meg. Eksempler på forskjeller/varianter er at du har en A der jeg har en T eller at du mangler en base der jeg har en. Disse forskjellene finnes ikke bare i genene, der de gir oss ulike genvarianter og kan påvirke proteiners funksjon, men også utenfor genene, der de kan påvirke hvordan gener reguleres.

En T istedenfor A gjør deg til langrennsfantom! Så enkelt er det ikke. Mange varianter bidrar til komplekse egenskaper og dessuten er det noe som heter miljø.
En T istedenfor A gjør deg til langrennsfantom! Så enkelt er det ikke. Mange varianter bidrar til komplekse egenskaper og dessuten er det noe som heter miljø.

Hvordan finner vi varianter som forklarer hvorfor noen er mye bedre langrennsløpere enn andre? Ideen er enkel. Først sekvenserer vi gode og mindre gode langrennsløpere. Så sammenligner vi genomene og finner posisjoner der for eksempel gode løpere har en T mens mindre gode har en A. Ferdig? Ja, i prinsippet, men vi kommer ikke til å finne sånne posisjoner. Som jeg skrev i forrige uke, så har komplekse egenskaper også komplekse forklaringer. Skal du bli verdens beste langrennsløper må du ha vært heldig med en rekke varianter i ditt genom; varianter som enkeltvis bare forklarer en forsvinnende liten del av ditt talent. Også er det miljøfaktorer da. Det hjelper ikke å ha mutasjoner på alle de rette stedene om du får is i rubben (OL 2010) eller om smørerne har glemt at skismøring skal under skiene (OL 2014).

Også for denne typen data kan vi bruke maskinlæring til å finne komplekse samspill mellom varianter som forklarer skiløpertalent. Men om faren var stor for overtilpasning (dvs. modeller som forklarer treningsdata ved en tilfeldighet) når vi så på kombinasjoner av genuttrykk i 20 000 gener så er det mye, mye verre her: om det er en million små variasjoner som skiller deg og meg så må vi studere 500 milliarder variant-par, 166 billiarder variant-tripletter, 42 trilliarder variant-kvartetter, osv. Store tall er gøy: 8 kvadrilliarder kombinasjoner av fem varianter og en kvintilliard kombinasjoner av seks varianter (det er et ettall med 33 nuller bak!).

Så vi kommer aldri til å forstå hvorfor Northug går fort på ski? Tja. Det er mye forskning på bedre metoder for å beskrive variantsamspill. Samtidig blir sekvensering billigere slik at vi kan se på mange flere individer med mindre sjanse for overtilpasning. En trend er nå at forskere setter sammen datasett fra ulike studier; såkalte meta-studier. Denne uka ble det publisert en artikkel der forskere så på til sammen 87 040 (!) individers risiko for å få prostatakreft. Det finnes allerede 76 kjente varianter som øker risikoen. Gjennom å sette sammen data fra mange studier (43 303 sekvenserte individer med kreft og 43 737 uten) fant forskerne 23 nye varianter. Totalt forklarer disse variantene 33% av risikoen for å få prostatakreft. Det er en gjennomsnittlig forklaringskraft på bare 0.3% per variant!

I en annen artikkel jeg fikk vite om via Twitter denne uka hadde forskere også gjort meta-studier av over 50 000 individer og 11 vanlige sykdommer. De fant at regulatoriske varianter forklarte mye mer av riskoen for å få disse sykdommene enn varianter i gener. Det regulatoriske genomet blir bare mer og mer spennende.

NB: Den siste artikkelen er lagt ut i bioRxiv. Dette er et sted hvor forskere kan gjøre sine resultater kjent før de er akseptert i et vanlig tidsskrift. Disse resultatene er altså ennå ikke fagfellevurdert. Open access og preprint publisering er en populær trend i forskningen. Mottoet er at akademisk forskning er betalt av fellesskapet og bør gjøres tilgjengelig for så mange som mulig så fort som mulig.

3 Comments


Leave a Reply

Your email address will not be published. Required fields are marked *