Tre milliarder par
Menneskets totale arvemateriale, det vil si genom, består av ca. tre milliarder basepar (Aer, Ter, Cer og Ger). Om vi sammenligner genomet til to tilfeldige mennesker, så er de omtrent 0,1 prosent forskjellige. Det er derfor rundt tre millioner forskjeller mellom ditt DNA og Marit Bjørgens.
Alle mennesker har de samme 20.000 genene, men vi har ulike varianter av disse. Et eksempel på en forskjell/variant, er at du har en A der Marit har en T som påvirker ett gens funksjon og gir Marit en unik evne til å unngå melkesyre i den siste seige motbakken. Slike genetiske forskjeller finner vi også utenfor genene, der de kan påvirke hvordan gener brukes.
Hvordan kan vi så knekke Bjørgen-koden – og dermed forstå hvilke gener som gjør Marit Bjørgen mye bedre på ski enn de fleste andre langrennsløpere? Ideen er enkel. Først leser vi av baseparene i genomene til gode og mindre gode langrennsløpere. Så sammenligner vi genomsekvensene og finner posisjoner der for eksempel gode løpere har en T mens mindre gode har en A. Ferdig? Ja, i prinsippet.
Problemet er at vi ikke kommer til å finne sånne posisjoner.
Ikke så enkelt
Komplekse egenskaper har også komplekse forklaringer. Skal du bli verdens beste langrennsløper må du ha vært heldig med en rekke varianter i ditt genom; varianter som enkeltvis bare forklarer en forsvinnende liten del av ditt talent. Og så er det miljøfaktorer da. Det hjelper ikke å ha alle de rette, genetiske variantene om du får is i rubben(OL 2010) eller om smørerne har glemt at skismøring skal under skiene (OL 2014).
Ingen har forsøkt å finne ”skiløpergenene” ennå. Men mye genetikkforskning det siste tiåret har dreid seg om å lete etter genetiske varianter som bestemmer hvordan vi ser ut, oppfører oss eller om vi er predisponert for et helseproblem.
Her er et godt eksempel: Dersom du er høy har du ganske sikkert foreldre som også er høye. Så mye som 80 prosent av all variasjon i høyde mellom mennesker er genetisk betinget. Nøyaktig hvilke genetiske varianter som gjør deg til basketballspiller-materiale burde derfor være en enkel sak å identifisere. I en ny studie publisert i Nature Genetics har forskere nå undersøkt sammenhengen mellom genetisk variasjon og høyde i 253.288 (!) individer med europeisk avstamning.
Forskerne konkluderte med at ca. 10.000 vanlige genetiske varianter var assosiert med høyde. Men, disse 10.000 variantene forklarte bare 36 prosent av høydevariasjonen. Med andre ord: hver genetisk variant du har i din kropp som påvirker hvor høy du er (dersom du er fra Europa), vil i gjennomsnitt kun bidra 0.0036 prosent til ditt vertikale centimeter-mål.
Når det er så vanskelig å finne forklaringen på en såpass enkel, og sterkt arvelig, egenskap som høyde så blir kanskje Marits hemmelighet skjult for alltid?
Mer enn summen
For hvordan kan vi gyve løs på en så sammensatt egenskap som skiløpertalent, når vi ikke engang forstår den genetiske årsaken bak variasjon i høyde? En teori er at den skjulte forklaringen ligger i komplekse samspill mellom genetiske varianter (epistasis).
Egenskaper hos alle levende organismer er altså mer enn summen av de genetiske variantene.
For å identifisere slike komplekse genetiske samspill bruker vi maskinlæringsmetoder. Vi kan altså trene en datamaskin til å skille mellom gode og dårlige skiløpere gjennom å gi datamaskinen tilgang på deres genomsekvenser og tider fra deres siste Birkenløp. Dette kan for eksempel fortelle oss at ”hvis du har en A i posisjon 45.754 på kromosom 12 og en T i posisjon 1.439.926 på kromosom 18, da blir du god på ski”.
Poenget her er at det ikke hjelper å ha kun en av disse variantene, du må ha begge. Samspill!
33 nuller
Men nå begynner problemene for alvor. Om det nå er en million små variasjoner som skiller deg og Marit, så må datamaskinen søke gjennom 500 milliarder kombinasjoner av to-, 166 billiarder kombinasjoner av tre-, 42 trilliarder kombinasjoner av fire-, 8 kvadrilliarder kombinasjoner av fem- og en kvintilliard kombinasjoner av seks genetiske varianter. En kvintilliard er et ettall med 33 nuller bak.
Med så mange mulige forklaringer, er det en overhengende fare for at maskinen finner noe som tilfeldigvis stemmer for akkurat dine Birken-løpere men som faktisk ikke har noe med koblingen genetikk og skiprestasjon å gjøre. Det kalles overtilpasning.
Altså, for å kunne forstå genetiske faktorer bak helt vanlige egenskaper som høyde og skitalent er vi helt nødt til å studere genetiske data fra veldig mange individer. Høydestudien som vi nevnte hadde undersøkt over 250.000 individer. For å få nok data er det nå blitt vanligere at forskere tenker som Miljøpartiet De Grønne – de resirkulerer.
Siden alt datamateriale fra seriøse studier er tilgjengelig online, kan vi nå samle og sette sammen resultater fra mange tidligere studier til en ny kjempestudie. Dette kalles meta-studier. Høydestudien er ett eksempel på et meta-studie. Et annet eksempel er en nylig publisert artikkel i Nature der forskere så på risiko for å få prostatakreft med et datamateriale på tilsammen 87 040 individer. Før denne studien fantes det allerede 76 kjente varianter som øker prostatakreftrisiko. Den nye meta-studien fant i tillegg 23 nye varianter. Totalt forklarte de 96 prostatakreft-assosierte genomvariantene 33 prosent av risikoen for å få prostatakreft. Altså en gjennomsnittlig forklaringskraft på bare 0.3 prosent per variant.
Men tilbake til starten:
Hvorfor er Marit Bjørgen så god på ski? Vi setter pengene våre på denne forklaringen: Marit har vært heldig med tusenvis av varianter i sitt genom; både innenfor og utenfor genene. Men disse genetiske variantene forklarer tilsammen en ganske liten del av hennes nær perfekte balanse mellom styrke, hurtighet og kondisjon, hennes sterke psyke og vinnervilje.
Resten har andre forklaringer som oppvekstmiljø, trening, geografi (det er mye snø i Trøndelag), mer trening og enda mer trening.
Permalink