Database over normalvariasjon i den norske befolkning

Database over normalvariasjon i den norske befolkning

Norsk «1000 genomes» prosjekt – en database over normalvariasjon i den norske befolkning

I NCGCs prosjekter må vi bestemme arvestoffets struktur i pasientenes normale vev, i hovedsak hvite blodlegemer fra en blodprøve, for å kunne avgjøre hva som er mutasjoner, skader i arvestoffet, i svulstene. Den detaljerte oppbyggingen, sekvensen (av byggesteiner), i arvestoffet til hvert individ er som et genetisk fingeravtrykk, unikt for hver og en, men inneholder i tillegg mye informasjon om familien, avstamning, og risiko for fremtidig sykdom. Den informasjonen er derfor svært sensitiv, og vi lagrer den avidentifisert i et avansert lagringssystem, adskilt fra internett, med streng tilgangskontroll og kryptert kommunikasjon.

Dette prosjektet var tenkt som en demonstrasjon av hvordan en slik database kunne enkelt lages, uten brudd på personvernet, og vise nytten både for medisinsk genetisk diagnostikk og forskning. Verdien av kunnskap om «særnorske» genvarianter er åpenbar, selv om deler av den norske befolkning er godt representert i USA. Konseptet har på HODs initiativ blitt tatt videre i den nasjonale satsingen på persontilpasset medisin, med egen bevilgning på statsbudsjettet. Men dessverre har Helsedirektoratet kommet frem til at hvis det finnes varianter i databasen som bare observeres i færre enn 5 individer (NB i databasen, ikke befolkningen!) er disse ikke anonyme, og må derfor fjernes fra den databasen. Dette ville fjerne de nesten 1 million mest viktige variantene i vår database, og gjøre den bortimot unyttig. Se gjerne en utdypning av dette tema her. En variant som finnes i 4 eksemplarer i vår kohort må antas å finnes i 20 000 nordmenn.

I mange sammenhenger trenger man kunnskap om hva som er normal genetisk variasjon i den norske befolkning, siden vi ellers bare må basere oss på slike data fra andre befolkninger. Et eksempel er når vi studerer cellekulturer etablert fra kreftsvulster for flere år siden, da disse metodene ikke var tilgjengelige, og man ikke tenkte på behovet for å kunne sammenligne med normalgenomet. I disse tilfeller finner vi titusenvis av forskjeller fra det såkalte referansegenomet, dvs den sekvensen fra et enkelt individ som alle studier sammenligner med. Vi kan filtrere bort variasjonen som er beskrevet ute i verden, men sitter igjen med mange sjeldne varianter og også vanlige norske varianter, som vi da ikke vet om er mutasjoner. Ved å samle all genetisk variasjon i NCGCs normalprøver kan vi fjerne disse, og lettere identifisere sjeldne varianter eller mutasjoner. Dette er også nyttig for andre forskere og medisinske genetikere, som kan se om nye varianter de ser i andre personer er vanlig i befolkningen eller ei.

For dette formålet har vi derfor anonymisert og slått sammen all variasjon i normalprøvene til en database, slik man har gjort internasjonalt i «The 1000 Genomes Project«, og gjøre dette tilgjengelig for andre forskere gjennom nettsiden 1000genomes.no. Fordi de enkelte variantene ikke er koblet sammen slik de ville være om vi presenterte data for enkeltpasienter, kan ingen identifisere individene eller studere sammenhengen mellom variantene. De vil derimot etterhvert kunne studere om bestemte varianter er overrepresentert i pasienter med en bestemt kreftform, siden vi vil indikere dette i undergrupper.

I første omgang blir variantene begrenset til de som er i «eksomet», dvs alle gener men ikke de andre 98 % av arvestoffet, men dette er antagelig også de viktigste variantene siden de inneholder de som påvirker proteinenes struktur. Etterhvert vil også andre varianter inkluderes, blant annet fra fullgenomstudier, og vi vil også inkludere data fra andre studier av norske individer.

I løpet av 2018 tar vi sikte på å ha data fra mer enn 1000 individer.

Tilgang til databasen her

Tekniske spørsmål kan rettes til Prof Eivind Hovig ehovig<at>ifi.uio.no.