Datamining – forskarvärldens nya gruvarbete

Publicerad 20 november 2014

Den här artikeln är över 5 år gammal, och informationen kan därför vara inaktuell.

Den enorma ökningen av data inom biologi och medicin skapar nya utmaningar för forskarna. Att utvinna information ur databaserna är forskarvärldens nya gruvarbete.

Dag Ahrén lär ut databasgrävande till biologer. Han ingår i ett nationellt nätverk av bioinformatiker, BILS (Bioinformatics Infrastructure for Life Sciences).

Forskningsingenjör Dag Ahrén konstaterar att det har skett en väldigt snabb utveckling under de senaste tio åren inom genomforskningen, det vill säga forskningen på hela arvsmassan hos en organism. Och datamängderna kommer att öka mer och mer, menar han. Allt fler forskargrupper inom biologi ser nu möjligheterna med att jobba med big data. Nya frågeställningar ska ha svar, fler organismer ska kartläggas.

– Flaskhalsen i många forskningsprojekt är att det tar mer tid att analysera resultaten än att skapa dem, säger han.

I början av november höll Dag Ahrén en veckas databaskurs för biologidoktorander. En sådan kurs lär deltagarna hur man skapar sina egna databaser för att lagra analyserad genetisk data och även hur man kan utvinna data ur publika databaser för att köra dessa tillsammans med de egna resultaten. Det engelska uttrycket data mining är ett allmänt begrepp i detta sammanhang, det vill säga konsten att utvinna forskningsresultat ur databaser för att söka efter mönster och samband i stora datamängder. Forskarvärldens databaser framstår plötsligt som ett slags motsvarighet till gruvnäringens jakt på värdefulla mineraler; det handlar i bägge fallen om att leta efter och gräva fram outnyttjade tillgångar.

– Ja, databaserna är ju en väldig resurs och det gäller att veta hur man på mest effektiva sätt kan få fram relevant information, säger Dag Ahrén.

Själv har han en bakgrund inom genetisk forskning och har lång erfarenhet av data mining och hantering av de stora datamängder som skapas inom hans forskningsfält.

Nu jobbar han som forskningsingenjör på Biologiska institutionen, med uppdrag att vara ett bioinformatiskt stöd för forskarna vad gäller analyser av genetiskt material, DNA-sekvenser. Det kan röra sig om allt från alger och svampar till bakterier och mask-parasiter. Han nämner som exempel ett möte han nyss haft med en kollega. De diskuterade ett pågående projekt som har genererat 1,5 biljoner DNA-sekvenser. Diskussionen handlade om val av databas och hur de ska gå tillväga för att publicera dessa data tillsammans med den vetenskapliga artikeln.

Dag Ahrén konstaterar att de flesta vetenskapliga tidskrifterna ställer krav på att man gör sina data tillgängliga vid vetenskaplig publicering. Det innebär ett ökat behov av kunskap bland forskare om hur man tar hand om rådata, hur man analyserar sina data och slutligen hur man publicerar dem så att de kan användas av andra forskare.

– Det är viktigt att ha denna kunskap lokalt ute i verksamheten. Det måste finnas personal som kan hantera det, säger Dag Ahrén.

Text: Lena Björk Blixt

Foto: Gunnar Menander

Fotnot. Databaskursen arrangerades av forskarskolan Geneco, forsknings-programmet CAnMove och PlantLink.

Läs resten av artiklarna i temat om big data