Big data i forskningen både verklighet och retorik

Astronomiska mängder ny information om världen, om våra arvsanslag och vanor skapas hela tiden digitalt. De erbjuder en guldgruva för forskningen – förutsatt att man kommer åt datamängderna, kan lagra och analysera dem.
– Vi har gott om spetskompetens på området, fler och fler delar av Lunds universitet närmar sig tröskeln för när big data blir en självklarhet i forskning och undervisning, säger Sven Strömqvist, vicerektor med ansvar för forskning och forskningsinfrastruktur.

Allt mer ny information samlas, men också gammal information digitaliseras och lagras. I de stora datamängderna kan forskarna med hjälp av raffinerade analysmetoder upptäcka mönster och samband vi tidigare inte haft chans att urskilja. Förväntningarna på vad detta ska föra med sig är stora inom allt från medicin och biologi till klimatforskning, men digitaliseringen går i en rasande fart också inom andra fält.

– Fysikerna är etablerade inom fältet och MAX IV kommer att producera enorma mängder data. Medicin har flera exempel med registerforskning, biobanker och imaging, dvs. att man skapar bilder utifrån data. Men även samhällsvetenskap har registerforskning som ligger långt framme och humaniora kommer att vara där mycket snart med till exempel mätdata från arkeologiska utgrävningar och empiriska data från världens över sex tusen språk, säger Sven Strömqvist.

I den allmänna debatten lyfts ofta den pedagogiska potential fram som finns med big data. Möjligheten att återge enorma mängder information i bild kan förändra världen. Om komplicerade samband visualiseras så att vi förstår dem på ett nytt sätt så fattar vi klokare beslut – ja, så framställs framtiden i många big data-visioner, i forskarvärlden, men också den kommersiella sektorn där företag som Google, Facebook och Twitter genererar nya ofattbara mängder data om oss människor.

Men big data är på en gång verklighet och retorik. Och vid sidan om möjligheterna innebär datamassorna alltså också utmaningar, även för universitetet. Big data kan inte hanteras med traditionella databasmetoder. De kräver avancerade analysinstrument, kraftfulla processorer och kunnig expertis.

– Det är viktigt att vi tar ett djupare grepp kring den matematikutveckling som krävs för en ny generation effektiv informatik som hanterar big data. Ett steg i den riktningen är den matematikplattform som Magnus Fontes satt upp (se separat intervju på sidan 14), menar Sven Strömqvist.

Det fordras också samarbete över disciplingränser och öppenhet om big data ska ge utdelning. Datamängderna måste standardiseras, lagras och göras brett tillgängliga globalt. Både EU:s Horizon 2020 och Vetenskapsrådet pekar i nya propåer och utlysningar just på vikten av öppen data – open data – och tvärvetenskapligt samarbete.

Säkerhetsaspekterna – bristen på sekretess och hotet om ett övervakningssamhälle – är andra viktiga frågor, liksom i hur hög grad vi kan lita på rön som vilar på korrelationer, inte empiriskt bevisade orsakssamband. Mer om detta i nästa LUM, som kommer att handla bland annat om big data inom de torra områdena.

 Britta Collberg

Läs resten av artiklarna i temat om big data