Webbläsaren som du använder stöds inte av denna webbplats. Alla versioner av Internet Explorer stöds inte längre, av oss eller Microsoft (läs mer här: * https://www.microsoft.com/en-us/microsoft-365/windows/end-of-ie-support).

Var god och använd en modern webbläsare för att ta del av denna webbplats, som t.ex. nyaste versioner av Edge, Chrome, Firefox eller Safari osv.

Lundaforskare bakom unik databas med naturligt talad engelska

Två personer samtalar vid ett fönster med utsikt över London
Nele Põldvere har spelat in naturliga samtal i London i olika situationer. Foto: Shutterstock

Kunskap om talat språk är en bristvara inom många olika slags forskning – från språkvetenskap och psykologi till AI och robotik.
Men nu hamnar Lund återigen på kartan med en unik textdatabas med tillhörande ljudfiler av talad engelska – London–Lund Corpus 2.

– Databasen med talat språk är unik av två skäl: det finns ljudfiler till transkriptionerna. Och det går att följa hur språket har utvecklats över tid, säger Victoria Johansson, docent i allmän språkvetenskap. Dessutom finns det jämförelsevis få databaser med talat språk.

Världens första maskinläsbara databas med talat språk skapades av en grupp forskare vid University College London och professor Jan Svartvik i Lund mellan 1953 och 1987. Då var en dator något väldigt nytt, komplicerat – och stort. Datorn som hanterade London–Lund Corpus 1 tog ett helt rum i anspråk. (Korpus betyder för övrigt en stor samling språkliga data.)

– Den första databasen ligger till grund för kunskap om talspråkets struktur som spridits världen över, säger Carita Paradis, professor i engelsk språk­vetenskap, som liksom sin företrädare Jan Svartvik deltog vid det internationella symposium som arrangerades för att inviga London–Lund Corpus 2.

Porträtt av tre kvinnor.
Nele Põldvere, Carita Paradis och Victoria Johansson ­ligger bakom databasen. Foto: Jenny Loftrup

Inspelat naturligt tal

Under symposiet, som ägde rum på Språk- och litteraturcentrum den 20 september, presenterades den nya språkdatabasen som inom kort blir tillgänglig för forskare och studenter världen över. Bristen på talspråkskorpusar med inspelat naturligt tal beror på att det är både kostsamt och tidsödande att samla in och transkribera talspråk. Hela arbetet här har tagit fem år, vilket är en mycket kort tid jämfört med systerkorpusen som tog decennier.

Doktoranden Nele Põldvere har gjort mastodontjobbet med att spela in hundratals olika samtal framförallt i London, och hon har tillsammans med assistenter transkriberat all data. Projektet började med att hon saknade material till sin avhandling.

– Jag behövde naturligt talspråk att forska på och det fanns inte. Nu är jag väldigt glad och stolt över att vi har rott detta i hamn, säger Nele Põldvere.

Många användningsområden

De flesta inspelningarna av samtal är gjorda på samma platser både i London-Lund Corpus 1 och 2. Carita Paradis är övertygad om att London–Lund Corpus 2 kommer att bli lika betydelsefull som den första. Kunskap om hur vi egentligen beter oss och uttrycker oss i när vi samtalar behövs inte bara inom språkvetenskapen utan för forskning där människans beteende är centralt, som till exempel inom psykologi, pedagogik, sociologi, AI och robotik, medicin och hälsa.

– Den kommer åter att sätta språk­vetenskapen i Lund på kartan och ge material till massor av artiklar och avhandlingar världen över, säger Carita Paradis.

De två korpusarna är lika stora och strukturerade på samma sätt – de innehåller privata, vardagliga samtal mellan två eller flera personer och professionella samtal, till exempel inspelningar från Högsta domstolen i London, privata samtal på telefon, professionella föreläsningar och samtal mellan personer i olika positioner och från olika samhällsklasser.

– Det går att följa hur de sociala strukturerna mjukas upp och se vilka uttryck och grammatiska strukturer som försvunnit och vilka nya som tillkommit, säger Nele Põldvere.

På väg ut – Istället

Jolly nice – Awesome

Frightfully expensive – Well cool

I suppose – I guess

Quite (som svar på fråga) – Exactly

Maybe it would be better if you… – You should definitely do that