Lost in Translation: AI’s Struggles with Scanian – A Study on Language Models’ Attempts to Conquer Swedish and its Dialects
Författare
Summary, in Swedish
Under de senaste åren har utvecklingen av artificiell intelligens frodats och med sig tagit en förbättrad träffsäkerhet i taligenkänning. Däremot, liksom med alla snabba teknologiska utvecklingar har den sina brister, i det här fallet bristen på dialektal träningsdata. Den här uppsatsen undersöker om AI har en ojämnt fördelad förståelse av regionalt språk, med fokus på försummandet av de sydsvenska dialekterna i Skåne. Detta görs genom att jämföra ordfelsfrekvensen i AI-genererade transkriptioner av naturligt rikssvenskt tal och naturligt skånskt tal, och vidare analyserad för att hitta potentiella orsaker till varför det är så svårt för AI att förstå skånska. Resultaten visar att AI är signifikant sämre på att förstå skånska dialekter jämfört med rikssvenska. Den här studien lyfter fram hur AI är oproportionellt tränad med ojämnt fördelad data, vilket får AI att föredra standardiseringen av språk.
Publiceringsår
2025
Språk
Engelska
Fulltext
- Available as PDF - 908 kB
- Download statistics
Dokumenttyp
Examensarbete för kandidatexamen
Ämne
- Languages and Literatures
Nyckelord
- Artificial intelligence
- automatic speech recognition
- dialect
- Scanian
- Swedish
- transcription
Handledare
- Johan Frid