Meny

Javascript verkar inte påslaget? - Vissa delar av Lunds universitets webbplats fungerar inte optimalt utan javascript, kontrollera din webbläsares inställningar.
Du är här

Picture Viewing and Picture Description: Two Windows on the Mind.

Författare:
Publiceringsår: 2001
Språk: Engelska
Sidor: 219
Publikation/Tidskrift/Serie: Lund University Cognitive Studies
Volym: 83
Dokumenttyp: Doktorsavhandling
Förlag: Cognitive Science

Sammanfattning

Popular Abstract in Swedish

Vi kan inte avslöja innehållet i våra tankar direkt, så hur kan vi närma oss de underliggande kognitiva processerna? Om vi vill lära oss mer om vad som försiggår i vår tankevärld, måste vi göra det indirekt, med hjälp av tankarnas yttre manifestationer. Det finns olika metoder som man kan ta till sin hjälp. I min avhandling kopplar jag ihop två ämnesområden, lingvistik och visuell perception, och kombinerar två metoder, analys av talat språk och analys av ögonrörelser, för att kasta ljus på vad som händer i våra huvuden.



I en rad empiriska undersökningar studerar jag processuella aspekter av bildbeskrivningar och bildbetraktelser. Å ena sidan återspeglar ögonrörelser mänskliga tankeprocesser. Det är enkelt att avgöra vilka bildelement som attraherat betraktarens öga (och tankar), i vilken följd och hur ofta. Ögonrörelseprotokoll kan därmed ge oss en inblick i till hur våra tankeprocesser går till. Å andra sidan är de talpråkliga segment som har formulerats under bildbeskrivningen det lingvistiska uttrycket för en uppmärksamhetsfokusering. Eftersom jag använder mig av en diskurs-analytisk ansats, är mina transkriptioner av bildbeskrivningarna mycket detaljerade. De innehåller inte enbart det som sägs (verbala data) utan också hur det sägs (med en viss intonation, rytm, tempo, betoning, röststyrka, röstkvalité) samt dessutom vad som händer icke-verbalt (gester, skratt o dyl.). Alla dessa faktorer är typiska för talat språk och ger oss ytterligare information om talaren och den situativa kontexten. Därmed erbjuder de talspråkliga redogörelserna ett komplext och nyanserat verktyg för att få tillgång till våra tankeprocesser. Dessutom fångar båda dessa typer av data hela processen från visuell input till verbal output.



Vad har språk och seende gemensamt? Ett sätt att svara på denna fråga är att använda strålkastarmetaforen: När vi tittar på bilder är det svårt att undersöka alla detaljer på en gång. Vi börjar titta någonstans, stannar där ett tag, fokuserar ett visst objekt, flyttar vår blick snabbt till nästa objekt i scenen, analyserar det, och gör sedan några jämförande ögonrörelser fram och tillbaka mellan de olika objekten. Med andra ord, när vi scannar en bild eller en scen, består vår visuella utforskning av fixeringar (korta pauser då ögat stannar och information tas in) och saccader (snabba ryckiga rörelser då blicken flyttas till nästa objekt). Betraktaren förnimmer inte bilden i sin helhet utan bilden ’lineariseras’ genom en rad visuella fokuseringar som betraktaren gör på vägen genom bilden. Metaforiskt uttryckt uppmärksammar vi ett bildområde i taget och detta område hamnar i strålkastarljuset. Vi gör på samma sätt när vi beskriver bilden muntligt: Vi framskrider i små enheter och fokuserar ett bildelement i taget. Detta bildelement ligger sedan i strålkastarljuset, inbäddat in en kontext (i periferin). Strålkastaren förflyttar sig till nästa bildelement som har framträtt ur periferin och detta bildelement kommer nu att ligga i fokus ett tag. Talaren zoomar in och ut när de talar om olika aspekten och olika delar av bilden. Kort sagt, talat språk och seende har följande gemensama egenskaper: (a) båda har ett fokus och en periferi, (b) deras struktur består inte av en homogen flytande ström utan snarare av sammanhängande små enheter eller kluster, (c) de bryter ner bildenheten och lineariserar bitarna. Uppmärksamhetsfokuseringen är den gemensamma nämnaren för både talat språk och seende. Ett av målen med avhandlingen är att beskriva vad som ligger i centrum för uppmärksamhet, dvs. i det verbala och visuella strålkastarljuset, i ett visst ögonblick.



För huvudstudien (kap. III och IV) är tre frågor centrala: Kan vi identifiera jämförbara enheter i visuell perception och talad diskurs? Återspeglar den temporala ordningen av talspråksenheter den allmänna ordning i vilken informationen har tagits in visuellt? Har enheter i bildbeskrivning och bildbetraktelse ett liknande innehåll?



Som jag kommer att visa, pekar kombinationen av verbala och visuella data på att korrelationsfrågan inte är så enkel. En verbal fokusering motsvaras inte alltid av en visuell fixering. Den perfekta temporala och semantiska matchningen mellan talspråkliga och visuella fokuseringar uppträdet mycket sällan. Om vi vill hitta en klarare korrelation, måste vi leta bland större enheter av verbala och visuella kluster. Jag föreslår superfokusering som en lämplig enhet för jämförelsen. Verbal superfokusering är en längre koherent informationsenhet som föregås av en lång paus, består av av ett antal fokuseringar (fraser) som behandlar samma tema, samt är prosodiskt avslutad (motsvaras ungefär av en längre prosodisk mening). Visuell superfokusering består av ett kluster av visuella fixeringar inom ett avgränsat bildområde, så kallad ’area of interest’. Genom att använda metoden som jag utvecklat i mina studier kan man få tillgång till mentala processer under bildbetraktelsen. På bildytan ser man att betraktaren kommer tillbaka till ett och samma bildelement. Men på basis av deras simultana beskrivningar får man reda på att de undersöker dessa oobjekt ur ett annat mentalt perspektiv. Till exempel beskriver informanterna bildelement och deras spatiala relationer ur ett innehållsperspektiv, de undersöker färger, storlekar och andra attribut ur ett kvalitativt perspektiv, de evaluerar objekten, jämför dem med andra objekt inom bilden eller utanför bilden, talar om kompositionella aspekter osv. Betraktaren upptäcker inte bara de objekt och grupperingar som ’erbjuds’ i bilden utan mycket ofta skapar de meningfulla enheter som baseras på abstrakta begrepp. Kombinationen av innehållet i den verbala och visuella strålkastaren ger oss en förstärkningseffekt: När vi använder ’två nycklar’ till våra tankeprocesser får vi mer än två gånger så mycket information eftersom talat språk och seende samarbetar med varandra.



Boken är upplagd på följande sätt. Efter introduktionen införs i kapitel II verbal fokusering som en av nycklarna till de underliggande mentala processerna. Den centrala frågan i denna empiriska studie rör hur talare begreppsliggör bilden, vad de fokuserar på, i vilken ordning, hur de strukturerar den verbala beskrivningen och hur de kopplar ihop de sekventiella stegen i bildbeskrivningen. Två olika beskrivningsstilar, den narrativa och den tekniska, diskuteras.



I kapitel III går jag igenom de teoretiska och metodologiska frågeställningar som är relevanta för ögonrörelsestudien i bildbetraktelser och bildbeskrivningar. Relationen mellan språk, seende och uppmärksamhet diskuteras och den verbala, visuella och multimodala analysen förs in. Jag formulerar teser för den empiriska studien, beskriver studiedesign och visar hur jag synkroniserar, analyserar och jämför verbala och visuella data. Jag använder mig av ett nytt analystiskt format, s.k. multimodalt tidskodat partitur, som jag utvecklat för detta syfte. Det operationella begreppet ’areas of interest’ diskuteras också i detta kapitel.



Kapitel IV redovisar resultaten av den jämförande studien i bildbeskrivningar och bildbetraktelser. Huvudtemat är temporala och semantiska relationer mellan verbala och visuella enheter. Jag presenterar konfigurationer som jag har identifierat i mina data på fokuserings- och superfokuseringsnivån och illustrerar temporala och semantiska mönster med exempel. I ljuset av mina resultat har hypotesen om att det finns en klar korrelation mellan verbal och visuell fokusering inte bekräftats. Istället föreslår jag superfokusering som en jämförbar enhet eftersom den avgränsar kluster av både verbala och visuella data.



I kapitel V återkommer jag till uppmärksamhetsfokuseringen och superfokuseringen men kontrasterar resultaten med en annan typ av data: en spontan beskrivning i ett dialogiskt sammanhang. Talat språk är förbundet med spontant ritande som ger referentiellt stöd för både talaren och lyssnaren. Samtalspartners samarbetar och teckningarna fyller olika funktioner: de har en explikativ funktion (förklarar och ger stöd för visualisering), en expressiv funktion (understryker), en demonstrativ funktion (man kan peka på dem), de ger stöd vid oklara referenser, fungerar som en extern minneslapp, och, slutligen, de representerar det globala problem som diskuteras i samtalet. I det dialogiska sammanhang där deltagarna samarbetar är struktureringen av den beskrivande diskursen situativt förankrad. Perception, kognition och kommunikation hänger ihop och undersöks som samordnade processer. I detta situativa sammanhang bidrar både verbala och icke-verbala medel (den talspråkliga beskrivningen, ritandet, pekande gester, blickriktningen, det interaktiva samarbetet mellan samtalsdeltagarna) till den gemensamma fokuseringsprocessen.



I sista kapitlet, kapitel VI, breddas perspektivet igen. Jag går genom ett antal angränsande forskningsområden i ljuset av mina specifika metoder och uppnådda resultat. Metoden som jag har utvecklat i studierna kan användas på olika områden. De visuella scanningsstrategierna tillsammans med simultana kommentarer kan lösa flera frågor inom ’scene perception’. Metoden belyser mentala processer och attityder och kan därför användas som ett sensitivt evaluativt verktyg för bedömning av industriell design, gränssnittsdesign eller layout design. Vi kan studera hur människor läser multimodala nätbaserade dokument och skapar relationer mellan text och bild. Vi kan undersöka hur layouten i tidningar, illustrerade böcker, instruktionsmanualer, encyklopedier och reklamtexter uppfattas. Metoden hjälper oss att studera hur dyslektiker scannar bilden och beskriver den språkligt. De empiriska resultaten av mina studier, särskilt de resultat som rör hur ögonrörelser och talet synkroniseras och integreras, kan bidra till utvecklingen av en ny generation av multimodala interaktiva system.
In this thesis, I connect two disciplines, linguistics and vision research, and combine two methods, spoken language protocols and eye movement protocols, in order to cast light on the underlying cognitive processes. In a series of studies, I investigate the processual aspects of picture viewing and picture description. On the one hand, eye movements reflect human thought processes. It is easy to determine which elements attract the observer's eye and consequently, his thought. Eye movement records offer us one tool for accessing the mind. On the other hand, spoken segments are the linguistic expressions of a conscious focus of attention. By using a specific discourse-analytic approach, spoken description provides another complex and subtle window on the mind. Visual perception and spoken language description are conceived of with the help of a spotlight metaphor. By combining the contents of the verbal and visual spotlight, we get a reinforcement effect. When using 'two windows on the mind', we obtain more than twice as much information about cognition, since vision and spoken language interact with each other. For a sequential comparison of verbal and visual data, so called multimodal score sheets were created. With the help of this new analytic format, configurations of verbal and visual clusters were extracted from the synchronized data. In the main study, three groups of questions are central:

i. Can we identify comparable units in visual perception and in discourse production?

ii. Does the order of units in the verbal description reflect the general order in which information was acquired visually?

iii. Is the content of the units in picture viewing and picture description similar?

My results show that a verbal focus does not always closely correspond to a visual fixation. A perfect temporal and se¬mantic match between visual and verbal foci is very rare. In the light of these findings, the hypothesis about temporal and semantic correlation of verbal and visual data on the focus level has been invalidated. Instead, I suggest that the superfocus (roughly corresponding to longer prosodic sentences) is a suitable unit of comparison since it represents an entity that delimits separable clusters of both visual and verbal data.

The results of the eye-tracking study in a monological setting are also compared to a spontaneous description in an interactive setting where the spoken language description is accompanied by spontaneous drawing. I suggest that both the verbal and the non-verbal means of communication, spoken description, drawing, pointing gestures and gaze direction, contribute to a situatively anchored joint focusing process.The method developed in the thesis can be applied to several areas. The scanning strategies together with the on-line comments can solve several puzzles in cognition and scene perception. The method illuminates mental processes and attitudes and can thus be used as a sensitive evaluative tool for assessments of a current design. The empirical results from my studies, especially the way speech and eye movements are synchronised and integrated, can contribute to the development of a new generation of multimodal interactive systems.

Disputation

2001-04-28
10:00
Eden, Paradisgatan 5, Lund
  • Christopher Habel (Professor)

Nyckelord

  • Philosophy
  • discourse hierarchy
  • picture description
  • vision
  • picture viewing
  • information flow
  • discourse segmentation
  • discourse analysis
  • coherence
  • semantics
  • spatial and temporal relations
  • cognitive science
  • linguistics
  • cognitive linguistics
  • psycholinguistics
  • speech
  • cognition
  • multimodal communication
  • mental processes
  • eye movement protocol
  • focus of attention
  • spoken language protocol
  • information processing
  • scene perception
  • areas of interest

Övriga

Published
  • Peter Gärdenfors
  • ISSN: 1101-8453
  • ISBN: 91-856843-76

Box 117, 221 00 LUND
Telefon 046-222 00 00 (växel)
Telefax 046-222 47 20
lu [at] lu.se

Fakturaadress: Box 188, 221 00 LUND
Organisationsnummer: 202100-3211
Om webbplatsen