Kapittel 4: Metode og evaluering
Dette kapittelet beskriver hvordan systemet har blitt evaluert og testet opp mot problemstillingen og er delt opp i tre deler. Den første delen tar for seg selve evalueringsmetoden på et generelt grunnlag, den andre delen beskriver hvordan eksperimentet ble gjennomført i praksis, mens den tredje delen analyserer de data som har blitt samlet inn og oppsummerer resultatet av evalueringen.
4.1 Metode
Systemet ble testet med tanke på brukbarhet og brukervennlighet gjennom å foreta en eksperimentell brukerevaluering med et sett med ekspertbrukere ved Universitetet i Bergen. Denne delen gir en beskrivelse av hva som kjennetegner en eksperimentell evaluering, samt hvordan man skal kan gå frem for å sette opp og gjennomføre slike evalueringer.
4.1.1 Eksperimentell evaluering
En eksperimentell evaluering er en empirisk forskningsmetode som blir mye brukt når man ønsker å teste brukergrensesnitt og design med tanke på aspekter som brukbarhet, brukervennlighet og nytteverdi (Dix, 2004:327-351). Til forskjell fra en systemanalyse, som er en metode der designeren selv evaluerer systemet, så bruker man innen en eksperimentell evaluering faktiske brukere som respondenter for å teste designet. Dette er en veldig effektiv teknikk som gir den fordelen at man får sett hvordan systemet fungerer i en virkelig situasjon, samt at man også får muligheten til å spørre brukerne direkte om deres meninger angående konkrete aspekter ved systemet. Særlig innenfor menneske-maskin-interaksjon (Human-Computer Interaction) blir eksperimentelle evalueringer mye brukt, og resultatet fra slike eksperiment gir empiriske data som kan brukes til å støtte opp om en hypotese eller en påstand. For at en eksperimentell evaluering skal gi tilstrekkelig med relevante data, må man tenke nøye gjennom følgende tre faktorer: utvalget av respondenter, hvilke variabler det er som skal testes, samt at man må ha utformet en god hypotese som spesifiserer nøyaktig hva det er man vil undersøke.
4.1.2 Elementer i et eksperiment
Det første steget i oppsettet av en eksperimentell evaluering er som nevnt utformingen av en hypotese. Hypotesen er i denne sammenhengen hva det er vi forventer å få ut av eksperimentet, og den spesifiserer i klartekst fokusområdet vårt. Målet med en eksperimentell evaluering er å få samlet inn tilstrekkelig med empiriske, kvalitative data som kan brukes til å bekrefte, eventuelt falsifisere, påstanden vår, og derfor også problemstillingen (Dix, 2004:329).
Neste steg i evalueringen er å velge ut respondentene til eksperimentet. Det å ha et godt utvalg er på mange måter det viktigste punktet da et dårlig utvalg ikke vil gi oss de nødvendige data. Den beste situasjonen er om man har mulighet til å foreta eksperimentet med faktiske brukere av systemet, men om disse ikke er tilgjengelige, bør vi fokusere på å få et utvalg som er så representativt som mulig for den faktiske brukergruppen når det gjelder alder, utdanning, dataferdigheter og så videre. Hvor mange respondenter man skal bruke, avhenger av problemstilling og hypotese, men som regel bør man ha så mange at utvalget blir representativt for den faktiske brukergruppen. Hvis ikke vil man ikke klare å avdekke potensielle problemer på en god nok måte.
Siste steg er å velge ut et antall variabler som kan testes under kontrollerte forhold, slik at man kan få testet hypotesen. Når man har utformet en god hypotese, vet man også ofte konkret hvilke variabler det er som skal testes, og om dette ikke er tilfelle, bør man revurdere hypotesen. Disse variablene må kunne manipuleres slik at man senere kan teste resultatet ved å gjenskape eksperimentet under liknende omstendigheter.
Et eksperimentet kan gjennomføres i form av en strukturert observasjon. Ifølge Grønmo (2004:126) er en slik observasjon en undersøkelsesmetode der evaluator observerer respondentene under kontrollerte forhold. Men det viktigste er at man får testet ut designet ved hjelp av brukere (Dix, 2004:331). Innsamling av data utføres som regel ved hjelp av utspørringer i etterkant av eksperimentet. Disse utspørringene kan for eksempel være strukturerte intervju der forskeren bruker et spørreskjema med et sett predefinerte spørsmål. Intervjuer og respondent kan møtes personlig for å gjennomføre intervjuet, men respondenten kan også selv kan fylle ut spørreskjemaet. Dette kan være fordelaktig dersom man ikke har muligheten å møtes ansikt til ansikt. For å få kvalitative data ut fra eksperimentet kan man bruke en kvalitativ innholdsanalyse til å analysere svarene. Dette er en analyseform der man forsøker å behandle og analysere data sett i forhold til den aktuelle problemstillingen. Men hovedmålet er altså å få samlet inn kvalitative data ved hjelp av observasjon og interjvu. De data som bli samlet inn kan man igjen bruke for å analysere problemstillingen/hypotesen.
Men andre ord kan oppsettet av en eksperimentell evaluering oppsummeres slik:
- Velg en hypotese som klart spesifiserer hva det er vi ønsker å teste.
- Velg ut respondenter som er så representative som mulig for den faktiske brukergruppen.
- Velg ut variabler som kan testes under kontrollerte forhold.
4.2 Gjennomføringen av selve eksperimentet
Denne delen gir en utfyllende beskrivelse av hvordan eksperimentet ble utformet og gjennomført. Først beskrives målet med evalueringen, deretter utvalget av respondenter, og til slutt prosessen med å samle inn data.
4.2.1 Målet med evalueringen
Hovedmålet med evalueringen har vært å teste ut AnnForum med tanke på aspekter som brukervennlighet, nytteverdi og brukbarheten relatert til annoteringen av ikke prefabrikkerte læringsressurser i FLE3 sitt diskusjonsforum. Dette har blant annet innebåret å bruke faktiske studenter som respondenter, for på den måten å se om systemet kunne bidra til å øke graden av læring hos studenter sett i en læringssammenheng. Hypotesen skissert i innledende kapittel har hele tiden vært den faktoren som mest har påvirket oppsettet av evalueringen:
Kan semantisk annotering av innlegg i diskusjonsforum hjelpe studenter i deres kollaborative læringsprosess ved at læringsressurser fra tidligere semesters diskusjoner gjenbrukes?
Med andre ord var hensikten med å få relevante tilbakemeldinger fra respondentene å kunne få en idé om nytteverdien av AnnForum og mer spesifikt brukergrensesnittet for relevante innlegg. Et delmål var også å se på hvor godt systemet klarte å annotere innlegg etter de riktige konseptene i den konseptuelle domenemodellen, det vil si hvor godt klassifiseringsalgoritmen fungerte.
4.2.2 Utvalg av respondenter
Seks respondenter, studenter ved Universitetet i Bergen, ble valgt ut til evalueringen av AnnForum. Årsakene til at disse seks ble valgt ut, var at først og fremst at alle hadde bakgrunn fra kunstig intelligens, hovedsaklig ved at de hadde tatt fag ved UiB. Alle respondentene hadde også erfaring med bruk av diskusjonsforumer. Disse to punktene gjorde at det ikke var nødvendig å gi spesielt mye opplæring av verken verktøy eller fagområdet, noe som sparte mye tid. I tillegg var respondentene veldig like faktiske brukere.
De ovennevnte kriteriene for utvalg av respondenter ble satt opp for å få et så representativt utvalg som mulig sammenlignet med en virkelig brukergruppe. Respondentene var alle ekspertbrukere med kunnskap om det aktuelle domenet, noe som også ville vært tilfellet ved en evaluering gjennom et helt semester med faktiske brukere.
Den opprinnelige planen var å få utført evalueringen gjennom et helt semester ved å teste studenter som var aktive deltakere på et kurs i kunstig intelligens, men på grunn av tidsmangel, samt at de aktuelle kursene ikke gikk det semesteret denne evalueringen ble gjennomført, var dette dessverre ikke mulig. Ved å evaluere systemet gjennom et helt semester kunne man ha observert bruken av systemet i en virkelig situasjon, man kunne ha spurt studentene om momenter ved systemet, i tillegg til å ha satt opp loggføringsmekanismer for å sjekke bruken av annoteringsmodulen.
4.2.3 Datainnsamling - brukeroppgaver og intervju
Den eksperimentelle evalueringen ble gjennomført i form av seks enkeltstående evalueringer. Hver evaluering ble utført i et kontrollert miljø med kun evaluator og en respondent til stede. Dette ble gjort for at respondenten skulle kunne observeres under selve evalueringen. To av de seks studentene var ikke tilgjengelige i løpet av disse to ukene, men disse ble i stedet tildelt et alternativt evalueringsopplegg som kunne utføres over Internett. Respondentene fikk ikke noe informasjon i forkant av evalueringene, annet enn at varigheten for hver evaluering ville bli på én til én og en halv time, at det ville innebære kunstig intelligens og diskusjonsforumer, og at målet med evalueringen var å teste ut en ny funksjon i FLE3 sitt diskusjonsforum.
De fire evalueringene ble gjennomført i et kontrollert miljø, det vil si et stille rom med kun evaluator og respondent til stede. Hver evalueringssesjon ble satt opp på den måten at respondenten først kort ble fortalt hva som var hensikten med evalueringen: å teste ut en ny funksjon i FLE3 sitt diskusjonsforum for å se om denne kunne forenkle prosessen med å finne informasjon. Respondenten fikk også en kort opplæring/introduksjon til FLE3 sin kunnskapsbyggingsmodul, samt at de ble vist hvor de kunne finne brukergrensesnittet for relevante innlegg (figur 3.5). Når introduksjonen var ferdig, fikk de utdelt et sett med brukeroppgaver som de skulle gjennomføre på egenhånd. De ble også bedt om å si i fra om det var noe de fikk problemer med mens de jobbet med oppgavene. For å få en konkret tilbakemelding på brukbarheten av AnnForum, ble respondentene intervjuet rett i etterkant etter at brukeroppgavene hadde blitt utført. Hensikten med intervjuet var todelt:
- å få bekreftet resultatet fra observasjonen ved å stille spørsmål om observerte elementer som måtte være uklart.
- å få en mer nøyaktig tilbakemelding på brukerens holdninger i relasjon til systemet, og da særlig med tanke på aspekter som brukervennlighet, brukbarhet og nytteverdi.
De to respondentene som ikke hadde mulighet til å møte opp personlig, fikk tilsendt evalueringsopplegget på e-post. I tillegg til at brukeroppgavene og intervjuspørsmålene ble lagt ved som vedlegg, ble det også beskrevet nøye hvordan de skulle gå frem for å utføre evalueringen på egen hånd. Dette var for at alle evalueringene skulle bli så like som mulig.
4.2.3.1 Brukeroppgaver
Hensikten med brukeroppgavene var hovedsaklig at respondentene skulle få en oversikt over systemet i forkant av intervjuet, og da spesielt brukergrensesnittet for relevante innlegg. På den måten kunne de gjøre seg opp en mening angående brukbarheten og nytteverdien av AnnForum før intervjuspørsmålene. Før den første evalueringen ble det lagt inn to «hovedinnlegg» relatert til kunstig intelligens, hvor et av innleggene omhandlet Turing Test og et omhandlet Machine Learning. Disse to innleggene var utformet som «Problem» i FLE3 og ble brukt som utgangspunkt for alle evalueringene. Formuleringene på disse to innleggene var så enkle som mulig, slik at respondentene kunne lese og svare på disse uten å måtte ha inngående kunnskap om temaene.
Oppgavene som respondentene skulle utføre, innebar blant annet at de skulle skrive to poster i FLE3 som svar på eksisterende innlegg, i tillegg til å benytte brukergrensesnittet for relevante innlegg for å finne relevante ressurser. Se appendiks C for en oversikt over brukeroppgavene. Respondentene ble også bedt om å avgi stemmer på om de syntes innleggene de leste, var relevante eller ikke. Svarene som ble lagt til i FLE3 av respondentene under hver evaluering, ble liggende, slik at neste respondent skulle få flere innlegg å velge i. Begrunnelsen for dette valget var et forsøk på å simulere en kunnskapsbyggingsprosess, slik at den første respondenten hadde to mulige innlegg å svare på, andre respondent hadde fire mulige innlegg og så videre. Denne fremgangsmåten gjorde også at testingen av den dynamiske klassifiseringen av nye innlegg ble mer realistisk, fremfor om man for hver evaluering skulle ha startet med en tom FLE3-database.
4.2.3.2 Datainnsamling - intervju
Datainnsamlingen ble gjort ved å gjennomføre strukturerte intervju av de seks respondentene. Intervjuene ble gjort etter at brukerne hadde utført brukeroppgavene, og spørsmålene som ble stilt, var direkte relatert til nytteverdien og brukbarheten av AnnForum. For å få en oversikt over bakgrunnskunnskapene ble respondentene også spurt om hvor mye kunnskap de følte at de hadde om kunstig intelligens, samt om de hadde brukt FLE3 i en utdanningssammenheng før. For noen av spørsmålene ble de også bedt om å rangere svaret sitt, for eksempel «På en skala fra 1-5 der 5 er mest relevant, hvor relevant?».
Spørsmålene kan grovt fordeles i fire hovedkategorier:
- Hensikten med brukergrensesnittet for relevante innlegg og relevansen til de foreslåtte innleggene ved første øyekast, sett ut fra tittel og relevansverdi i prosent (figur 3.6).
- Relevansen for de innleggene som faktisk ble lest - hvor relevante syntes respondenten innlegg(ene) virket for den nåværende diskusjonen.
- Positive og negative aspekter ved systemet samt forslag til endringer.
- Nytteverdi - respondentens oppfatning og subjektive meninger angående systemet.
Med relevansverdi menes det hvor relevante respondenten syntes at de foreslåtte innleggene som kom opp, var for den nåværende diskusjonen. Med positive/negative aspekter menes det om det var noe respondenten syntes var særdeles bra/dårlig med brukergrensesnittet som helhet, mens nytteverdi refererer til om respondenten syntes at et system som annoterer og gjenbruker innlegg i diskusjonsforumer, har noe for seg.
Et utdrag av spørsmålene som ble stilt, er listet opp nedenfor. For en fullstendig oversikt over alle intervjuene med tilhørende spørsmål, se appendiks D.
- Skjønte du hensikten med «Show related notes»-knappen?
- Ved bruk av «Show related notes»-knappen, synes du innleggene som kom opp i listen, virket relevante for diskusjonen? Hvorfor?
- Hva var mest interessant ved de foreslåtte innleggene?
- Synes du relevansverdien i prosent var riktig for de innleggene du leste? Hvorfor?
Et par dager etter at intervjuene var gjennomført, fikk respondentene tilsendt sitt transkriberte intervju på e-post for at de skulle kunne se over svarene sine, og eventuelt gjøre endringer dersom det var noe som de mente var galt. Det å gi respondentene denne muligheten ble gjort for at intervjuene skulle bli så korrekte som mulig. I tillegg var tanken at respondentene etter et par dager ville ha fått litt tid til å tenke over svarene sine, for på den måten å bedre kunne utdype informasjonen om de skulle ønske det. Alle respondentene valgte å benytte seg av denne muligheten ved å presisere formuleringer og endre på svar som de mente var uklare.
4.3 Analyse og oppsummering av data
Denne delen analyserer og oppsummerer de data som ble samlet inn i løpet av de seks evalueringene. Hver av de seks intervjuene vil analyseres med tanke på relevansverdi for de foreslåtte innleggene («Show related notes»), positive aspekter, negative aspekter og nytteverdi. I tillegg vil resultatene fra alle intervjuene oppsummeres og sammenliknes mot slutten av kapittelet. Transkripsjon av alle intervjuene finnes i sin helhet i appendiks D.
4.3.1 Første evaluering
Respondent nummer én var stort sett positiv til systemet og svarte at hensikten med brukergrensesnittet for relevante innlegg var å kunne se hva andre mente om et valgt tema. Innleggene som ble listet opp, virket relevante, hovedsaklig som følge av at titlene på de foreslåtte innleggene omhandlet temaet («Turing Test»). Relevansverdien i prosent for de forskjellige innleggene var også nyttig, fordi de ga et inntrykk av hvor relevante ressursene var (høyere verdi = større relevans).
Om de innleggene som faktisk ble lest, svarte respondenten at de til dels var relevante. Ikke alle de foreslåtte innleggene omhandlet Turing Test direkte, selv om de kunne inneholde relevant informasjon om temaet. Prosentverdien for innleggene var stort sett riktig, innlegg med høy relevansverdi var stort sett nyttige. De leste innleggene ble valgt på bakgrunn av både relevansverdi og tittel, og innlegg som var bra skrevet, ble rangert positivt. Respondenten unnlot imidlertid å rangere dårlige innlegg negativt, dette for ikke å foreta en negativ rangering basert på subjektive meninger.
I et velskrevet innlegg har man gjerne mye fakta og man knytter det opp mot sine meninger. For mye subjektivitet i et innlegg kan lett oppfattes som mindre relevant enn et faktabasert innlegg. Dermed er det ikke sagt at de subjektive innleggene er irrelevante.
Det som var mest positivt ved de relevante innleggene, var ifølge respondenten muligheten for å få en mer utdypende kunnskap om det valgte temaet, men også å kunne se hva andre har ment om temaet, samt å kunne bruke innleggene som referanser. Et negativt aspekt ved systemet var at stemmegivningsfunksjonen kunne misbrukes ved at det var mulig å stemme sitt eget synspunkt høyt opp på listen. Det kunne også ha vært nyttig å knyte de enkelte innleggene til referanser for kunstig intelligens, som for eksempel vitenskaplige artikler.
På spørsmålene om nytteverdien av å vise relevante innlegg svarte respondenten at et slikt system i utgangspunktet virket som en god idé, men at det nok ville være mest til nytte i situasjoner der brukerne var høyt motiverte, som for eksempel en studiesituasjon. Innenfor offentlige eller mer overfladiske diskusjoner vil kanskje ikke brukerne være motiverte nok til benytte funksjonen. Det ble kommentert at brukergrensesnittet var oversiktlig.
4.3.2 Andre evaluering
Respondent nummer to var positiv til systemet og svarte at hensikten med brukergrensesnittet for relevante innlegg var å tolke innholdet i det nåværende innlegget, samt å hente frem andre innlegg som hadde lignende innhold. Han svarte at flesteparten av de relevante innleggene som ble foreslått, var nyttige for diskusjonen, og at innleggenes overskrifter raskt viste hvorfor systemet mente de var relevante. Relevansverdien i prosent var imidlertid det som var viktigst da prosentverdien ga et inntrykk av hvor mye man kunne forvente av innlegget.
Om de innleggene som faktisk ble lest i sin helhet, svarte respondenten at de som oftest var meget relevante, men med unntak av et testinnlegg som kom ganske høyt opp på listen. Innleggene ble hovedsaklig lest på bakgrunn av relevansverdi. De relevante innleggene påvirket også svarene som respondenten la inn i FLE3, ved at de ga et inntrykk av at det var et aktivt og levende forum, noe som økte motivasjonen for å formulere et godt svar. Men det var også noen innlegg som ble lest, som ikke var relevante.
Det som var mest positivt ved de relevante innleggene, var ifølge respondenten at «[...] de virket reelt relaterte og inneholdt ikke bare det samme ordet et par ganger som slike systemer vanligvis synes å resultere i.» En ting som ble kommentert som negativt, var at det ved et tilfelle kom et testinnlegg øverst på listen. Respondenten sa også at det kunne vært nyttig med en liten ingress til hvert av de relevante innleggene som ble listet opp, slik at det kunne vært lettere å se hva de handlet om.
På spørsmålene om nytteverdien av å vise relevante innlegg svarte respondenten at et slikt annoteringssystem hadde et potensial til å bli mye brukt, ikke bare i en studiesituasjon, men også på for eksempel sosiale nettsteder.
4.3.3 Tredje evaluering
Respondent nummer tre var også positiv til systemet og svarte at hensikten med brukergrensesnittet for relevante innlegg var å vise relevante innlegg som handler om samme tema, samt hvor relevante de var for det valgte FLE3-innlegget. Innleggene som kom opp i listen, virket relevante da de omhandlet det teamet som det ble lest om.
Om de innleggene som faktisk ble lest, svarte respondenten at de stort sett virket relevante for diskusjonen, selv om kvaliteten på innleggene ikke nødvendigvis var like bra. Innleggene ble valgt på bakgrunn av relevansverdi, de med høy rangering ble lest først, men også noen av de med lav rangering ble lest for å kunne sammenlikne. De med høy relevansverdi syntes respondenten hadde høy faglig kvalitet og mest tilknytting til temaet, og de ble derfor rangert positivt.
Det som var mest positivt ved de relevante innleggene, var ifølge respondenten å kunne se hva andre hadde diskutert og sagt om et tema. Det var ikke noe spesielt som ble trukket frem som negativt, men det ble kommentert at innleggene med lavest relevansverdi var minst interessante.
På spørsmålene om nytteverdien av å vise relevante innlegg ble det svart at det virket fornuftig å gjenbruke gamle innlegg fordi «[...] det er dumt at det samme skal skrives om igjen flere ganger, og man kan også finne lærdom i gamle innlegg.» Respondenten sa også at hun nok selv ville ha brukt en slik funksjon i en virkelig studiesituasjon.
4.3.4 Fjerde evaluering
Respondent nummer fire var positivt innstilt til systemet og svarte at hensikten med brukergrensesnittet for relevante innlegg var å vise innlegg som var relevante for nåværende innlegg. De innleggene som ble listet opp, var nyttige for diskusjonen da de aller fleste hadde titler som handlet om det aktuelle temaet.
Om de innleggene som faktisk ble lest, svarte respondenten at også disse for det meste var relevante, fordi «de innleggene med høy relevansverdi faktisk var mer relevante for diskusjonen, mens de med lav relevansverdi ofte ikke var så godt skrevne / veldig relevante». Det var hovedsaklig de innleggene med høy relevansverdi, og litt i kombinasjon med interessant tittel, som ble lest. Et par innlegg med lav relevans ble lest for å sammenlikne. De relevante innleggene påvirket også til dels svarene som respondenten selv la inn i FLE3.
Det som var mest positivt ved de relevante innleggene, var ifølge respondenten muligheten for avgi en stemme for om et foreslått innlegg var nyttig eller ikke. Det var også lettere å kunne navigere i en sortert liste fremfor et hierarki. En ting som imidlertid ble trukket frem som negativt, var at de relevante innleggene kom opp i et popup-vindu; en bedre løsning hadde vært om listen hadde vært direkte integrert i FLE3. Brukergrensesnittet for relevante innlegg kunne også hatt litt samme «look-and-feel» som grensesnittet til FLE3.
På spørsmålene om nytteverdien av å vise relevante innlegg var respondenten positiv og svarte at en slik funksjon nok ville ha blitt brukt i en virkelig studiesituasjon fordi: «Jeg selv ville ha brukt den, og jeg er lat. Funksjonen er lettere tilgjengelig og mer nyttig enn den tradisjonelle SEARCH-knappen».
4.3.5 Femte evaluering
Respondent nummer fem forstod hensikten med systemet, men utdypet ikke dette noe videre. For de innleggene som ble listet opp så svarte han at de fleste var relevante, men at det kanskje var litt for lite brukerdata til å korrekt kalkulere relevans, blant annet fordi at innlegg som ble gitt en positiv stemme gikk fra langt nede på listen til høyt opp.
For de innleggene som faktisk ble lest så svarte respondenten disse var relevante, og at med flere innlegg i databasen så kunne det blitt enda mer interessant Relevanseverdien i prosent virket også riktig for innleggene. Det som avgjorde hvilke foreslåtte innlegg som ble lest var en kombinasjon av både relevanseverdi og tittel. Av de relevante innleggene som ble lest så påvirket ikke de svarene som respondenten selv utformet og la til i FLE3.
Det som var mest positivt ved de relevante innleggene var i følge respondenten å kunne lese andres vinklinger på samme sak. Ingen spesielle aspekter ble trekt frem så negativt, men det ble kommentert at det kunne ha vært nyttig å se mer av innleggene som kom i listen, dette da det ikke alltid er slik at tittelen på innlegget reflekterer innholdet. Det ble også nevnt at relevanseverdien kanskje kunne bli litt upålitelig når få har stemt.
På spørsmålene om nytteverdien av å vise relevante innlegg så svarte respondenten at det virket som en fornuftig idé, da mye kunnskap går tapt mellom hvert kull, og at han selv nok ville ha brukt en slik funksjon. I tillegg så svarte han at det «...ofte finnes relevante innlegg, men på grunn av en enorm informasjonsmasse blir det nesten umulig å finne frem til det man ønsker».
4.3.6 Sjette evaluering
Respondent nummer seks var positivt innstilt til systemet og svarte at hensikten med brukergrensesnittet for relevante innlegg var å søke etter tidligere innlegg basert på nøkkelord. De innleggene som ble listet opp i brukergrensesnittet, virket relevante, selv om det ikke fantes informasjon om undertråder og titlene på innleggene var dårlige.
Om de innleggene som faktisk ble lest, så syntes respondenten at innholdet her som oftest var bedre enn tittelen, og relevansverdien var bra nok. Innlegg ble valgt ut på bakgrunn av både tittel og relevansverdi, men det var tittelen som var viktigst. Når det kom til å avgi stemmer, ble ett av innleggene gitt en positiv stemme og ett ble stemt på som ikke relevant. De innleggene som ble lest, hadde ikke noen påvirkning på svarene som respondenten selv la inn, da han av gammel vane så på de foreslåtte innleggene først etter at svarene var lagt til.
Det som var mest positivt ved de relevante innleggene, var ifølge respondenten at det var et godt alternativ til å søke, da det på en måte fungerte som et «automatisk søk», samt at det også ble vist mer informasjon om et spesifikt tema. En ting som ble oppgitt som negativt, var at stemmefunksjonen kunne misbrukes ved å stemme sine egne synspunkt høyt opp på listen, og at det kanskje burde vært en sperre mot å stemme mer enn én gang på samme innlegg. Respondenten hadde flere forslag til endringer/fremtidig funksjonalitet; et av disse var at systemet burde oppfordre brukeren til å skrive mer relevante titler på innleggene. Et annet forslag var muligheten for å se hele tråden til et utvalgt relevant innlegg. Det siste var at brukergrensesnittet for relevante innlegg burde hatt en «look-and-feel» som var mer likt FLE3 sitt brukergrensesnitt.
På spørsmålene om nytteverdien av å vise relevante innlegg svarte respondenten at det virket meget nyttig, spesielt for generelle spørsmål, da man «[...] unngår å få dupliseringer av samme type spørsmål/svar. De relevante innleggene gjør deg òg oppmerksom på lignende tema.». Det ble også svart at det er dumt at informasjon går tapt, enten når et nytt semester begynner, eller ved at en tråd med nyttig informasjon forsvinner i mengden når nye innlegg blir lagt til. Respondenten mente også at systemet ville bli brukt i en virkelig studiesituasjon, blant annet fordi diskusjonsforumer for læring kan bli litt mangelfulle da det «...nødvendigvis ikke er så mange tråder som startes i løpet av et semester [...]» .
4.3.7 Oppsummering av resultatet
Resultatet fra den eksperimentelle evalueringen var meget positiv: Av de seks respondentene som var med og evaluerte AnnForum, forstod alle sammen hensikten med systemet, i tillegg til at alle seks så nytteverdien av å ha et brukergrensesnitt som viser relevante innlegg i et diskusjonsforum. Alle respondentene hadde tatt kurs relatert til kunstig intelligens ved Universitetet i Bergen, og på en skala fra én til fem lå snittet på rundt tre. Ingen av respondentene hadde brukt gruppevaresystemet FLE3 i en praktisk situasjon før, men et par stykker hadde lest om det i forbindelse med kurs de hadde tatt. Den første respondenten sine brukeroppgaver og intervjuspørsmål varierte også litt fra de andre fem sine spørsmål. Grunnen til dette var at det ble avdekket et par momenter ved oppgavene som var uklare, samt at noen av spørsmålene var litt tvetydige. For eksempel var det ikke hensiktsmessig at respondenten skulle svare på sitt eget spørsmål. Men forskjellene var ikke veldig store og bør derfor ikke påvirke resultatet i nevneverdig grad.
4.3.7.1 Førsteinntrykket av de foreslåtte innleggene
For innleggene som først ble listet opp når brukeren trykket på «Show related notes»-knappen, var det generelle førsteinntrykket at innleggene virket relevante for diskusjonen. Alle respondentene svarte at innleggene virket relevante hovedsaklig på grunn av rangeringen og relevansverdien i prosent, men også på grunn av at titlene på innleggene omhandlet det teamet som ble diskutert. En av respondentene sa imidlertid at han synes titlene på innleggene var dårlige, mens en annen stilte spørsmål om måten relevansverdiene i prosent ble regnet ut på. Det ble også uttrykt et ønske om å kunne se subtråder til de enkelte innleggene.
4.3.7.2 Relevansen for de innleggene som faktisk ble lest
De innleggene som respondentene faktisk gikk inn på og leste, var i de aller fleste tilfellene relevante for diskusjonen. Om hva som avgjorde hvilke innlegg som ble lest, svarte tre av respondentene at det var relevansverdien i prosent som var viktigst, to av respondentene svarte at det var en interessant tittel i samsvar med relevansverdien i prosent som avgjorde valget, mens én respondent oppga at det var tittelen som var viktigst. Alle sammen syntes at innleggene som var rangert øverst, var mest relevante, mens innleggene som var på bunnen av listen, som regel var mindre aktuelle. Men det ble kommentert at man kunne sammenlikne de mindre aktuelle med de høyere på listen med tanke på kvalitet. De foreslåtte innleggene som ble lest, påvirket også i to av tilfellene måten respondentene formulerte svarene sine på, to stykker svarte at innleggene ikke påvirket svarene, mens de to siste ikke nevnte dette. Flere av respondentene benyttet seg av muligheten til å stemme på de foreslåtte innleggene, selv om de hadde forskjellige argumenter for hvorfor de stemte som de gjorde. Det som er verdt å merke seg, er at noen innlegg ble rangert positivt, men ingen ble rangert negativt. Den første respondenten sa at dette ble gjort «[...] for ikke å rangere et innlegg negativt basert på subjektive meninger [...]».
4.3.7.3 Positive og negative aspekter - forslag til endringer
Det som generelt ble trukket frem som mest positivt ved systemet, var muligheten for å kunne få en mer utdypende kunnskap om et aktuelt tema, samt å se hva andre hadde skrevet. Innleggene virket også relevante, samt at de ga et inntrykk av at det var et levende diskusjonsforum man var inni, noe som blant annet økte motivasjonen for å formulere gode svar. Stemmegivningsfunksjonen falt også i smak hos en av respondentene. Noe som ble kommentert flere ganger, var den rangerte listen med innlegg. Respondentene likte denne, blant annet da det var et godt alternativ til å søke i diskusjonsforumet. Det var også bedre å kunne navigere i en sortert liste fremfor å bla i et hierarki av innlegg.
Når det kom til negative aspekter, ble det kommentert to ganger at stemmegivningsfunksjonen kunne misbrukes til å stemme sitt eget synspunkt høyt opp på listen. En annen ting som også ble kommentert som å telle negativt, var at et testinnlegg hadde havnet høyt opp på listen. En av respondentene likte heller ikke at de relevante innleggene kom opp i popup-vindu, og syntes heller at disse burde ha vært integrert i FLE3 for ikke å forstyrre arbeidsflyten.
Respondentene hadde også flere forslag til endringer. Dette var relatert til ting som ikke var direkte negative, men som de enten savnet eller kunne tenke seg å se i en eventuell ny versjon. Forslagene var:
- å ha muligheten for å se mer av innleggene i listen av foreslåtte innlegg, på en måte som en slags ingress eller introduksjon. Dette ble begrunnet med at det ofte ikke er lett å se hva et innlegg handler om bare på bakgrunn av en tittel.
- at brukergrensesnittet for relevante innlegg burde hatt litt mer samme «look-and-feel» som grensesnittet til FLE3.
- å ha muligheten for å lenke de enkelte innleggene opp mot referanser for temaet, som for eksempel vitenskaplige artikler.
- å ha muligheten for å se hele tråden til et utvalgt, relevant innlegg.
4.3.7.4 Generell nytteverdi av systemet
Alle respondentene så nytteverdien av å gjenbruke innlegg fra tidligere semester som relevante ressurser i nåværende semesters diskusjon. Hovedgrunnen til at de likte ideen, var at det ville føre til mindre duplisering av informasjon, noe som er et vanlig problem i tradisjonelle diskusjonsforumer. En annen ting som flere av respondentene så på som positivt, var at brukergrensesnittet for relevante innlegg kunne brukes som et alternativ til søkefunksjonen, blant annet fordi de syntes det var lettere å navigere i en sortert liste fremfor å måtte søke eller navigere i en hierarkisk tråd. Generelt syntes de at det var lettere å få oversikt over relevant informasjon og andres synspunkter, i tillegg til at relevante innlegg ikke ville gå tapt fra semester til semester.
Respondentene hadde litt forskjellige oppfatninger om for hvilke bruksområder det ville være nyttig å gjenbruke innlegg. Noen av respondentene mente at et slikt system ville være mest nyttig i situasjoner der brukerne er høyt motiverte, som for eksempel studiesituasjoner, og at i mer generelle diskusjoner ville ikke brukerne være motiverte nok til å bry seg med en slik funksjon. Andre igjen mente at også på sosiale nettsteder kunne systemet være nyttig. Noen av utsagnene angående nytteverdi har blitt listet opp nedenfor:
- «Det er dumt at det samme skal skrives om igjen flere ganger, og man kan også finne lærdom i gamle innlegg.»
- «Det er lettere med en liste enn å måtte navigere i et hierarki, og sorteringen gjorde det lettere å unngå unyttige innlegg.»
- «Dette er svært nyttig i et diskusjonsforum. Ofte finnes relevante innlegg, men på grunn av en enorm informasjonsmasse blir det nesten umulig å finne frem til det man ønsker.»
- «[...] det er synd at viktig informasjon går tapt fra semester til semester. Eventuelt at en diskusjonstråd med nyttig informasjon blir "begravd" fordi den har vært inaktiv.»
- «I offentlige og/eller overfladiske diskusjoner vil brukerne kanskje ikke være motiverte nok til å bruke en slik funksjon.»
4.4 Diskusjon av resultatet
Resultatet fra evalueringen visste at respondentene var fornøyde med funksjonaliteten i systemet som helhet. De likte muligheten til å kunne få en oversikt over innlegg fra tidligere semester, og syntes i flere tilfeller at det å kunne se relaterte innlegg var et godt alternativ til å søke etter innlegg. Brukergrensesnittet for relevante innlegg var oversiktlig, og ressursene som kom opp, var i de fleste tilfellene relevante for den nåværende diskusjonen. Dette kan tyde på at det å annotere innlegg i diskusjonsforumer kan være nyttig, i hvert fall når det kommer til en læringssituasjon.
Den automatiske annoteringen av innleggene fungerte derfor meget bra, og en av grunnene for dette kan være at grensesnittet og annoteringen av innleggene var enkle å bruke. Funksjonen førte ikke til mer arbeid for respondentene, men lå heller tilgjengelig slik at de kunne se relevante innlegg dersom de ønsket det. Dette henger blant annet sammen med det som ble nevnt i innledningen og i kapittel 2.3.1: Dersom annoteringsprosessen medfører merarbeid for brukeren, for eksempel ved at de må bruke tid på å manuelt tilordne innlegg til konsepter, så vil funksjonen mest sannsynlig ikke bli brukt. En annen fordel er at innlegg som kan være nyttige fra tidligere semester ikke forsvinner, men blir tilgjengelige for nye studenter som nye ressurser. Dette innebærer igjen at man sparer tid da man slipper å formulere spørsmål og svar som allerede har blitt stilt.
Som allerede nevnt i del 4.2.2 var den opprinnelige planen å gjennomføre evalueringen over et helt semester opp mot faktiske studenter. Dersom det hadde blitt gjort kunne nok resultatet ha blitt annerledes. Man bør nok derfor i fremtiden forsøke å få testet ut systemet i et ideell situasjon, hovedsaklig for å se om dette påvirker resultatet. Men frem til man får gjennomført en slik evaluering så virker det som om systemet kan ha en positiv innvirkning på studentenes læringsprosess.
Videre til kapittel 5: Konklusjon >>
Last updated Wed November 26 on 15:57:12



