Kommentar till diskussionen om likvärdighet i bedömningar, årgång 2021

När nu årets diskussion om likvärdighet i bedömningen av de nationella proven sparkat igång på de stora dagstidningarnas debattsidor kan det vara värt att påpeka ett par förhållanden som alla redan vet, men som är lätta att glömma bort. Alltså:

Glöm inte att extern bedömning är tillförlitligare om och endast om allt annat hålls konstant. Det kan inte nog betonas att en extern bedömning är mer tillförlitlig eller mer “likvärdig” endast under förutsättning att den åtminstone uppfyller de villkor under vilka elevlösningen i normala fall skulle bedömas. Till sådana villkor hör en mängd faktorer, som bedömarens yrkeserfarenhet och utbildning, tid avsatt för bedömning, eventuell bedömarträning med mera. Dessutom bedöms elevers lösningar av komplexa uppgifter i regel av mer än en bedömare. I ämnet svenska på gymnasiet bedöms till exempel omkring hälften av alla texter av två eller fler lärare.

Glöm inte att den totala bedömningsbördan är konstant. Extern bedömning innebär i bästa fall en omfördelning av bördan. Jag blir oftast lite orolig när jag hör verksamma lärare ropa efter extern rättning av nationella prov eftersom risken finns att de ser det som ett sätt att bli av med den oerhört omfattande bedömningsbördan. Det an nämligen vara att hoppas på för mycket. En av de troligaste modellerna för extern bedömning vore nämligen att elevlösningarna blandas centralt och därefter åter skickas ut till de verksamma lärarna för bedömning. Bördan att bedöma åtminstone en klassuppsättning lösningar omfördelas med andra ord inte bara för att bedömningen sker externt. Den senaste veckans debatt har visserligen inte handlat om bedömningsbördan. Jag tror ändå att diskussionen vinner på att inte glömma bort hur stor den totala bedömningsbördan är. Hur stor? Den är så stor att även försök att befria delar av lärarkåren från bedömning innebär att andra, rätt stora delar av lärarkåren behöver gå in och ta över den omfördelade bedömningsbördan.

Glöm inte att elevens egen lärare är den effektivaste och tillförlitligaste fuskdetektorn. Det händer att vissa elever använder otillåtna medel vid genomförandet av nationella prov. Eftersom läraren har åratal av erfarenheter av varje enskild elevs prestationer ser läraren ofta omedelbart om en elev, i hopp om att kamma hem högsta betyg, till exempel har kopierat en färdig uppsats från en webbplats. Detta är mycket svårare att med blotta ögat upptäcka vid en extern bedömning, åtminstone om vi ska utforma externa bedömningar som maximerar möjligheterna till en likvärdig bedömning. Vid en maximering av likvärdigheten med hjälp av externa bedömningar vill man nämligen helst av allt neutralisera alla kända skevheter och systematiska fel (bias). Därför bör den externa granskaren bara ha tillgång till högst ett delprov per elev och därtill vara lyckligt ovetande om elevens tidigare prestationer i skolan. Under sådana likvärdighetsmaximerande förutsättningar minimeras samtidigt möjligheterna att identifiera vissa typer av fusk. Det kan alltså vara värt att försöka hitta en bra lösning på fuskproblematiken innan man helt och hållet “utlokaliserar” bedömningen.

Glöm inte att bedömningarna som jämförs i Skolinspektionens undersökningar har genomförts under okontrollerade olikartade förhållanden. Skolinspektionens tillvägagångssätt att jämföra ursprungsbedömningen med externa bedömares bedömningar är att betrakta som en god inledande observation för att utröna om det överhuvudtaget finns skäl att pröva en så kallad nollhypotes om att lärarna faktiskt är opartiska. Avvikelserna som observeras mellan de olika bedömningarna antyder att det faktiskt finns skäl. Eftersom bedömningarna har genomförts under okontrollerade olikartade förhållanden är det dock för tidigt att förkasta nollhypotesen om opartiska lärare. Om det övergripande resultatet från Skolinspektionen var att Skolinspektionens bedömare var strängare än elevernas egna lärare vet vi till exempel inte om detta beror på att lärare är partiska eller att lärare som väljer att delta i ett uppdrag från Skolinspektion är en aning strängare i allmänhet eller om de blir strängare av att medverka i en “kontrollrättning”. Men som alla redan vet – även om en påminnelse kan behövas, kan man inte klandra Skolinspektionen alltför mycket för att vi inte får ett konkret svar på den fråga vi är mest intresserade av. Ja, vi tar en sväng till:

Glöm inte att det finns försvinnande få studier som kan ge ett konkret svar på huruvida externa lärares bedömningar är tillförlitligare än interna lärares. Till och med de mest väldesignade studierna av samstämmighet i bedömning från Gruppen för nationella prov i svenska och svenska som andraspråk (ja, jag har varit med och gjort dem. Poängen med en egen blogg måste väl ändå vara att göra reklam för sig själv, inte sant?) kan egentligen bara besvara frågor som rör betydelsen av antalet bedömare, sambedömning kontra enskilda bedömningar samt antalet uppgifter som bedöms för tillförlitligheten i bedömningarna. Ett huvudproblem med att åstadkomma ett konkret svar på denna viktiga och intressanta fråga är att det nästan är omöjligt att skapa ett experiment som inte inkräktar på sakernas naturliga tillstånd. Och även om vi skulle tillåta oss att inkräkta på sakernas naturliga tillstånd är det svårt att återskapa vissa förutsättningar som gör det möjligt att utsätta den för all del ytterst troliga nollhypotesen – att lärarna faktiskt är opartiska – för gedigen prövning. Vi skulle i princip behöva en design som kunde tillåta följande statistiska sammanställning:

	Egen elevs text	Okänd elevs text
Läraren upplyst om att detta är egen elevs text
Läraren upplyst om att detta är en okänd elevs text

Om lärare är opartiska så ska upplysningar om huruvida det är en egen elevs text eller en okänd elevs text inte ha någon nämnvärd effekt på utfallet, på samma sätt som det inte ska ha någon egentlig effekt att det faktiskt rör sig om en egen elevs text eller en okänd elevs text. Denna design är dock nästintill omöjlig att genomföra eftersom jag har starka misstankar att lärare faktiskt känner igen egna elevers texter (eller lösningar).

Allt det här vet vi redan, men det är lätt hänt att man glömmer bort från ett år till ett annat, när en variant av likvärdighet i bedömning och betygssättning ska få sin årliga vädring.

Vidare läsning (om bedömningar i ämnet svenska):

Tobias Dalberg, Martina Zachiu, Negin Shahsavar, Kristina Eriksson & Siri Hussenius: Samstämmighet i läsbedömning. Statistisk analys vid bedömning av ett nationellt läsförståelseprov. Svenska i utveckling 37. Uppsala: Uppsala universitet, 2020, 49 p. Fulltext

Tobias Dalberg: Samstämmighet i skrivbedömning. Statistisk analys vid bedömning av två nationella skrivprov. Svenska i utveckling 36. Uppsala: Uppsala universitet, 2019, 49 p. Fulltext