Een goede beoordelingsschaal voor medewerkers

Daniel Hoopman Daniel Hoopman 1 oktober 2014 58668

Op een beoordelingsformulier wordt een oordeel gegeven over het functioneren van een medewerker. Het valt daarbij aan te raden om niet alleen alle onderliggende onderdelen uit het functioneren apart te beoordelen, maar ook om een samenvattend eindoordeel te geven als leidinggevende.

Een medewerker die een rijtje plussen en minnen te zien heeft gekregen, zou anders terecht kunnen aanvoeren dat hem niet duidelijk te kennen is gegeven dat zijn functioneren ‘onvoldoende’ of ‘excellent’ is. Zodoende zou hij een hele andere interpretatie aan het gesprek en de feiten kunnen geven. Dat is zowel juridisch als vanuit het perspectief van motivatie niet aan te raden. Het is gewoon niet zo duidelijk zonder totaaloordeel.

In De Digitale Gesprekscyclus zijn beoordelingsformulieren en de daarop voorkomende vragen volledig naar inzicht van de klant instelbaar. Hiermee beschikken we (zij het anoniem) over informatie uit de praktijk met betrekking tot dit onderwerp. Het blijkt dat nagenoeg alle organisaties een samenvattend eindoordeel opnemen in hun beoordelingsformulier. In bijna alle gevallen betreft het daarbij een (door de leidinggevende) verplicht in te vullen meerkeuzevraag.

Bij bijna ieder implementatietraject rondom beoordelen waar wij bij betrokken zijn, ontstaat een gezonde discussie (in de werkgroep die met een voorstel voor een formulier moet komen) over de vraag uit hoeveel antwoordmogelijkheden de uiteindelijke beoordelingsschaal zou moeten bestaan. Regelmatig voorkomende schaalverdelingen zijn;

  • Een driepuntsschaal: onvoldoende, voldoende en goed;
  • Een vijfpuntsschaal: onvoldoende, matig, voldoende, goed en uitstekend;
  • Een vierpuntsschaal: meestal in de volgorde onvoldoende, matig, voldoende en goed.

Er gaan echter veel stemmen op om geen ‘veilig midden’ te hanteren en dus een even aantal antwoordmogelijkheden in de schaal voor de eindbeoordeling te gebruiken. Om diezelfde reden worden vijf- of meerpuntsschalen vaak afgewezen. Leidinggevenden zouden daarmee te vaak in het veilige midden scoren en uitersten vermijden. Voor een groot deel is dit weglaten van het neutrale midden gebaseerd op de verkeerde uitgangspunten. Dat licht ik hieronder toe.

1. De technische oplossing verhelpt het achterliggende probleem niet

Het achterliggende probleem is namelijk wantrouwen van de formulierontwikkelaars (veelal een P&O-activiteit in samenspraak met hoger management) in leidinggevenden (middenmanagement) die kennelijk niet in staat geacht worden objectief te beoordelen. Het is beter voor de organisatie om te bepalen of dat wantrouwen terecht is en dan het probleem in de kern op te lossen, in plaats van simpelweg het neutrale midden te schrappen uit de schaal.

2. Er wordt onterecht verwezen naar onderzoek

"Uit onderzoek blijkt dat het beter is om geen neutraal midden in schalen te hanteren." Om het maar eens recht voor zijn raap te zeggen: een typisch geval van ‘wel de klok horen luiden, maar niet weten waar de klepel hangt’. ‘Survey Questions: Handcrafting the Standardized Questionnaire’ van Jean M. Converse en Stanley Presser uit 1986 is zo’n bijbeltje voor de sociale wetenschap wanneer het aankomt op constructie van goede vragenlijsten. Zonder het feitelijke onderzoek te kennen, verwijzen mensen die meedenken over de keuze van beoordelingsschalen dus onbewust naar dit soort wetenschapsuitgaven.

Het punt is echter dat dit handvest helemaal geen betrekking heeft op deze situatie. Dit onderzoek omvat namelijk het construeren van sociaalwetenschappelijk verantwoorde enquêtes, waarbij het antwoord op een grote hoeveelheid meerkeuze-items (Likertschalen) samen het gemiddelde vormen op één construct (het antwoord dus).

Bij dit soort enquêtes kan het zin hebben om de onderliggende deelvragen (items) geen neutraal midden mee te geven en zo meer spreiding van invulgedrag (variantie) te forceren. Die extra spreiding is goed voor de betrouwbaarheid van de meting. Je kunt de samenvattende schaal ‘totale eindbeoordeling’ op je formulier dus eigenlijk beter vergelijken met het samenvattende construct uit de sociale wetenschap en niet met de onderliggende items. Het construct heeft in de sociale wetenschap overigens ook gewoon een midden en een normaalverdeelde spreiding van waarnemingen daaromheen die dit gemiddelde opleveren. Beter is het dus om helemaal niet naar dit soort onderzoek te kijken, want het is irrelevant.

Helaas zijn er ook weer uitzonderingen, bijvoorbeeld bij competenties. Voor competenties wordt de uiteindelijke waarde (per competentie per medewerker) juist wel veelal vastgesteld door het invullen van een afzonderlijke score (door de leidinggevende, medewerker, collega’s en/of klanten) bij een flinke hoeveelheid gedragsvoorbeelden (indicatoren) per competentie. Dit heeft veel meer de kenmerken van een enquête. Je zou dus kunnen overwegen om hier op het niveau van gedragsvoorbeelden wel het neutrale midden weg te laten. Uiteindelijk kan namelijk dan de totale score op de competentie wel weer gewoon ‘gemiddeld’ zijn, ondanks het weglaten van het rekenkundige midden bij de onderliggende vragen.

Punt 3. Het komt simpelweg niet overeen met de realiteit

Als het neutrale midden ontbreekt bij de eindbeoordeling, komt het resultaat gewoon niet overeen met de realiteit. Hoogstwaarschijnlijk zijn uw medewerkers – net als die van ons overigens – ook gewone mensen van vlees en bloed en functioneren de meeste ervan nu eenmaal naar verwachting en dus ‘voldoende’. De persoonlijke verwachtingen (afgesproken doelstellingen) zijn als het goed is afgestemd op de vaardigheden, kennis en de functie van de betreffende medewerker. Het is dus juist logisch en ook niet verkeerd als deze medewerker zijn doelstellingen netjes haalt en niet ruimschoots overtreft.

Door het weghalen van de neutrale categorie ‘voldoende’, dwing je leidinggevenden het gros van hun medewerkers een verkeerd oordeel te geven. Ook wanneer je toevallig een team van topsporters beoordeelt, kan het behalen van een bronzen Olympische medaille (resultaat) ‘naar verwachting’ zijn en dus ‘voldoende’ (beoordeling). Wanneer diezelfde bronzen medaille echter geheel onverwachts behaald werd, kan het ‘uitstekend’ zijn qua beoordeling achteraf - of alle andere mogelijke variaties.

Dat dit laatste argument steek houdt, blijkt wel uit de manier waarop de meeste organisaties de intern felbevochten vierpuntsschaal uiteindelijk invullen. Namelijk met onvoldoende, matig, voldoende en goed. Of soms met een onvoldoende, voldoende, goed en uitstekend. Het neutrale midden bestaat dus nog steeds, alleen staat het niet meer in het rekenkundige midden. Het maken van een schaal met een even aantal antwoordmogelijkheden, is dus niet hetzelfde als het weglaten van het neutrale midden. Een beoordelingsschaal waarbij het neutrale midden daadwerkelijk ontbreekt, zou ook niet op de realiteit gebaseerd zijn en dwingt tot oneigenlijk invullen.

Vanwege dit derde punt is het, in overeenstemming met de schaal voor de totale eindbeoordeling, ook af te raden bij onderliggende (deel)punten tijdens de beoordeling (afzonderlijke resultaatdoelstellingen, ontwikkelpunten, competenties, etc.) wel opeens met schalen te gaan werken waarbij de neutrale categorie ‘voldoende’ ontbreekt. Voor de meeste medewerkers die gewoon keurig hun doelstellingen hebben gehaald is het simpelweg de enige juiste beoordeling. Onhandig als die er dan niet bij staat.

Conclusie: wij adviseren deze schaalverdeling

Dit alles gezegd hebbende, moet iedere organisatie handelen naar eigen welbevinden en beseffen dat ook wij de waarheid niet in pacht hebben. Vanuit onze visie raden wij voor de samenvattende eindbeoordeling tijdens de jaarlijkse beoordelingsronde echter het volgende aan:

  • Gebruik allereerst een vierpuntsschaal inclusief het neutrale midden ‘voldoende’;
  • Gebruik de volgende verdeling: onvoldoende, voldoende, goed en uitstekend.

Wij vinden het belangrijk (vanuit de motivatietheorie) om het onderscheid aan te kunnen geven tussen goed en uitstekend (ook wel excellent). Dat ‘uitstekend’ niet vaak gekozen zal worden is geen reden om deze categorie helemaal weg te halen (zoals je wel eens leest). Dat het niet vaak gekozen wordt, houdt het juist exclusief en past ook bij de te verwachten normale spreiding (Gauss-kromme) van beoordelingen.

De reden dat wij zelf aan de onderkant bij voorkeur de tussencategorie ‘matig’ laten vervallen, heeft met juridische ervaringen te maken. Een dossier waarbij het functioneren vier jaar op rij als ‘onvoldoende’ wordt beoordeeld, is nu eenmaal een stuk steviger dan waarbij het drie keer ‘matig’ was, gevolgd door een enkele ‘onvoldoende’. Het dwingt leidinggevenden dus kleur te bekennen. Het is ‘voldoende’ of het is ‘niet voldoende’ en niet iets vaags er tussenin. In lijn daarmee is het ook beter om ‘onvoldoende’ ook niet te omfloerst te beschrijven, zoals ‘nog in ontwikkeling’ of variaties daarop die we wel eens tegen komen.

Overigens is er ook weinig mis met een vijfpuntsschaal waarin ook plaats is voor een ‘matig’. Zo lang er maar serieus benadrukt wordt bij leidinggevenden dat ‘matig’ geen eufemistische vervanging is voor ‘onvoldoende’. De vijfpuntsschaal is over het algemeen ook iets makkelijk intern te verkopen als het beoordelen als structurele activiteit nog relatief nieuw is in de organisatie.

Een eventueel onorthodox alternatief dat je niet vaak tegenkomt maar ook prima zou kunnen werken, is de tienpuntsschaal met de schoolcijfers 1 tot en met 10. Waarbij een 6 voldoende is. Voor iedereen herkenbaar en er is een goed onderscheid te maken tussen een beetje goed (7) en echt heel erg goed (9 of 10). Ook goed werkbaar, maar ja, helaas dan toch weer dat 5’je hè!