Kvalitet i forskning - hvordan skabes det og hvordan måles det?

Publiceret April 1999

Indledning

Kvalitet i forskning er blevet et vigtigt emne. Desværre. For det burde være en selvfølge, at kvalitet gennemsyrede al forskning. Kvalitet burde være så integreret i begrebet forskning, at det ville være en tautologi at nævne det. Eller som det siges: Dårlig forskning er ikke forskning; det er blot en contradictio in adjecto. På samme måde som dårlig kunst vel næppe er kunst.

Der er imidlertid flere grunde til, at spørgsmålet om kvalitet trænger sig på. Den første hænger sammen med den side af forskningens væsen, der handler om fejlbarlighed. Forskning er en stræben efter ny erkendelse. Men da forskning per definition bevæger sig ind i nyt og ukendt territorium for netop at nå ny og derfor uforudsigelig viden, er muligtid tilstede. Fejl betyder imidlertid ikke nødvendigvis dårlig kvalitet. Alle seriøse forskere begår før eller senere fejl. Det er selvsagt vigtigt at begrænse fejlene og at lære af dem. Men en forsker, der hævder aldrig at have fejlet, er enten glemsom, uvederhæftig, eller ubetydelig. Sidstnævnte fordi han/hun så aldrig har bevæget sig ind på et væsentligt nyt område. Omvendt er det selvsagt ikke en dyd at fejle. En forsker, der ustandseligt fejler, er næppe blot uheldig. Han eller hun egner sig blot ikke til forskning og bør i egen interesse finde en anden profession. Det væsentlige er at forstå, at selv den bedste forskning kan fejle, uden at det betyder at kvaliteten er dårlig. Tværtimod er gennembrudsopdagelser undertiden gjort ved fejltagelser som led i forskningsprojekter af høj kvalitet; - fordi god forskning beskæftiger sig med væsentlige problemer, og fordi fejltagelser giver stof til eftertanke. Den undertiden hårfine sondring mellem fejlbarlighed og kvalitet er vigtig.

Den anden årsag, og den som har aktualiseret kvalitetsspørgsmålet, er den eksponentielle vækst i forskningens omfang gennem sidste halvdel af dette århundrede. Væksten er knyttet til den samfundsmæssige betydning forskning har fået, siden penicillin og A-bomben blev lanceret i slutningen af 2. verdenskrig. Ret beset afhænger både de industrielle og post-industrielle samfunds opretholdelse og udvikling af forskning. Og alene i USA kalder nu op mod 1% af erhvervsaktive sig for forskere. De mange forskere og forskningsprojekter i både offentligt og privat regi har givet stor bredde - undertiden grænsende til udvanding af forskningsbegrebet. Med rette kan man betvivle at alt, der kalder sig forskning, fortjener betegnelsen. Under alle omstændigheder er det givet, at en del af de aktiviteter, der kalder sig forskning er tyndbenede og ligegyldige - for ikke at sige spildte resurser. Og hvad enten det er i offentligt eller privat, er det rimeligt at luge ud i den slags - med behørig respekt for forskningens natur.

En tredje grund til kvalitetsdebatten er begrebet kvalitetssikring. Det er et ordinært og selvfølgeligt begreb - specielt i forskning (vide supra). Ordet har for alvor slået igennem i halvfemserne, og anvendes nu som en mantra af politikere og embedsmænd på næsten hvad-som-helst. I den danske forskningsverden nærmer brugen af kvalitetssikring sig flere steder karikaturen. Enhver sektor og større institution i stat og amt opretter efterhånden kvalitetssikrings- eller evalueringskontorer. Ofte oprettes de af politikere og embedsmænd uden viden om forskning, - og bemandes delvist med personer, som i bedste fald har en diminutiv eller lidet lysende forskerkarriere bag sig. Disse personer synes at have fortrængt den i natur- og lægevidenskab indbyggede kvalitetssikring. Det er almindeligt kendt blandt forskere, at forskning, der ikke publiceres, ikke er forskning. Næsten al natur- og lægevidenskabelig forskning publiceres i internationale tidsskrifter med strikte kvalitetskrav. Alene monitorering af det primære forskningsprodukt, den videnskabelige publikation, i ansøgninger og årsberetninger repræsenterer derfor en omfattende kvalitetskontrol. Men kun aktive forskere er i stand til at tolke den og hermed til at udøve den fornødne kontrol.

Uanset legitimitet og baggrund er kvalitet i forskning imidlertid blevet et spørgsmål, det er nødvendigt at forholde sig til. Både for forskere og for den del af samfundet, der interesserer sig for og er afhængig af forskning. Det følgende vil derfor handle om nogle af de elementer, der indgår i hvad der måske blot skal kaldes god forskning. Der er ikke taget stilling til grundforskning versus målforskning. Men distinktionen er iøvrigt vigtig. De elementer, der beskrives, er ej heller udtømmende. Der findes nemlig ingen fuldstændig opskrift på god forskning. Dertil er det uforudsigelige og det individuelle alt for afgørende.

Hvordan skabes god forskning?
Som nævnt er forskningens mål at skabe ny viden om livet og verden. For en disciplin som biokemi (læge- eller naturvidenskabelig) bliver forskningens mål at bidrage med ny viden om livet på molekylært niveau. I centrum for den lægevidenskabelige biokemi er mennesket og dets sygdomme. Og håbet er, at både biokemisk grundforskning og målforskning fortsat må bedre diagnostik, forebyggelse og behandling af sygdomme.

Grundlæggende elementer i god forskning - biokemisk eller ej - er, at den viden og erkendelse forskningen skaber virkelig er ny, at den er så sand som mulig, og at den er væsentlig. Nye, sande og væsentlige forskningsresultater har igen en række forudsætninger.

Table 1: Talentets kompleksitet

1. Arbejdsomhed
2. Begavelse
3. Common sense
4. Fantasi
5. Formuleringsevne
6. Nysgerrighed
7. Samarbejdsevne
8. Selvtillid
9. Udholdenhed
10. Ydmyghed
11. Ærlighed
12. Åbenhed

De første er originalitet og kreativitet. Det har Max Perutz karakteriseret næsten poetisk med ordene: "Creativity in science cannot be organized. It arises spontaneously from individual talent. Well-run laboratories can foster it; but hierachial organisation, bureaucratic rules, and futile paperwork can kill it. Discoveries cannot be planned. They pop up, like Puck, in unexpected corners" (1). Da originalitet og kreativitet ikke kan planlægges, gælder det om at have øje for det, at være opmærksom på originale og kreative unge talenter, og - ikke mindst - at bidrage til laboratorieforhold, hvor talentet kan udfoldes. Det er næppe tilfældigt, at unge talenter netop vil være tiltrukket af laboratorier med udfoldelsesmuligheder, "well-run laboratories". Det vil sige laboratorier med spændende projekter, et stimulerende og muntert arbejdsklima, en åbenhed overfor omverdenen, et uhøjtideligt og tilpas anarkistisk miljø, hvor ældre selvhøjtidelige forskere ikke sætter sig på de unge og deres resultater, men respekterer og støtter dem. - Men heller ikke for meget! Der er allerede rigeligt med primadonnaer i forskning - unge som gamle. Så kunsten er at pleje talenterne - ikke nykkerne. Talent i forskning kræver iøvrigt mange egenskaber, der er særdeles individuelt doserede (Tabel 1).

En næste forudsætning for kvalitet er adækvat og ordentlig teknologi. Mange molekylærbiologiske og biokemiske problemer kræver et bredt spektrum af teknikker og metoder. Og de skal selvsagt være nøjagtige. God forskning kræver i dag grundige og komplette undersøgelser og ikke blot spredte observationer. Det skal være muligt at trække væsentlige og vitale konklusioner. Og det kræver mange slags teknikker og styr på metodernes pålidelighed. Meget dårlig forskning, undertiden endda baseret på gode og originale idéer, skyldes ringe teknologi. Der er megen ukritisk "kit"-forskning med begrænset fornemmelse for metode-pålidelighed. Klinisk biokemi med dens tradition for standardiseret pålidelighed af de enkelte metoder har egentlig en del at tilbyde forskningslaboratorier - både på det natur- og det lægevidenskabelige område.

Den tredie forudsætning for kvalitet er væsentlighed. Forskningsprojekter skal ikke være "puzzle-solving", men "problem-solving". Det kan være rimeligt som nybegynder med forståelig usikkerhed at afprøve sin sans for forskning på et overskueligt spørgsmål. Hvis det går godt, og hvis metoderne iøvrigt fungerer tilfredsstillende, kan det være fristende at fortsætte med at undersøge afgrænsede detail-spørgsmål ("puzzle-solving"). Det sikrer måske en del publikationer, men giver ikke megen fornyelse - endsige fokus på væsentlige problemer. Det kan grænse til det smertefulde hele tiden at tvinge sig til at spørge, om den forskning man nu er igang med, eller agter at gå igang med, kan besvare væsentlige spørgsmål. At gå i dybden kræver ofte flere og nye metoder i forhold til det vante. Det forudsætter, at man også gør sig klart, om man arbejder i et laboratorium, hvor de nødvendige metoder findes eller vil kunne etableres - eller om man skal flytte sig andetsteds; evt. til udlandet. Eller om man skal prøve at etablere samarbejde med den fornødne kompetence - hvor den måtte findes. Fornemmelsen af væsentlighed må også justeres ved at holde sig ájour med videnskabelig litteratur, ved deltagelse i relevante møder og besøg på udenlandske laboratorier. Men det afgørende er at være bevidst om og at have fornemmelse for spørgsmålet, og at tvinge sig til at forholde sig til det.

Væsentlighed må imidlertid ikke forveksles med mode. Natur- og lægevidenskabelig forskning er ganske trendpræget. Den enkelte modebølge er ofte initieret af væsentlige gennembrudsopdagelser. Fx. beredte opdagelsen af endorphiner og enkephaliner i slutningen af halvfjerdserne vejen for neuropeptid-bølgen i firserne. Og erkendelsen af AIDS først i firserne udløste hele HIV-bølgen. For tiden er fx. NO, signaltransduktion og transgene mus moderne, og letter vejen til prestigefyldte tidsskrifters spalter. Nogle - ofte teknisk begavede - forskere surfer med på den ene bølge efter den anden. De publicerer derved flot, og bliver ofte inviteret til fashionable møder. Men det er et spørgsmål, om bidraget fra forskningens jet-settere i det lange løb er så væsentligt. Ikke mange af dem når tilsyneladende nobel-kvalitets højde, der snarere kræver originalitet koblet med vedholdenhed.

En fjerde forudsætning for forskningskvalitet er tid, sammenhængende og uafbrudt tid. Perutz’ konstatering af, hvordan bureaukrati og "futile paperwork" med sit tidsforbrug kan dræbe kreativ forskning, er almindelig kendt i de fleste laboratorier. God forskning kræver tid til koncentration. Megen tid. Manglen på tid er efterhånden ved at underminere fx. den hospitalsbaserede forskning. Og mange institutforskere er også plaget af "paperwork". Efterhånden har kun stipendiater den fornødne tid. Men også de er alligevel blevet ilde stedt, da deres vejledere mangler tid. Tid til planlægning, litteraturlæsning, forsøg, data-indsamling og bearbejdning, og tid til sammenskrivning skal helst være så sammenhængende som muligt. Opsplitning med en halv time her og en time der er hverken effektivt eller tilfredsstillende. Sammenhængen mellem forskningstid og produktivitet kan afbildes som på figur 1. Kurvens eksponentielle forløb illustrerer, at kun personer, der er i stand til at anvende hovedparten af deres tid til forskning, udnytter tiden rationelt. I Danmark befinder mange forskere sig på den flade del af kurven, hvor selv et relativt stort samlet tidsforbrug ikke er rationelt eller produktivt. Der er brug for, at gode forskere sikres lange perioder af uforstyrret tid til koncentration. På universiteter og universitetshospitaler bør der være resurser til erfarne forskere udover stipendiestillinger til de yngste. Sabbatsordninger vil måske kunne hjælpe.

Forholdet mellem forskningsudbytte og forskningstid
Figur 1. Forholdet mellem
forskningsudbytte og forskningstid
er en eksponentiel funktion - ikke
en retlinet funktion. Et højt
forskningsudbytte - kvantitativt og
kvalitativt - opnås derfor først ved
generøs investering i tid til gode
forskere.

En femte forudsætning for kvalitet er et stimulerende videnskabeligt miljø - også udover det enkelte laboratorium. I vore dages dynamiske biokemi og biomedicin er der ikke megen plads til den helt isolerede forsker. Selvstimulation og selvtilstrækkelighed er ikke nok. Alene det spektrum af metoder, som tidens biokemi kræver, forudsætter flere forskere og teknikere i den enkelte gruppe. Og selv om opdaterede computere og internet kan sikre et bredt kontaktnet og ájourføring med den videnskabelige litteratur, kan det ikke erstatte den nære og spontane kontakt med ligesindede i gange, laboratorier og kaffestuer. Det er også her at den nødvendige og konstruktive kritik kan hentes. Ligeledes er det også uvurderligt at kunne kontakte en lokal og pålidelig ekspert hurtigt på campus’en om et nyt problem eller en ny teknik, man ikke selv bemestrer.

Det store udland har som i gamle dages Danmark (fx. Bohr instituttet og Carlsberg-laboratorierne) stimulerende "Centers of excellence". Der er næppe basis for mange sådanne centre i dagens Danmark. Men der kan alligevel udføres megen god kvalitetsforskning herhjemme, som fx. nobelpristageren Jens Chr. Skou har vist. Og den fremelskes bedst på universitetscampus’en med gode miljøer. At et minimum af resurser er nødvendige for at skabe et godt miljø, turde være indlysende.

Hvordan måles god forskning?
"Well-run laboratories", der kan fostre og fremme kreativ og væsentlig forskning, opstår ikke af sig selv. Det kræver resurser at etablere og sikre teknologi og apparatur, at sikre stillinger til fornyelse og fordybelse, og at fastholde og udbygge stimulerende miljøer. Da resurserne er begrænsede, og da universiteterne ikke råder over mange basismidler, er det nødvendigt at fordele resurserne, så god forskning fremmes, og triviel og dårlig forskning begrænses. Det er for så vidt banalt. Men jo færre resurser (som i Danmark), jo vigtigere bliver resursestyringen. Kompetent og hensigtsmæssig resursestyring kræver aktive forskere, som er villige til at gå ind i stillingsbedømmelsesudvalg, forskningsråd, komitéer og fonde. De vil som regel have god indsigt i, hvordan forskningskvalitet kan måles. Og i dag bliver forskning faktisk kvalitetsmålt i én uendelighed: Ved projektansøgninger, ved manuskript indsendelser, ved stillingsbesættelser, ved pristildelinger, - og såmænd også ved den løbende resursestyring i de enkelte forskningsgrupper.

Omdrejningspunktet i al måling af forskningskvalitet er "peer reviewing". Måske en triviel konstatering. "Peer reviewing" er vurdering af ligemænd - hvilket vil sige af aktive og erfarne forskere med samme forskningsområde. Vurdering af kvalitet i fx. biokemisk forskning må således nødvendigvis udføres af andre biokemiske forskere. Der er i tidens løb rettet megen kritik mod "peer reviewing". Og guderne skal vide, at "peer reviewing" er særdeles menneskeskabt - med svagheder og fejl. Men trods svagheder er det ikke lykkedes at finde et bedre system. Indtil videre må "peer reviewing" derfor anvendes - men med øjnene åbne for svaghederne, som primært er manglende kompetence, inhabilitet og subjektivitet.

Da forskningens umiddelbare produkt i natur- og lægevidenskab er originalpublikationen i et videnskabeligt tidsskrift, og da ingen redaktør i dag besidder tilstrækkelig kompetence til at vurdere kvaliteten af samtlige indsendte artikler, selv ikke i specialtidsskrifter, har alle anstændige tidsskrifter i dag et bredt panel af forskere, der kan fungere som bedømmere. Kvaliteten af kvalitetsbedømmelsen ved det enkelte tidsskrift afhænger af bedømmernes kompetence (herunder omhyggelighed) og habilitet. Mange tidsskrifter kunne givetvis forbedre deres kvalitet ved at udvælge bedømmere med større omhu og åbenhed. Et vigtigt element i peer-reviewing systemet er forfatternes mulighed for at besvare fejlagtig og urimelig kritik fra sine "peers". Dialogen er lærerig for alle parter og fører som regel til bedre kvalitet af forskningsproduktet, i.e. den originale videnskabelige publikation.

"Peer reviewing" er den eneste målemetode ved kvalitetsbedømmelse af det enkelte manuskript og den enkelte publikation. Det er også den afgørende metode ved bedømmelse af den enkelte forsker, af de enkelte forskningsprojekter, stillingsansøgninger og priskandidater. Manuskripter og ansøgninger indeholder utroligt mange signaler om kvalitet, og den kompetente og trænede "peer" har sjældent store problemer med kvalitetsvurderingen. Forstået som en vurdering af det enkelte projekts og den enkelte publikations kvalitet kommer "peer reviewing" systemet imidlertid til kort, når det gælder kvalitetsvurdering af store mængder data. Fx. ved vurdering af større forskergruppers indsats over en årrække, af institutters og hospitalers forskning, af hele universiteter, for ikke at tale om sammenligninger af forskningen i forskellige lande. "Peer"-vurderingen af det enkelte forskningsprodukt, publikationen, er så tidrøvende, at vurdering af store mængder publikationer kræver bibliometriske metoder. Bibliometrisk kvalitetsvurdering har imidlertid også store svagheder, og har kun mening ved vurdering af større mængder publikationer (n > 100). Hensigtsmæssige koblinger mellem "peer review"-systemet og bibliometri er heldigvis nu etableret ved mange universiteter; fx. ved bedømmelse af ansøgere til professorater. I nogle fag er det ikke ualmindeligt med ansøgere, der har publiceret flere hundrede artikler, hvilket i praksis er uoverkommeligt at vurdere ved "peer reviewing". Mange fakulteter har derfor indført den regel, at hver ansøger kun indsender ti udvalgte publikationer til "peer reviewing" samt en publikationsliste in extenso til bibliometrisk vurdering.

Bibliometri betyder måling af bøger, dvs. af videnskabelige publikationer. Bibliometri kan bruges til at måle både kvantitet og kvalitet. Men målingerne bliver meningsløse, hvis de ikke overholder en række regler og begrænsninger. Der er i dag tre parametre, der måles bibliometrisk i natur- og lægevidenskab: 1) Antal videnskabelige publikationer; 2) antal citeringer af de enkelte publikationer; og 3) tidsskrift betydnings faktor ("journal impact factor" eller blot "impact factor").

Det lyder enkelt med en simpel sammentælling af publikationer. Og det er det også. Men skal det give mening, kræves differentiering. Der må skelnes mellem hvad der er original-publikationer (med nye originaldata); hvad der er oversigtsartikler; hvad der er kongres-abstracts; hvad der er redaktionelle ledere eller kommentarer osv. Ydermere kan det også være nødvendigt at skelne mellem publikationer i lokale (danske, nordiske) og internationale videnskabelige tidsskrifter. Endelig kan det ved vurdering af enkelt-forskere være nødvendigt at registrere antal medforfattere per publikation, og ene-, første- eller sidste- (~ senior) forfatterskaber. Alene i forfatterskabet ligger mange signaler om indsats og betydning. Differentieret kvantitativ registrering kan således give en række oplysninger om omfanget af en forskningsindsats; det være sig om en enkelt forsker, en forskergruppe eller en større institution. Men denne form for bibliometri siger ikke meget om kvalitet.

Udfra devisen om at publikationer af høj kvalitet vil blive hyppigere citeret end publikationer af jævn eller dårlig kvalitet, er der opnået en vis konsensus om, at antal citeringer kan bruges som kvalitetsmål. Der er mange undtagelser fra den regel, så derfor skal citationstal bruges med forsigtighed. For det første skal man gøre sig klart, at citationstal altid er retrospektive. Der kan gå adskillige år fra udførelsen af et konkret forskningsprojekt til det bliver publiceret og for alvor citeret. Dvs. citationstal reflekterer ikke kvaliteten af den aktuelle og fremtidige forskning. Men på den anden side vedbliver mange gode forskere heldigvis ved med at være gode i en rum tid. Det er da også karakteristisk, at nobelpristagere i naturvidenskab og medicin som oftest har gode citationstal. I mange tilfælde burde de måske endda citeres mere, da mange forskere ofte mangler den historiske flair der gør, at de ikke citerer de oprindelige gennembrudsarbejder på et område. Et andet problem er den manglende sammenhæng mellem citation og kvalitet af den enkelte publikation. Watson og Cricks berømte dobbelthelix-arbejde er således ikke blandt topscorerne, fordi dobbeltspiralen hurtigt blev accepteret som almen viden, - hvad der vel også er et succes-kriterium. For at udjævne fejlen om de enkelte publikationers citeringer er det derfor nødvendigt, at citationsanalyser og sammenligninger kun anvendes på et stort antal publikationer.

Den tredje form for bibliometri er sammentælling af "impact factors". Dvs. hver publikation får tildelt en værdi, som er "impact factor" for det tidsskrift, hvori artiklen er trykt. Impact factor er som bekendt forholdet mellem antal citationer og antal publikationer i de foregående to år for et givet tidsskrift. Det er et gennemsnitstal for tidsskriftets artikler. Ræsonnementet bag brugen af impact factor er, at tidsskrifter med høje citationstal må publicere artikler af høj kvalitet. Men der er som sagt tale om gennemsnitstal. Eller med andre ord, publikationer af moderat kvalitet trykkes også i "high-impact" tidsskrifter, ligesom "low-impact" tidsskrifter ind imellem publicerer høj kvalitet. Men "impact factor" brugen udvikler sig selvforstærkende, så gode manuskripter søger til "high-impact" tidsskrifterne, hvoraf en foruroligende stor del er amerikanske. Det giver en skævhed og kan med tiden gøre brugen af "impact factor" systemet obsolet. "Impact factor" systemet besidder imidlertid en række egenskaber der gør, at systemet er kommet for at blive. Men pga. systemets kompleksitet af fordele og ulemper, må det behandles med indsigt og delikatesse. Systemets egenskaber er opregnet i tabel 2, og en detaljeret diskussion af fordele og ulemper er givet andetsteds (2).

Tabel 2: Impact Factor

Fordele:

  1. Resulterer i færre publikationer af højere kvalitet
  2. Let tilgængeligt mål for forskningsindsats

Ulemper:

  1. Kræver stort antal publikationer (>100)
  2. Tager ikke højde for antal forfattere
  3. Er retrospektiv
  4. Tager ikke højede for forskellige publikationers traditioner
  5. Omfatter ikke bøger og visse tidsskrifter
  6. Kan være belastet af fejlregistrering

Karakteristisk for alle bibliometriske kvalitetsmålinger er, at de i bund og grund baserer sig på "peer reviewing", fordi de baserer sig på publikationer i videnskabelige tidsskrifter. Og for alle praktiske formål er disse publikationer kvalitetsvurderede ved "peer reviewing", før de accepteres til trykning. Men "peer reviewing" er ikke blot en forudsætning for de bibliometriske metoder. "Peers" (dvs. aktive forskere) er også påkrævede ved håndtering og fortolkning af bibliometriske parametre, - uanset om det er den differentierede optælling af forskellige slags publikationer, citationsanalyser eller vurdering af "impact factor scores" (Tabel 3). De bibliometriske metoder har alle mange og komplekse fejlkilder. De kan meget let anvendes forkert, mistolkes og misbruges i ikke-forskeres hænder. Men som i egentlige forskningsprojekter, kan forskere i bibliometriske undersøgelser med fordel bruge teknisk assistance, dvs. sekretær- og bibliotekar-assistance. En række forskningsbureaukrater (dvs. embedsmænd og forhenværende forskere) hævder, at de er ligeså skikkede til at bedømme forskningskvalitet som aktive forskere - det være sig ved en slags "peer reviewing" og/eller med bibliometriske metoder. Men det er de af mange grunde ikke. De er ikke længere "peers". Og det er en ganske anden historie!

Tabel 3: "Peer" funktioner

I. "Peer" bedømmelser:

  1. Projektansøgninger
  2. Stillingsansøgninger
  3. Tidsskrift manuskripter

II. "Peer" fortolkninger:

  1. Bibliometriske mål for enkeltforskere (ansøgere til professorater og kandidater til forskerpriser)
  2. Bibliometriske mål for større forskning (forskergrupper, institutter, universiteter, nationer)

 III. "Peer" rådgivning

  1. Nationale og lokale forskningsråd
  2. Internationale ekspertgrupper

Litteratur:

  1. Perutz M. I wish I’d made you angry earlier. Cold Spring Harbor Laboratory Press. 1998.
  2. Rehfeld JF. Kvantitering af kvalitet. Ugeskr. Læger 157:6111-6114, 1995.