Collectieprojecten: geïmproviseerd “crowdsourcen” in Coronatijd

Door Maarten Heerlien

Als het gaat over collectie-informatie zit het Rijksmuseum in een transitiefase. Van een groeiend aantal papieren bronnen die contextuele informatie over de collectie bevatten, beschikken we inmiddels over digitale afgeleiden. Maar van structurele verrijking daarvan is nog maar beperkt sprake. Dat biedt een onverwachte kans om tijdens de Corona Crisis medewerkers van het museum die voor hun werkzaamheden gebonden zijn aan het Museumplein, zoals suppoosten en restauratoren, thuis werk te bieden.

Onder de noemer Collectieprojecten zette Research Services in de eerste twee weken nadat het museum op 13 maart op slot ging een tweetal projecten op waaraan collega’s van overal uit het museum vanuit huis kunnen deelnemen. We hebben daarbij ingezet op zelfregulering: deelnemers kunnen zelf werkzaamheden kiezen en deze in hun eigen tempo uitvoeren, allemaal online. Een geïmproviseerd crowdsourcing-platform zou je Collectieprojecten kunnen noemen, al is het natuurlijk geen crowdsourcing zoals Jeff Howe de term ooit muntte. “Huiswerkplatform” is wat dat betreft misschien beter op zijn plaats.

Homepage van Collectieprojecten op het intranet van het Rijksmuseum
Afbeelding: collectie Rijksmuseum, RP-P-OB-60.020

Collectieprojecten draait grotendeels op de kantoorsoftware voor online samenwerking binnen het Rijksmuseum, met name Office 365. Via een in een dag in Sharepoint opgetuigde projectsite, met subsites voor de verschillende projecten, en een online formulier kunnen deelnemers hun technische mogelijkheden en hun voorkeur voor werkzaamheden, handgeschreven teksten of gedrukte publicaties, aangeven. Na ontvangst van een instructiemail met links naar een handleiding, een screencast met instructies en, afhankelijk van het project dat ze kiezen, naar een site waar ze een account aan kunnen maken, kunnen deelnemers gelijk aan de slag, zonder verdere persoonlijke instructies. Op het moment van schrijven hebben 52 collega’s van die mogelijkheid gebruik gemaakt en in een tweetal projecten bergen werk verzet waar we onder normale omstandigheden niet aan toe komen.

Handschriften Online

Het eerste van die twee projecten, Handschriften Online, is in feite een uit de hand gelopen passieproject van mijzelf. Als historicus heb ik wat met oude handschriften, ze brengen een soort van historische sensatie in me teweeg. Tegelijk zijn oude handschriften doorgaans niet of nauwelijks te lezen zonder paleografische training, wat maakt dat er werelden aan kennis in opgesloten blijven. De drang om die kennis vrij te laten is groot en daarom heb ik in mijn carrière al verschillende projecten opgetuigd om dat te bevorderen. Zodoende wist ik van het bestaan van Transkribus, een infrastructuur voor Handwritten Text Recognition (HTR) dat in de afgelopen jaren in Europees verband – en met aanzienlijke EU-investeringen – is ontwikkeld. Mijn afdeling Collectie Informatie & Archief beheert een grote hoeveelheid handgeschreven inventarisboeken en -kaarten die we sinds 2016 hebben laten digitaliseren, het zullen inmiddels ruim 100.000 scans zijn. Ik liep al een tijd rond met het plan om delen uit dat corpus aan een proef met Transkribus te onderwerpen en de Intelligente Lockdown bood me de ruimte om dat te doen.

Hoewel de gratis te downloaden Transkribus desktop-software, tegenwoordig beheerd door het READ-consortium, uitgebreide mogelijkheden biedt en aanvankelijk wat intimiderend kan overkomen, is het eenvoudig om een eigen project erin op te tuigen, documenten te uploaden en de Transkribus’ line analysis erop los te laten. Met de line analysis legt de software de plaatsen op een pagina vast waarvan het denkt dat er tekst staat. Met de nadruk op “denkt” want daarmee gaat Transkribus nog wel eens de mist in – toevallige patronen worden soms voor tekst aangezien terwijl niet alle tekst als zodanig wordt herkend – maar over het algemeen gaat dit heel goed. Daarna kun je starten met transcriberen. Het principe achter Transkribus, zoals doorgaans het geval is met kunstmatige intelligentie, is dat je er een aantal voorbeelden in stopt. 15.000 handmatig getranscribeerde woorden zouden voor Transkribus genoeg moeten zijn, waarna een herkenningsmodel wordt gegenereerd en de software verdere handschriften in dezelfde stijl automatisch kan transcriberen.

Aanvankelijk heb ik een tweetal inventarisboeken, samen zo’n 500 pagina’s handschriften geüpload en door Transkribus op tekstregels laten analyseren. Op aanraden van de READ-helpdesk, die ook in deze crisistijd zeer behulpzaam is, heb ik vervolgens een reeds in Transkribus beschikbaar HTR-model, een door het Nationaal Archief op negentiende en vroeg-twintigste-eeuwse handschriften getraind model, op een aantal pagina’s uit deze inventarisboeken losgelaten. Het resultaat was verbluffend. In één van de twee inventarisboeken transcribeerde Transkribus de door mij geselecteerde pagina’s vrijwel volledig correct. De kwaliteit van de automatische transcripties in het andere boek was weliswaar minder goed. In dit boek zijn verschillende handschriften op dezelfde pagina te vinden, maar zeker niet slecht te noemen. Het door mij gebruikte model was echter niet getraind op specifiek deze handschriften, en als je bedenkt dat letterlijk elk individueel handschrift anders is, is de logische volgende stap om zelf een model te trainen voor nog betere resultaten.

Online transcriberen

In je eentje 15.000 woorden transcriberen is een behoorlijke klus, het komt volgens het READ-consortium neer op 75 tot 100 pagina’s, afhankelijk van het handschrift. Beter dus om een paar collega’s te zoeken om dit samen op te pakken. Maar voor samenwerking leent de desktop-software zich minder goed. Voor dat doel heeft READ een online transcriptieplatform beschikbaar dat vrijwel naadloos samenwerkt met de desktopsoftware. De laatste fungeert dan als een control room voor grotere transcriptieprojecten die op het online platform worden uitgevoerd. De projectbeheerder uploadt en analyseert in de desktop-software de handschriften waarna deze automatisch beschikbaar komen in het online platform. In eerste instantie alleen voor degene die het handschrift heeft geüpload – met dezelfde inloggegevens als voor de desktop-software – maar andere gebruikers kunnen via diezelfde software aan een set documenten worden toegevoegd en van verschillende rollen worden voorzien, waarna ze in het online portal de beschikbaar gestelde handschriften pagina voor pagina kunnen transcriberen.

Het bovenstaande principe schotelde ik voor aan collega’s van Research Services met de vraag om een account aan te maken en eens een paar pagina’s te transcriberen. Niet alleen ging dat uitstekend, ze hadden er bovendien veel plezier in om op deze manier met primaire, historische informatiebronnen over de collectie bezig te zijn. Dat smaakte dus naar meer en na de ontwikkeling van een handleiding en wat onderhandelingen met het READ-consortium – ze werken momenteel aan een exploitatiemodel – ging eind maart Handschriften Online, het eerste project onder de vlag van Collectieprojecten, live.

Screenshot van het online transcriptieplatform van READ/Transkribus met een pagina uit het inventarisboek Schilderkunst SK-C-1 t/m 716 met daarin de beschrijving van SK-C-5, De Nachtwacht.

Uiteraard liepen we daarbij tegen een paar hobbels op, zoals dat gaat met nieuwe projecten: trial and error. Zo slikt het online portal niet zonder meer special characters, daar moet door de READ helpdesk een menu voor worden geactiveerd waarna de projectbeheerder veelgebruikte special characters toevoegt in de beheersomgeving en transcribeerders ze uit het menu kunnen selecteren. Gewoon typen werkt niet, wat er in eerste instantie toe leidde dat veel transcripties zonder leestekens en dergelijke binnenkwamen.

Daarnaast maakt het online portal niet goed inzichtelijk welke gebruiker aan welke pagina werkt. Weliswaar komt de naam van de gebruiker bij een pagina te staan wanneer hij of zij deze transcribeert, maar daarin zit een vertraging van soms wel een paar uur. Bij elke pagina komt in eerste instantie de naam van de beheerder die de line analysis heeft uitgevoerd. Omdat dit tot problemen kan leiden bij het kiezen van pagina’s om te transcriberen hebben we hiervoor een work-around op poten gezet in de vorm van een spreadsheet – een Google sheet in dit geval want ook de online-versie van MS Excel synchroniseert niet snel genoeg om problemen te voorkomen – waarin gebruikers één of meerdere pagina’s claimen, waar ze vervolgens vanuit de sheet naartoe kunnen navigeren. Datzelfde claimprincipe gebruiken de controleurs die de transcripties nalopen en ze finaliseren. Bijkomend voordeel is dat we via deze Google sheet beter inzicht hebben wie waarmee bezig is en wat de totale voortgang van het project is. Hiervan wordt een grafiek gegenereerd die op de projectsite in Sharepoint real-time de stand van zaken van het project laat zien.

Als er uit die grafiek één ding blijkt is het wel het enthousiasme waarmee Handschriften Online binnen het museum is ontvangen als alternatief voor het reguliere werk van collega’s. In een kleine twee maanden transcribeerden deelnemers samen bijna 1300 pagina’s. Daarvan zijn er inmiddels ruim 400 gefinaliseerd en geschikt om ons eigen HTR-model op te baseren. Ruim voldoende dus. Maar zolang de crisis voortduurt, thuiswerken de norm blijft en collega’s enthousiast blijven over het transcriberen, loopt Handschriften Online door. Met elkaar hebben collega’s van alle denkbare afdelingen al twee inventarisboeken van begin tot eind helemaal getranscribeerd en hoe goed Transkribus ook is, de kwaliteit van handwerk haalt het waarschijnlijk nooit.

Catalogi@Home

Het tweede project dat onder Collectieprojecten van start is gegaan is Catalogi@Home. Dit project heeft een andere achtergrond en komt voort uit een al lang bestaande ambitie binnen het Rijksmuseum om gepubliceerde papieren bestandscatalogi, catalogi met gedetailleerde beschrijvingen over afgebakende collectieonderdelen van het Rijksmuseum, in digitale vorm aan te kunnen bieden via Rijksstudio. In de afgelopen jaren zijn de eerste van die digitale catalogi in Rijksstudio verschenen. Het overgrote deel van de objectkennis die de conservatoren en restauratoren van het museum hebben vastgelegd is echter alleen nog maar op papier te vinden.

Voor dit jaar stond er een pilot op het programma om te onderzoeken op welke wijze we van deze papieren publicaties efficiënt en effectief online publicaties kunnen maken. Hoewel de mogelijkheid om die pilot nog dit jaar uit te voeren onzeker is, begrote projectbudgetten verdampen momenteel in rap tempo door de aanhoudende crisis, bood diezelfde crisis ook op dit vlak een kans om tenminste een begin te maken met het werk door collega’s thuis uit te nodigen deel te nemen aan Collectieprojecten.

Van veruit de meeste publicaties, 57 in totaal en samen goed voor zo’n 15.000 pagina’s aan gedetailleerde objectinformatie, zijn de oorspronkelijke manuscripten niet in hun definitieve vorm bewaard gebleven. Wel beschikken we over kwalitatief hoogwaardige PDF-bestanden met OCR-tekst. Aan de hand van deze bestanden is een workflow opgezet, vergelijkbaar met die van Handschriften Online. Hierin wordt een PDF van een catalogus in behapbare batches opgeknipt en een MS Word template ontwikkeld. Deelnemers kunnen in een Google Sheet een batch claimen, de PDF en Word-template downloaden en de OCR-tekst stukje bij beetje kopiëren en op de juiste plaats in de template plakken. Vervolgens is het zaak teksten op OCR-fouten na te lopen en deze te corrigeren.

Geannoteerd voorbeeld van een entry uit de bestandscatalogus Meissen Porcelain in the Rijksmuseum. Deze geannoteerde voorbeelden helpen deelnemers de “anatomie” van de catalogus te doorgronden.

Toegegeven: erg efficiënt is dit proces niet. Vooral de tussenstap met Word-templates is mij persoonlijk een doorn in het oog. Beter zou het zijn om deze teksten rechtstreeks in een systeem te plaatsen van waaruit ze via een API naar Rijksstudio kunnen doorvloeien zonder deelnemers rechtstreeks toegang te willen geven tot het Web-CMS daarachter. Daarom heb ik een experiment opgetuigd met een simpele Mediawiki, wat op het eerste gezicht veel potentie lijkt te hebben voor dit doel, maar voordat we dat in productie kunnen nemen moeten er eerst verschillende technische en organisatorische hobbels worden genomen.

In anticipatie op plaatsing in Rijksstudio brengen deelnemers waar nodig alvast markeringen aan die het Web-CMS achter Rijksstudio kan interpreteren. Zo worden voetnoten en italics volgens de markdown-standaard genoteerd. Het geheel wordt vervolgens nagelopen door een controleur waarna een conservator het laatste woord heeft over de precieze vorm waarop de teksten en de daarbij behorende verwijzingen in Rijksstudio moeten verschijnen. Papier laat zich immers niet altijd één-op-één vertalen naar digitaal.

Maar op dit moment is efficiency niet per sé het doel. Dat geldt zowel voor Catalogi@Home als voor Handschriften Online. Collega’s willen vooral op een andere manier een zinvolle bijdrage leveren aan de groei en ontwikkeling van het museum nu ze dat niet kunnen in hun reguliere rol. Daarvoor biedt Collectieprojecten het platform. Ook na 1 juni, als het museum zijn deuren weer opent en medewerkers weer meer op locatie zullen werken. Collectieprojecten is bewust zo opgezet dat het ook in de toekomst gelegenheid biedt aan iedereen die om welke reden dan ook geen reguliere werkzaamheden kan doen, een nuttig alternatief te bieden.

Dit bericht werd geplaatst in Algemeen, Werk in uitvoering. Bookmark de permalink .

2 reacties op Collectieprojecten: geïmproviseerd “crowdsourcen” in Coronatijd

  1. Pingback: Terug naar de kantoren! | The Art of Information

  2. Pingback: Corona: vloek én zegen voor het digitale collectieonderzoek in het Rijksmuseum | The Art of Information

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Google photo

Je reageert onder je Google account. Log uit /  Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

Verbinden met %s

Deze site gebruikt Akismet om spam te bestrijden. Ontdek hoe de data van je reactie verwerkt wordt.