Vervaardiging tekst

From Digitaal Erfgoed Nederland Wiki

Jump to: navigation, search


Image:Debasis-klein.jpg Deze tekst is bedoeld voor discussie en het stellen van vragen en mag bewerkt worden. De vastgestelde richtlijn is te vinden op: http://www.den.nl/docs/20090317110443


 

Contents

Inleiding

Kenmerkend voor tekstueel erfgoed is dat de boodschap uit het verleden wordt overgebracht via lezen. Een goed begrip van de boodschap in latere tijden is afhankelijk zowel van de inhoud (woorden in zinnen) als de structuur (paragrafen, kopjes, citaten, etc.). Bij het vervaardigen van een digitale reproductie van tekstueel erfgoed is behoud van inhoud en structuur dus een voorwaarde. Behoud van informatie over de vormgeving en de drager is secundair.

Scannen

De standaardwerkwijze bij het vervaardigen van teksten is het digitaliseren van de oorspronkelijke, analoge tekst vanaf de oorspronkelijke drager. Deze digitaliseringstap wijkt in essentie niet af van digitalisering van andersoortige platte objecten en dient dus te voldoen aan de minimale eisen die gesteld worden bij het vervaardigen van platte beeldobjecten.

Machine-leesbaar

Uit de aldus ontstane digitale afgeleide is de inhoud en structuur en de vormgeving bij menselijk gebruik direct te ervaren. De Digitale Collectie Nederland vereist echter uiteindelijk ook hergebruik door machine. Een machine-leesbare tekst biedt een belangrijke meerwaarde ten opzichte van een digitale afbeelding van tekst.

OCR

De bijzondere eigenschappen van tekst als drager van informatie en de huidige stand van de techniek maken hergebruik door machine van tekstueel erfgoed nu al mogelijk. Optical Character Recognition (OCR) maakt de inhoud van de tekst geschikt voor gautomatiseerd hergebruik, bijvoorbeeld voor indexering. De structuur van de tekst, zoals kopjes, citaten, voetnoten, etc. zijn in het analoge origineel vaak middels opmaak gemarkeerd. OCR-software is tot op zekere hoogte in staat deze structuurkenmerken in de digitale reproductie te bewaren.

Handmatige transcriptie

Handgeschreven teksten of teksten in een bijzonder lettertype zijn veel minder makkelijk met OCR-software te converteren. Voor dergelijke originelen is transcriptie veelal handwerk. Ook het corrigeren van fouten in ge-OCR-de teksten is soms handwerk. Tenslotte vergt een uitgebreide structurering van digitale teksten, zoals het markeren van persoons- of geografische namen, om in de digitale reproductie passages en zelfs zinnen een nadere betekenis te geven, veel handwerk.

UTF-8

Machine-leesbare tekst ondersteunt direct het zoeken in de volledige inhoud. Om de oorspronkelijke inhoud van de tekst te behouden ongeacht het gebruikte schrift is UTF-8 een voorwaarde.

TEI

De structuur van de tekst wordt machine-leesbaar gemaakt door te digitaliseren naar XML in het schema ontwikkeld binnen het Text Encoding Initiative (TEI). TEI biedt de mogelijkheid om de betekenis en het begrip van de oorspronkelijke tekst volledig te bewaren en her te gebruiken bijvoorbeeld bij het zoeken en presenteren van de tekst. TEI is, afhankelijk van de behoefte en mogelijkheden, op maat toe te passen van een basale versie met weinig elementen tot de meest uitgebreide vorm waarbij ruim 500 elementen ter beschikking staan.

Gebruik op internet

Masters voor digitale teksten in XML maken direct uitwisseling en hergebruik mogelijk. Aparte afgeleiden zijn dan ook geen voorwaarde, zoals bij beeldmateriaal, voor het gebruik van digitale teksten in diensten van de collectiebeherende instelling zelf of door derden.

DE BASIS voor vervaardiging van teksten

UTF-8 als codering en XML als structuring wordt beschouwd als de minimale eisen waaraan digitale master van tekstuele erfgoedobjecten moeten voldoen. Deze twee standaarden vormen daarmee DE BASIS voor vervaardiging van teksten. Het gebruik van TEI als XML-schema is aan te bevelen, zeker voor teksten waarbij structuur in het origineel en/of voor het gebruik belangrijk is. Omdat het markeren volgens TEI een aanzienlijke extra inspanning vergt en de meerwaarde voor de uitwisselbaarheid van digitale teksten binnen de Digitale Collectie Nederland nog onduidelijk is, wordt TEI vooralsnog geen onderdeel van DE BASIS. Analoog aan digitale afbeeldingen geldt ook voor digitale teksten de kwaliteitseis dat het kleinste betekenisvolle detail van de tekst nog door de gebruiker moet kunnen worden begrepen. Verder is het inhoudelijke uitgangspunt dat de inhoud en structuur van het origineel in de digitale reproductie getrouw wordt overgenomen. Afwijkingen dienen in de metadata beschreven te worden.

Uitstel

Vervaardiging van digitale reproducties van tekstueel erfgoed is stapsgewijs te benaderen: scanning naar een plaatje, omzetten naar machine-leesbare tekst met OCR en tenslotte markering van de tekst. De eigenschappen van het origineel in combinatie met de ambities en de mogelijkheden van de collectiebeheerder bepalen of en, zo ja, wanneer welke stap wordt gezet. Een erfgoedinstelling kan er bijvoorbeeld voor kiezen om (delen van) de tekstuele collectie vooralsnog te digitaliseren als beeldmateriaal. De digitale afbeelding wordt dan de master en kan in de toekomst als nog dienen als basis voor het vervaardigen van een machine-leesbare tekst. Ook is het mogelijk om gebruikers te betrekken bijvoorbeeld bij het markeren van teksten.

Digitally born

Waar het hier boven gaat over vervaardigen van digitale teksten van analoge originelen, is er in exponentieel toenemende mate ook sprake van teksten waarvan het origineel direct digitaal wordt vervaardigd. Tekstverwerking op de (personal) computer is standaard geworden voor iedereen, voor privé-correspondentie tot wetenschappelijk artikel; van overheidsacte tot roman. Het Open Document Format (ODF) lijkt als ISO gecertificeerd formaat een duurzame keuze voor dergelijke digitale documenten (tekst, maar ook rekenbladen, presentaties, etc.), maar is geen specifiek erfgoedformaat. Hoewel ook een gedeelte van dit materiaal - veelal aangeduid in het Engels als digitally born - is te beschouwen als onderdeel van de Digitale Collectie Nederland, valt normering buiten de scope van DE BASIS voor vervaardiging.

PDF/A

Het Portable Document Format (PDF) van Adobe is een veelgebruikt formaat op internet vooral ook voor teksten. Het formaat biedt goede mogelijkheden om de oorspronkelijke opmaak van documenten digitaal te bewaren, waarbij de machineleesbaar tekst te combineren valt met afbeeldingen. PDF/A is een ISO gecertificeerde open standaard die de kenmerken van het commerciele PDF-formaat geschikt maakt voor duurzame archivering en geldt daarmee als aanbeveling in het ICT-register van DEN. Als formaat voor het vervaardigen van machineleesbare erfgoedteksten binnen DE BASIS geniet XML de voorkeur vanwege de grotere mate van flexibiliteit in het hergebruik.

Expertteam

Dit voorstel is opgesteld door experts die werkzaam zijn op het gebied van vervaardiging van tekstmateriaal in overleg met de redactie van het ICT-register. De beschreven standaarden en richtlijnen maken onderdeel uit van DE BASIS voor vervaardiging.

Personal tools