PDF naar tekst, kan dat?

“Henk, als ik een document heb gescand kan ik het niet bewerken.” Dat is lastig wanneer je documenten wilt gebruiken om aan te passen of aan te halen in je eigen werk. Maar als je scanner alleen de formaten JPG en PDF kent, dan heb je een uitdaging.

JPG

Met de afkorting JPEG (of JPG) wordt een bestandsindeling aangeduid voor het opslaan van rasterafbeeldingen in digitale vorm. Hoe hoger de compressie des te kleiner het bestand, en des te geringer de beeldkwaliteit. Het kwaliteitsverlies van JPEG valt niet veel op bij foto’s, maar wel bij bijvoorbeeld grafieken, lijnen of letters. Een tekortkoming van de JPEG-bestandsindeling is dat slechts 8 bits per kleur mogelijk zijn en dat er geen mogelijkheid is om een deel van de afbeelding transparant te maken. In 2009 maken de wat duurdere digitale camera’s foto’s met meer bits per kleur. Kortweg, een JPG is dus een foto.

PDF

Het portable document format, of kortweg pdf, is sinds ongeveer 1993 een standaard voor de uitwisseling van elektronische documenten en formulieren die in hun oorspronkelijke vorm gereproduceerd moeten kunnen worden. Technieken voor het versleutelen van de inhoud en het beveiligen van tekst tegen kopiëren zijn ingebouwd in het programma Adobe Reader, dat veel wordt gebruikt om pdf-bestanden te bekijken of te printen. In tegenstelling tot wat vaak wordt gedacht, is verspreiding van informatie in de vorm van pdf echter niet wezenlijk veiliger dan verspreiding in andere indelingen. De drempel voor kopiëren of ontsleutelen is voor eindgebruikers normaal gesproken wat hoger.

Voor hackers is het desondanks toch wel te kraken. Nadat pdf een lange tijd alleen een de facto standaard was, heeft Adobe in juli 2008 de specificaties voor PDF 1.7 opengesteld en als ISO 32000-1 gepubliceerd. Een tekst in een pdf-bestand kan als tekst of als afbeelding zijn opgeslagen, of allebei, in geïntegreerde vorm. Bij opslag van de tekst alleen als tekst is de geheugenruimte veel kleiner.

Dit komt het meeste voor, al of niet met echte afbeeldingen . Een reden voor opslag als afbeelding kan zijn dat de precieze vormgeving van een papieren origineel wordt gereproduceerd. Een reden van alleen opslag als afbeelding kan zijn dat dit bij het uitgaan van een papieren origineel veel minder bewerkelijk is, het vergt alleen het scannen. Dit geldt in de toekomst voor sommige publicaties in de Nederlandse Staatscourant.

Soms is de tekst wel te vinden met Google, namelijk als deze voor het indexeren OCR heeft toegepast. -OCR staat voor optical character reader, software die tekst van een scan kan lezen- De tekst is dan ook in de cache als tekst beschikbaar. Bij de combinatie van opslag als tekst en als afbeelding heeft men zowel de zoekfunctie als de precieze vormgeving, maar wel het nadeel van de grote bestandsomvang.

Bij beide formaten is het dus niet zomaar mogelijk om wijzigingen aan te brengen. Voor PDF zijn er programma’s te koop die dit wel kunnen. Een voorbeeld hiervan is PDFChef van Movavi. Deze PDF bewerkingssoftware kost voor een levenslange licentie €29,95
– Kan geen waardeoordeel geven, ken het programma niet –

Alternatief – online bewerken

Iets omslachtiger, maar werkbaar voor de cliënt die me belde, het online bewerken van een PDF. Ga hiervoor naar de site easypdf.com Hier vind je meerdere modules om een PDF te bewerken.
Om omzettingsproblemen te voorkomen adviseer ik je de module PDF naar tekst te gebruiken. De platte tekst die je dan krijgt is makkelijker aan te passen.

Hoe werkt Easy PDF

Er staan maar liefst vijftien modules op de startpagina. We gebruiken voor nu de ‘PDF naar Text’ module. Er verschijnt dan een invoer pagina om aan te geven welke PDF je wilt omzetten.

Klik op het groene icoontje in het midden van het blok. De verkenner zal openen en je kiest nu de te bewerken PDF. Ook kan je een PDF direct vanuit je Dropbox of Google Drive uploaden. Na het omzetten (dat kan even duren) verschijnt er regelmatig een pop-up scherm dat je uitnodigt reclame voor de site te maken. Deze kan je wegklikken of een van de keuzes gebruiken. (Facebook of Twitter)

Na het omzetten krijg je de mogelijkheid de bewerkte tekst te downloaden naar je eigen computer.
Deze dienst is gratis en onbeperkt.

Call Now Button