Linux

Nei giorni scorsi avviamo visto come grazie ad un semplice comando da terminale è semplice estrarre le immagini contenute in un documento PDF.
Oggi vedremo invece come estrarre il testo da un documento PDF sempre utilizzando il terminale di Linux.

Utile sopratutto se vogliamo creare un nuovo documento in un’altro formato oppure semplicemente vogliamo estrarne il testo per stamparlo modificandone od eliminandone alcune parti.
Per estrarre il testo di un PDF con il nostro terminale utilizzeremo un semplice tool denominato pdftotext

Pdftotext un semplice tool contenuto nel pacchetto xpdf-utils (di solito già presente nelle più diffuse Distribuzioni Linux) il quale ci permette di estrarre il testo di un Documento PDF.

L’utilizzo è semplicissimo basta da terminale digitare:

pdftotext  [opzione] nomedocumento.pdf nomefiletesto.txt

dove come opzione potremo inserire -f per indicare da quale pagina estrarre il testo (per esempio -f 5 per avviare l’elaborazione dalla pagina 5 in poi) e -l invece per indicare l’ultima pagina per estrarre il testo (per esempio -l 19 elaboreremo le pagine fino alla 19) oppure inserendo -layout per avere la stessa struttura del Documento PDF

Per esempio se vogliamo estrarre il testo di tutte le pagine del documento PDF denominato lffl.pdf e salvarlo nel file di testo lffl.txt basta da terminale digitare:

pdftotext lffl.pdf lffl.txt

se invece, per esempio, vogliamo estrarre il testo dalla pagina 3 alla 8 basta digitare:

pdftotext -f 3 -l 8 lffl.pdf lffl.txt

se vogliamo mantenere lo stello layout del PDF basta digitare:

pdftotext -layout lffl.pdf lffl.txt

dopo averlo testato la conversione in testo è veramente ottimale inoltre come possiamo vedere alcune opzioni sono identiche al comando pdfimages.

Attenzionepdftotext non è un’applicazione OCR quindi non potrà estrarre testo nelle immagini, per esempio se nel documento è presente una scansione di alcune pagine di un libro non potrà estrarle.
No more articles