gImageReader, come estrapolare un testo da PDF ed immagini su Linux

Spesso può capitare di volersi salvare porzioni di testo da un e-book o da un PDF ma si opta per fare dei semplici screenshot. Creare i propri appunti avendo a disposizione un motore OCR, quindi, velocizza moltissimo la loro stesura. Nell’articolo di oggi vi segnalo un’interessante utility che serve proprio a questo scopo, gImageReader. Questo tool open source altro non è che un front-end per Tesseract OCR, programma per l’estrazione di testi da immagini e file PDF in GNU/Linux. Disponibile per tutte le principali distribuzioni, è distribuito anche per Windows.

Cos’è gImageReader

Tesseract nasce nei laboratori di HP tra il 1985 e il 1994. Dopo alcuni aggiornamenti distribuiti durante gli anni ’90, realativi al porting dell’applicazione su Windows e la migrazione da C a C++, la casa americana nel 2005 decise di rendere il progetto open source. Dal 2006 lo sviluppo passò a Google. Il motore OCR contenuto nell’utility, acronimo di Optical Character Recognition, consente di scansionare testi da un’immagine o da un file in formato PDF. Può rilevare diverse lingue per impostazione predefinita e supporta anche la scansione tramite caratteri Unicode.

Il principale limite di Tesseract è l’assenza di una GUI, funziona solo da riga di comando. Per sopperire a questa mancanza, potete affidarvi a gImageReader, che semplifica l’utilizzo di questo potente strumento dotandolo di un’interfaccia grafica. Per procedere all’installazione della GUI, quindi, dovete in primis installare esplicitamente i language pack di Tesseract. Vediamo come procedere su Ubuntu e derivate.

La prima cosa da fare è installare Tesseract, per farlo eseguite le seguenti istruzioni:

sudo apt install tesseract-ocr-ita

sudo add-apt-repository ppa:sandromani/gimagereader

sudo apt update sudo apt install gimagereader

Gli utenti Fedora e Debian non dovranno aggiungere alcun repository esterno, poichè il pacchetto di gImageReader è incluso nei repository preinstallati. Una volta completata l’installazione, aprendo l’applicazione, vi troverete una GUI estremamaente semplice da utilizzare. Basterà, infatti, importare il file e scegliere se riconoscere tutto il testo o solo alcune selezioni, e le lingua.

Se siete interessati a questo progetto open source, vi invito a consultare la pagina GitHub di gImageReader dove trovate le indicazioni per installarlo anche su Arch, SUSE, Fedora etc.

Seguiteci sul nostro canale Telegram, sulla nostra pagina Facebook e su Google News. Nel campo qui sotto è possibile commentare e creare spunti di discussione inerenti le tematiche trattate sul blog.

Mozilla annuncia Firefox 100: che traguardo!

Pinebuds: Pine64 lancia le sue cuffie Bluetooth Open Source!

Canonical porta Steam sullo Snap Store!

Pop OS 22.04 LTS è ufficiale: ecco tutte le novità preparate da System76

Diet Pi 8.3: un SO efficiente e leggero per la vostra Raspberry!

Disponibile Deepin 20.5, arriva il riconoscimento facciale!

Canonical porta Steam sullo Snap Store!

[GUIDA] Come installare Firefox in formato .deb su Ubuntu

Mark Shuttleworth si espone sul binomio Ubuntu – Flatpak

Mozilla annuncia Firefox 100: che traguardo!

Canonical porta Steam sullo Snap Store!

Ecco LXQt 1.1.0: sempre Qt 5.15 ma con un look rivisitato

Pop OS 22.04 LTS è ufficiale: ecco tutte le novità preparate da System76

Preoccupazioni sul “nuovo” driver Linux NTFS di Paragon Software

[GUIDA] Come installare Firefox in formato .deb su Ubuntu

[GUIDA] Come installare Firefox in formato .deb su Ubuntu

[GUIDA] Come installare Spotify su Ubuntu, Debian e derivate

[GUIDA] Cos’è e come funziona la variabile PATH su Linux

gImageReader, come estrapolare un testo da PDF ed immagini su Linux

Cos’è gImageReader

gImageReader, come estrapolare un testo da PDF ed immagini su Linux

Cos’è gImageReader

SUBSCRIBE