Ecco come installare OCRFeeder, l’utile software per effettuare scansioni OCR di immagini, documenti ecc con Linux.

OCRFeeder in Ubuntu Linux
OCRFeeder è un progetto open source, sviluppato dai developer GNOME; che punta a fornire una semplice ed intuitiva interfaccia grafica di Tesseract ed altri motori di riconoscimento ottico dei caratteri (OCR). Attraverso OCRFeeder potremo operare in immagini in documenti testuali consentendoci di ottenere ottimi risultati anche in lingua italiana, con la possibilità di poter editare il testo estratto in LibreOffice, OpenOffice, AbiWord ecc. Con OCRFeeder potremo potremo effettuare la scansione di una o più immagini di diversi formati tra i quali jpeg, png ricorrendo al comando Aggiungi Cartella è possibile specificare un’intera directory alla quale importare tutte le immagini, documenti PDF ecc. Una volta integrate le le immagini o documenti basta selezionare una parte ti testo o l’intera immagine e cliccare sul pulsante OCR per iniziare la scansione.

Semplice e funzionale OCRFeeder è disponibile nei repository ufficiali delle principali distribuzioni Linux, di default però installa la versione inglese di tesseract-ocr, per questo motivo oltre all’applicazione andremo ad installare anche il software riconoscimento ottico dei caratteri specifico per la lingua italiana.

Per installare OCRFeeder in Ubuntu, Debian e derivate (compreso Linux Mint ed elementary OS) basta digitare:

sudo apt-get install ocrfeeder tesseract-ocr-ita

Per installare OCRFeeder in Arch Linux e derivate:

sudo pacman -Sy ocrfeeder tesseract tesseract-data-ita

Per installare OCRFeeder in Fedora basta scaricare i pacchetti rpm da questa pagina e installare Tesseract nella versione italiana digitando:

sudo yum install tesseract-langpack-ita

Al termine dell’installazione basta avviare OCRFeeder da menu, prima di effettuare la scansione verifichiamo di aver correttamente impostato tesseract nella lingua italiana dalle preferenze dell’applicazione.

Home OCRFeeder

  • biosniper

    funzione già presente quando si avvia il software di scannerizzazione di ubuntu 12.04 con scanner hp

  • Fabio

    Utile dritta. Grazie! 🙂

  • Anche Xsane dovrebbe avere il riconoscimento OCR. 😉

    • ah si?? non lo sapevo, lo hai provato per caso?? funziona bene??

      • Gustavo

        la capacità di riconoscimento dipende dal motore che carichi. Tesseract è il migliore per linux, il che è tutto dire.. Era buono nel 1995 quando hp lo ha fatto, e più o meno è rimasto a quel livello.
        Purtroppo ci sono alcuni comparti dove l’opensource non è competitivo ed uno è l’ocr..

        • .theShort

          Eggià… purtroppo nel mondo opensource una delle cose che mancano è appunto un valido ocr. Questo è uno dei (pochi) motivi che mi legano ancora a windws… 🙁

        • Simel

          Non è proprio così. Tesseract è stato migliorato da google negli anni passati e forse anche adesso; inoltre una azienda russa ha rilasciato il codice di cuneiform nel 2008 e trovo che funzioni piuttosto bene.

          • Gustavo

            migliorato? mica tanto.. Il livello di cuneiform è più o meno quello che trovavi negli ocr che ti regalavano con gli scanner negli anni 99-2000.. siamo circa lì.. Se tu prendi un ocr a pagamento ormai ti riconosce tutto, cuneiform è vicino al niente.
            Ovviamente non parlo del riconoscimento di un testo semplice da libro, dove cuneiform o tesseract ti fanno si e no 20 errori per pagina, mentre uno commerciale ti fa forse 2 errori a libro intero.. Parlo di riconoscimento ti tabulazioni complesse o peggio ancora di vecchie fatture stampate ad aghi, ad inchiostro leggerissimo.. dove devi correggere pure con i nuovi ocr.. Ma con quelli open si parla di ZERO %.. Proprio due ere geologiche diverse

      • Non ho ancora avuto modo.

        Per questo ho scritto “dovrebbe”.

  • Elia Notarangelo

    Utile anche gimagereader, da ppa, che se non sbaglio è già stato commentato da Roberto su lffl

  • Fabio

    Secondo me Gimagereader è superiore. Con l’ultima release (2.93) rileva anche l’impaginazione.

No more articles