programma ocr, scannerizzare e riconoscere

09.08.2012 21:04

FreeOCR è la versione gratuita e compilata per Windows di Tesseract (programma OCR opensource). Si può utilizzare gratuitamente anche per scopi commerciali.

Per nostra fortuna, dopo essere stato acquisito da Google, continua ad essere aggiornato con una certa regolarità (e a restare open source), ma soprattutto è disponibile anche la lingua italiana, che va scaricata da qui (occorre scaricare il file Italian language data for Tesseract, scompattarlo con un programma di archiviazione, copiare i file presenti nella cartella in C:/Windows/tessdata, come ho scritto nella guida. A questo punto basterà, nell'interfaccia grafica di FreeOCR, selezionare la lingua italiana vicino a OCR Language).

FreeOCR funziona bene con la lingua italiana, decisamente meglio di TopOCR. Su Programmifree ho scritto una semplice guida per FreeOCR.
Le ultime versioni consentono anche di convertire da PDF a formati di testo (txt, ecc.).

IMPORTANTE: ai fini di un buon riconoscimento, occorre selezionare con il mouse l'area di cui eseguire il riconoscimento (indispensabile se ai bordi ci sono difetti o curvature della carta, per esempio in caso si stia passando un libro con lo scanner, ecc.). Questo perché FreeOCR non è in grado di rimuovere automaticamente i bordi, o le aree non attinenti al testo. Se non lo fate, il testo si riempirà di caratteri strani.

 

download (ultima versione): durante l'installazione, si collega in internet per gli aggiornamenti aggiuntivi
download (vecchia versione 2.6)

 


Crea un sito gratis Webnode