Reconeixement del text. Programa gratuït - FineReader analògic

Tard o d'hora, tots els que sovint treballen amb programes d'oficina s'enfronten a una tasca típica: escanejar el text d'un llibre, una revista, un diari, simplement tríptics i després traduir aquestes imatges en format de text, per exemple, en un document de Word.

Per fer-ho, necessiteu un escàner i un programa especial per al reconeixement de text. Aquest article parlarà de l’anàleg gratuït de FineReader -Cuneiforme (sobre el reconeixement en FineReader - vegeu aquest article).

Comencem ...

El contingut

  • 1. Característiques del programa CuneiForm, característiques
  • 2. Un exemple de reconeixement de text
  • 3. Reconeixement de text per lots
  • 4. Conclusions

1. Característiques del programa CuneiForm, característiques

Cuneiforme

Podeu descarregar-vos des de la pàgina del desenvolupador: //cognitiveforms.com/

Un programari de reconeixement de text de codi obert. A més, funciona en totes les versions de Windows: XP, Vista, 7, 8, la qual cosa li agrada. A més, afegiu la traducció completa del programa al rus.

Pros:

- el reconeixement de text en els 20 idiomes més populars del món (s'inclou en aquest nombre l'anglès i el rus);

- enorme suport per a diversos tipus de lletra d'impressió;

- Comproveu el text reconegut del diccionari;

- la capacitat de guardar els resultats del treball de diverses maneres;

- mantenir l'estructura del document;

- Excel·lents taules de suport i reconeixement.

Contres:

- no suporta documents i fitxers massa grans (més de 400 ppp);

- no admet alguns tipus d'escàners directament (bé, això no fa por, s'inclou un escàner especial amb els controladors de l'escàner);

- El disseny no brilla (però qui ho necessita si el programa resol completament el problema).

2. Un exemple de reconeixement de text

Assumim que ja heu rebut les imatges necessàries per al reconeixement (escanejat allà, o descarregat el llibre en format pdf / djvu a Internet i ha obtingut les imatges necessàries. Com fer-ho - vegeu aquest article).

1) Obriu la imatge requerida al programa CuineForm (fitxer / obert o "Cntrl + O").

2) Per començar el reconeixement, primer heu de seleccionar diferents àrees: text, imatges, taules, etc. En el programa cunéiforme, això es pot fer no només manualment, sinó també automàticament! Per fer-ho, feu clic al botó "marcat" al panell superior de la finestra.

3) Després de 10-15 segons. el programa ressaltarà automàticament totes les àrees amb colors diferents. Per exemple, una àrea de text es ressalta en blau. Per cert, va ressaltar totes les àrees correctament i amb força rapidesa. Sincerament, no esperava una resposta tan ràpida i correcta per a ella ...

4) Per a aquells que no confien en el marcatge automàtic, podeu utilitzar el manual. Per això hi ha una barra d'eines (vegeu la imatge següent), gràcies a la qual podeu seleccionar: text, taula, imatge. Mou, augmenta / disminueix la imatge inicial, retalla les vores. En general, un bon conjunt.

5) Després de marcar totes les àrees, podeu procedir a reconeixement. Per fer-ho, només cal que feu clic al botó del mateix nom, com a la imatge següent.

6) Literalment en 10-20 segons. Veureu un document a Microsoft Word amb el text reconegut. El que és interessant, en el text d’aquest exemple, és clar que hi ha hagut errors, però hi ha molt pocs d’ells. Especialment, tenint en compte la senzillesa del material original: la imatge.

La velocitat i la qualitat són bastant comparables amb FineReader!

3. Reconeixement de text per lots

Aquesta funció del programa pot ser útil quan cal reconèixer que no hi ha cap imatge, sinó diverses alhora. La drecera per iniciar el reconeixement de lots sol ocultar-se al menú Inici.

1) Després d’obrir el programa, necessiteu crear un paquet nou o obrir-ne un. En el nostre exemple, creeu-ne un de nou.

2) En el següent pas li donem un nom, preferiblement de manera que, sis mesos després, recordarem el que hi ha emmagatzemat.

3) A continuació, seleccioneu l'idioma del document (rus-anglès), indiqueu si hi ha imatges i taules al material escanejat.

4) Ara heu d’especificar la carpeta on es troben els fitxers per al reconeixement. A propòsit, el que és interessant és que el propi programa trobarà totes les imatges i altres fitxers gràfics que pugui reconèixer i afegir-los al projecte. També heu d’eliminar l’excés.

5) El pas següent no és important: trieu què fer amb els fitxers d'origen, després del reconeixement. Recomanem seleccionar la casella de selecció "No feu res".

6) Només queda triar el format en què es guardarà el document reconegut. Hi ha diverses opcions:

- rtf - El fitxer de la paraula document s'obre per totes les oficines populars (incloses les lliures, un enllaç als programes);

- txt - Format de text, només podeu desar text, imatges i taules;

- htm - Pàgina d'hipertext, convenient si escanegeu i reconeixen fitxers per al lloc. El seu i trieu en el nostre exemple.

7) Després de fer clic al botó "Finalitzar", s'iniciarà el processament del vostre projecte.

8) El programa funciona molt ràpidament. Després del reconeixement, veureu una pestanya amb fitxers htm. Si feu clic en aquest fitxer, s'inicia un navegador on podeu veure els resultats. Per cert, el paquet es pot guardar per seguir treballant amb ell.

9) Com podeu veure els resultats el treball és molt impressionant. El programa va reconèixer fàcilment la imatge i va reconèixer fàcilment el text que hi havia. Tot i que el programa és gratuït, generalment és super!

4. Conclusions

Si sovint no escaneu i reconeixeu documents, la compra de FineReader probablement no té sentit. CuneiForm gestiona fàcilment la majoria de les tasques.

D'altra banda, també té desavantatges.

Primer, hi ha poques eines per editar i comprovar el resultat resultant. En segon lloc, quan haureu de reconèixer moltes imatges, a FineReader és més convenient veure immediatament tot el que s’afegeix al projecte a la columna de la dreta: suprimiu ràpidament innecessaris, realitzeu edicions, etc. I, en tercer lloc, en documents de mala qualitat, CuneiForm perd el reconeixement: heu de tenir en compte el document: corregiu errors, poseu signes de puntuació, pressupostos, etc.

Això és tot. Coneixeu qualsevol altre programari de reconeixement de text lliure i decent?