ESCANEJAR I OCR

Bona tarda

Probablement, cadascun de nosaltres haguem de fer front a la tasca quan necessiteu traduir un document en format electrònic. Això és especialment necessari per a aquells que estudien, treballin amb documentació, tradueixin textos utilitzant diccionaris electrònics, etc.

En aquest article vull compartir alguns dels aspectes bàsics d’aquest procés. En general, l’exploració i el reconeixement de text consumeixen molt de temps, ja que la majoria d’operacions s’hauran de fer manualment. Intentarem esbrinar què, com i per què.

No tothom entén immediatament una cosa. Després d’escanejar (encaixant tots els fulls de l’escàner), tindreu fotografies del format BMP, JPG, PNG, GIF (hi pot haver altres formats). Per tant, des d’aquesta imatge cal que rebeu el text: aquest procediment s’anomena reconeixement. En aquest ordre, es presentaran a continuació.

El contingut

1. Què es necessita per a l'exploració i el reconeixement?
2. Opcions d'escaneig de text
3. Reconeixement del text del document
- 3.1 Text
- 3.2 Imatges
- 3.3 Taules
- 3.4 Elements innecessaris
4. Reconeixement de fitxers PDF / DJVU
5. Comprovació d'errors i estalvi de resultats de treball

1. Què es necessita per a l'exploració i el reconeixement?

1) Escàner

Per traduir documents impresos en forma de text, primer necessiteu un escàner i, en conseqüència, programes i controladors "natius" que van anar bé. Amb ells podeu escanejar el document i guardar-lo per a processaments posteriors.

Podeu utilitzar altres anàlegs, però el programari inclòs amb l’escàner al kit sol funcionar més ràpidament i té més opcions.

Segons el tipus d’escàner que tingueu, la velocitat del treball pot variar significativament. Hi ha escàners que poden obtenir una imatge des d’un full en 10 segons, hi ha uns que ho faran en 30 segons. Si escanegeu un llibre en 200-300 fulls, crec que no és difícil calcular quantes vegades hi haurà una diferència de temps?

2) Programa de reconeixement

Al nostre article, us mostraré el treball en un dels millors programes per escanejar i reconèixer absolutament qualsevol document - ABBYY FineReader. Des de el programa es paga, i immediatament donaré un enllaç a un altre: el seu anàleg gratuït de la forma de Cunei. És cert que no els compararé, ja que FineReader guanya en tots els aspectes i recomano provar-ho tot.

ABBYY FineReader 11

Lloc oficial: //www.abbyy.ru/

Un dels millors programes d'aquest tipus. Està dissenyat per reconèixer el text de la imatge. Construït moltes opcions i funcions. Pot analitzar un munt de tipus de lletra, fins i tot suporta versions manuscrites (encara que no ho he provat personalment, crec que és bo que no conegui la versió manuscrita si no teniu una lletra cal·ligràfica perfecta) Més informació sobre com treballar amb ella es tractarà a continuació. També es nota que l'article tractarà el treball de les versions del programa 11.

Com a regla general, les diferents versions d'ABBYY FineReader no són molt diferents les unes de les altres. Podeu fer el mateix a l’altre. Les principals diferències poden ser la comoditat, la rapidesa del programa i les seves capacitats. Per exemple, les versions anteriors es neguen a obrir un document PDF i DJVU ...

3) Documents per escanejar

Sí, així que aquí he decidit treure els documents en una columna separada. En la majoria dels casos, escaneu els llibres de text, diaris, articles, revistes, etc. És a dir els llibres i la literatura que es demana. A què estic portant? Des de l’experiència personal, puc dir que moltes coses que voleu escanejar ja poden estar a la xarxa. Quantes vegades he personalment estalviat temps quan vaig trobar un llibre o un altre que ja havia escanejat a la xarxa. Només he hagut de copiar el text al document i continuar amb ell.

Des d’aquest senzill consell, abans d’explorar alguna cosa, comproveu si algú ja ha escanejat i no necessiteu perdre el temps.

2. Opcions d'escaneig de text

Aquí, no parlaré dels vostres controladors per a l’escàner, dels programes que van anar amb ell, ja que tots els models de l’escàner són diferents, el programari també és diferent a tot arreu i, fins i tot, és més difícil demostrar que no és realista.

Però tots els escàners tenen la mateixa configuració que pot afectar en gran mesura la velocitat i la qualitat del vostre treball. Aquí sobre ells només parlaré aquí. Llistaré en ordre.

1) Qualitat d’escaneig - DPI

Primer, establiu la qualitat d’escaneig en les opcions no inferiors a 300 DPI. És recomanable incloure una mica més, si és possible. Com més gran sigui l’indicador de DPI, més clara serà la vostra imatge i, per tant, es continuarà processant més ràpidament. A més, com més gran sigui la qualitat de l’exploració, menys errors hauran de corregir més endavant.

La millor opció proporciona, en general, entre 300 i 400 DPI.

2) cromaticitat

Aquest paràmetre afecta molt el temps d’escaneig (per cert, el DPI també afecta, però són tan forts i només quan l’usuari fixa valors elevats).

Normalment hi ha tres modes:

- blanc i negre (perfecte per a text sense format);

- gris (apte per a text amb taules i imatges);

- color (per a revistes en color, llibres, en general, documents, on el color és important).

Normalment, el temps d’escaneig depèn de la selecció del color. Després de tot, si teniu un document gran, fins i tot els 5-10 segons addicionals de la pàgina en conjunt donaran lloc a un temps decent ...

3) Fotos

Podeu obtenir el document no només mitjançant l’exploració, sinó també fent-ne una foto. Com a regla general, en aquest cas tindreu altres problemes: distorsió de la imatge, difuminació. Per això, pot requerir més edició i processament del text rebut. Personalment, no recomano utilitzar càmeres per a aquest negoci.

És important assenyalar que no tots els documents s’acceptaran, perquè la qualitat de l’exploració pot ser extremadament baixa ...

3. Reconeixement del text del document

Assumim que les pàgines acollidores escanejades que heu rebut. Sovint són formats: tif, bmb, jpg, png. En general, per a ABBYY FineReader, això no és molt important ...

Després d’obrir la imatge a ABBYY FineReader, el programa, per regla general, comença a seleccionar àrees i reconèixer-les. Però de vegades ho fa malament. Per això considerem la selecció de les àrees desitjades manualment.

És important! No tothom entén immediatament que després d’obrir un document al programa, el document d'origen es mostra a l’esquerra de la finestra, on es ressalten diferents àrees. Després de fer clic al botó "Reconeixement", el programa a la finestra de la dreta us proporcionarà el text acabat. Després de reconèixer, per cert, és recomanable comprovar el text per obtenir errors en el mateix FineReader.

3.1 Text

Aquesta àrea s’utilitza per ressaltar text. Les imatges i taules s’han d’excloure. S'han d'introduir manualment fonts rares i inusuals ...

Per seleccionar una àrea de text, preste atenció al panell situat a la part superior del FineReader. Hi ha un botó "T" (vegeu. La captura de pantalla a continuació, el punter del ratolí està just en aquest botó). Feu clic sobre ell i, a continuació, a la imatge següent, seleccioneu l’àrea perfectament rectangular en què es troba el text. Per cert, en alguns casos és necessari crear blocs de text de 2-3, i de vegades de 10 a 12 per pàgina, perquè El format de text pot ser diferent i no seleccionar tota l’àrea amb un rectangle.

És important assenyalar que les imatges no poden caure a la zona de text. En el futur, us estalviarà molt de temps ...

3.2 Imatges

S'utilitza per ressaltar imatges i aquelles àrees que són difícils de reconèixer a causa de la mala qualitat o la inusual font.

A la captura de pantalla de sota, el punter del ratolí es troba al botó utilitzat per seleccionar l'àrea "imatge". Per cert, en qualsevol àrea es pot seleccionar qualsevol part de la pàgina i FineReader la inserirà al document com a imatge normal. És a dir només "estúpid" copiarà ...

Normalment, aquesta àrea s’utilitza per ressaltar les taules escanejades malament, per ressaltar el text i el tipus de lletra no estàndard, les imatges mateixes.

3.3 Taules

La captura de pantalla de sota mostra el botó per ressaltar les taules. En general, el faig servir molt rarament. El fet és que haureu de dibuixar de manera rutinària (realment) cada línia de la taula i mostrar què i com el programa. Si la taula és petita i de molt bona qualitat, recomanem que utilitzeu l'àrea "imatge" per a aquests propòsits. Per tant, estalvieu molt de temps i, a continuació, podeu fer una taula en Word a partir d’una imatge.

3.4 Elements innecessaris

És important assenyalar. De vegades, hi ha elements innecessaris a la pàgina que dificulten el reconeixement del text o no permeten seleccionar l’àrea desitjada. Es poden esborrar amb el "borrador".

Per fer-ho, aneu al mode d’edició d’imatges.

Seleccioneu l'eina d'esborrany i seleccioneu l'àrea no desitjada. Esborrarà i en el seu lloc hi haurà un full de paper blanc.

Per cert, us recomanem que utilitzeu aquesta opció amb la major freqüència possible. Proveu totes les àrees de text que heu seleccionat, on no necessiteu un text ni hi hagi punts innecessaris, distorsions i borrositat: suprimiu-lo amb una goma. Gràcies a aquest reconeixement, serà més ràpid!

4. Reconeixement de fitxers PDF / DJVU

En general, aquest format de reconeixement no serà diferent dels altres: és a dir, Podeu treballar amb ell com amb imatges. L’única cosa que el programa no hauria de ser la versió antiga, si no obriu fitxers PDF / DJVU, actualitzeu la versió a 11.

Un petit consell. Després d’obrir el document a FineReader, començarà a reconèixer automàticament el document. Sovint en fitxers PDF / DJVU, no es necessita una àrea específica de la pàgina durant tot el document. Per eliminar aquesta àrea de totes les pàgines, feu el següent:

1. Aneu a la secció d'edició d'imatges.

2. Activeu l’opció "retallar".

3. Seleccioneu l'àrea que necessiteu a totes les pàgines.

4. Feu clic a Aplicar a totes les pàgines i retallar-les.

5. Comprovació d'errors i estalvi de resultats de treball

Sembla que pot haver-hi altres problemes, quan s’han seleccionat totes les àrees i, a continuació, es reconeixen: pren-les i guardeu-les ... No hi era!

En primer lloc, hem de comprovar el document.

Per habilitar-lo, després del reconeixement, a la finestra de la dreta hi haurà un botó de "comprovació", vegeu la captura de pantalla de sota. Després de fer-hi clic, el programa FineReader us mostrarà automàticament les àrees on el programa té errors i no podria determinar de manera fiable un o un altre símbol. Només hauràs de triar, o estaràs d’acord amb l’opinió del programa, o introduir el teu personatge.

Per cert, a la meitat dels casos, aproximadament, el programa us oferirà una paraula correcta: només heu d’utilitzar el ratolí per triar l’opció que vulgueu.

En segon lloc, després de comprovar, haureu de triar el format en què deseu el resultat del vostre treball.

Aquí FineReader us ofereix un gir al màxim: simplement podeu transferir la informació a Word One-to-One i podeu desar-la en una de les desenes de formats. Però voldria destacar un altre aspecte important. Sigui quin sigui el format que trieu, és més important triar el tipus de còpia. Penseu en les opcions més interessants ...

Còpia exacta

Totes les àrees que heu seleccionat a la pàgina del document reconegut coincidiran exactament amb el document d'origen. Una opció molt convenient quan és important que no perdi format de text. Per cert, les fonts també seran molt similars a l'original. Recomanem, amb aquesta opció, transferir el document a Word per continuar treballant allà.

Còpia editable

Aquesta opció és bona perquè teniu una versió formatada del text. És a dir Sagnat del "quilòmetre", que pot haver estat al document original: no es complirà. Opció útil quan editeu significativament la informació.

És cert que no heu de triar si és important que preserveu l’estil del disseny, les fonts, els sagnats. De vegades, si el reconeixement no té gaire èxit, el vostre document pot "inclinar" a causa del format modificat. En aquest cas, és recomanable triar una còpia exacta.

Text simple

Una opció per a aquells que només necessiten el text de la pàgina sense la resta. Adequat per a documents sense imatges i taules.

Això conclou l’article d’escaneig i reconeixement de documents. Espero que amb l’ajut d’aquests senzills consells pugueu resoldre els vostres problemes ...

Bona sort!