Reconèixer el text en un fitxer PDF en línia.


No sempre és possible extreure text d’un arxiu PDF amb còpia convencional. Sovint, les pàgines d'aquests documents són el contingut escanejat de les seves versions en paper. Per convertir aquests fitxers en dades de text totalment modificables, s'utilitzen programes especials amb la funció de reconeixement òptic de caràcters (OCR).

Aquestes solucions són molt difícils d’implementar i, per tant, costen molts diners. Si necessiteu reconèixer el text amb PDF amb regularitat, és recomanable comprar el programa adequat. Per casos rars, seria més lògic utilitzar un dels serveis en línia disponibles amb funcions similars.

Com es pot reconèixer el text en format PDF en línia

Per descomptat, el conjunt de característiques dels serveis en línia d’OCR és més limitat en comparació amb les solucions d’escriptori complet. Però podeu treballar amb aquests recursos de forma gratuïta o per un preu nominal. El més important és que les aplicacions web corresponents també es corresponen amb la seva tasca principal, és a dir, el reconeixement de text.

Mètode 1: ABBYY FineReader Online

L'empresa de desenvolupament de serveis és un dels líders en el camp del reconeixement de documents òptics. ABBYY FineReader per a Windows i Mac és una potent solució per convertir PDF en text i treballar amb ell.

La contrapartida web del programa, per descomptat, és inferior a la seva funcionalitat. No obstant això, el servei pot reconèixer text de les exploracions i fotografies en més de 190 idiomes. Admet la conversió de fitxers PDF en documents Word, Excel, etc.

Servei en línia ABBYY FineReader Online

  1. Abans de començar a treballar amb l’eina, creeu un compte al lloc o inicieu sessió amb el vostre compte de Facebook, Google o Microsoft.

    Per anar a la finestra d’inici de sessió, feu clic al botó. "Login" a la barra de menú superior.
  2. Un cop iniciat la sessió, importeu el document PDF desitjat a FineReader mitjançant el botó "Carrega fitxers".

    A continuació, feu clic a "Seleccioneu els números de pàgina" i especifiqueu l’entorn desitjat per al reconeixement de text.
  3. A continuació, seleccioneu els idiomes presents al document, el format del fitxer resultant i feu clic al botó "Reconèixer".
  4. Després de processar, la durada de la qual depèn totalment de la mida del document, podeu descarregar el fitxer acabat amb dades de text fent clic al seu nom.

    O exporteu-lo a un dels serveis disponibles al núvol.

El servei es distingeix, probablement, pels algorismes de reconeixement de text més precisos en imatges i fitxers PDF. Però, per desgràcia, el seu ús gratuït es limita a cinc pàgines que es processen al mes. Per treballar amb documents més voluminosos, heu de comprar una subscripció d'un any.

Tanmateix, si la funció OCR és molt poc necessària, ABBYY FineReader Online és una gran opció per extreure text de fitxers PDF petits.

Mètode 2: Lliure OCR en línia

Servei senzill i convenient per a la digitalització de text. Sense necessitat de registrar-se, el recurs us permet reconèixer 15 pàgines PDF completes per hora. L’OCR gratuïta en línia funciona totalment amb documents en 46 idiomes i sense autorització suporta tres formats d’exportació de text: DOCX, XLSX i TXT.

En registrar-se, l'usuari pot processar documents de diverses pàgines, però el nombre lliure d'aquestes pàgines està limitat a 50 unitats.

Servei en línia de OCR en línia gratuït

  1. Per reconèixer el text del PDF com a "convidat", sense autorització al recurs, utilitzeu el formulari adequat a la pàgina principal del lloc.

    Seleccioneu el document desitjat amb el botó "Fitxer", especifiqueu l’idioma principal del text, el format de sortida, i espereu que el fitxer es carregui i feu clic "Converteix".
  2. Al final del procés de digitalització, feu clic a "Descarregar fitxer de sortida" per desar el document acabat amb el text a l’ordinador.

Per als usuaris autoritzats, la seqüència d’actuacions és una mica diferent.

  1. Utilitzeu el botó "Registre" o bé "Login" a la barra de menú superior, a, respectivament, creeu un compte OCR en línia gratuït o entreu-lo.
  2. Després de l’autorització al tauler de reconeixement, manteniu premuda la tecla "CTRL", seleccioneu fins a dos idiomes del document d'origen de la llista proporcionada.
  3. Especifiqueu més opcions per extreure text del PDF i feu clic al botó. "Selecciona un fitxer" per carregar el document al servei.

    Llavors, per iniciar el reconeixement, feu clic a "Converteix".
  4. Després de processar el document, feu clic a l'enllaç amb el nom del fitxer de sortida a la columna corresponent.

    El resultat del reconeixement s’emmagatzemarà immediatament a la memòria de l’ordinador.

Si necessiteu extreure text d'un document PDF petit, podeu recórrer amb seguretat a l’eina descrita anteriorment. Per treballar amb fitxers grans, haureu de comprar símbols addicionals a l'OCR en línia gratuïta o recórrer a una altra solució.

Mètode 3: NewOCR

Servei OCR completament gratuït que permet extreure text de pràcticament qualsevol document gràfic i electrònic com DjVu i PDF. El recurs no imposa restriccions a la mida i al nombre de fitxers recognoscibles, no requereix registre i ofereix un ampli ventall de funcions relacionades.

NewOCR suporta 106 idiomes i és capaç de gestionar correctament fins i tot les exploracions de documents de baixa qualitat. És possible seleccionar manualment l'àrea per al reconeixement de text a la pàgina del fitxer.

Servei en línia NewOCR

  1. Per tant, podeu començar a treballar immediatament amb el recurs, sense necessitat de realitzar accions innecessàries.

    Directament a la pàgina principal hi ha un formulari per importar el document al lloc. Per carregar un fitxer a NewOCR, utilitzeu el botó "Selecciona el fitxer" a la secció "Selecciona el fitxer". Després, al camp "Idioma (s) de reconeixement" seleccioneu un o més idiomes del document d'origen i feu clic a "Carregar + OCR".
  2. Definiu la vostra configuració de reconeixement preferida, seleccioneu la pàgina desitjada per extreure el text i feu clic al botó. "OCR".
  3. Desplaceu-vos cap avall i trobeu el botó. Descarregar.

    Feu clic damunt d’ella i, a la llista desplegable, seleccioneu el format de document necessari per a la descàrrega. Després d'això, el fitxer acabat amb el text extret es baixarà a l’ordinador.

L'eina és convenient i reconeix tots els caràcters amb una qualitat prou alta. No obstant això, el processament de cada pàgina del document PDF importat s'ha de llançar de manera independent i es mostrarà en un fitxer separat. Per descomptat, podeu copiar immediatament els resultats del reconeixement al porta-retalls i combinar-los amb els altres.

No obstant això, donat el matís anterior, les grans quantitats de text que utilitzen NewOCR són molt difícils d’extreure. Amb el mateix arxiu petit, el servei fa front a "amb una explosió".

Mètode 4: Espai OCR

Un recurs senzill i comprensible per a la digitalització de text permet reconèixer documents PDF i emetre el resultat en un fitxer TXT. No hi ha límits sobre el nombre de pàgines. L’única limitació és que la mida del document d’entrada no ha de superar els 5 megabytes.

Servei en línia OCR.Space

  1. No és necessari registrar-se per treballar amb l’eina.

    Feu clic a l’enllaç anterior i carregueu el document PDF al lloc web des del vostre ordinador mitjançant el botó "Selecciona el fitxer" o de la xarxa - per referència.
  2. A la llista desplegable "Selecciona llenguatge OCR" seleccioneu l’idioma del document importat.

    A continuació, inicieu el procés de reconeixement de text fent clic al botó. "Inicia l'OCR!".
  3. Al final del processament d’arxius, vegeu el resultat al fitxer "Resultat OCR'ed" i feu clic a Descarregarper descarregar el document TXT acabat.

Si només necessiteu extreure el text del PDF i el format final no és important, OCR.Space és una bona opció. L’únic document ha de ser "monolingüe", ja que no es proporciona el reconeixement de dos o més idiomes al mateix temps al servei.

Vegeu també: Anàlegs gratuïts FineReader

Avaluant les eines en línia que es presenten a l’article, s’ha de tenir en compte que la FineReader Online d’ABBYY gestiona la funció de OCR amb més precisió i precisió. Si la precisió màxima del reconeixement de text és important per a vosaltres, és millor tenir en compte aquesta opció. Però és necessari pagar-ne-ho, probablement.

Si necessiteu digitalitzar documents petits i ja esteu a punt per corregir els errors en el servei, és recomanable utilitzar NewOCR, OCR.Space o OCR en línia gratuïta.