Mae'n bell o fod yn bosibl bob amser i dynnu testun o ffeil PDF gan ddefnyddio copïo rheolaidd. Yn aml, mae tudalennau dogfennau o'r fath yn sganio cynnwys eu fersiynau papur. I drosi ffeiliau o'r fath yn ddata testun cwbl olygadwy, defnyddir rhaglenni arbennig gyda'r swyddogaeth Cydnabod Cymeriad Optegol (OCR).
Mae'n anodd iawn gweithredu penderfyniadau o'r fath ac, felly, maent yn costio llawer o arian. Os oes angen i chi adnabod testun o PDF yn rheolaidd, mae'n syniad da prynu'r rhaglen briodol. Mewn achosion prin, bydd yn fwy rhesymegol defnyddio un o'r gwasanaethau ar-lein sydd â swyddogaethau tebyg.
Sut i adnabod testun o PDF ar-lein
Wrth gwrs, mae'r ystod o nodweddion gwasanaethau ar-lein OCR, o'i chymharu ag atebion bwrdd gwaith llawn, yn fwy cyfyngedig. Ond gallwch hefyd weithio gydag adnoddau o'r fath naill ai am ddim neu am ffi enwol. Y prif beth yw, gyda'u prif dasg, sef gyda chydnabod testun, bod y cymwysiadau gwe cyfatebol yn ymdopi cystal.
Dull 1: ABBYY FineReader Ar-lein
Mae'r cwmni datblygu gwasanaeth yn un o'r arweinwyr ym maes cydnabod dogfennau optegol. Mae ABBYY FineReader ar gyfer Windows a Mac yn ddatrysiad pwerus ar gyfer trosi PDF i destun a gweithio ymhellach gydag ef.
Mae analog y rhaglen ar y we, wrth gwrs, yn israddol iddi o ran ymarferoldeb. Serch hynny, gall y gwasanaeth adnabod testun o sganiau a lluniau mewn mwy na 190 o ieithoedd. Cefnogir trosi ffeiliau PDF i ddogfennau Word, Excel, ac ati.
Gwasanaeth Ar-lein ABBYY FineReader
- Cyn i chi ddechrau gweithio gyda'r offeryn, crëwch gyfrif ar y wefan neu fewngofnodwch gan ddefnyddio'ch cyfrif Facebook, Google neu Microsoft.
I fynd i'r ffenestr awdurdodi, cliciwch ar y botwm "Mynedfa" yn y bar dewislen uchaf. - Ar ôl mewngofnodi, mewnforiwch y ddogfen PDF a ddymunir i FineReader gan ddefnyddio'r botwm “Llwytho ffeiliau i fyny”.
Yna cliciwch "Dewiswch rifau tudalennau" a nodi'r cyfwng a ddymunir ar gyfer adnabod testun. - Nesaf, dewiswch yr ieithoedd sy'n bresennol yn y ddogfen, fformat y ffeil sy'n deillio o hyn, a chlicio ar y botwm “Cydnabod”.
- Ar ôl ei brosesu, y mae ei hyd yn dibynnu'n llwyr ar gyfaint y ddogfen, gallwch lawrlwytho'r ffeil orffenedig gyda data testun yn syml trwy glicio ar ei enw.
Neu, ei allforio i un o'r gwasanaethau cwmwl sydd ar gael.
Mae'n debyg bod y gwasanaeth yn cael ei wahaniaethu gan yr algorithmau adnabod testun mwyaf cywir ar ddelweddau a ffeiliau PDF. Ond, yn anffodus, mae ei ddefnydd am ddim wedi'i gyfyngu i bum tudalen sy'n cael eu prosesu bob mis. Er mwyn gweithio gyda dogfennau mwy swmpus, bydd yn rhaid i chi brynu tanysgrifiad blynyddol.
Fodd bynnag, os mai anaml y mae angen OCR, mae ABBYY FineReader Online yn opsiwn gwych ar gyfer tynnu testun o ffeiliau PDF bach.
Dull 2: OCR Ar-lein Am Ddim
Gwasanaeth syml a chyfleus ar gyfer digideiddio testun. Heb gofrestru, mae'r adnodd yn caniatáu ichi adnabod 15 tudalen PDF lawn yr awr. Mae OCR Ar-lein Am Ddim yn gweithio'n llawn gyda dogfennau mewn 46 iaith a heb awdurdodiad mae'n cefnogi tri fformat allforio testun - DOCX, XLSX a TXT.
Wrth gofrestru, mae'r defnyddiwr yn cael cyfle i brosesu dogfennau aml-dudalen, ond mae nifer rhad ac am ddim yr un tudalennau hyn wedi'i gyfyngu i 50 uned.
Gwasanaeth Ar-lein OCR Ar-lein Am Ddim
- I gydnabod y testun o PDF fel “gwestai”, heb awdurdodiad ar yr adnodd, defnyddiwch y ffurflen briodol ar brif dudalen y wefan.
Dewiswch y ddogfen a ddymunir gan ddefnyddio'r botwm Ffeil, nodwch brif iaith y testun, y fformat allbwn, yna aros i'r ffeil lwytho a chlicio Trosi. - Ar ddiwedd y broses ddigideiddio, cliciwch "Dadlwythwch y ffeil allbwn" i gadw'r ddogfen orffenedig gyda thestun ar y cyfrifiadur.
Ar gyfer defnyddwyr awdurdodedig, mae'r gyfres o gamau gweithredu ychydig yn wahanol.
- Defnyddiwch y botwm "Cofrestru" neu "Mynedfa" yn y bar dewislen uchaf i greu cyfrif OCR Ar-lein Am Ddim neu fewngofnodi iddo.
- Ar ôl cael eich awdurdodi yn y panel cydnabod, daliwch yr allwedd i lawr CTRL, dewiswch hyd at ddwy iaith y ddogfen ffynhonnell o'r rhestr a ddarperir.
- Nodwch opsiynau pellach ar gyfer tynnu testun o PDF a chlicio Dewiswch ffeil i uwchlwytho dogfen i'r gwasanaeth.
Yna, i ddechrau cydnabyddiaeth, cliciwch Trosi. - Ar ddiwedd prosesu'r ddogfen, cliciwch ar y ddolen gydag enw'r ffeil allbwn yn y golofn gyfatebol.
Bydd canlyniad y gydnabyddiaeth yn cael ei arbed ar unwaith yng nghof eich cyfrifiadur.
Os oes angen i chi dynnu testun o ddogfen PDF fach, gallwch droi at ddefnyddio'r offeryn uchod yn ddiogel. I weithio gyda ffeiliau swmpus, bydd yn rhaid i chi brynu nodau ychwanegol yn Free Online OCR neu ddefnyddio datrysiad arall.
Dull 3: NewOCR
Gwasanaeth OCR cwbl rhad ac am ddim sy'n eich galluogi i dynnu testun o bron unrhyw ddogfennau graffig ac electronig fel DjVu a PDF. Nid yw'r adnodd yn gosod cyfyngiadau ar faint a nifer y ffeiliau cydnabyddedig, nid oes angen cofrestru arnynt ac mae'n cynnig ystod eang o swyddogaethau cysylltiedig.
Mae NewOCR yn cefnogi 106 o ieithoedd a gall brosesu sganiau dogfennau o ansawdd isel yn gywir. Mae'n bosibl dewis yr ardal â llaw ar gyfer adnabod testun ar y dudalen ffeiliau.
Gwasanaeth Ar-lein NewOCR
- Felly, gallwch chi ddechrau gweithio gydag adnodd ar unwaith, heb yr angen i gyflawni gweithredoedd diangen.
Ar y brif dudalen mae ffurflen ar gyfer mewnforio dogfen i'r wefan. I uwchlwytho ffeil i NewOCR, defnyddiwch y botwm "Dewis ffeil" yn yr adran "Dewiswch eich ffeil". Yna yn y maes "Iaith (ieithoedd) cydnabod" nodwch un neu fwy o ieithoedd y ddogfen ffynhonnell, yna cliciwch "Llwytho + OCR". - Gosodwch eich gosodiadau cydnabyddiaeth dewisol, dewiswch y dudalen rydych chi am dynnu testun ohoni a chlicio ar y botwm OCR.
- Sgroliwch i lawr y dudalen ychydig a dewch o hyd i'r botwm "Lawrlwytho".
Cliciwch arno ac yn y gwymplen dewiswch y fformat dogfen sy'n ofynnol i'w lawrlwytho. Ar ôl hynny, bydd y ffeil orffenedig gyda'r testun wedi'i dynnu yn cael ei lawrlwytho i'ch cyfrifiadur.
Mae'r offeryn yn gyfleus ac mae ansawdd eithaf uchel yn cydnabod yr holl gymeriadau. Fodd bynnag, rhaid cychwyn prosesu pob tudalen o'r ddogfen PDF a fewnforiwyd yn annibynnol a'i harddangos mewn ffeil ar wahân. Gallwch, wrth gwrs, gopïo'r canlyniadau cydnabod i'r clipfwrdd ar unwaith a'u cyfuno ag eraill.
Serch hynny, o ystyried y naws a ddisgrifir uchod, mae'n anodd iawn tynnu llawer iawn o destun gan ddefnyddio NewOCR. Gyda ffeiliau bach, mae'r gwasanaeth yn ymdopi â chlec.
Dull 4: OCR.Space
Yn adnodd syml a dealladwy ar gyfer digideiddio testun, mae'n caniatáu ichi adnabod dogfennau PDF ac allbwn y canlyniad i ffeil TXT. Ni ddarperir unrhyw gyfyngiadau ar nifer y tudalennau. Yr unig gyfyngiad yw na ddylai maint y ddogfen fewnbwn fod yn fwy na 5 megabeit.
Gwasanaeth Ar-lein OCR.Space
- Nid oes angen cofrestru i weithio gyda'r offeryn.
Dilynwch y ddolen uchod a llwythwch y ddogfen PDF i'r wefan o'r cyfrifiadur gan ddefnyddio'r botwm "Dewis ffeil" neu o'r rhwydwaith - trwy gyfeirio. - Yn y gwymplen "Dewis iaith OCR" Dewiswch iaith y ddogfen a fewnforiwyd.
Yna dechreuwch y broses adnabod testun trwy glicio ar y botwm "Dechreuwch OCR!". - Ar ddiwedd y prosesu ffeiliau, darllenwch y canlyniad yn y maes Canlyniad OCR'ed a chlicio "Lawrlwytho"i lawrlwytho'r ddogfen TXT gorffenedig.
Os oes angen i chi echdynnu'r testun o'r PDF yn unig ac ar yr un pryd nid yw ei fformatio terfynol yn bwysig o gwbl, mae OCR.Space yn ddewis da. Yr unig beth yw y dylai'r ddogfen fod yn “uniaith”, gan na ddarperir ar gyfer cydnabod dwy iaith neu fwy ar yr un pryd yn y gwasanaeth.
Gweler hefyd: Cyfatebiaethau am ddim o FineReader
Wrth asesu'r offer ar-lein a gyflwynir yn yr erthygl, dylid nodi bod FineReader Online o ABBYY yn trin swyddogaeth OCR yn fwyaf cywir ac effeithlon. Os yw'r cywirdeb mwyaf posibl o ran adnabod testun yn bwysig i chi, mae'n well ystyried yr opsiwn hwn yn benodol. Ond yn fwyaf tebygol, bydd yn rhaid i chi dalu amdano hefyd.
Os oes angen i chi ddigideiddio dogfennau bach a'ch bod yn barod i gywiro gwallau yn y gwasanaeth yn annibynnol, fe'ch cynghorir i ddefnyddio NewOCR, OCR.Space neu OCR Ar-lein Am Ddim.