Izvilkt tekstu no PDF un attēlu failiem
Vai jums ir PDF dokuments, no kura vēlaties izvilkt visu tekstu? Kā ar skenētā dokumenta attēlu failiem, kurus vēlaties pārvērst rediģējamā tekstā? Šie ir daži no visbiežāk sastopamajiem jautājumiem, ko esmu redzējis darbavietā, strādājot ar failiem.
Šajā rakstā es runāju par vairākiem dažādiem veidiem, kā jūs varat mēģināt iegūt tekstu no PDF vai attēla. Ieguves rezultāti mainīsies atkarībā no PDF vai attēla teksta veida un kvalitātes. Arī jūsu rezultāti būs atkarīgi no izmantotā rīka, tāpēc vislabāk ir izmēģināt pēc iespējas vairāk opciju, lai iegūtu labākos rezultātus.
Izraksts no attēla vai PDF
Vienkāršākais un ātrākais veids, kā sākt, ir izmēģināt tiešsaistes PDF teksta izvilkšanas pakalpojumu. Tie parasti ir bez maksas, un tie var dot jums tieši to, ko jūs meklējat bez jebkāda datora instalēšanas. Šeit ir divi, kurus esmu izmantojis ar ļoti labiem un izciliem rezultātiem:
ExtractPDF
ExtractPDF ir bezmaksas rīks, lai izņemtu attēlus, tekstu un fontus no PDF faila. Vienīgais ierobežojums ir tas, ka PDF faila lielums ir 10 MB. Tas ir mazliet mazs; tādēļ, ja jums ir lielāks fails, izmēģiniet dažas no tālāk minētajām metodēm. Izvēlieties savu failu un pēc tam noklikšķiniet uz Sūtīt failu poga. Rezultāti parasti ir ļoti ātri, un, noklikšķinot uz cilnes Teksts, jums vajadzētu redzēt teksta priekšskatījumu.
Tas ir arī jauks papildu ieguvums, ka tā arī izņem attēlus no PDF faila, tikai gadījumā, ja jums tie ir vajadzīgi! Kopumā tiešsaistes rīks darbojas lieliski, bet esmu nokļuvis pāris PDF dokumentos, kas dod man smieklīgu rezultātu. Teksts tiek izvilkts tikai labi, bet kāda iemesla dēļ katram vārdam būs pārtraukums! Nav liela problēma īsajam PDF failam, bet, protams, problēma failiem ar lielu tekstu. Ja tas notiek ar jums, izmēģiniet nākamo rīku.
Tiešsaistes OCR
Tiešsaistes OCR parasti strādāja ar dokumentiem, kas netika pareizi konvertēti ar ExtractPDF, tāpēc ir laba ideja izmēģināt abus pakalpojumus, lai redzētu, kuri no tiem sniedz labāku rezultātu. Tiešsaistes OCR ir arī dažas jaukākas funkcijas, kas var būt noderīgas ikvienam, kam ir liels PDF fails, kam nepieciešams tikai pārvērst tekstu uz dažām lapām, nevis visu dokumentu..
Pirmā lieta, ko vēlaties darīt, ir iet uz priekšu un izveidot bezmaksas kontu. Tas ir mazliet kaitinoši, bet, ja neveidojat bezmaksas kontu, tas tikai daļēji konvertēs jūsu PDF, nevis visu dokumentu. Tā vietā, lai varētu tikai augšupielādēt tikai 5 MB dokumentu, varat augšupielādēt līdz 100 MB vienā failā ar kontu.
Vispirms izvēlieties valodu un pēc tam izvēlieties izejošo formātu veidu, kuru vēlaties konvertēt. Jums ir dažas iespējas, un, ja vēlaties, varat izvēlēties vairāk nekā vienu. Zem Daudzlapu dokuments, varat izvēlēties Lapu numuri un pēc tam izvēlieties tikai lapas, kuras vēlaties konvertēt. Pēc tam izvēlaties failu un noklikšķiniet uz Konvertēt!
Pēc konvertēšanas jūs nonāksiet sadaļā Dokumenti (ja esat pieteicies), kur var redzēt, cik daudz brīvo lapu esat palicis, un saites, lai lejupielādētu konvertētos failus. Šķiet, ka jums ir tikai 25 lapas bez maksas dienā, tādēļ, ja jums ir nepieciešams vairāk nekā, jums būs jāgaida nedaudz vai jāpērk vairāk lapu.
Tiešsaistes OCR veica lielisku darbu, pārveidojot PDF failus, jo tā spēja saglabāt faktisko teksta izkārtojumu. Manā testā es paņēmu Word dokumentu, kurā tika izmantotas lodes, dažādi fonta izmēri utt., Un pārvērstu to par PDF. Tad es izmantoju tiešsaistes OCR, lai to pārvērstu atpakaļ uz Word formātu, un tas bija aptuveni 95% tāds pats kā oriģinālam. Tas man ir diezgan iespaidīgs.
Turklāt, ja meklējat attēlu pārvērst par tekstu, tad tiešsaistes OCR var to darīt tikpat viegli kā teksta noņemšana no PDF failiem.
Bezmaksas tiešsaistes OCR
Tā kā mēs runājam par attēlu, lai tekstu pārvērstu OCR, ļaujiet man pieminēt vēl vienu labu tīmekļa vietni, kas ļoti labi darbojas attēlos. Bezmaksas tiešsaistes OCR bija ļoti labs un ļoti precīzs, iegūstot tekstu no maniem testa attēliem. Es paņēmu pāris fotogrāfijas no savām iPhone lapām no grāmatām, brošūrām uc, un es biju pārsteigts, cik labi tas varēja pārveidot tekstu.
Izvēlieties savu failu un pēc tam noklikšķiniet uz pogas Augšupielādēt. Nākamajā ekrānā ir dažas iespējas un attēla priekšskatījums. Jūs varat apgriezt to, ja nevēlaties OCR visu. Pēc tam vienkārši noklikšķiniet uz OCR pogas, un jūsu konvertētais teksts parādīsies zem attēla priekšskatījuma. Tam nav arī nekādu ierobežojumu, kas ir patiešām jauki.
Papildus tiešsaistes pakalpojumiem ir divi freeware PDF pārveidotāji, kurus es vēlos pieminēt, ja datorā ir nepieciešama vietējā programmatūra, lai veiktu reklāmguvumus. Izmantojot tiešsaistes pakalpojumus, jums vienmēr būs nepieciešams interneta pieslēgums, un tas var nebūt iespējams visiem. Tomēr es pamanīju, ka reklāmguvumu kvalitāte no freeware programmām bija ievērojami sliktāka nekā tīmekļa vietņu kvalitāte.
PDF teksta nosūcējs
PDF teksta nosūcējs ir freeware, kas dara diezgan labu darbu, iegūstot tekstu no PDF failiem. Kad esat to lejupielādējis un instalējis, noklikšķiniet uz pogas Atvērt, lai izvēlētos PDF failu. Pēc tam noklikšķiniet uz Izvilkt tekstu, lai sāktu procesu.
Tas jums lūgs vietu, kur saglabāt teksta izejas failu, un tad tas sāks iegūt. Varat arī noklikšķināt uz Iespēja poga, kas ļauj izvēlēties tikai noteiktas lapas, kas jāizņem, un ekstrakcijas veidu. Otrā iespēja ir interesanta, jo tā izraksta tekstu dažādos izkārtojumos, un ir vērts mēģināt visus trīs, lai redzētu, kuri no tiem dod vislabāko izeju.
PDF2Text Pilot
PDF2Text Pilot rīko tekstu, lai iegūtu tekstu. Tam nav iespēju; jūs vienkārši pievienojat failus vai mapes, konvertējiet un cerat uz labāko. Dažos PDF dokumentos tas darbojās labi, bet lielākajā daļā no tiem bija daudz jautājumu.
Vienkārši noklikšķiniet uz Pievienot failus un pēc tam noklikšķiniet uz Konvertēt. Kad reklāmguvums ir pabeigts, noklikšķiniet uz Pārlūkot, lai atvērtu failu. Jūs nobraukums būs atšķirīgs, izmantojot šo programmu, tāpēc nebaidieties daudz.
Tāpat ir vērts pieminēt, ka, ja atrodaties korporatīvajā vidē vai varēsiet saņemt rokas uz Adobe Acrobat kopijas no darba, tad jūs patiešām varat iegūt daudz labākus rezultātus. Acrobat, protams, nav bezmaksas, bet tai ir iespējas konvertēt PDF uz Word, Excel un HTML formātu. Tas arī veic vislabāko darbu, saglabājot oriģinālā dokumenta struktūru un pārveidojot sarežģītu tekstu.