Kā es varu kopēt tekstu no PDF, saglabājot formatējumu?

PDF, visuresošs dokumentu formāts, ir lieliski piemērots dokumentu koplietošanai, saglabājot fontus, attēlus un vispārējo izkārtojumu dažādās platformās. Vai ir vienkāršs veids, kā saglabāt šo ļoti formatējumu, kopējot un ielīmējot tekstu no dokumenta?

Šodienas jautājumu un atbilžu sesija mums dod pieklājību no SuperUser-Stack Exchange apakšnodaļas, kas ir kopienas orientēta Q & A tīmekļa vietņu grupa.

Jautājums

SuperUser lasītājs Colen meklē veidu, kā iegūt tekstu no PDF, saglabājot formatējumu:

Kad es kopēšu tekstu no PDF faila un teksta redaktorā, tas vairākos veidos beidzas. Tiek zaudēti formatējumi, piemēram, treknrakstā un slīprakstā; mīksto līniju pārtraukumi teksta rindkopā tiek pārvērsti par cieto līniju pārtraukumiem; domuzīmes, lai pārtrauktu vārdu divās rindās, tiek saglabātas pat tad, ja tām nevajadzētu būt; un vienreizējas un dubultās cenas tiek aizstātas ar? zīmes.

Ideālā gadījumā es gribētu, lai varētu kopēt tekstu no PDF un formatēt tos HTML kodos, "viedās pēdiņas" pārveidot par "un", un līniju pārtraukumus izdarīt pareizi. Vai ir kāds veids, kā to izdarīt?

Vai Colen (un pārējiem mums) ir ātrs un vienkāršs veids, kā iegūt tekstu, nezaudējot formatējumu?

Atbilde

SuperUser ieguldītājs Frabjous piedāvā risinājumu apvienojumā ar lielu piesardzības devu:

Pirmkārt, jums ir jāsaprot, kas ir PDF. PDF faili ir izstrādāti, lai atdarinātu drukātu lapu, un tie ir paredzēti tikai kā izejas formāts, nevis ievades formāts. PDF pamatā ir karte, kurā ir precīza rakstzīmju atrašanās vieta (atsevišķie burti vai pieturzīmes uc) vai attēli. Vairumā gadījumu PDF failā nav pat saglabāta informācija par to, kur viens vārds beidzas un otrs sākas, daudz mazāk, piemēram, mīkstie pārtraukumi pret cietajiem pārtraukumiem rindkopu galotnēs.

(Daži jaunākie PDF faili saglabā informāciju par šo stuff, bet tā ir jauna tehnoloģija, un jūs varētu būt laimīgs, lai atrastu tādus PDF failus. Pat ja jūs to izdarītu, jūsu PDF skatītājs to nezina.)

Jebkurā gadījumā jūsu programmatūra ir ieviesusi sava veida „mākslīgo intelektu”, lai iegūtu tikai no atsevišķu rakstzīmju atrašanās vietām, kas ir vārds, kas ir punkts, un tā tālāk. Atšķirīga programmatūra to darīs labāk nekā citi, un tas būs atkarīgs arī no tā, kā tika izveidots PDF fails. Jebkurā gadījumā jums nevajadzētu gaidīt perfektus rezultātus. Izejas PDF iegūšana nav tāda pati kā avota dokumentam. Daudz labāk mēģināt to iegūt, ja iespējams.

Jūsu standarta problēmas risinājums ir izmantot Adobe Acrobat Professional (dārgo, nevis bezmaksas lasītāju), lai PDF failu pārvērstu par HTML. Pat tas nenodrošina perfektus rezultātus.

Ir bezmaksas programmatūra, ko var izmantot, lai iegūtu tekstu no PDF failiem ar dažiem formatējumiem neskartu, bet atkal nav gaidīt perfektus rezultātus. Skatiet, piemēram, kalibru (kas var konvertēt uz RTF formātu), pdftohtml / pdfreflow vai AbiWord vārdu procesoru (ar visiem importa / eksporta spraudņiem). OpenOffice ir pieejams arī PDF importēšanas spraudnis.

Bet, lūdzu, negaidiet pilnību ar kādu no šiem rezultātiem. Jūs esat šeit pret graudu. PDF vienkārši nav domāts kā rediģējams ievades formāts.

Ja jums ir grūtības izlemt, kuru rīku sākt, Caliber ir īsts Šveices armijas nazis. Varat arī to izmantot, lai konvertētu PDF failus lietošanai jūsu ebook lasītājā un organizētu ebook / dokumentu bibliotēku.

Vai kaut kas jāpievieno paskaidrojumam? Skaņas izslēgšana komentāros. Vai vēlaties lasīt vairāk atbildes no citiem tehnoloģiju gudriem Stack Exchange lietotājiem? Apskatiet pilnu diskusiju pavedienu šeit.