Jdi na obsah Jdi na menu
 


Software pro digitalizaci knih a dokumentů

Na internetu nacházíme celou řadu knih (ať už v jakémkoli jazyce), které jsou naskenovány a procesem OCR rozpoznány, ve formátu PDF. Jde o tzv. elektronické knihy, které lze číst na počítačovém zařízení jakéhokoli hardwarového typu, na jakékoli platformě operačního systému.

Jaký software to umí?

Setkal jsem se zatím s těmito:

NeoOffice 2.1

např. Úvod do islámu, Davis 2007

Gnostice PDFtoolkitV2.5

např.

ABBYY FineReader 12

např.

pdfeTeX-1.21a

např. ZAMENHOF, L.L. - Fundamenta Krestomatio

 

Aplikace ABBYY FineReader je program pro optické rozpoznávání znaků (OCR), který převádí naskenované dokumenty, dokumenty PDF a obrazové soubory (včetně digitálních fotografií) do formátů s moţností úprav.

 

Díky technologii adaptivního rozpoznávání dokumentu (ADRT®) společnosti ABBYY aplikace ABBYY FineReader umožňuje analýzu a zpracování dokumentů najednou a vcelku, a nikoli po jednotlivých stránkách. Tento postup zachová strukturu zdrojového dokumentu včetně formátování, hypertextových odkazů, e–mailových adres, záhlaví a zápatí, titulků obrázků a tabulek, číslování stránek a poznámek pod čarou.

 

 

ABBYY FineReader is an optical character recognition (OCR) system that converts scanned documents, PDF documents, and image files (including digital photos) into editable formats.

 

Thanks to ABBYY's Adaptive Document Recognition Technology (ADRT®), ABBYY FineReader can analyze and process a document in its entirety, rather than one page at a time. This approach retains the source document's structure, including formatting, hyperlinks, e–mail addresses, headers and footers, image and table captions, page numbers, and footnotes.

 

Zveřejnění: Všechny uvedené práce provádíme pro svazový archív, aby materiály byly virtuálně zálohovány pro případ fyzického zničení (jako se dříve zálohovalo pomocí mikrofiší), jednak aby byly připraveny k dalšímu zpracování a zveřejnění v tištěné podobě nebo na internetu nebo pro čtečky. Zveřejnění je však možné pouze u textů, které již nejsou vázány autorským právem (tedy 70 let po smrti autora i překladatele) nebo na které se podaří autorské povolení získat od autorů nebo jejich dědiců. V časopisech a sbornících jsou volné některé texty a jiné ještě ne. Hlavním cílem naší práce je ovšem virtuální archivace svazového kulturního dědictví, případné zveřejnění je cíl vedlejší.

Kelkaj spertoj pri la programo ABBYY FineReader 11: kiu estas destinita por optika rekonigo  (OCR programo), do kapablas transformi bildajn formatojn al teksto. Grandega avantaĝo estas, ke la programo proponas E-on kiel lingvon de la prilaborata bildo kaj ebligas amasan prilaboron de bildoj. Mi uzas ĝin plejparte por amase prilabori jam pretajn bildojn - skanitajn aŭ fotitajn, sed ĝi tamen kapablas ankaŭ bonege kunlabori kun skanilo.

Kutime mi transformas la bildformaton JPG je la formato PDF, kiu ŝajnas al mi plej avantaĝa por konservi, aperigi enrete kaj senŝanĝe movi dosierojn. La tekstaj dosieroj ofte aperas en diversaj komputiloj diverse, ĉar diferencas uzataj programoj kaj sistemoj. La PDF- dosiero aspektas ĉiam kiel origina bildo kaj samtempe ĝi ebligas vortserĉadon - tio dependas tamen je kvalito de la origina bildo. La optika rekonigo ne funkcias perfekte, tamen eblas unue publikigi la rezultojn enrete sen postuli grandan spacon, due konservi ilin por iama eventuala permana prilaboro en kutima teksta programo, ekz. en WORD.

Rekte skribi en Word multegajn tekstojn estas vere temporaba, ĉefe estas malfacile legi permanajn leterojn aŭ poemojn, kiuj jam paliĝis. Okazas iam, ke la skribanto devas ian vere ne plu legeblan vorton ekkompreni laŭ senco de la frazo, ĉe tradukoj helpas trovi originan tekston kaj mem traduki la mankantan parton, sed iam oni devas eĉ rezigni kaj lasi malplenan lokon.

ABBY kreas el preskaŭ sennombra bildokvanto unu PDF dosieron, limigas ĝin fakte nur komputila kvalito. Tio ŝajnas al mi tre taŭga ekzemple ĉe gazetoj kaj libroj, sed taŭgas eĉ ĉe simpla, tamen kelkpaĝa konservinda letero. Krom pli facila ordigo tio signifas grave malpli da komputila spaco. Mirek sendis al mi poŝte sep DVD diskojn kun skanitaj 27 skatoloj, do 24 komo kvin gigabajtojn da datenoj. Post prilaboro per la programo ABBY la rezulto okupas en mia komputilo entute 2,4 GB, do dekoble malpli.

La programo kapablas ankaŭ krei elektronikajn librojn kaj transformi jam pretan PDF dosieron en alian dosieron PDF. Ĝi sonas strange, tamen ekzistas ŝajne diversaj PDF dosieroj.