Anwendungs-Software und Apps 14.460 Themen, 73.205 Beiträge

Buchseiten digitalisieren

Winfried8 / 29 Antworten / Flachansicht Nickles

Hallo Freunde,
für einen Bekannten möchte ich einen Reiseführer von 1892 digitalisieren.Soll heißen: Seite für Seite einscannen und in ein Format bringen,womit man dann,ähnlich einer Diashow, Seite für Seite öffnen kann.Noch besser wäre,wenn man gezielt die Seite z.B. Nr.127 öffnen könnte.Ich verwende Windows 7 Home Premium 64 Bit.Man bräuchte dazu ein Text-Erkennungsprogramm? Habe ich aber nicht.
Bitte auch dazu einen Hinweis.
Besten Dank im voraus.
Gruß Winfried8

bei Antwort benachrichtigen
Winfried8 Winfried8
Winfried8 Winfried8
Jörg63 Winfried8 „Hallo Monika, also, ich bin mal Deinem Pfad gefolgt und habe heute mit meinem...“
Optionen

Hallo,

hier einen Link zum TIFF Format: http://de.wikipedia.org/wiki/Tagged_Image_File_Format

Das Zitat Das Tagged Image File Format (TIFF oder auch kurz TIF) ist ein Dateiformat zur Speicherung von Bilddaten dürfte klären, warum es sich nicht für durchsuchbaren Text eignet.

Das BSDG1981 einmal eine nur mit einem Scanner erstellte Bilddatei im PDF Format, richtig als nicht für durchsuchbar angibt, aber andererseits das TIFF Format als geeignetes Ausgabeformat erklärt, erschließt sich mir nicht.

Grundlage für ausgelesenen Text aus einm Scanvorgang ist eine OCR Software, deren Ausgabeformate sind.: JPG, TIFF, PDF, WORD, und andere. JPG und TIFF sind Bildformate, die aus Pixeln bestehen. Word und PDF können Text und Bilder enthalten. Durchsuchbar nach Text sind somit nur Word und PDF.

Ich bin mir nicht sicher, ob eine OCR Software nach dem Einlesen des Textes, das Ergebnis direkt als Text in eine PDF Datei schreiben kann, oder ob das Ergebnis als Bild in eine PDF Datei eingebettet wird. Das würde allerdings den OCR Scan nach Text sinnlos machen. Denn dann wäre das Ergebnis tatsächlich nicht durchlesbar.

Aber vielleicht macht die ein oder andere OCR Software beim Erstellen einer PDF Datei nicht anderes, als ein PDF Druckertreiber. in Word. Der Text wird innerhalb einer PDF Datei nicht als Pixel, sondern als Text behandelt.

Denn wenn man eine Word Datei mittels "Datei, drucken, Auswahl: PDF Drucker" in ein PDF Format umwandelt, dann ist diese jedenfalls mit einem PDF Reader durchsuchbar.

Könnte man die Doppelseiten auch im PDF-Format mit Deinem Vorschlag scantailor.sourceforge.net trennen oder geht das nur im TIFF-Format?

Für das PDF Format würde ich, wie bereits erwähnt PDF Split and Merge ("teilen und zusammenfügen") (Freeware: deutsch) (http://www.chip.de/downloads/PDF-Split-and-Merge_29495960.html) benutzen.

Gruß
Jörg

bei Antwort benachrichtigen