Scan-Dienste für Texte, Bilder, Dias


Scan-Systeme zur Texterfassung

Für die Erfassung von maschinengeschriebenen oder gedruckten Texten stehen im ZDV derzeit fünf Texterkennungssysteme für unterschiedliche Einsatzzwecke zur Verfügung:

Mit dem Angebot von fünf nebeneinander bereitgestellten Texterkennungssystemen trägt das ZDV der Tatsache Rechnung, daß die unterschiedlichen Textvorlagen und die unterschiedlichen Anforderungen an das Ergebnis nicht von einem einzigen System optimal bewältigt werden können.


Einsatzzweck der Texterkennungssysteme

Die fünf vorhandenen Systeme lassen sich nach ihrem Einsatzzweck grob wie folgt klassifizieren:

OPTOPUS
Texte in nicht-lateinischer Schrift (einschließlich Fraktur); Texte mit vielen Sonderzeichen; Notwendigkeit, Unterschiede in Schriftart (z.B. Antiqua-Schrift oder serifenlose Schrift) und Schriftgröße mit zu erfassen.
Finereader Professional
Druckvorlagen in lateinischer und kyrillischer Schrift, für Tabellen und Formulare geeignet.
OmniPage Professional und TextBridge Pro
gute Druckvorlage, neuerer Druck, lateinische Schrift. Programme erkennen Unterschiede in Schriftart und Schriftgröße.
ScanWorX
Texte in vorwiegend lateinischer Schrift auch in schlechterer Druckqualität, mit zusätzlichen Sonderzeichen oder Teilen in nicht-lateinischer Schrift. Programm erkennt Unterschiede in Schriftart und Schriftgröße.

Die Ausstattung der Texterkennungssysteme

OPTOPUS Texterkennungssystem

Das OPTOPUS Texterkennungssystem des ZDV besteht aus folgenden Komponenten:

OPTOPUS arbeitet für die Zeichenerkennung mit dem Vergleich von vorgefundenen und trainierten Zeichen-Formen (pattern matching). Dies hat den Nachteil, daß vor jeden Lesevorgang eine Trainingsphase vorgeschaltet werden muß (falls nicht mit einem früheren Trainigsset am gleichen Dokument weitergearbeitet werden soll).

Die spezielle Stärke dieses Verfahrens ist die freie Trainierbarkeit auch für nicht-lateinische Alphabete sowie die Möglichkeit der Unterscheidung unterschiedlicher Schriftgrößen und -arten. Bei OPTOPUS wird die Information über Font-Wechsel und Schriftgrößen-Wechsel mit in der Textdatei abgelegt.

Der Einsatzschwerpunkt von OPTOPUS ist am ZDV daher das Einlesen von Texten in Nicht-Standard-Schriften (Fraktur; nicht-lateinische Alphabete).

Finereader Professional

Das Finereader Texterkennungssystem des ZDV besteht aus folgenden Komponenten:

Finereader erkennt Zeichen durch 'Fontänenumformung' (Zeichen wird in einzelne Punkte zerlegt und deren Lage zueinander analysiert). Lateinische und kyrillische Schriften können standardmäßig gelesen werden; trainieren von anderen nicht-lateinischen Alphabeten ist möglich.

OmniPage Professional

Das OmniPage Texterkennungssystem des ZDV besteht aus folgenden Komponenten:

OmniPage arbeitet für die Zeichenerkennung nicht mit dem Vergleich von vorgefundenen und trainierten Zeichen-Formen (pattern matching), sondern mit der Analyse von Eigenschaften der vorgefundenen Zeichen (feature recognition). Dies hat den Vorteil, daß auf eine Trainingsphase verzichtet werden kann. Dadurch ist die Bedienung des Systems recht einfach. Trainieren einzelner Zeichen ist aber möglich.

TextBridge Pro 98

Das TextBridge Texterkennungssystem des ZDV besteht aus folgenden Komponenten:

TextBridge kann (wie OmniPage) ohne Training durch den Benutzer arbeiten. Eingeschränktes Trainieren einzelner Zeichen und Wörter ist möglich.

ScanWorX

Das ScanWorX Texterkennungssystem des ZDV besteht aus folgenden Komponenten:

ScanWorX kann (wie Finereader, OmniPage oder TextBridge) ohne Training durch den Benutzer arbeiten, bietet aber gleichzeitig die Möglichkeit, nicht automatisch erkannte Zeichen oder Schriften beim ersten Vorkommen zu trainieren; diese Zeichen werden dann bei erneutem Vorkommen ebenfalls automatisch erkannt.

ScanWorX verbindet somit die Vorteile der vollautomatischen Texterkennung (die auch von Finereader, OmniPage oder TextBridge geboten wird) mit den Vorteilen der freien Trainierbarkeit, die für nicht-lateinische Schriften erforderlich ist und seinerzeit für die Beschaffung von OPTOPUS den Ausschlag gegeben hatte.

Erste Erfahrungen zeigen, daß die Erkennungsqualität vor allem bei nicht optimalen Vorlagen deutlich besser ist als bei den übrigen Systemen.

Der schnelle Scanner läßt außerdem einen deutlich höheren Durchsatz erwarten als die zuvor beschriebenen Systeme.


Scannen von Grafiken, Bildern etc.

Das Einscannen von Bildern ist auf den Scannern möglich, die an den oben unter FineReader Professional bzw. unter ScanWorX aufgeführten Texterkennungssystemen angeschlossen sind.

Auf dem "Scanner-PC", auf dem Finereader Professional installiert ist, steht unter WINDOWS folgende Software zur Verfügung:


Dia- und Filmstreifen-Scanner

Der Super Coolscan LS2000 von Nikon ist am "Scanner-PC" (PC, auf dem auch FineReader Professional läuft) angeschlossen.

Die technischen Daten zum Dia-Scanner:

Die zugehörige Software Silverfast und NikonScan kann zum direkten Einscannen von Bildern in Host Applikationen wie z.B. Adobe Photoshop oder als Einzelanwendung zum Scannen und Abspeichern benützt werden.


Ansprechpartner im ZDV: Harald Fuchs, Zi. 214 (Wilhelmstraße 106), Tel. 07071/29-70345.


fuchs@zdv.uni-tuebingen.de - Stand: März 1999