Scan-Dienste für Texte, Bilder, Dias

Scan-Systeme zur Texterfassung

Für die Erfassung von maschinengeschriebenen oder gedruckten Texten stehen im ZDV derzeit fünf Texterkennungssysteme für unterschiedliche Einsatzzwecke zur Verfügung:

OPTOPUS Texterkennungssystem
Finereader Professional
OmniPage Professional
TextBridge Pro 98
ScanWorX

Mit dem Angebot von fünf nebeneinander bereitgestellten Texterkennungssystemen trägt das ZDV der Tatsache Rechnung, daß die unterschiedlichen Textvorlagen und die unterschiedlichen Anforderungen an das Ergebnis nicht von einem einzigen System optimal bewältigt werden können.

Einsatzzweck der Texterkennungssysteme

Die fünf vorhandenen Systeme lassen sich nach ihrem Einsatzzweck grob wie folgt klassifizieren:

OPTOPUS: Texte in nicht-lateinischer Schrift (einschließlich Fraktur); Texte mit vielen Sonderzeichen; Notwendigkeit, Unterschiede in Schriftart (z.B. Antiqua-Schrift oder serifenlose Schrift) und Schriftgröße mit zu erfassen.
Finereader Professional: Druckvorlagen in lateinischer und kyrillischer Schrift, für Tabellen und Formulare geeignet.
OmniPage Professional und TextBridge Pro: gute Druckvorlage, neuerer Druck, lateinische Schrift. Programme erkennen Unterschiede in Schriftart und Schriftgröße.
ScanWorX: Texte in vorwiegend lateinischer Schrift auch in schlechterer Druckqualität, mit zusätzlichen Sonderzeichen oder Teilen in nicht-lateinischer Schrift. Programm erkennt Unterschiede in Schriftart und Schriftgröße.

Die Ausstattung der Texterkennungssysteme

OPTOPUS Texterkennungssystem

Das OPTOPUS Texterkennungssystem des ZDV besteht aus folgenden Komponenten:

IBM-kompatibler PC 386/25 unter dem Betriebssystem Concurrent DOS, mit NS32032 Koprozessor-Board und OCRAL-Baustein zur Zeichenerkennung
Scanner Siemens HighScan 40 (400 dpi)
Texterkennungs-Software OPTOPUS 2.5 und 3.0 von Makrolog

OPTOPUS arbeitet für die Zeichenerkennung mit dem Vergleich von vorgefundenen und trainierten Zeichen-Formen (pattern matching). Dies hat den Nachteil, daß vor jeden Lesevorgang eine Trainingsphase vorgeschaltet werden muß (falls nicht mit einem früheren Trainigsset am gleichen Dokument weitergearbeitet werden soll).

Die spezielle Stärke dieses Verfahrens ist die freie Trainierbarkeit auch für nicht-lateinische Alphabete sowie die Möglichkeit der Unterscheidung unterschiedlicher Schriftgrößen und -arten. Bei OPTOPUS wird die Information über Font-Wechsel und Schriftgrößen-Wechsel mit in der Textdatei abgelegt.

Der Einsatzschwerpunkt von OPTOPUS ist am ZDV daher das Einlesen von Texten in Nicht-Standard-Schriften (Fraktur; nicht-lateinische Alphabete).

Finereader Professional

Das Finereader Texterkennungssystem des ZDV besteht aus folgenden Komponenten:

Pentium PC unter Windows NT
Scanner HP ScanJet 6100C Farb-Scanner (600 dpi, ca. 5 Sek. pro A4-Seite) mit automatischem Einzelblatt-Einzug
Texterkennungs-Software Finereader Professional 3.0 von BIT Software

Finereader erkennt Zeichen durch 'Fontänenumformung' (Zeichen wird in einzelne Punkte zerlegt und deren Lage zueinander analysiert). Lateinische und kyrillische Schriften können standardmäßig gelesen werden; trainieren von anderen nicht-lateinischen Alphabeten ist möglich.

OmniPage Professional

Das OmniPage Texterkennungssystem des ZDV besteht aus folgenden Komponenten:

Dieselbe Hardware wie Finereader
Texterkennungs-Software OmniPage Professional 8.0 von Caere

OmniPage arbeitet für die Zeichenerkennung nicht mit dem Vergleich von vorgefundenen und trainierten Zeichen-Formen (pattern matching), sondern mit der Analyse von Eigenschaften der vorgefundenen Zeichen (feature recognition). Dies hat den Vorteil, daß auf eine Trainingsphase verzichtet werden kann. Dadurch ist die Bedienung des Systems recht einfach. Trainieren einzelner Zeichen ist aber möglich.

TextBridge Pro 98

Das TextBridge Texterkennungssystem des ZDV besteht aus folgenden Komponenten:

Dieselbe Hardware wie Finereader
Texterkennungs-Software TextBridge Pro 98 von Xerox Imaging Systems

TextBridge kann (wie OmniPage) ohne Training durch den Benutzer arbeiten. Eingeschränktes Trainieren einzelner Zeichen und Wörter ist möglich.

ScanWorX

Das ScanWorX Texterkennungssystem des ZDV besteht aus folgenden Komponenten:

Workstation HP 715/33 unter dem Betriebssystem HP-UX
Fuijtsu Hochgeschwindigkeits-Scanner M3096G (200-400 dpi, 256 Graustufen, 2,3 Sek. für eine A4-Seite bei 200 dpi bzw. 6,7 Sek. für A3 bei 400 dpi) mit automatischem Einzelblatt-Einzug
Texterkennungs-Software ScanWorX von Kurzweil / Xerox Imaging Systems.

ScanWorX kann (wie Finereader, OmniPage oder TextBridge) ohne Training durch den Benutzer arbeiten, bietet aber gleichzeitig die Möglichkeit, nicht automatisch erkannte Zeichen oder Schriften beim ersten Vorkommen zu trainieren; diese Zeichen werden dann bei erneutem Vorkommen ebenfalls automatisch erkannt.

ScanWorX verbindet somit die Vorteile der vollautomatischen Texterkennung (die auch von Finereader, OmniPage oder TextBridge geboten wird) mit den Vorteilen der freien Trainierbarkeit, die für nicht-lateinische Schriften erforderlich ist und seinerzeit für die Beschaffung von OPTOPUS den Ausschlag gegeben hatte.

Erste Erfahrungen zeigen, daß die Erkennungsqualität vor allem bei nicht optimalen Vorlagen deutlich besser ist als bei den übrigen Systemen.

Der schnelle Scanner läßt außerdem einen deutlich höheren Durchsatz erwarten als die zuvor beschriebenen Systeme.

Scannen von Grafiken, Bildern etc.

Das Einscannen von Bildern ist auf den Scannern möglich, die an den oben unter FineReader Professional bzw. unter ScanWorX aufgeführten Texterkennungssystemen angeschlossen sind.

Auf dem "Scanner-PC", auf dem Finereader Professional installiert ist, steht unter WINDOWS folgende Software zur Verfügung:

DeskScan II (Version 2.5) von HP: erlaubt u.a. Vergrößern und Verkleinern, Spiegeln, Kombinieren von Bildern, aber auch Verbessern der Bildschärfe, Anpassen der Grauwerte, Ändern der Farben
PaintShopPro (Version 4.12D): Konvertieren von verschiedenen Grafikformaten in andere; Farbpalette anpassen; Editierfunktionen (z.B. Kopieren, Ausschneiden)
Adobe PhotoShop 4.0: mächtiges Bildbearbeitungsprogramm mit Filterfunktionen, Ebenentechnik usw.

Dia- und Filmstreifen-Scanner

Der Super Coolscan LS2000 von Nikon ist am "Scanner-PC" (PC, auf dem auch FineReader Professional läuft) angeschlossen.

Die technischen Daten zum Dia-Scanner:

optische Auflösung: 2700 dpi
Farbtiefe: 3x12 Bit
modulare Adapter erlauben "on-the-fly"-Wechsel (ohne Ausschalten des Scanners) von 35mm Dias zu Filmstreifen
Diazufuhreinheit SF-200 ermöglicht Scannen von bis zu 50 Dias im Stapelbetrieb.

Die zugehörige Software Silverfast und NikonScan kann zum direkten Einscannen von Bildern in Host Applikationen wie z.B. Adobe Photoshop oder als Einzelanwendung zum Scannen und Abspeichern benützt werden.

Ansprechpartner im ZDV: Harald Fuchs, Zi. 214 (Wilhelmstraße 106), Tel. 07071/29-70345.

fuchs@zdv.uni-tuebingen.de - Stand: März 1999