Success Story 2011

Automatische Texterkennung in komplexen Szenen

Die automatisierte Erfassung und Auslesen von Identifikationscodes an Eisenbahnwaggonen ermöglicht die automatisierte Erfassung und Verfolgung der Waggonen an verschiedenen geografischen Standorten und somit trägt das System erheblich zur Erleichterung des Zugverkehrs-Management bei. Innerhalb des ECV-K-Projekts wurde mit dem Industriepartner Siemens CEE einen automatisierten Texterkennung-Prototyp entwickelt. Das entwickelte Framework wurde auf umfangreiche Datensätze getestet und die erhaltenen Ergebnisse deuten darauf hin, dass die geforderten Kriterien bezüglich Erkennungsleistung gut erfüllt werden.

Besondere Herausforderung
Text-Erkennung ist eine spezifische Aufgabe im Bereich der visuellen Objekterkennung. Diese Aufgabe stellt die gleichen Herausforderungen wie generische Erkennung- und Segmentierungsaufgaben. Hochauflösende Bilder können eine unterschiedliche Anzahl von Text-Regionen auf mehreren Skalen enthalten. Die Textregionen weisen ein sehr variables Erscheinungsbild (Schriftart, Kontrast) auf und sie befinden sich typischerweise in stark strukturierten Bildumgebungen (Clutter). Muster mit hoher Bildfrequenz, Gitter, Texturen zeigen meist ähnliche statistische Eigenschaften (lokale Form und Bildfrequenz) wie Text, und daher erreicht statistische Mustererkennung an einem bestimmten Punkt ihre Grenzen, wo Text von anderen Mustern nicht mehr unterscheidet werden kann. Um diese Grenzen zu erweitern verbindet die entwickelte Text-Detektionsschema statistische Analyse und lokale Strukturanalyse, um in Kombination einen hohen Maß an Text-Spezifität unter Beibehaltung der Invarianz zu erreichen.

Innovative Lösungen
Die entwickelte Lösung erzielt eine hohe Erkennungsrate (> 95%) wobei Text auch bei schwacher Definition aufgrund Sichtbarkeit, Schmutz, Rost oder schwacher Bildkontrast detektiert wird. Die Erkennungsrate ist eine charakteristische Eigenschaft von Bildanalyse-Systemen die die visuelle Erfassung bestimmter Objekte erzielen. Aufgrund dieser Eigenschaft ist eine hohe Erkennungsrate ist viel schwieriger zu erreichen als eine niedrige Fehlalarm-Rate. Deshalb wurde die folgende Verarbeitungsstrategie in allen algorithmischen Konzepten verwendet: meiste Algorithmen beruhen auf nicht-parametrische Berechnungen oder weisen eine schwache parametrische Abhängigkeit auf. Diese Detektionsmodus ist gleichwertig mit einer Erfassung sehr hoher Empfindlichkeit. Die große Menge  der  Zwischenergebnissen ist mit hohem Grad an Mehrdeutigkeit verbunden, und diese Mehrdeutigkeit ist in späteren Verarbeitungsphasen (z. B. Klassifikation oder region-basierte Strukturanalyse) aufgelöst, wo bereits spezifische Informationen (geschätzte räumliche Ausmaß, Kontrast der Merkmale) zur Verfügung steht. Dieser Informationsverarbeitungs-Strategie entsprechend wird eine großen Menge von mehrdeutigen Low-und Mid-Level-Merkmalen und Gruppierungen (Segmente) analysiert um weniger mehrdeutige Bildobjekte in Form von Textregionen zu erzeugen. Die entwickelte Texterkennung-Methode mit zunehmender Komplexität über die gesamten Prozesskette ermöglicht eine genaue und recheneffiziente  Analyse von hochauflösenden Bildern.

 

Die Zusammenarbeit zwischen der Innovation-Treiber Siemens CEE und der Bildanalyse-Experte AIT war eine ausgewogene, in hohem Maße komplementäre Zusammenarbeit. Siemens lieferte die Bildaufnahme Know-how, detaillierte Anforderungen und eine eigenentwickelte Evaluierungsrahmen die Anforderungen beinhaltete. Während der gesamten algorithmischen Kette, außer Text-Lokalisierung Siemens intern entwickelt wurde, haben die AIT-Experten die text-spezifische Analysekette für Text-Lokalisierung entwickelt. Anhand regelmäßigen Feedbacks von Siemens wurde das System kontinuierlich in Richtung optimaler Leistung verbessert. Die langjährige Partnerschaft und die enge und erfolgreiche Zusammenarbeit und Forschungstätigkeit werden sehr wahrscheinlich auch  weitere zukünftige innovative Lösungen ermöglichen.