Über das Projekt
Die Steuerung
Als Forschungsobjekt diente der Kaffeevollautomat "Combination S" der Firma WMF, der im Rahmen des Projekts als eigentliche Produktionskomponente in das System integriert wurde. Den Kern des Gesamtsystems bildet ein Steuerungsmodul, das mit Hilfe einer MySQL-Datenbank für die vollständige Kontrolle zuständig ist, d.h. die einzelnen Komponenten ansteuert und die Herstellung der Kaffeespezialitäten überwacht. Dabei initiiert dieses Modul die Vorgänge der Mustererkennung möglicher Benutzer und des Begrüßungsdialogs.
Zusätzlich werden die eingehenden Bestellungen bei ihrer Verarbeitung auf ihre Gültigkeit und Machbarkeit geprüft, um bei Problemen ein dynamisches Feedback an den Nutzer zu ermöglichen.
Des Weiteren speichert diese Steuerung nutzerspezifische Daten, Art und Menge der Bestellungen, persönliche Favoriten, die für spätere Verarbeitung, wie die Abrechnung der Bestellungen, von Relevanz sind.
Die Sprachkomponente
Als Schnittstelle zwischen Mensch und Maschine fungieren der Spracherkenner und die Synthesekomponente:
Die Erkennung natürlicher, kontinuierlicher Sprache wird dabei mit einer auf die Kaffee-Domäne zugeschnittenen und optimierten Grammatik für NUANCE (Spracherkennung basierend auf Hidden Markov Modellen, HMMs) realisiert, wodurch gleichzeitig hohe Robustheit und Sprecherunabhängigkeit gewährleistet werden. Für die Auswertung der Ergebnisse wurde eine Client-Anwendung in Java entwickelt, die die Grammatik einbindet und die dialogrelevanten, interpretierten Elemente unter Einbeziehung von Wahrscheinlichkeiten und semantischen Interpretationen im XML-Format an die Steuerung übermittelt.
Die Synthesekomponente dient als Gegenstück zur Generierung und Ausgabe von natürlichsprachlichen Texten, durch die mit dem Benutzer kommuniziert und dieser über den Systemzustand informiert wird. Empfangene Statusmeldungen der Steuerung werden dabei unter Berücksichtigung der Auftrittshäufigkeit durch wechselnde Sätze aus einem Pool passender Ausgaben ausgewählt. Zur Synthese wird das Text-to-Speech-System (TTS) Mary eingesetzt. Auf die Intonationen und den (natürlichen) Klang der Sprachausgabe wird mit Symbolen des Notationssystems zur Transkription deutscher Intonation (GToBI) Einfluss genommen.
Die Benutzererkennung
Die Gesichtserkennung innerhalb des Espresso-Systems hat die Aufgabe, Benutzer, die in den Erfassungsbereich der Kaffeemaschine treten, zu erkennen und nach Möglichkeit zu identifizieren. Um die Robustheit des Systems zu verbessern, wurde ein mehrstufiger Erkennungsprozess implementiert, bei dem zunächst das Bild erfasst und vorverarbeitet wird.
Als erste Erkennungsaufgabe wird dabei das Gesicht detektiert. Um Variationen in der Kopfpositionierung zu kompensieren, wird versucht über die Position der Augen die Orientierung des Kopfes zu erkennen und auszugleichen. Der Ausschnitt des Gesichts wird anschließend auf eine einheitliche Größe normiert.
Das vorverarbeitete Bild wird nun unter Verwendung verschiedener Algorithmen, wie Hidden-Markov-Modelle (HMM) und Eigenfaces, analysiert und dann ein Identifikationsversuch durchgeführt, indem das Bild gegen eine Referenzmenge abgeglichen wird.
Als weitere Identifikationsvariante nutzt das Espresso-System einen Chipkartenleser der Firma Miditec, um eine gesicherte Feststellung des Benutzers zu gewährleisten. Dies ermöglicht dem System mit Hilfe der MySQL-Datenbank eine fehlerfreie Abrechnung der georderten Bestellungen.
Projektteilnehmer:
Am Projekt ESPRESSO sind 31 Studierende und 5 Betreuer beteiligt.
Autoren:
Nannan Li &
Xinxin Li
Zuletzt geändert: 03.06.2005