Kapitel 4

Repräsentation mittels Kontur/Textur

4.7 Zusammenfassung

Eine sogenannte Kontur/Textur-Repräsentation wurde eingeführt, die auf den zuvor ermittelten Zeit- und Frequenzkonturen aufbaut. Da sie nichttonale Anteile separat repräsentieren kann, schafft sie bessere Voraussetzungen für eine Datenreduktion. Darüberhinaus ermöglicht sie die vom Aufwand her günstige Alternative, auf explizite Zeitkonturverarbeitung zu verzichten, ohne die entsprechenden Signalanteile ganz zu vernachlässigen. Schließlich fußt sie auf einem ausbaufähigen Konzept, welches einen fortgeschrittenen Entscheidungsprozeß im Terhardtschen Modell der Informationsaufnahme konkretisiert. Darin unterstreicht der aus der visuellen Verarbeitung übernommene Texturbegriff die von Terhardt geforderte Gleichstellung auditiver und visueller Verarbeitungsprinzipien:

Kontur/Textur-Konzept:
Für Zeit- und Frequenzkonturen wird jeweils ein Prägnanzkriterium auf Basis eines Prägnanzmaßes eingeführt. Das Prägnanzmaß sollte möglichst gut beschreiben, ob sich ein Konturverlauf in der Wahrnehmung als Einzelobjekt heraushebt. Ein Schwellwert entscheidet zwischen prägnanten und nichtprägnanten Konturen. Die Gesamtheit letzterer wird als Textur bezeichnet und pauschal mit Hilfe einer groben spektral/zeitlichen Hüllfläche repräsentiert. Daraus läßt sich jederzeit eine gleichwertige Textur zurückgewinnen. Insbesondere läßt sich der zugehörige Signalanteil mittels zeitvarianter Filterung von Rauschen darstellen. Weil Konturen schlimmstenfalls durch die Texturhüllfläche erfaßt werden, herrscht eine Art Differentialprinzip. Unabhängig von der Wahl der Prägnanzkriterien bleibt demnach vom zeitvarianten Quellspektrum immer die grobe spektral/zeitliche Hüllfläche erhalten. Je nach Güte der Prägnanzmaße und Wahl der Schwellwerte korrelieren prägnante Frequenzkonturen, prägnante Zeitkonturen und Textur mit den tonal, impulshaft beziehungsweise rauschhaft wahrgenommenen Anteilen des Quellsignals.

Als behelfsmäßige Prägnanzmaße werden die Längen der Konturlinien herangezogen. Wenn Konturen über den Parametersatz ZFKII aus Kapitel 3 bestimmt wurden, stehen Frequenzkonturlinien, die länger als 25 ms dauern, für tonale Anteile. Zeitkonturlinien, die länger als 1 Bark sind, geben dann impulshafte Anteile wieder. Bei Sprachsignalen funktioniert diese Heuristik sehr gut. Fehlentscheidungen rühren vor allem daher, daß kürzere Frequenzkonturlinien von tonalen Modulationen nicht als zusammengehörig erkannt werden. Das Kontur/Textur-Konzept könnte in Zukunft wesentlich kompliziertere Prägnanzkriterien beherbergen. Dann könnten beispielsweise die prägnanten Frequenzkonturen die zeitvarianten Spektraltonhöhen des Signals modellieren.

Das Verfahren zur Gewinnung der Kontur/Textur-Repräsentation faßt die nichtprägnanten Konturen indirekt zur Texturhüllfläche zusammen. Dadurch werden nur die prägnanten Konturen benötigt, deren spektral/zeitliche Energiebeiträge aus dem ursprünglichen FTT-Spektrum entfernt werden. Das spektral und zeitlich geglättete Residualspektrum entspricht der gewünschten Texturhüllfläche. Durch dieses indirekte Vorgehen ergibt sich neben der allgemeinen Kontur/Textur-Repräsentation (KTX) eine Variante, die weniger aufwendig und zur Datenreduktion leichter zu handhaben ist. Bei der Kontur/Textur-Repräsentation ohne Zeitkonturen (KTXOZ) verzichtet man nämlich auf Zeitkonturierung, wodurch die zugehörigen Signalanteile im Sinne des Differentialprinzips automatisch der Textur zufallen. KTXOZ stellt gleichzeitig eine vereinfachte Methode zur tonal/geräuschhaft-Trennung dar, in der nicht extra zwischen rausch- und impulshaft unterschieden wird.

Die Parameter der beiden Varianten wurden im Selbstversuch eingestellt. Ziel der Einstellung war es, die mit dem Rekonstruktionsverfahren RKHPTX (Kapitel 5) erreichbare Qualität bei Sprachsignalrepräsentation zu optimieren. Sie unterscheidet sich bei beiden Varianten nur wenig, was an der unvollkommenen Prägnanzentscheidung wie auch an den Beschränkungen von RKHPTX liegt. Weil bei KTOXZ die Zeitkonturen behelfsmäßig über die Textur berücksichtigt sind, ist das Ergebnis bei Sprachsignalen besser als bei reiner Frequenzkonturverarbeitung (M-TTZM/TTSD) und entspricht etwa der Qualität einer Zeit/Frequenzkontur-Repräsentation mit suboptimaler Rekonstruktion (ZFKII/RKHP).


$Id: tex9.html,v 1.1 1998/03/15 06:44:00 mummert Exp mummert $