Kapitel 3

Konturierung im zeitvarianten FTT-Pegelspektrum

3.5 Zusammenfassung 

Das Konturierungskonzept des Heinbachschen TTZM-Verfahrens wurde in diesem Kapitel erweitert. Außerdem wurden Eigenschaften der Spektraltransformation modifiziert, die eng mit einer gehörorientierten Konturierung zusammenspielen. Probleme einer Signalrekonstruktion aus Konturen standen dabei im Hintergrund, Codierung blieb unberücksichtigt. Die Ergebnisse führen auf verbesserte und erweiterte Audiorepräsentationen mit Konturen, die sich auf das Terhardtsche Modell der auditiven Informationsverarbeitung stützten. Ihr Gewinnungsprozeß wird als Konturanalyse bezeichnet. Das erweiterte Konzept kennt nunmehr zwei Konturtypen:

Frequenzkonturen:
Für eine Repräsentation nach Art des Teiltonzeitmusters wird die Bezeichnung Frequenzkonturen verwendet. Im Gegensatz zum Heinbachschen Teiltonbegriff unterstreicht man damit, daß Quellsinusschwingung, zeitvariantes Spektralmaximum der FTT, Synthesesinusschwingung und Modellierung einer wahrgenommenen Spektraltonhöhe unbedingt auseinanderzuhalten sind. Die neue Bezeichnung drückt auch die Symmetrie zum neuen, zweiten Konturtyp aus.
Zeitkonturen:
Hiermit werden Beiträge von transienten Anteilen im FTT-Pegelspektrum erfaßt, was mit Frequenzkonturen nicht möglich ist. Während die von Heinbach übernommene Frequenzkonturierung das zeitvariante FTT-Pegelspektrum in Schnitten parallel zur Frequenzachse nach Pegelmaxima absucht, geschieht dies bei Zeitkonturierung in Schnitten parallel zur Zeitachse. Um einen verzögerungsarmen Entscheidungsprozeß zu erhalten, wird die Ausgeprägtheit der Maxima nicht mit Hilfe der benachbarten Minima, sondern über die vorangegangene Steilheit des Pegelanstiegs bewertet.

Es wurde ausführlich untersucht, wann und wie sich Zeitkonturen ausprägen. Bei Sprachsignalen stellen sie beispielsweise Glottisimpulse und Anteile von Plosiven dar. In der bildlichen Konturdarstellung erleichtern sie die Interpretation des Sprachsignals. Separate Rekonstruktion von Zeitkonturen zeigt später, daß sie vor allem die impulshaft empfundenen Signalanteile repräsentieren.

Um die Eigenschaften der Spektraltransformation im Zusammenspiel mit der Konturierung zu verbessern, ist die FTT-Fensterfunktion der wesentliche Eingriffspunkt. Sie kann als Impulsantwort eines normierten Tiefpasses spezifiziert werden. Mit den logarithmierten Beträgen seiner Systemfunktion, seiner Impulsantwort sowie dem Gruppenlaufzeitverlauf kann man wichtige Eigenschaften beschreiben. Die ersten beiden Maße werden hier spektrale beziehungsweise zeitliche Selektion genannt. Folgendes wurde erkannt:

Zur Konturierung geeignete Fensterfunktionen:
Konturierung im Einklang mit dem Terhardtschen Modell stellt bestimmte Anforderungen an die Fensterfunktion. Die spektrale Selektion und möglichst auch die zeitliche Selektion dürfen keine Nebenmaxima aufweisen. Außerdem sollte das Laufzeitniveau nicht zu hoch sein. Geeignete reelle Fensterfunktionen charakterisieren die Familie nP1 der Tiefpässe mit einem n-fachen Pol. Im Gegensatz zu n=1 bei Heinbach sollte der Fensterfunktionsgrad n größer, aber auch nicht zu groß gewählt werden. Dabei ist ein Laufzeitausgleich sinnvoll, der die maximalen Fensteröffnungen von hohen an die von tiefen Analysefrequenzen angleicht.
Zusammenspiel Fensterfunktionsgrad/Konturierung/Glättung:
Ein höheres n ermöglicht zunehmend bessere Trennung von quasistationären und transienten Beiträgen im FTT-Spektrum. Ihre getrennte Repräsentation durch Frequenz- und Zeitkonturen funktioniert somit ebenfalls immer besser. Aus diesen Gründen erweist sich Zeitkonturierung erst ab n > 2 sinnvoll. Die von Heinbach eingeführte und bei n=1 unbedingt nötige zeitliche Glättung ist nun entbehrlich, ja sogar schädlich. Sie eignet sich nicht, die aus der Psychoakustik bekannte Wahrnehmungsgrenze der Rauhigkeit zu modellieren.

Fensterfunktion und Analysebandbreite wie auch weitere, weniger kritische Transformations- und Konturierungsparameter wurden anschließend mittels Signalrekonstruktion optimiert. Dabei wurden später noch zu beschreibende Rekonstruktionsverfahren verwendet. Mit einer Reihe von Sprachsignalen sollten die Parameter im Selbstversuch auf möglichst gute Verarbeitungsqualität justiert werden. Dieses sind die wesentlichen Ergebnisse:

Abhängigkeit von der Signalrekonstruktion:
Abhängig von den Fähigkeiten eines Verfahrens zur Signalrekonstruktion werden Parameter verschieden eingestellt. Bei suboptimaler Rekonstruktion beeinflussen sie nämlich auch die Charakteristik der rekonstruktionsbedingten Verfälschungen. Hinter einer gefundenen Einstellung verbirgt sich ein subjektiver Kompromiß, bei dem Verfälschungen der drei Teilkonzepte Spektraltransformation, Konturierungskonzept und Rekonstruktion gegeneinander abgewogen worden sind. Nur eine optimale Rekonstruktion erlaubt es, die Optimalität einer Parametereinstellung neutral zu beurteilen.
Vollständigkeit der Konturrepräsentation:
Eine nahezu perfekte Qualität bei optimaler Rekonstruktion kann man nur mit Zeit- und Frequenzkonturen erreichen. Die zuvor beim TTZM-Verfahren erkannten Probleme der Unterrepräsentation transienter Anteile und der Tonalisierung von Rauschanteilen sind also prinzipiell durch Hinzufügen von Zeitkonturen zu beheben. Erst beide Konturtypen zusammen ergeben eine Audiorepräsentation, die die wahrnehmungsrelevante Information vollständig erfassen kann.
Optimale Transformationsparameter:
Gegenüber Heinbach wird der Grad der Fensterfunktionen auf n=4 erhöht. Die bessere spektrale Selektivität ermöglicht größere Analysebandbreiten, ohne daß eine überhöhte Simultanverdeckung zu befürchten ist. Unterstützt durch den Laufzeitausgleich verbessert sich so das Zeitverhalten, insbesondere verringert sich die Glättung der Schmalbandhüllkurve. Statt einer 3dB-Analysebandbreite von 0,1 Bark bei Heinbach sind für eine optimale, gehörnahe Parametereinstellung mindestens 0,5 Bark erforderlich. Steht aber nur eine suboptimale Rekonstruktion zur Verfügung oder soll sogar auf Zeitkonturverarbeitung verzichtet werden, dann liegt der Kompromiß für die Verfälschungen der drei Teilkonzepte eher bei 0,3 Bark.

Zusammen mit ebenfalls eingestellten Konturierungsparametern wurden eine verbesserte und zwei erweiterte Repräsentationsformen für Audiosignale spezifiziert. Im Rahmen reiner Frequenzkontur-Repräsentation verbessern die neuen Transformationsparameter die Verarbeitungsqualität des TTZM-Verfahrens erheblich (M-TTZM). Erweiterte Repräsentation mit Zeit- und Frequenzkonturen existiert in zwei Varianten. Mit der einen (ZFKI) ist nahezu perfekte Verarbeitungsqualität möglich, wenn man optimale Rekonstruktion sicherstellen kann. Die andere Variante (ZFKII) ist an suboptimale Rekonstruktion angepaßt. Die Schwächen suboptimaler Rekonstruktion bedingen leider, daß Zeitkonturen die Verarbeitungsqualität von Sprache nur wenig steigern können.

Bild 3.9: Zeit- und Frequenzkonturen für die neuen Parametereinstellungen ZFKI, ZFKII (oben) sowieTeiltonzeitmuster alias Frequenzkonturen für frühere Einstellungen HB-TTZM (unten links, nach Heinbach 1988) und SM-TTZM (unten rechts, nach Schlang/Mummert 1990) am Beispiel eines Sprachausschnittes (`... bei jeder Wasch...'). Die nicht abgebildete neue Einstellung M-TTZM stimmt mit den Frequenzkonturen in ZFKII überein und ist optisch von SM-TTZM kaum zu unterschieden.


$Id: kon9.html,v 1.2 1998/03/15 08:37:40 mummert Exp mummert $