Kapitel 6

Codierungen mit Konturen

6.4 Zusammenfassung und Ausblick

Für Kontur- und Kontur/Textur-Repräsentationen wurde untersucht, inwieweit sich mit einfachen Codierungsmaßnahmen brauchbare Verfahren zur datenreduzierenden Sprachcodierung aufstellen lassen. Kombinationen von Analyse- und Rekonstruktionsverfahren der vorigen Kapiteln verarbeiten die Repräsentationen in einer Auflösung, die feiner als nötig ist. In solche Analyse/Synthese-Kombinationen sollte eine `eigentliche' Codierung mit einer passenden Decodierung eingefügt werden, um akzeptable Kompromisse bei Datenrate und Verarbeitungsqualität zu erzielen. Konturlinien und Texturhüllflächen wurden dabei grundsätzlich mit Hilfe von Stützstellen codiert. Die erforderlichen Quantisierungs- und Approximationsvorgänge standen im Mittelpunkt, Ansätze zur optimalen Codewahl blieben unberücksichtigt.

Die bekannten Verfälschungen der Analyse- und Rekonstruktionsverfahren beschränken die Qualität einer Codierung von vornherein mehr oder weniger deutlich. Zur Orientierung sollten zunächst diejenigen Datenraten erkundet werden, bei denen sich die wahrnehmbare Verarbeitungsqualität nicht noch zusätzlich verschlechtert. Dafür wurde ein einfaches Codierungsschema zugrunde gelegt, das die Stützstellenparameter Zeit, Tonheit, Pegel und gegebenenfalls Phase gleichförmig quantisiert. Im Selbstversuch wurde dann die gröbstmögliche, sogenannte kritische Quantisierung für Sprache ermittelt. Da hier die zu codierende Stützstellenanzahl für Konturen noch zeitabhängig ist, erlaubt erst eine Statistik die Berechnung der effektiven Datenraten.

Die erzielten Raten reichen, je nach Analyse/Synthese-Kombination, von 100 bis 300 kbit/s, womit gegenüber dem codierten PCM-Signal von rund 150 kbit/s nichts gewonnen wurde. Verbesserte redundanzarme Codierungsschemata, bei denen eventuell noch verbliebene Irrelevanz entfernt wird, bleiben ein weites Experimentierfeld für die Zukunft. Immerhin erzielten die Kombinationen mit Textur niedrigste Werte bei recht guter Qualität. Folglich erleichtert das Kontur/Textur-Konzept die Datenreduktion. Ein bemerkenswertes Nebenergebnis dieser Untersuchungen besagt schließlich, daß eine Codierung von Konturphasen die Gesamtdatenrate nicht besonders zu erhöhen braucht. Die Stützfrequenzen von Frequenzkonturen und die Stützzeiten von Zeitkonturen können dann nämlich gröber quantisiert werden. Ein besonderer Vorteil der codierten Phasen liegt darin, daß Störungen durch suboptimale Phasenrekonstruktion von vornherein vermieden werden können. Damit liegt das praktisch erzielbare Qualitätsniveau höher.

Nach dieser Orientierung sollte, mit weiterhin einfachen Codierungsmaßnahmen, wirkliche Datenreduktion erreicht werden. Dies geschah in der Hoffnung, daß sich die nun unvermeidlichen Qualitätseinbrüche nicht als unakzeptabel erweisen würden. Dazu wurden die Quantisierung weiter vergröbert und zusätzlich Stützstellen eingespart. Eine geeignete Approximation im Decoder gewinnt hierbei an Bedeutung. Die im weiteren zugrunde gelegte Analyse/Synthese-Kombination (KTXOZ/RKHPTX) verarbeitet eine Kontur/Textur-Repräsenation ohne explizite Zeitkonturen. Diese blieben ausgeklammert, da sie bei niedrigen Datenraten nicht mehr wahrnehmungsgerecht ausgewählt werden können. Die Analyse wurde so modifiziert, daß die bei Codierung zurückgewiesenen Frequenzkontur-Stützstellen keine spektral/zeitlichen `Löcher' hinterlassen, sondern der Textur zugeschlagen werden. Auf dieser Grundlage wurden zwei Verfahren eingeführt:

Datenreduktionsverfahren MUM-30k und MUM-4k4:
Das erste Verfahren übertrifft das nichtreduzierende Heinbachsche TTZM-Verfahren bei Sprache noch in der Qualität und benötigt mit 30 kbit/s höchstens ein Drittel der Datenrate. Das zweite übertrifft bei 4,4 kbit/s das reduzierende TTZM-Verfahren mit gleicher Rate, weil weniger störende Artefakte auftreten. Verglichen mit etablierten Verfahren markieren beide Verfahren, nach Einschätzung des Autors, einen Qualitätsbereich, in dessen Mitte ungefähr der US-Federal-Standard 1016 CELP mit 4,8 kbit/s einzuordnen wäre. Der Bereich liegt allerdings noch etwas unterhalb vom GSM-Full-Rate-Standard für Mobilkommunikation mit 13 kbit/s. Immerhin wird eine höhere Robustheit als beim US-Federal-Standard 1015 LPC-10e mit 2,4 kbit/s erreicht. Beide Codierungen enthalten sicherlich noch Redundanz, so daß zukünftige Optimierungen den aufgespannten Ratenbereich nach unten drücken könnten.

Zur Qualitätssteigerung bei niedrigen Datenraten muß künftig die Auswahl der Frequenzkontur-Stützstellen verbessert werden. Weil nur wenige von ihnen codiert werden können, heben sich Fehlentscheidungen deutlicher heraus. Zwar kann man über die Konturlinienlänge als Prägnanzmaß grob zwischen tonalem und nichttonalem Beitrag unterscheiden. Man kann aber damit nicht mehr differenziert Linien oder Liniensegmente in ihrer Wahrnehmbarkeit gegeneinander abwägen. Nach dieser unsicheren Vorauswahl müssen dann noch pegelschwächere Stützstellen entfernt werden, um die Stützstellenrate zu beschränken. Dadurch erhöht sich die Wahrscheinlichkeit von Fehlentscheidungen nochmals. Für niedrige Raten ist es deshalb vorläufig besser, nicht mehr die Linienlänge, sondern allein den Stützstellenpegel als Prägnanzmaß heranzuziehen. Für ein differenziertes Prägnanzmaß wäre in Zukunft ein Modell der dynamischen Spektraltonhöhenwahrnehmung sehr willkommen. Vielleicht läßt sich auch das erwähnte, ähnlich gelagerte Problem der Datenreduktion von Zeitkonturen durch ein entsprechendes, psychoakustisch fundiertes Modell lösen.


$Id: kod9.html,v 1.1 1998/03/15 06:44:00 mummert Exp mummert $