Software Mummert-Dissertation (SWMUMDIS)

(This page in English)

Mit diesem Programmsystem werden Verfahren zur gehörorientierten Zeit-Frequenz-Repräsentation von Audiosignalen bereitgestellt, die in der Dissertation Mummert [Mum] beschrieben sind. Das Heinbachsche Teiltonzeitmuster(TTZM)-Verfahren [Hei] mit seinen Varianten und die Spektrogramm-Resynthese nach Horn [Hor] sind ebenfalls durchfürbar. Alle diese Verfahren basieren auf der Fourier-t-Transformation (FTT) nach Terhardt [Ter]. Außerdem enthalten sind Funktionen zur Erzeugung und Verarbeitung von Zeitsignalen sowie zur Weiterverarbeitung der verfahrensspezifischen Zeit-Frequenz-Repräsentationen. Das Programmsystem ist kostenlos benutzbar und frei kopierbar (näheres siehe Lizenzmuster).

Das Programmsystem besteht aus einer Reihe von universellen C-Programmen und Shell-Skripten, die über festgelegte Dateiformate Daten weitergeben und meist nur einzelne Verfahrensschritte realisieren. Eine einfache Handhabung der vollständigen Verfahren gewährleisten Steuerungsskripten (Front-Ends), die die in der Dissertation Mummert verwendeten Kürzel als Namen tragen und automatisch alle notwendigen Schritte ausführen. Es sind praktisch nur der Signalname und der Modus Analyse, Visualisierung oder Signalrekonstruktion anzugeben. Dagegen ist die direkte Benutzung einzelner Programme mitunter recht kompliziert, da eine Vielzahl von Parametern anzugeben sind. Es sei gewarnt, daß hierzu bis auf stichwortartige Parameterbeschreibungen kaum Dokumentation vorliegt. (In der README-Datei, die jedem einzelnen Programm beigepackt ist, sind manchmal spezifische Hinweise enthalten. Ansonsten beschränkt sich die Dokumentation auf das nachfolgend Angebotene.)

Die Installation ist auf Linux/Unix-Systemen möglich, über das Ausmaß der Installierbarkeit auf anderen Systemen gibt es keine Erfahrung (siehe auch unterstützte Betriebssysteme). Alle Bedienkonzepte sind textorientiert, es existieren keine Graphic-User-Interfaces. Zur Visualisierung wird auf externe Bildbetrachter zurückgegriffen. Das verarbeitete Audiosignalformat ist "raw". Das erzeugte Grafikformat ist "pbm" oder "pgm".


Lizenzmuster

Der folgende Text ist ein Muster für den Lizenztext, der jedem einzelnen Programm des Programmsystems beiliegt. Einige Programme enthalten eine verfeinfachte Lizenzbedingung 6, die die Verbreitung von Objektcode ohne jegliche Einschränkung zuläßt.

LIZENZ    (Deutsche Übersetzung - im Zweifel gilt die englische Version)

für das Software-Paket mit Namen

    <package-name>

bestehend aus den Dateien mit Namen

    <file-list>

  1. Sie dürfen diese Software kostenlos kopieren und benutzen.
  2. Sie dürfen unmodifizierte Kopien dieser Software verbreiten.
  3. Sie dürfen KEINE modifizierte Kopien dieser Software verbreiten, ES SEI DENN, sie beachten die Lizenzbedingungen 5-6 und markieren die Modifikation deutlich.
  4. Sie dürfen Code dieser Software NICHT in andere Software einfuegen, ES SEI DENN, sie beachten die Lizenzbedingungen 5-6.
  5. Sie dürfen KEINEN Quellcode dieser Software verbreiten, ES SEI DENN, Sie behalten Urheberrechtsvermerk(e) und Lizenzbedingungen 3-7 bei.
  6. Sie dürfen KEINEN Objektcode dieser Software verbreiten, ES SEI DENN, ENTWEDER (a) kein Urheberrechtsvermerk des tatsächlich verwendeten Codes verweist auf die "Acoustical Communications Group at the Technical University of Munich" ODER (b) Sie haben Maßnahmen getroffen, dass der Benutzer, auch nach jeglicher Weiterverbreitung, die folgende Meldung lesen kann: This software incorporates code which implements research work carried out by the Acoustical Communications Group at the Technical University of Munich.
  7. Die Benutzung geschieht ausschließlich AUF IHR RISIKO. In keinem Fall sind der/die Urheber für direkte Schäden oder Folgeschäden haftbar zu machen, die aus der Benutzung oder der Unbenutzbarkeit des Software-Pakets entstehen.
  8. Diese Software wird "wie sie ist" OHNE JEGLICHE GEWÄHRLEISTUNG zur Verfügung gestellt.

München, 24. Februar 1999

ENDE DER LIZENZ


Programmübersicht

Verfahren zur Zeit-Frequenz-Repräsentation (Front-Ends)

Die folgenden Programmnamen werden als Links auf ein Skript namens ctxadmin (K) installiert. Dieses ruft selbstständig weitere Programme des Programmsystems mit den nötigen Parametern auf. Für jedes Verfahren sind die Schritte Analyse, Visualisierung und Rekonstruktion ausführbar, außerdem kann ein ausführlicher Hilfstext angezeigt werden. Es können Signale mit 8, 11,025, 12,8, 16, 22,05, 32, 44,1 und 48 kHz Abtastrate verarbeitet werden.

Datenreduktionsverfahren (Front-Ends)

Die folgenden Programmnamen werden als Links auf ein Skript namens drdadmin (K) installiert. Dieses ruft selbstständig weitere Programme des Programmsystems mit den nötigen Parametern auf. Die Verfahren werden nur simuliert, d.h. für das Eingangssignal wird der Durchlauf durch Coder und Decoder berechnet , Abspeicherung in datenreduzierter Form sowie Visualisierung sind nicht vorgesehen. Es können nur Signale mit 12,8 kHz Abtastrate verarbeitet werden.

Analyse Zeit-Frequenz-Repräsentation aus Zeitsignal

Rekonstruktion Zeitsignal aus Zeit-Frequenz-Repräsentation

Erzeugung von Zeitsignalen

Modifikation von Zeitsignalen

Modifikation und Konvertierung von Zeit-Frequenz-Repräsentationen

Visualisierung

Sonstiges


Bedienkonzepte

Alle Programme arbeiten textorientiert im Sinne klassischer Unix-Kommandos: Sie werden jeweils für einen einzigen Lauf gestartet und mit Parametern versorgt, es gibt keine interaktive Veränderung oder Neueingabe von Parametern, alle Eingaben erfolgen als Text. Zur Versorgung mit Parametern existieren historisch bedingt vier unterschiedlich komfortable Konzepte:


Dateiformate

Eine durch die festgelegten Dateiformate bedingte Beschränkung des Programmsystems ist, daß im allgemeinen Pegel nur in Schritten von 0,5 dB, Frequenzen nur in Schritten von Signalabtastfrequenz/65536 und Phasen nur in Schritten von 360Grad/256 aufgelöst sind. Einige wenige Programme erlauben die Verarbeitung von Daten in ASCII-Format.


Frequenztabelle

Die Festlegung der Analysefrequenzen, an denen ein zeitvariantes Spektrum berechnet werden soll, geschieht über eine Tabelle (in manchen Programmen auch "Raster" genannt). Da das ftt-Format keine Frequenzinformation speichert, wird diese Tabelle in jedem weiterverarbeitenden Programm neu erzeugt. Programme zur Rekonstruktion aus Konturen benötigen zur Festlegung der Synthesefrequenzen ebenfalls eine Tabelle.

Zur Spezifikation der Tabelle wird von den Programmen die Anzahl NFI der Tabellenfrequenzen, die Startfrequenz F0 in Hz, der Frequenzabstand in Einheit UNIT (Hz, Prozent, ERB, Bark oder spinc) und Maßzahl DF und ein Schrittweitenparameter GRID angefordert. Aufeinanderfolgende Analyse- oder Synthesefrequenzen ergeben sich, in dem an der vorherigen Frequenz die Größe von UNIT in Hz bestimmt und mit DF multipliziert zugeschlagen wird.

Dieses "differentielle" Verfahren erlaubt zwar im Kleinen richtige Abstände, die dadurch realisierte Frequenztransformation (außer bei Hz) weicht im Großen aber von der richtigen um so mehr ab, je größer DF ist. Für die Verfahren ist diese Abweichung egal, solange alle Verfahrensschritte die gleiche Transformation verwenden. Dazu müssen F0, UNIT und DF überall gleich sein. Um die Frequenzabstände z.B. bei der Textur vergrößern zu können, ohne die Transformation zu beeinflussen, gibt es den Parameter GRID. Er besagt, jede wievielte Tabellenfrequenz ein spektraler Stützwert ausgegeben oder eingelesen werden soll. Die Tabellenfrequenzen können mit fbtab gelistet werden. mit Zur Visualisierung rechnet costximg die Tabelle übrigens in eine Transformation um, die auch im Großen richtig ist.


Unterstützte Betriebssysteme:

Das Programmsystem wurde auf folgenden Betriebssystemen getestet:


Voraussetzungen

Folgende Software sollte bereits installiert sein:

[Suchbegriff in eckigen Klammern, mit dem in öffentlichen ftp-Servern gesucht werden kann, z.B. über http://www.ftpsearch.com; die angegebenen Nummern entsprechen nicht unbedingt den aktuellen Versionen]


Download

Das komplette Programmsystem ist im ftp-Verzeichnis für den Download als Quellcode im gzip/tar-Archiv unter dem Namen swmumdis-xxxxxx.tar.gz abrufbar. Die Dateigröße beträgt ca. 1,5 MByte. Ein Unterverzeichnis mit Namen swmumdis hält alle Programme des Programmsystems auch zum Einzelabruf bereit. Shell-Skripts (u.a. alle Front-Ends) und verfügbare Dokumentation sind zusammengefaßt unter den Namen scripts-xxxxxx.tar.gz bzw. doc-xxxxxx.tar.gz abrufbar.


Installation

Nach dem auspacken mit gzip und tar in das Verzeichnis swmumdis-xxxxxx wechseln. Dort make aufrufen, alles weitere erklärt sich selbst. Besondere, im Makefile editierbare Optionen sind nachfolgend nochmals aufgeführt:


Bekannte Probleme und Fehler


History


Literatur


Homepage für Dissertation Mummert und SWMUMDIS


Autoren SWMUMDIS


Copyright (c) 1998 Dr.-Ing. Markus Mummert

$Id: overview.html,v 2.15 2015/07/27 20:38:51 mummert Exp mummert $