Research: Speech Recognition

Simulation akustischer Umgebungen einschließlich einer Telefonübertragung

Sie können zur Simulation der akustischen Umgebung bei einer Spracheingabe zur Spracherkennung verschiedene Parameter auf einer nachfolgenden Internetseite einstellen. Mit den gewählten Parametern können Sie eine eigene Sprachaufnahme bearbeiten und sich das Ergebnis als Sprachdatei im WAV Format auf Ihren Rechner herunterladen und anhören. Sollten Sie keine eigene Sprachprobe zur Verfügung haben, so wird die Simulation mit einer auf dem Simulationsrechner vorhandenen Sprachprobe vorgenommen. Das Auswahlfeld zur Selektion der eigenen Sprachprobe braucht in diesem Fall nicht ausgefüllt zu werden.

Es können Sprachaufnahmen, die mit 8 oder mit 16 kHz abgetastet wurden, bearbeitet werden. In Abhängigkeit der Abtastfrequenz wird dann unter anderem die entsprechende Sprachcodierung und Simulation der Mobilfunkübertragung eingesetzt. Zum korrekten Aufbau der Auswahlmenüs ist nun die Angabe der Abtastfrequenz erforderlich:

8 kHz

16 kHz

Es können Sprachdateien, bei denen nur die Abtastwerte als 16 Bit (Short) Werte abgespeichert wurden (RAW Format), oder Dateien im WAV Format bearbeitet werden. Im Fall von RAW Dateien ist zudem die Angabe der Byte Reihenfolge erforderlich. Auf einem PC sind die Bytes normalerweise in der als "little endian" bezeichneten, auf einer SUN in der als "big endian" bezeichneten Reihenfolge abgespeichert . Bitte geben Sie nachstehend das Format Ihrer Sprachdatei an:

WAV

RAW (little endian)

RAW (big endian)

Es kann die Übertragung des Sprachsignals entweder über GSM oder UMTS simuliert werden. Bitte wählen Sie den gewünschten Modus:

GSM

UMTS

Die aus der Simulation resultierende Sprachdatei wird im WAV-Format zur Verfügung gestellt.

Hinweise zur Bedienung der graphischen Oberfläche:

Im Auswahlfeld über der Graphik kann eine eigene Sprachdatei, die auf Ihrem Rechner vorhanden ist, ausgewählt werden. Sollten Sie keine eigene Sprachprobe zur Verfügung haben, so kann dieses Feld freigelassen werden. In diesem Fall wird eine auf dem Simulationsrechner vorhandene Sprachprobe verwendet.
In der graphischen Oberfläche können über Auswahlmenüs die Parameter verschiedener Störeinflüsse der akustischen Umgebung eingestellt werden.
Nach Anklicken des unter der Graphik vorhandenen "Start"-Feldes wird die ausgewählte Sprachprobe zum Simulationsrechner transferiert und dort bearbeitet. Dann wird unter dem Start-Feld eine Tabelle aufgebaut, in der die bearbeiteten Sprachproben aufgelistet werden. Durch Anklicken des Lautsprechersymbols kann man sich die bearbeitete Sprachprobe unmittelbar anhören, wenn Ihr Web-Browser dies unterstützt bzw. entsprechend konfiguriert ist. In Abhängigkeit der Länge der Sprachprobe und der gewählten Parameter kann die Bearbeitung unter Umständen einige Sekunden in Anspruch nehmen.
Möchten Sie die ausgewählte Sprachprobe mit einer anderen Parametereinstellung bearbeiten, so müssen nur die gewünschten Parameter geändert werden und das "Start"-Feld muß erneut angeklickt werden. Die zuletzt bearbeitete Sprachprobe wird dann am Ende der Tabelle angefügt.
Unter der graphischen Oberfläche steht noch ein Auswahlfeld zur Verfügung, um die zuvor erzeugten Sprachproben aus der Tabelle zu entfernen.

Detailliertere Informationen zu der Simulation können einer Veröffentlichung entnommen werden.

zurück

Simulation of acoustic environments including the transmission over telephone channels

Different parameters can be defined on a succeeding Web page to simulate the acoustic environment during the speech input to a recognition system. An own speech recording can be processed with the selected parameter settings. If you do not have an own speech recording available, the simulation will be carried out with a speech file that is available on the computer running the simulation. In this case there is no need to fill out the field for selecting your own speech recording. The result can be downloaded as speech file (WAV format) for listening to it on your computer.

Speech recordings can be processed that have been sampled at rates of 8 or 16 kHz. Depending on the sampling frequency, the corresponding speech coding and the corresponding simulation of the cellular channel will be applied. The sampling frequency has to be defined here to show the right menus:

8 kHz

16 kHz

Speech files can be processed where only the speech samples have been stored as 16 bit (short) values in RAW format or files in the WAV format. In case of RAW files the byte order within each short value has to be defined. Bytes are usually ordered as "little endian" on a PC and as "big endian" on a SUN computer. Please, define the format of your speech file:

WAV

RAW (little endian)

RAW (big endian)

Please select either GSM or UMTS mode for the simulation of the transmission in a mobile network.

GSM

UMTS

The result of the simulation will be a speech file in WAV format.

Hints for controlling the graphical interface:

An own speech file that is stored on your computer can be selected in the field above the graphics. If there is no speech file available on your system a speech recording will be used for the simulation that is available on the computer running the simulation. In this case there is no need to enter anything in this field.
Parameters can be selected with pull down menus in the graphics to define the desired distortions of the acoustic environment.
After pressing the "start" button the speech file will be transferred and will be processed on the computer running the simulation. A table will be created below the "start" button. The last line of the table contains the parameter settings of the recently processed file. A loudspeaker icon will appear as last element of the line. You can listen to the processed speech file by pressing the mouse button on this icon. It is assumed that your browser supports this feature respectively is appropriately configured. Dependent on the length of the speech file and the parameter settings the processing may take a few seconds.
You can easily change only the parameter settings for processing the same speech file again to simulate the influence of another acoustic environment.
After pressing the start button again a new line will appear at the end of the table.
A further toggle button is available below the graphics to erase all entries from the table.

Details about the simulation can be found in a separate paper.

back