index.html

<!DOCTYPE html>
<html>
<head>
  <meta charset="utf-8" />
  <meta name="viewport" content="width=device-width,initial-scale=1" />
  <title>Speech Enhancement System Compression Using
Parameter Tying and Mixed Precision Quantization</title>
<style type="text/css">
<!--  body {-->
<!--  margin: 0  auto；-->
<!--  padding:10px 30px;-->
<!--  background: #fff;-->
<!--  color: #111;-->
<!--  font-size: 15px;-->
<!--  font-family: "Times New Roman", serif;-->
<!--  font-weight: 400;-->
<!--  line-height: 1.8;-->
<!--  -webkit-font-smoothing: antialiased;-->
<!--  }-->
  audio {
  width: 75%;
  height:30px;
  }
  img {
  width:100%;
  }
  video {
  width:75%;
  }
  html{
  height:100%;
  }
  body{
  margin: 0  auto；
  padding:10px 30px;
  background: #fff;
  color: #111;
  height:100%;
  font-size: 17px;
  font-family: "Times New Roman", serif;
  font-weight: 400;
  line-height: 1.8;
  overflow-x: hidden;
  -webkit-font-smoothing: antialiased;
  }
</style>
</head>
<div style="border: none; width:80%; margin: 0 auto;">
<body>
    <h2 align="center">Speech Enhancement System Compression Using
Parameter Tying and Mixed Precision Quantization</h2>
    <p style="line-height:100%" align="center"><b>Authors:Tao Zhong, Guinan Li, Mengzhe Geng, Junhao Xu, Zengrui Jin, Jiajun Deng, Zhaoqing Li, Tianzi Wang,
        Xunying Liu</b> </p>
    <p style="line-height:100%" align="justify"> <b>Abstract: </b> Speech enhancement systems are crucial components in many speech processing tasks, such as automatic speech recognition (ASR). Their practical deployment on devices requires their memory footprints and computation costs to be aggressively reduced. To this end, a novel KL divergence based parameter sharing approach is proposed for state-of-the-art temporal convolutional networks (TCNs) based audio-visual multi-channel speech separation systems featuring mask-based MVDR beamforming. Experiments are conducted on two tasks using overlapped speech simulated from the English Oxford LRS2 and Cantonese CI-AVSR datasets. The efficacy of the proposed TCN parameter tying approach is extensively shown when used as a standalone model architecture compression technique in comparison to low-rank factorization and penalized neural architecture search, as well as when combined with low-rank factorization and mixed precision low-bit precision quantization approaches. An overall “lossless” model compression ratio of up to 18.54 times is obtained over the baseline uncompressed audio-visual multi-channel speech separation system while incurring no statistically significant ASR word or character error rate increase. Comparable speech enhancement performance measured using scale-invariant signal-to-noise ratio (SI-SNR) scores is also produced. The same “lossless” speech enhancement system compression ratio is retained after applying 5-bit mixed precision quantization to the Conformer ASR back-end.</p>
    <a href="#sectionI">I. Audio-visual Multi-channel Mask-based MVDR Speech Separation Front-end</a><br>
    <a href="#sectionII">II. TCN Model Architecture Compression</a><br>
    <a href="#sectionIII">III. Low-bit Precision Quantizatoin of TCN</a><br>
    <a href="#sectionIV">IV. Experimental Setup and Results</a><br>
    <a href="#sectionV">V. Reference</a>
    <h3> <a name="sectionI"> I. Audio-visual Multi-channel Mask-based MVDR Speech Separation Front-end</a> </h3>
    <div style="border: none; width:60%; margin: 0 auto;">
    <img border="0" src="picture/neural_network.png" alt="architectures of speech enhancement front-end" height="10%">
    </div>
    <ul>
        <li> Audio-visual multi-channel mask-based MVDR based speech separation system [1]. The TCN blocks are highlighted in blue (one in the Audio Block; three in the Target Speech and Noise Blocks each), which account for more than 84% of the overall model parameters. The speech separation front-end is on the top (the light yellow box), and the Conformer recognition back-end is on the bottom (the light red box).</li>
    </ul>
    <h3> <a name="sectionII"> II. TCN Model Architecture Compression</a> </h3>
    <div style="border: none; width:60%; margin: 0 auto;">
    <img border="0" src="picture/conv_block.png" alt="architectures of speech enhancement front-end" style="width:300px;">
    </div>
    <ul>
        <li> Temporal convolutional network (TCN) block. Each of the 8 dilated 1-D ConvBlocks consists of two 1×1 convolutional layers located at both ends (“1x1 Conv1” and “1x1 Conv2” in blue). A depth-wise separable convolution layer (D-Conv) is located in the center. PReLU and batch normalization layers are added before and after the D-Conv layer.</li>
    </ul>
    <div style="border: none; width:60%; margin: 0 auto;">
    <img border="0" src="picture/low_rank.png" alt="low-rank factorization" style="width:300px;">
    </div>
      <ul>
          <li> Low-rank factorization of the two TCN 1x1 convolutional layers into four “1x1 Conv1 (left/right)” and “1x1 Conv2 (left/right)” weight matrices in blue.</li>
      </ul>
    <div style="border: none; width:60%; margin: 0 auto;">
      <img border="0" src="picture/NAS.png" alt="penalized neural architecture search" style="width:300px;">
    </div>
      <ul>
          <li> Penalized neural architecture search over the projection layer dimensionality for low-rank factorized TCN 1x1convolutional layers ranging from 40 to 170.</li>
      </ul>
    <div style="border: none; width:60%; margin: 0 auto;">
        <img border="0" src="picture/share.png" alt="parameter sharing" style="width:300px;">
    </div>
      <ul>
        <li> Parameter sharing among low-rank factorized weight matrices located at comparable positions (highlighted in the same yellow boxes) across different dilated 1-D ConvBlocks within a TCN.</li>
      </ul>
    <h3> <a name="sectionIII"> III. Low-bit Precision Quantizatoin of TCN</a> </h3>
      <div style="border: none; width:60%; margin: 0 auto;">
      <img border="0" src="picture/kl.png" alt="KL divergence based mixed precision quantization" style="width:300px;">
      </div>
      <ul>
          <li> Mixed precision quantization of low-rank factorized TCN’s 1x1 convolutional layers (shown "1x1 Conv1 (left/right)" and "1x1 Conv2 (left/right)") with their layer level varying precision settings learned using KL divergence [2].</li>
      </ul>
      <div style="border: none; width:60%; margin: 0 auto;">
        <img border="0" src="picture/hessian.png" alt="Hessian trace based mixed precision quantization" style="width:300px;">
      </div>
      <ul>
        <li> Mixed precision quantization of low-rank factorized TCN’s 1x1 convolutional layers (shown "1x1 Conv1 (left/right)" and "1x1 Conv2 (left/right)") with their layer level varying precision settings learned using Hessian trace.</li>
      </ul>
      <div style="border: none; width:60%; margin: 0 auto;">
        <img border="0" src="picture/nas_q.png" alt="penalized NAS based mixed precision quantization" style="width:300px;">
      </div>
      <ul>
        <li> Mixed precision quantization of low-rank factorized TCN’s 1x1 convolutional layers (shown "1x1 Conv1 (left/right)" and "1x1 Conv2 (left/right)") with their layer level varying precision settings learned using penalized NAS.</li>
      </ul>
      <h3> <a name="sectionIV">IV. Experimental Setup and Results</a></h3>
      <div style="border: none; width:100%; margin: 0 auto;">
      <h4> A. Experimental setup</h4>
        <h4> (1) Oxford LRS2 data simulated overlapped speech </h4>
        <ul>
            <li> A 15-channel symmetric linear array with non-even inter-channel spacing is leveraged to simulate the multi-channel overlapped speech using the Oxford LRS2 dataset [3] with 96997, 4272 and 4972 utterances respectively for training (91.37 hours), validation (2.59 hours) and test (2.32 hours). </li>
            <li> Espnet style Conformer AED ASR model contains 12 encoder and 6 decoder layers is used in the submitted paper. </li>
            <li> In all the experiments of the Oxford LRS2 data simulated overlapped speech, “lossless” compression is achieved when no statistically significant (MAPSSWE [4], &alpha;= 0.05) WER increase is observed after model compression. </li>
        </ul>
        <h4> (2) CI-AVSR simulated overlapped speech </h4>
        <ul>
            <li> A 3-channel symmetric linear array with even inter-channel spacing is leveraged to simulate the multi-channel overlapped speech using the Cantonese CI-AVSR in-car command speech corpus [5] with 89804, 12844 and 13182 utterances respectively for training (68.8 hours), validation (9.4 hours) and test (9.4 hours). </li>
            <li> Espnet style Conformer AED ASR model contains 12 encoder and 6 decoder layers is used in the submitted paper. </li>
            <li> In all the experiments of the CI-AVSR audio-visual Cantonese in-car speech simulated overlapped speech, “lossless” compression is achieved when no statistically significant (MAPSSWE [4], 	&alpha;= 0.05) CER increase is observed after model compression. </li>
        </ul>
      <h4> B. Experimental results on Oxford LRS2 data simulated overlapped speech </h4>
      <table border="1">
          <tr>
              <th rowspan="2" colspan="2"></th>
              <th rowspan="2" colspan="2">Maximum “lossless” compression ratio</th>
              <th colspan="4"> Four ranges of the angle difference between the target and interfering speakers relative to the microphone array </th>
            </tr>
            <tr>
                <th>[0°-15°)</th>
                <th>[15°-45°)</th>
                <th>[45°-90°)</th>
                <th>[90°-180°)</th>
            </tr>
            <tr>
              <th colspan="2"> Target speaker video</th>
              <th colspan="2"> - </th>
              <td style="text-align:center">
                  <video src="test_audio/clean/transm5-6331559613336179781-00019.mp4" controls="controls">
                      your browser does not support the video tag
                  </video>
              </td>
              <td style="text-align:center">
                  <video src="test_audio/clean/transm5-6331559613336179781-00027.mp4" controls="controls">
                      your browser does not support the video tag
                  </video>
              </td>
              <td style="text-align:center">
                  <video src=test_audio/clean/transm5-6331559613336179781-00029.mp4 controls="controls">
                      your browser does not support the video tag
                  </video>
              </td>
              <td style="text-align:center">
                  <video src=test_audio/clean/transm5-6332062124509813446-00018.mp4 controls="controls">
                      your browser does not support the video tag
                  </video>
              </td>
          </tr>
          <tr>
            <th colspan="2"> Overlapped speech</th>
            <th colspan="2"> - </th>
            <td style="text-align:center">
                <img src="test_audio/simulated/0-15/0-mc/mixture/00019.png" alt>
                <audio src="test_audio/simulated/0-15/0-mc/mixture/00019.wav" controls="controls">
                    Your browser does not support the audio element.
                </audio>
            </td>
            <td style="text-align:center">
                <img src="test_audio/simulated/15-45/0-mc/mixture/00027.png" alt>
                <audio src="test_audio/simulated/15-45/0-mc/mixture/00027.wav" controls="controls">
                    Your browser does not support the audio element.
                </audio>
            </td>
            <td style="text-align:center">
                <img src="test_audio/simulated/45-90/0-mc/mixture/00029.png" alt>
                <audio src="test_audio/simulated/45-90/0-mc/mixture/00029.wav" controls="controls">
                    Your browser does not support the audio element.
                </audio>
            </td>
            <td style="text-align:center">
                <img src="test_audio/simulated/90-180/0-mc/mixture/00018.png" alt>
                <audio src="test_audio/simulated/90-180/0-mc/mixture/00018.wav" controls="controls">
                    Your browser does not support the audio element.
                </audio>
            </td>
        </tr>
        <tr>
          <th colspan="2">Clean speech</th>
          <th colspan="2">-</th>
           <td style="text-align:center">
              <img src="test_audio/simulated/0-15/0-mc/clean/00019.png" alt>
              <audio src="test_audio/simulated/0-15/0-mc/clean/00019.wav" controls="controls">
                  Your browser does not support the audio element.
              </audio>
          </td>
            <td style="text-align:center">
              <img src="test_audio/simulated/15-45/0-mc/clean/00027.png" alt>
              <audio src="test_audio/simulated/15-45/0-mc/clean/00027.wav" controls="controls">
                  Your browser does not support the audio element.
              </audio>
          </td>
          <td style="text-align:center">
              <img src="test_audio/simulated/45-90/0-mc/clean/00029.png" alt>
              <audio src="test_audio/simulated/45-90/0-mc/clean/00029.wav" controls="controls">
                  Your browser does not support the audio element.
              </audio>
          </td>
          <td style="text-align:center">
              <img src="test_audio/simulated/90-180/0-mc/clean/00018.png" alt>
              <audio src="test_audio/simulated/90-180/0-mc/clean/00018.wav" controls="controls">
                  Your browser does not support the audio element.
              </audio>
          </td>
      </tr>
      <tr>
        <tr>
          <th colspan="2">Audio-visual Mask-based MVDR <br> (uncompressed model) <br> (Sys. 1 in TABLE IV in the submitted paper) </th>
          <th colspan="2">1.0 </th>
          <td style="text-align:center">
              <img src="test_audio/baseline/rev1-6331559613336179781-00019.png" alt >
              <audio src="test_audio/baseline/rev1-6331559613336179781-00019.wav" controls="controls">
                  Your browser does not support the audio element.
              </audio>
          </td>
          <td style="text-align:center">
            <img src="test_audio/baseline/rev2-6331559613336179781-00027.png" alt >
            <audio src="test_audio/baseline/rev2-6331559613336179781-00027.wav" controls="controls">
                Your browser does not support the audio element.
            </audio>
        </td>
        <td style="text-align:center">
          <img src="test_audio/baseline/rev3-6331559613336179781-00029.png" alt >
          <audio src="test_audio/baseline/rev3-6331559613336179781-00029.wav" controls="controls">
              Your browser does not support the audio element.
          </audio>
      </td>
      <td style="text-align:center">
        <img src="test_audio/baseline/rev4-6332062124509813446-00018.png" alt >
        <audio src="test_audio/baseline/rev4-6332062124509813446-00018.wav" controls="controls">
            Your browser does not support the audio element.
        </audio>
    </td>
      </tr>
        <tr>
          <th colspan="2">Audio-visual Mask-based MVDR + <br> Low Rank <br> (Sys. 2 in TABLE IV in the submitted paper)</th>
          <th colspan="2">2.07</th>
          <td style="text-align:center">
              <img src="test_audio/low_rank/rev1-6331559613336179781-00019.png" alt >
              <audio src="test_audio/low_rank/rev1-6331559613336179781-00019.wav" controls="controls">
                  Your browser does not support the audio element.
              </audio>
          </td>
          <td style="text-align:center">
            <img src="test_audio/low_rank/rev2-6331559613336179781-00027.png" alt >
            <audio src="test_audio/low_rank/rev2-6331559613336179781-00027.wav" controls="controls">
                Your browser does not support the audio element.
            </audio>
        </td>
        <td style="text-align:center">
          <img src="test_audio/low_rank/rev3-6331559613336179781-00029.png" alt >
          <audio src="test_audio/low_rank/rev3-6331559613336179781-00029.wav" controls="controls">
              Your browser does not support the audio element.
          </audio>
      </td>
      <td style="text-align:center">
        <img src="test_audio/low_rank/rev4-6332062124509813446-00018.png" alt >
        <audio src="test_audio/low_rank/rev4-6332062124509813446-00018.wav" controls="controls">
            Your browser does not support the audio element.
        </audio>
    </td>
      </tr>
      <tr>
        <th colspan="2">Audio-visual Mask-based MVDR + <br>Low Rank + <br> Penalized NAS <br> (Sys. 4 in TABLE IV in the submitted paper)</th>
        <th colspan="2">2.87</th>
        <td style="text-align:center">
            <img src="test_audio/low_rank+nas/rev1-6331559613336179781-00019.png" alt >
            <audio src="test_audio/low_rank+nas/rev1-6331559613336179781-00019.wav" controls="controls">
                Your browser does not support the audio element.
            </audio>
        </td>
        <td style="text-align:center">
          <img src="test_audio/low_rank+nas/rev2-6331559613336179781-00027.png" alt >
          <audio src="test_audio/low_rank+nas/rev2-6331559613336179781-00027.wav" controls="controls">
              Your browser does not support the audio element.
          </audio>
      </td>
      <td style="text-align:center">
        <img src="test_audio/low_rank+nas/rev3-6331559613336179781-00029.png" alt >
        <audio src="test_audio/low_rank+nas/rev3-6331559613336179781-00029.wav" controls="controls">
            Your browser does not support the audio element.
        </audio>
    </td>
    <td style="text-align:center">
      <img src="test_audio/low_rank+nas/rev4-6332062124509813446-00018.png" alt >
      <audio src="test_audio/low_rank+nas/rev4-6332062124509813446-00018.wav" controls="controls">
          Your browser does not support the audio element.
      </audio>
  </td>
    </tr>
    <tr>
      <th colspan="2">Audio-visual Mask-based MVDR + <br>Low Rank + <br> Parameter Sharing <br> (Sys. 5 in TABLE IV in the submitted paper)</th>
      <th colspan="2">3.93</th>
      <td style="text-align:center">
          <img src="test_audio/low_rank+parameter_sharing/rev1-6331559613336179781-00019.png" alt >
          <audio src="test_audio/low_rank+parameter_sharing/rev1-6331559613336179781-00019.wav" controls="controls">
              Your browser does not support the audio element.
          </audio>
      </td>
      <td style="text-align:center">
        <img src="test_audio/low_rank+parameter_sharing/rev2-6331559613336179781-00027.png" alt >
        <audio src="test_audio/low_rank+parameter_sharing/rev2-6331559613336179781-00027.wav" controls="controls">
            Your browser does not support the audio element.
        </audio>
    </td>
    <td style="text-align:center">
      <img src="test_audio/low_rank+parameter_sharing/rev3-6331559613336179781-00029.png" alt >
      <audio src="test_audio/low_rank+parameter_sharing/rev3-6331559613336179781-00029.wav" controls="controls">
          Your browser does not support the audio element.
      </audio>
  </td>
  <td style="text-align:center">
    <img src="test_audio/low_rank+parameter_sharing/rev4-6332062124509813446-00018.png" alt >
    <audio src="test_audio/low_rank+parameter_sharing/rev4-6332062124509813446-00018.wav" controls="controls">
        Your browser does not support the audio element.
    </audio>
</td>
  </tr>
  <tr>
    <th colspan="2">Audio-visual Mask-based MVDR + <br>Low Rank + <br> Parameter Sharing + <br> KL Divergence Based <br> Mixed Precision Quantization <br> (Sys. 16 in TABLE IV in the submitted paper)</th>
    <th colspan="2">18.54</th>
    <td style="text-align:center">
        <img src="test_audio/low_rank+parameter_sharing+kl_based_quantization/rev1-6331559613336179781-00019.png" alt >
        <audio src="test_audio/low_rank+parameter_sharing+kl_based_quantization/rev1-6331559613336179781-00019.wav" controls="controls">
            Your browser does not support the audio element.
        </audio>
    </td>
    <td style="text-align:center">
      <img src="test_audio/low_rank+parameter_sharing+kl_based_quantization/rev2-6331559613336179781-00027.png" alt >
      <audio src="test_audio/low_rank+parameter_sharing+kl_based_quantization/rev2-6331559613336179781-00027.wav" controls="controls">
          Your browser does not support the audio element.
      </audio>
  </td>
  <td style="text-align:center">
    <img src="test_audio/low_rank+parameter_sharing+kl_based_quantization/rev3-6331559613336179781-00029.png" alt >
    <audio src="test_audio/low_rank+parameter_sharing+kl_based_quantization/rev3-6331559613336179781-00029.wav" controls="controls">
        Your browser does not support the audio element.
    </audio>
</td>
<td style="text-align:center">
  <img src="test_audio/low_rank+parameter_sharing+kl_based_quantization/rev4-6332062124509813446-00018.png" alt >
  <audio src="test_audio/low_rank+parameter_sharing+kl_based_quantization/rev4-6332062124509813446-00018.wav" controls="controls">
      Your browser does not support the audio element.
  </audio>
</td>
  </tr>
</table>
  <h4> C. Experimental results on CI-AVSR audio-visual Cantonese in-car speech simulated overlapped speech </h4>
  <table border="1">
  <tr>
    <th rowspan="2" colspan="2"></th>
    <th rowspan="2" colspan="2">Maximum “lossless” compression ratio</th>
    <th rowspan="2" colspan="4"> Examples </th>
  </tr>
  <tr>
</tr>
  <tr>
    <th colspan="2"> Target speaker video</th>
    <th colspan="2"> - </th>
    <td style="text-align:center">
        <video src="test_audio_ciavsr/clean/modify/1_40.mp4" controls="controls">
            your browser does not support the video tag
        </video>
    </td>
    <td style="text-align:center">
        <video src="test_audio_ciavsr/clean/modify/2_90.mp4" controls="controls">
            your browser does not support the video tag
        </video>
    </td>
    <td style="text-align:center">
        <video src=test_audio_ciavsr/clean/modify/2_98.mp4 controls="controls">
            your browser does not support the video tag
        </video>
    </td>
    <td style="text-align:center">
        <video src=test_audio_ciavsr/clean/modify/2_7.mp4 controls="controls">
            your browser does not support the video tag
        </video>
    </td>
</tr>
<tr>
  <th colspan="2"> Overlapped speech</th>
  <th colspan="2"> - </th>
  <td style="text-align:center">
      <img src="test_audio_ciavsr/mix/0/C010-ICAVSP-00009-HKUSTXXX-XXXFXX-ih_10000040-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.png" alt>
      <audio src="test_audio_ciavsr/mix/0/C010-ICAVSP-00009-HKUSTXXX-XXXFXX-ih_10000040-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.wav" controls="controls">
          Your browser does not support the audio element.
      </audio>
  </td>
  <td style="text-align:center">
      <img src="test_audio_ciavsr/mix/0/C010-ICAVSP-00015-HKUSTXXX-XXXMXX-ih_20000090-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.png" alt>
      <audio src="test_audio_ciavsr/mix/0/C010-ICAVSP-00015-HKUSTXXX-XXXMXX-ih_20000090-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.wav" controls="controls">
          Your browser does not support the audio element.
      </audio>
  </td>
  <td style="text-align:center">
      <img src="test_audio_ciavsr/mix/0/C010-ICAVSP-00023-HKUSTXXX-XXXFXX-ih_20000098-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.png" alt>
      <audio src="test_audio_ciavsr/mix/0/C010-ICAVSP-00023-HKUSTXXX-XXXFXX-ih_20000098-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.wav" controls="controls">
          Your browser does not support the audio element.
      </audio>
  </td>
  <td style="text-align:center">
      <img src="test_audio_ciavsr/mix/0/C011-ICAVSP-00007-HKUSTXXX-XXXMXX-ih_20000007-2spk_S1_S4-BackgroundMusic_Rain_Hail_Ignition-DifferentGender.png" alt>
      <audio src="test_audio_ciavsr/mix/0/C011-ICAVSP-00007-HKUSTXXX-XXXMXX-ih_20000007-2spk_S1_S4-BackgroundMusic_Rain_Hail_Ignition-DifferentGender.wav" controls="controls">
          Your browser does not support the audio element.
      </audio>
  </td>
</tr>
<tr>
<th colspan="2">Clean speech</th>
<th colspan="2">-</th>
 <td style="text-align:center">
    <img src="test_audio_ciavsr/official_clean/15/C010-ICAVSP-00009-HKUSTXXX-XXXFXX-ih_10000040-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.png" alt>
    <audio src="test_audio_ciavsr/official_clean/15/C010-ICAVSP-00009-HKUSTXXX-XXXFXX-ih_10000040-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.wav" controls="controls">
        Your browser does not support the audio element.
    </audio>
</td>
  <td style="text-align:center">
    <img src="test_audio_ciavsr/official_clean/15/C010-ICAVSP-00015-HKUSTXXX-XXXMXX-ih_20000090-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.png" alt>
    <audio src="test_audio_ciavsr/official_clean/15/C010-ICAVSP-00015-HKUSTXXX-XXXMXX-ih_20000090-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.wav" controls="controls">
        Your browser does not support the audio element.
    </audio>
</td>
<td style="text-align:center">
    <img src="test_audio_ciavsr/official_clean/15/C010-ICAVSP-00023-HKUSTXXX-XXXFXX-ih_20000098-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.png" alt>
    <audio src="test_audio_ciavsr/official_clean/15/C010-ICAVSP-00023-HKUSTXXX-XXXFXX-ih_20000098-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.wav" controls="controls">
        Your browser does not support the audio element.
    </audio>
</td>
<td style="text-align:center">
    <img src="test_audio_ciavsr/official_clean/15/C011-ICAVSP-00007-HKUSTXXX-XXXMXX-ih_20000007-2spk_S1_S4-BackgroundMusic_Rain_Hail_Ignition-DifferentGender.png" alt>
    <audio src="test_audio_ciavsr/official_clean/15/C011-ICAVSP-00007-HKUSTXXX-XXXMXX-ih_20000007-2spk_S1_S4-BackgroundMusic_Rain_Hail_Ignition-DifferentGender.wav" controls="controls">
        Your browser does not support the audio element.
    </audio>
</td>
</tr>
<tr>
<tr>
<th colspan="2">Audio-visual Mask-based MVDR <br> (uncompressed model) <br> (Sys. 1 in TABLE VI in the submitted paper) </th>
<th colspan="2">1.0 </th>
<td style="text-align:center">
    <img src="test_audio_ciavsr/baseline/final_select/C010-ICAVSP-00009-HKUSTXXX-XXXFXX-ih_10000040-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.png" alt >
    <audio src="test_audio_ciavsr/baseline/final_select/C010-ICAVSP-00009-HKUSTXXX-XXXFXX-ih_10000040-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.wav" controls="controls">
        Your browser does not support the audio element.
    </audio>
</td>
<td style="text-align:center">
  <img src="test_audio_ciavsr/baseline/final_select/C010-ICAVSP-00015-HKUSTXXX-XXXMXX-ih_20000090-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.png" alt >
  <audio src="test_audio_ciavsr/baseline/final_select/C010-ICAVSP-00015-HKUSTXXX-XXXMXX-ih_20000090-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.wav" controls="controls">
      Your browser does not support the audio element.
  </audio>
</td>
<td style="text-align:center">
<img src="test_audio_ciavsr/baseline/final_select/C010-ICAVSP-00023-HKUSTXXX-XXXFXX-ih_20000098-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.png" alt >
<audio src="test_audio_ciavsr/baseline/final_select/C010-ICAVSP-00023-HKUSTXXX-XXXFXX-ih_20000098-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.wav" controls="controls">
    Your browser does not support the audio element.
</audio>
</td>
<td style="text-align:center">
<img src="test_audio_ciavsr/baseline/final_select/C011-ICAVSP-00007-HKUSTXXX-XXXMXX-ih_20000007-2spk_S1_S4-BackgroundMusic_Rain_Hail_Ignition-DifferentGender.png" alt >
<audio src="test_audio_ciavsr/baseline/final_select/C011-ICAVSP-00007-HKUSTXXX-XXXMXX-ih_20000007-2spk_S1_S4-BackgroundMusic_Rain_Hail_Ignition-DifferentGender.wav" controls="controls">
  Your browser does not support the audio element.
</audio>
</td>
</tr>
<tr>
<th colspan="2">Audio-visual Mask-based MVDR + <br> Low Rank <br> (Sys. 2 in TABLE VI in the submitted paper)</th>
<th colspan="2">1.41</th>
<td style="text-align:center">
    <img src="test_audio_ciavsr/low_rank/final_select/C010-ICAVSP-00009-HKUSTXXX-XXXFXX-ih_10000040-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.png" alt >
    <audio src="test_audio_ciavsr/low_rank/final_select/C010-ICAVSP-00009-HKUSTXXX-XXXFXX-ih_10000040-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.wav" controls="controls">
        Your browser does not support the audio element.
    </audio>
</td>
<td style="text-align:center">
  <img src="test_audio_ciavsr/low_rank/final_select/C010-ICAVSP-00015-HKUSTXXX-XXXMXX-ih_20000090-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.png" alt >
  <audio src="test_audio_ciavsr/low_rank/final_select/C010-ICAVSP-00015-HKUSTXXX-XXXMXX-ih_20000090-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.wav" controls="controls">
      Your browser does not support the audio element.
  </audio>
</td>
<td style="text-align:center">
<img src="test_audio_ciavsr/low_rank/final_select/C010-ICAVSP-00023-HKUSTXXX-XXXFXX-ih_20000098-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.png" alt >
<audio src="test_audio_ciavsr/low_rank/final_select/C010-ICAVSP-00023-HKUSTXXX-XXXFXX-ih_20000098-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.wav" controls="controls">
    Your browser does not support the audio element.
</audio>
</td>
<td style="text-align:center">
<img src="test_audio_ciavsr/low_rank/final_select/C011-ICAVSP-00007-HKUSTXXX-XXXMXX-ih_20000007-2spk_S1_S4-BackgroundMusic_Rain_Hail_Ignition-DifferentGender.png" alt >
<audio src="test_audio_ciavsr/low_rank/final_select/C011-ICAVSP-00007-HKUSTXXX-XXXMXX-ih_20000007-2spk_S1_S4-BackgroundMusic_Rain_Hail_Ignition-DifferentGender.wav" controls="controls">
  Your browser does not support the audio element.
</audio>
</td>
</tr>
<tr>
<th colspan="2">Audio-visual Mask-based MVDR + <br>Low Rank + <br> Penalized NAS <br> (Sys. 4 in TABLE VI in the submitted paper)</th>
<th colspan="2">1.70</th>
<td style="text-align:center">
  <img src="test_audio_ciavsr/low_rank+nas/final_select/C010-ICAVSP-00009-HKUSTXXX-XXXFXX-ih_10000040-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.png" alt >
  <audio src="test_audio_ciavsr/low_rank+nas/final_select/C010-ICAVSP-00009-HKUSTXXX-XXXFXX-ih_10000040-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.wav" controls="controls">
      Your browser does not support the audio element.
  </audio>
</td>
<td style="text-align:center">
<img src="test_audio_ciavsr/low_rank+nas/final_select/C010-ICAVSP-00015-HKUSTXXX-XXXMXX-ih_20000090-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.png" alt >
<audio src="test_audio_ciavsr/low_rank+nas/final_select/C010-ICAVSP-00015-HKUSTXXX-XXXMXX-ih_20000090-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.wav" controls="controls">
    Your browser does not support the audio element.
</audio>
</td>
<td style="text-align:center">
<img src="test_audio_ciavsr/low_rank+nas/final_select/C010-ICAVSP-00023-HKUSTXXX-XXXFXX-ih_20000098-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.png" alt >
<audio src="test_audio_ciavsr/low_rank+nas/final_select/C010-ICAVSP-00023-HKUSTXXX-XXXFXX-ih_20000098-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.wav" controls="controls">
  Your browser does not support the audio element.
</audio>
</td>
<td style="text-align:center">
<img src="test_audio_ciavsr/low_rank+nas/final_select/C011-ICAVSP-00007-HKUSTXXX-XXXMXX-ih_20000007-2spk_S1_S4-BackgroundMusic_Rain_Hail_Ignition-DifferentGender.png" alt >
<audio src="test_audio_ciavsr/low_rank+nas/final_select/C011-ICAVSP-00007-HKUSTXXX-XXXMXX-ih_20000007-2spk_S1_S4-BackgroundMusic_Rain_Hail_Ignition-DifferentGender.wav" controls="controls">
Your browser does not support the audio element.
</audio>
</td>
</tr>
<tr>
<th colspan="2">Audio-visual Mask-based MVDR + <br>Low Rank + <br> Parameter Sharing <br> (Sys. 5 in TABLE VI in the submitted paper)</th>
<th colspan="2">2.71</th>
<td style="text-align:center">
<img src="test_audio_ciavsr/low_rank+parameter_sharing/final_select/C010-ICAVSP-00009-HKUSTXXX-XXXFXX-ih_10000040-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.png" alt >
<audio src="test_audio_ciavsr/low_rank+parameter_sharing/final_select/C010-ICAVSP-00009-HKUSTXXX-XXXFXX-ih_10000040-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.wav" controls="controls">
    Your browser does not support the audio element.
</audio>
</td>
<td style="text-align:center">
<img src="test_audio_ciavsr/low_rank+parameter_sharing/final_select/C010-ICAVSP-00015-HKUSTXXX-XXXMXX-ih_20000090-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.png" alt >
<audio src="test_audio_ciavsr/low_rank+parameter_sharing/final_select/C010-ICAVSP-00015-HKUSTXXX-XXXMXX-ih_20000090-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.wav" controls="controls">
  Your browser does not support the audio element.
</audio>
</td>
<td style="text-align:center">
<img src="test_audio_ciavsr/low_rank+parameter_sharing/final_select/C010-ICAVSP-00023-HKUSTXXX-XXXFXX-ih_20000098-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.png" alt >
<audio src="test_audio_ciavsr/low_rank+parameter_sharing/final_select/C010-ICAVSP-00023-HKUSTXXX-XXXFXX-ih_20000098-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.wav" controls="controls">
Your browser does not support the audio element.
</audio>
</td>
<td style="text-align:center">
<img src="test_audio_ciavsr/low_rank+parameter_sharing/final_select/C011-ICAVSP-00007-HKUSTXXX-XXXMXX-ih_20000007-2spk_S1_S4-BackgroundMusic_Rain_Hail_Ignition-DifferentGender.png" alt >
<audio src="test_audio_ciavsr/low_rank+parameter_sharing/final_select/C011-ICAVSP-00007-HKUSTXXX-XXXMXX-ih_20000007-2spk_S1_S4-BackgroundMusic_Rain_Hail_Ignition-DifferentGender.wav" controls="controls">
Your browser does not support the audio element.
</audio>
</td>
</tr>
<tr>
<th colspan="2">Audio-visual Mask-based MVDR + <br>Low Rank + <br> Parameter Sharing + <br> KL Divergence Based <br> Mixed Precision Quantization <br> (Sys. 16 in TABLE VI in the submitted paper)</th>
<th colspan="2">13.84</th>
<td style="text-align:center">
<img src="test_audio_ciavsr/low_rank+parameter_sharing_kl_based_quantization/final_selected/C010-ICAVSP-00009-HKUSTXXX-XXXFXX-ih_10000040-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.png" alt >
<audio src="test_audio_ciavsr/low_rank+parameter_sharing_kl_based_quantization/final_selected/C010-ICAVSP-00009-HKUSTXXX-XXXFXX-ih_10000040-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.wav" controls="controls">
  Your browser does not support the audio element.
</audio>
</td>
<td style="text-align:center">
<img src="test_audio_ciavsr/low_rank+parameter_sharing_kl_based_quantization/final_selected/C010-ICAVSP-00015-HKUSTXXX-XXXMXX-ih_20000090-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.png" alt >
<audio src="test_audio_ciavsr/low_rank+parameter_sharing_kl_based_quantization/final_selected/C010-ICAVSP-00015-HKUSTXXX-XXXMXX-ih_20000090-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.wav" controls="controls">
Your browser does not support the audio element.
</audio>
</td>
<td style="text-align:center">
<img src="test_audio_ciavsr/low_rank+parameter_sharing_kl_based_quantization/final_selected/C010-ICAVSP-00023-HKUSTXXX-XXXFXX-ih_20000098-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.png" alt >
<audio src="test_audio_ciavsr/low_rank+parameter_sharing_kl_based_quantization/final_selected/C010-ICAVSP-00023-HKUSTXXX-XXXFXX-ih_20000098-2spk_S1_S3-WindscreenWiper_Horn_RoadAmbiance_Alarm_CarDoor-SameGender.wav" controls="controls">
Your browser does not support the audio element.
</audio>
</td>
<td style="text-align:center">
<img src="test_audio_ciavsr/low_rank+parameter_sharing_kl_based_quantization/final_selected/C011-ICAVSP-00007-HKUSTXXX-XXXMXX-ih_20000007-2spk_S1_S4-BackgroundMusic_Rain_Hail_Ignition-DifferentGender.png" alt >
<audio src="test_audio_ciavsr/low_rank+parameter_sharing_kl_based_quantization/final_selected/C011-ICAVSP-00007-HKUSTXXX-XXXMXX-ih_20000007-2spk_S1_S4-BackgroundMusic_Rain_Hail_Ignition-DifferentGender.wav" controls="controls">
Your browser does not support the audio element.
</audio>
</td>
</tr>
      </table>
      </div>
      <h3><a name="sectionV">V. Reference</a></h3>
      <p> [1] J. Yu et al., “Audio-Visual Multi-Channel Integration and Recognition of Overlapped Speech,” IEEE T AUDIO SPEECH, 2021.</p>
      <p> [2] J. Xu et al., “Mixed Precision DNN Quantization for Overlapped Speech Separation and Recognition,” in ICASSP, 2022.</p>
      <p> [3] J. Son Chung et al., “Lip Reading Sentences in the Wild,” in CVPR, 2017.</p>
      <p> [4] L. Gillick et al., “Some statistical issues in the comparison of speech recognition algorithms,” in ICASSP, 1989.</p>
      <p> [5] W. Dai et al., “CI-AVSR: A Cantonese Audio-Visual Speech Datasetfor In-car Command Recognition,” in LREC, 2022.</p>
    </body>
</div>
</html>