feat: add loudness transform, alltransform, refactor into folders

flavioschneider · flavioschneider · commit 8701581e965e · 2022-08-16T16:39:55.000+02:00
diff --git a/audio_data_pytorch/__init__.py b/audio_data_pytorch/__init__.py
@@ -1,4 +1,2 @@
-from .ljspeech_dataset import LJSpeechDataset
-from .transforms import Crop, OverlapChannels, RandomCrop, Resample, Scale
-from .wav_dataset import WAVDataset
-from .youtube_dataset import YoutubeDataset
+from .datasets import *  # noqa
+from .transforms import *  # noqa
diff --git a/audio_data_pytorch/datasets/__init__.py b/audio_data_pytorch/datasets/__init__.py
@@ -0,0 +1,3 @@
+from .ljspeech_dataset import LJSpeechDataset
+from .wav_dataset import WAVDataset
+from .youtube_dataset import YoutubeDataset
diff --git a/audio_data_pytorch/datasets/ljspeech_dataset.py b/audio_data_pytorch/datasets/ljspeech_dataset.py
@@ -4,7 +4,7 @@
 import requests  # type: ignore
 from tqdm import tqdm
 
-from .utils import camel_to_snake
+from ..utils import camel_to_snake
 from .wav_dataset import WAVDataset
 
 
diff --git a/audio_data_pytorch/datasets/wav_dataset.py b/audio_data_pytorch/datasets/wav_dataset.py
diff --git a/audio_data_pytorch/datasets/youtube_dataset.py b/audio_data_pytorch/datasets/youtube_dataset.py
@@ -8,7 +8,7 @@
 from torch.nn import functional as F
 from tqdm import tqdm
 
-from .utils import camel_to_snake, exists
+from ..utils import camel_to_snake, exists
 from .wav_dataset import WAVDataset
 
 
diff --git a/audio_data_pytorch/transforms.py b/audio_data_pytorch/transforms.py
diff --git a/audio_data_pytorch/transforms/__init__.py b/audio_data_pytorch/transforms/__init__.py
@@ -0,0 +1,7 @@
+from .all import AllTransform
+from .crop import Crop
+from .loudness import Loudness
+from .overlap_channels import OverlapChannels
+from .randomcrop import RandomCrop
+from .resample import Resample
+from .scale import Scale
diff --git a/audio_data_pytorch/transforms/all.py b/audio_data_pytorch/transforms/all.py
@@ -0,0 +1,47 @@
+from typing import Optional
+
+from torch import Tensor, nn
+
+from ..utils import exists
+from .crop import Crop
+from .loudness import Loudness
+from .overlap_channels import OverlapChannels
+from .randomcrop import RandomCrop
+from .resample import Resample
+from .scale import Scale
+
+
+class AllTransform(nn.Module):
+    def __init__(
+        self,
+        source_rate: Optional[int] = None,
+        target_rate: Optional[int] = None,
+        crop_size: Optional[int] = None,
+        random_crop_size: Optional[int] = None,
+        loudness: Optional[int] = None,
+        scale: Optional[float] = None,
+        overlap_channels: bool = False,
+    ):
+        super().__init__()
+
+        message = "Both source_rate and target_rate must be provided"
+        assert not exists(source_rate) ^ exists(target_rate), message
+
+        message = "Loudness requires target_rate"
+        assert not exists(loudness) or exists(target_rate), message
+
+        self.transform = nn.Sequential(
+            Resample(source=source_rate, target=target_rate)  # type: ignore
+            if exists(source_rate) and source_rate != target_rate
+            else nn.Identity(),
+            RandomCrop(random_crop_size) if exists(random_crop_size) else nn.Identity(),
+            Crop(crop_size) if exists(crop_size) else nn.Identity(),
+            OverlapChannels() if overlap_channels else nn.Identity(),
+            Loudness(sampling_rate=target_rate, target=loudness)  # type: ignore
+            if exists(loudness)
+            else nn.Identity(),
+            Scale(scale) if exists(scale) else nn.Identity(),
+        )
+
+    def forward(self, x: Tensor) -> Tensor:
+        return self.transform(x)
diff --git a/audio_data_pytorch/transforms/crop.py b/audio_data_pytorch/transforms/crop.py
@@ -0,0 +1,22 @@
+import torch
+from torch import Tensor, nn
+
+
+class Crop(nn.Module):
+    """Crops waveform to fixed size"""
+
+    def __init__(self, size: int, start: int = 0) -> None:
+        super().__init__()
+        self.size = size
+        self.start = start
+
+    def forward(self, x: Tensor) -> Tensor:
+        x = x[:, self.start :]
+        channels, length = x.shape
+
+        if length < self.size:
+            padding_length = self.size - length
+            padding = torch.zeros(channels, padding_length).to(x)
+            return torch.cat([x, padding], dim=1)
+        else:
+            return x[:, 0 : self.size]
diff --git a/audio_data_pytorch/transforms/loudness.py b/audio_data_pytorch/transforms/loudness.py
@@ -0,0 +1,28 @@
+import pyloudnorm as pyln
+import torch
+from torch import Tensor, nn
+
+
+class Loudness(nn.Module):
+    """Normalizes to target loudness using BS.1770-4, requires pyloudnorm"""
+
+    def __init__(self, sampling_rate: int, target: float):
+        super().__init__()
+        self.sampling_rate = sampling_rate
+        self.target = target
+        self.meter = pyln.Meter(sampling_rate)
+
+    def forward(self, x: Tensor) -> Tensor:
+        channels, length = x.shape
+        # Measure sample loudness
+        x_numpy = x.numpy().T
+        loudness = self.meter.integrated_loudness(data=x_numpy)
+        # Don't normalize zeros sample (i.e. silence)
+        if loudness == -float("inf"):
+            return x
+        # Normalize sample loudness
+        x_normalized = pyln.normalize.loudness(
+            data=x_numpy, input_loudness=loudness, target_loudness=self.target
+        )
+        # Return normalized as torch Tensor
+        return torch.from_numpy(x_normalized.T)
diff --git a/audio_data_pytorch/transforms/overlap_channels.py b/audio_data_pytorch/transforms/overlap_channels.py
@@ -0,0 +1,9 @@
+import torch
+from torch import Tensor, nn
+
+
+class OverlapChannels(nn.Module):
+    """Overlaps all channels into one"""
+
+    def forward(self, x: Tensor) -> Tensor:
+        return torch.sum(x, dim=0, keepdim=True)  # 'c l -> 1 l'
diff --git a/audio_data_pytorch/transforms/randomcrop.py b/audio_data_pytorch/transforms/randomcrop.py
@@ -0,0 +1,27 @@
+import random
+
+import torch
+from torch import Tensor, nn
+
+
+class RandomCrop(nn.Module):
+    """Crops random chunk from the waveform"""
+
+    def __init__(self, size: int) -> None:
+        super().__init__()
+        self.size = size
+
+    def forward(self, x: Tensor) -> Tensor:
+        # Pick start position
+        length = x.shape[1]
+        start = random.randint(0, max(length - self.size, 0))
+        # Crop from random start
+        x = x[:, start:]
+        channels, length = x.shape
+        # Pad to end if not large enough, else crop end
+        if length < self.size:
+            padding_length = self.size - length
+            padding = torch.zeros(channels, padding_length).to(x)
+            return torch.cat([x, padding], dim=1)
+        else:
+            return x[:, 0 : self.size]
diff --git a/audio_data_pytorch/transforms/resample.py b/audio_data_pytorch/transforms/resample.py
@@ -0,0 +1,15 @@
+import torchaudio
+from torch import Tensor, nn
+
+
+class Resample(nn.Module):
+    """Resamples frequency of waveform"""
+
+    def __init__(self, source: int, target: int):
+        super().__init__()
+        self.transform = torchaudio.transforms.Resample(
+            orig_freq=source, new_freq=target
+        )
+
+    def forward(self, x: Tensor) -> Tensor:
+        return self.transform(x)
diff --git a/audio_data_pytorch/transforms/scale.py b/audio_data_pytorch/transforms/scale.py
@@ -0,0 +1,15 @@
+from torch import Tensor, nn
+
+
+class Scale(nn.Module):
+    """Scales waveform (change volume)"""
+
+    def __init__(
+        self,
+        scale: float,
+    ):
+        super().__init__()
+        self.scale = scale
+
+    def forward(self, x: Tensor) -> Tensor:
+        return x * self.scale
diff --git a/setup.py b/setup.py
@@ -3,7 +3,7 @@
 setup(
     name="audio-data-pytorch",
     packages=find_packages(exclude=[]),
-    version="0.0.1",
+    version="0.0.2",
     license="MIT",
     description="Audio Data - PyTorch",
     long_description_content_type="text/markdown",
@@ -17,7 +17,6 @@
         "data-science-types>=0.2",
         "requests",
         "tqdm",
-        "yt-dlp",
     ],
     classifiers=[
         "Development Status :: 4 - Beta",

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+from .ljspeech_dataset import LJSpeechDataset`
	`2`	`+from .wav_dataset import WAVDataset`
	`3`	`+from .youtube_dataset import YoutubeDataset`