import numpy as np

np.random.seed(42)

x = np.random.uniform(-10, 10, size=(1000, 2))
y = (((x**2).sum(axis=1) ** 0.5) <= 5).astype(int)


import matplotlib.pyplot as plt

plt.figure(figsize=(7, 7), dpi=80)
plt.scatter(x[y == 0][:, 0], x[y == 0][:, 1])
plt.scatter(x[y == 1][:, 0], x[y == 1][:, 1])

plt.xlabel("x_1")
plt.ylabel("x_2")
plt.legend(["y=0", "y=1"]);


from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x, y, stratify=y, random_state=42)


from sklearn.linear_model import LogisticRegression

lr = LogisticRegression(class_weight="balanced")
lr.fit(x_train, y_train)

LogisticRegression(class_weight='balanced')

LogisticRegression(class_weight='balanced')


from mlxtend.plotting import plot_decision_regions

plt.figure(figsize=(7, 7), dpi=80)
plot_decision_regions(x_test, y_test, clf=lr, legend=2)
plt.xlabel("x_1")
plt.ylabel("x_2")
plt.title("LogReg on test data")
plt.show()


from sklearn.metrics import f1_score

pred = lr.predict(x_test)
f1_lr = f1_score(y_test, pred)
print(f"F1-score for naive model: {round(f1_lr, 4)}")

F1-score for naive model: 0.2486


empiric_center = x_train[y_train == 1].mean(axis=0)
print(f"Empiric value of the center: {empiric_center}")

Empiric value of the center: [-0.03981501  0.40565097]


plt.figure(figsize=(7, 7), dpi=80)
plt.scatter(x[y == 0][:, 0], x[y == 0][:, 1])
plt.scatter(x[y == 1][:, 0], x[y == 1][:, 1])
plt.scatter(empiric_center[0], empiric_center[1], c="r")
plt.scatter(0, 0, c="g")


plt.xlabel("x_1")
plt.ylabel("x_2")
plt.legend(["y=1", "y=0", "empiric center", "real center"]);


x_new = ((x - empiric_center) ** 2).sum(axis=1) ** 0.5
x_train_new = ((x_train - empiric_center) ** 2).sum(axis=1) ** 0.5
x_test_new = ((x_test - empiric_center) ** 2).sum(axis=1) ** 0.5


plt.figure(figsize=(8, 6), dpi=80)
plt.hist(x_new[y == 0], bins=20, alpha=0.7)
plt.hist(x_new[y == 1], bins=20, alpha=0.7)

plt.ylabel("Sample count")
plt.xlabel("Distance to center")
plt.legend(["y=0", "y=1"]);


lr = LogisticRegression(class_weight="balanced")
lr.fit(x_train_new.reshape(-1, 1), y_train)
pred = lr.predict(x_test_new.reshape(-1, 1))
f1_rbf = f1_score(y_test, pred)
print(f"F1-score for RBF model: {round(f1_rbf, 4)}")

F1-score for RBF model: 0.92


y_new = x[:, 0] > 0


plt.figure(figsize=(8, 6), dpi=80)
plt.hist(x_new[y_new == 0], bins=20, alpha=0.7)
plt.hist(x_new[y_new == 1], bins=20, alpha=0.7)

plt.ylabel("Sample count")
plt.xlabel("Distance to center")
plt.legend(["y_new=0", "y_new=1"])

plt.show()


import torchvision
from torchvision.datasets import MNIST
from IPython.display import clear_output

root = "./data"

train_set = MNIST(
    root=root, train=True, transform=torchvision.transforms.ToTensor(), download=True
)
test_set = MNIST(
    root=root, train=False, transform=torchvision.transforms.ToTensor(), download=True
)
clear_output()


x_train = train_set.data.numpy()
y_train = train_set.targets.numpy()
x_test = test_set.data.numpy()
y_test = test_set.targets.numpy()

x_train, x_test = x_train / 255.0, x_test / 255.0  # normalize data to [0; 1]
x_train_shape = x_train.shape
print("Initial shape ", x_train_shape)
x_train_flatten = x_train.reshape(
    -1, x_train_shape[1] * x_train_shape[2]
)  #  reshape to vector, 28*28 => 784
print("Reshaped to ", x_train_flatten.shape)

Initial shape  (60000, 28, 28)
Reshaped to  (60000, 784)


fig, ax = plt.subplots(ncols=2, figsize=(10, 4))
ax[0].imshow(x_train[0])
ax[1].imshow(x_train_flatten[0].reshape(1, -1), aspect=50)
ax[0].set_title("Original image")
ax[1].set_title("Flattened image");


from sklearn.decomposition import PCA

pca = PCA(0.90)
x_train_encoded = pca.fit_transform(x_train_flatten)
print("Encoded features ", pca.n_components_)

Encoded features  87


x_test_shape = x_test.shape
x_test_flat = x_test.reshape(-1, x_test_shape[1] * x_test_shape[2])
x_test_encoded = pca.transform(x_test_flat)
x_test_decoded = pca.inverse_transform(x_test_encoded).reshape(x_test_shape)
print("x_test_decoded shape is ", x_test_decoded.shape)

x_test_decoded shape is  (10000, 28, 28)


def plot_imgs(imgs, title):
    fig = plt.figure(figsize=(16, 3))
    columns = imgs.shape[0]
    rows = 1
    for i in range(columns):
        fig.add_subplot(rows, columns, i + 1)
        plt.imshow(imgs[i], cmap="gray_r", clim=(0, 1))
    fig.suptitle(title)
    plt.show()


np.random.seed(42)

sample_indices = np.random.choice(x_test.shape[0], 6)
samples_orig = x_test[sample_indices]
samples_decoded = x_test_decoded[sample_indices]
plot_imgs(samples_orig, "Original x_test")
plot_imgs(samples_decoded, "PCA encoded-decoded x_test")


from skimage.util import random_noise

np.random.seed(42)

x_test_noisy = random_noise(x_test, mode="gaussian")
samples_noisy = x_test_noisy[sample_indices]
plot_imgs(samples_noisy, "x_test with added noise")


def PCArecode(dataset):
    dataset_flat = dataset.reshape(-1, dataset.shape[1] * dataset.shape[2])
    encoded = pca.transform(dataset_flat)
    decoded = pca.inverse_transform(encoded).reshape(dataset.shape)
    return decoded


x_filtered = PCArecode(x_test_noisy)
samples_filtered = x_filtered[sample_indices]
plot_imgs(samples_filtered, "PCA denoised x_test")


def plot_samples(*args, invert_colors=True, digit_size=28, name=None, single_size=2):
    args = [x.squeeze() for x in args]
    n = min([x.shape[0] for x in args])
    figure = np.zeros((digit_size * len(args), digit_size * n))

    for i in range(n):
        for j in range(len(args)):
            figure[
                j * digit_size : (j + 1) * digit_size,
                i * digit_size : (i + 1) * digit_size,
            ] = args[j][i].squeeze()

    if invert_colors:
        figure = 1 - figure

    plt.figure(figsize=(single_size * n, single_size * len(args)))

    plt.imshow(figure, cmap="Greys_r", clim=(0, 1))

    plt.grid(False)
    ax = plt.gca()
    ax.get_xaxis().set_visible(False)
    ax.get_yaxis().set_visible(False)
    if name is not None:
        plt.savefig(name)
    plt.show()


plot_samples(samples_noisy, samples_filtered)


def pca_latent(dataset):
    dataset_flat = dataset.reshape(-1, dataset.shape[1] * dataset.shape[2])
    return pca.transform(dataset_flat)


def plot_manifold(latent_r, labels=None, alpha=0.9, title=None):
    plt.figure(figsize=(8, 8))
    if labels is None:
        plt.scatter(latent_r[:, 0], latent_r[:, 1], alpha=alpha)
        if title:
            plt.title(title)
    else:
        plt.scatter(latent_r[:, 0], latent_r[:, 1], c=labels, cmap="tab10", alpha=alpha)
        plt.colorbar()
        if title:
            plt.title(title)
    plt.show()


latent_r = pca_latent(x_test)
plot_manifold(latent_r, y_test, title="PCA manifold")


!pip install -q umap-learn
clear_output()


import umap
from sklearn.preprocessing import StandardScaler

scaled_latent_r = StandardScaler().fit_transform(latent_r)
reducer = umap.UMAP()
latent_r_2d = reducer.fit_transform(scaled_latent_r)
plot_manifold(latent_r_2d, y_test, title="2D UMAP over PCA manifold")


import torch.nn as nn


class Encoder(nn.Module):
    def __init__(self, latent_dim):
        super().__init__()
        self.latent_dim = latent_dim  # latent space size
        hidden_dims = [32, 64, 128, 256, 512]  # num of filters in layers
        modules = []
        in_channels = 1  # initial value of channels
        for h_dim in hidden_dims[:-1]:  # conv layers
            modules.append(
                nn.Sequential(
                    nn.Conv2d(
                        in_channels=in_channels,  # num of input channels
                        out_channels=h_dim,  # num of output channels
                        kernel_size=3,
                        stride=2,  # convolution kernel step
                        padding=1,  # save shape
                    ),
                    nn.BatchNorm2d(h_dim),
                    nn.LeakyReLU(),
                )
            )
            in_channels = h_dim  # changing number of input channels for next iteration

        modules.append(
            nn.Sequential(
                nn.Conv2d(
                    in_channels=256, out_channels=512, kernel_size=1
                ),  # changing the kernel size, because  size of the array (2*2)
                nn.BatchNorm2d(512),
                nn.LeakyReLU(),
            )
        )
        modules.append(nn.Flatten())  # to vector, size 512 * 2*2 = 2048
        modules.append(nn.Linear(512 * 2 * 2, latent_dim))

        self.encoder = nn.Sequential(*modules)

    def forward(self, x):
        x = self.encoder(x)
        return x


class Decoder(nn.Module):
    def __init__(self, latent_dim):
        super().__init__()

        hidden_dims = [512, 256, 128, 64, 32]  # num of filters in layers
        self.linear = nn.Linear(in_features=latent_dim, out_features=512)

        modules = []
        for i in range(len(hidden_dims) - 1):  # define ConvTransopse layers
            modules.append(
                nn.Sequential(
                    nn.ConvTranspose2d(
                        in_channels=hidden_dims[i],
                        out_channels=hidden_dims[i + 1],
                        kernel_size=3,
                        stride=2,
                        padding=1,
                        output_padding=1,
                    ),
                    nn.BatchNorm2d(hidden_dims[i + 1]),
                    nn.LeakyReLU(),
                )
            )

        modules.append(
            nn.Sequential(
                nn.ConvTranspose2d(
                    in_channels=hidden_dims[-1],
                    out_channels=hidden_dims[-1],
                    kernel_size=3,
                    stride=2,
                    padding=1,
                    output_padding=1,
                ),
                nn.BatchNorm2d(hidden_dims[-1]),
                nn.LeakyReLU(),
                nn.Conv2d(
                    in_channels=hidden_dims[-1],
                    out_channels=1,
                    kernel_size=7,
                    padding=1,
                ),
                nn.Sigmoid(),
            )
        )

        self.decoder = nn.Sequential(*modules)

    def forward(self, x):
        x = self.linear(x)  # from latents space to Linear
        x = x.view(-1, 512, 1, 1)  # reshape
        x = self.decoder(x)  # reconstruction
        return x


import torch.nn.functional as F

"""
Function to train model, parameters:
  encoder - encoder model
  decoder - decoder model
  loader - data loader
  optimizer - optimizer
  single_pass_handler - function for runing data through AE,
                        returns latent representation
                        and reconstructed image
  loss_handler - loss function
  epoch - number of current epoch, use for print log
  log_interval - log printing interval
"""


def train(
    encoder,
    decoder,
    loader,
    optimizer,
    single_pass_handler,
    loss_handler,
    epoch,
    log_interval=500,
):
    for batch_idx, (data, labels) in enumerate(loader):
        batch_size = data.size(0)
        optimizer.zero_grad()
        data = data.to(device)
        labels = labels.to(device)

        latent, recon = single_pass_handler(
            encoder, decoder, data, labels
        )  # latent vector and reconstructed image

        loss = loss_handler(data, recon, latent)  # compute loss
        loss.backward()
        optimizer.step()
        if batch_idx % log_interval == 0:
            print(
                "Train Epoch: {} [{}/{} ({:.0f}%)]".format(
                    epoch,
                    batch_idx * len(data),
                    len(loader.dataset),
                    100.0 * batch_idx / len(loader),
                ).ljust(40),
                "Loss: {:.6f}".format(loss.item()),
            )


def ae_pass_handler(encoder, decoder, data, *args, **kwargs):
    latent = encoder(data)
    recon = decoder(latent)
    return latent, recon


def ae_loss_handler(data, recon, *args, **kwargs):
    return F.binary_cross_entropy(recon, data)


import torch

torch.manual_seed(42)

batch_size = 64
train_loader = torch.utils.data.DataLoader(
    train_set, batch_size=batch_size, shuffle=True
)

test_loader = torch.utils.data.DataLoader(
    test_set, batch_size=batch_size, shuffle=False
)


import torch.optim as optim
from itertools import chain

use_cuda = torch.cuda.is_available()
device = torch.device("cuda" if use_cuda else "cpu")
torch.manual_seed(42)

latent_dim = 2  # size of latent space
learning_rate = 1e-4
encoder = Encoder(latent_dim=latent_dim)
decoder = Decoder(latent_dim=latent_dim)

encoder = encoder.to(device)
decoder = decoder.to(device)

optimizer = optim.Adam(
    chain(encoder.parameters(), decoder.parameters()), lr=learning_rate
)


from torchsummary import summary

print(">>> Encoder")
print(summary(encoder, (1, 28, 28)))
print(">>> Decoder")
print(summary(decoder, (1, 2)))

>>> Encoder
----------------------------------------------------------------
        Layer (type)               Output Shape         Param #
================================================================
            Conv2d-1           [-1, 32, 14, 14]             320
       BatchNorm2d-2           [-1, 32, 14, 14]              64
         LeakyReLU-3           [-1, 32, 14, 14]               0
            Conv2d-4             [-1, 64, 7, 7]          18,496
       BatchNorm2d-5             [-1, 64, 7, 7]             128
         LeakyReLU-6             [-1, 64, 7, 7]               0
            Conv2d-7            [-1, 128, 4, 4]          73,856
       BatchNorm2d-8            [-1, 128, 4, 4]             256
         LeakyReLU-9            [-1, 128, 4, 4]               0
           Conv2d-10            [-1, 256, 2, 2]         295,168
      BatchNorm2d-11            [-1, 256, 2, 2]             512
        LeakyReLU-12            [-1, 256, 2, 2]               0
           Conv2d-13            [-1, 512, 2, 2]         131,584
      BatchNorm2d-14            [-1, 512, 2, 2]           1,024
        LeakyReLU-15            [-1, 512, 2, 2]               0
          Flatten-16                 [-1, 2048]               0
           Linear-17                    [-1, 2]           4,098
================================================================
Total params: 525,506
Trainable params: 525,506
Non-trainable params: 0
----------------------------------------------------------------
Input size (MB): 0.00
Forward/backward pass size (MB): 0.35
Params size (MB): 2.00
Estimated Total Size (MB): 2.36
----------------------------------------------------------------
None
>>> Decoder
----------------------------------------------------------------
        Layer (type)               Output Shape         Param #
================================================================
            Linear-1               [-1, 1, 512]           1,536
   ConvTranspose2d-2            [-1, 256, 2, 2]       1,179,904
       BatchNorm2d-3            [-1, 256, 2, 2]             512
         LeakyReLU-4            [-1, 256, 2, 2]               0
   ConvTranspose2d-5            [-1, 128, 4, 4]         295,040
       BatchNorm2d-6            [-1, 128, 4, 4]             256
         LeakyReLU-7            [-1, 128, 4, 4]               0
   ConvTranspose2d-8             [-1, 64, 8, 8]          73,792
       BatchNorm2d-9             [-1, 64, 8, 8]             128
        LeakyReLU-10             [-1, 64, 8, 8]               0
  ConvTranspose2d-11           [-1, 32, 16, 16]          18,464
      BatchNorm2d-12           [-1, 32, 16, 16]              64
        LeakyReLU-13           [-1, 32, 16, 16]               0
  ConvTranspose2d-14           [-1, 32, 32, 32]           9,248
      BatchNorm2d-15           [-1, 32, 32, 32]              64
        LeakyReLU-16           [-1, 32, 32, 32]               0
           Conv2d-17            [-1, 1, 28, 28]           1,569
          Sigmoid-18            [-1, 1, 28, 28]               0
================================================================
Total params: 1,580,577
Trainable params: 1,580,577
Non-trainable params: 0
----------------------------------------------------------------
Input size (MB): 0.00
Forward/backward pass size (MB): 1.12
Params size (MB): 6.03
Estimated Total Size (MB): 7.15
----------------------------------------------------------------
None


for i in range(1, 6):
    train(
        encoder=encoder,
        decoder=decoder,
        optimizer=optimizer,
        loader=train_loader,
        epoch=i,
        single_pass_handler=ae_pass_handler,
        loss_handler=ae_loss_handler,
        log_interval=500,
    )

Train Epoch: 1 [0/60000 (0%)]            Loss: 0.652564
Train Epoch: 1 [32000/60000 (53%)]       Loss: 0.201293
Train Epoch: 2 [0/60000 (0%)]            Loss: 0.191058
Train Epoch: 2 [32000/60000 (53%)]       Loss: 0.182135
Train Epoch: 3 [0/60000 (0%)]            Loss: 0.190518
Train Epoch: 3 [32000/60000 (53%)]       Loss: 0.178135
Train Epoch: 4 [0/60000 (0%)]            Loss: 0.184595
Train Epoch: 4 [32000/60000 (53%)]       Loss: 0.179005
Train Epoch: 5 [0/60000 (0%)]            Loss: 0.179098
Train Epoch: 5 [32000/60000 (53%)]       Loss: 0.176504


"""
This function returns results of run data through AE
Parameters:
  encoder - encoder model
  decoder - decoder model
  loader - data loader
  single_pass_handler - function for runing data through AE,
                        returns latent representation
                        and reconstructed image
  return_real - return original images, True/False, default = True
  return_recon - return reconstructed images from decoder, True/False, default = True
  return_latent - return latent representation from encoder, True/False, default = True
  return_labels - return labels, True/False, default = True
"""


def run_eval(
    encoder,
    decoder,
    loader,
    single_pass_handler,
    return_real=True,
    return_recon=True,
    return_latent=True,
    return_labels=True,
):
    if return_real:
        real_list = []
    if return_recon:
        recon_list = []
    if return_latent:
        latent_list = []
    if return_labels:
        labels_list = []
    with torch.no_grad():
        for batch_idx, (data, labels) in enumerate(loader):
            if return_labels:
                labels_list.append(labels.numpy())
            if return_real:
                real_list.append(data.numpy())

            data = data.to(device)
            labels = labels.to(device)
            latent, recon = single_pass_handler(encoder, decoder, data, labels)

            if return_latent:
                latent_list.append(latent.cpu().numpy())
            if return_recon:
                recon_list.append(recon.cpu().numpy())

    result = {}
    if return_real:
        real = np.concatenate(real_list)
        result["real"] = real.squeeze()
    if return_latent:
        latent = np.concatenate(latent_list)
        result["latent"] = latent
    if return_recon:
        recon = np.concatenate(recon_list)
        result["recon"] = recon.squeeze()
    if return_labels:
        labels = np.concatenate(labels_list)
        result["labels"] = labels
    return result


encoder = encoder.eval()
decoder = decoder.eval()


run_res = run_eval(encoder, decoder, test_loader, ae_pass_handler)


plot_samples(run_res["real"][0:9], run_res["recon"][0:9])


plot_manifold(run_res["latent"], run_res["labels"], title="AE manifold (latent_dim=2)")


torch.manual_seed(42)

latent_dim = 24
learning_rate = 1e-4
encoder = Encoder(latent_dim=latent_dim)
decoder = Decoder(latent_dim=latent_dim)


encoder = encoder.to(device)
decoder = decoder.to(device)

optimizer = optim.Adam(
    chain(encoder.parameters(), decoder.parameters()), lr=learning_rate
)

for i in range(1, 6):
    train(
        encoder=encoder,
        decoder=decoder,
        optimizer=optimizer,
        loader=train_loader,
        epoch=i,
        single_pass_handler=ae_pass_handler,
        loss_handler=ae_loss_handler,
        log_interval=500,
    )

Train Epoch: 1 [0/60000 (0%)]            Loss: 0.721638
Train Epoch: 1 [32000/60000 (53%)]       Loss: 0.107531
Train Epoch: 2 [0/60000 (0%)]            Loss: 0.098195
Train Epoch: 2 [32000/60000 (53%)]       Loss: 0.089939
Train Epoch: 3 [0/60000 (0%)]            Loss: 0.083436
Train Epoch: 3 [32000/60000 (53%)]       Loss: 0.088458
Train Epoch: 4 [0/60000 (0%)]            Loss: 0.083222
Train Epoch: 4 [32000/60000 (53%)]       Loss: 0.081985
Train Epoch: 5 [0/60000 (0%)]            Loss: 0.080795
Train Epoch: 5 [32000/60000 (53%)]       Loss: 0.085994


class AddGaussianNoise:
    def __init__(self, mean=0.0, std=1.0):
        self.std = std
        self.mean = mean

    def __call__(self, tensor):
        return tensor + torch.randn(tensor.size()) * self.std + self.mean

    def __repr__(self):
        return self.__class__.__name__ + "(mean={0}, std={1})".format(
            self.mean, self.std
        )


torch.manual_seed(42)

test_noise_set = MNIST(
    root=root,
    train=False,
    transform=torchvision.transforms.Compose(
        [torchvision.transforms.ToTensor(), AddGaussianNoise(0.0, 0.30)]
    ),
    download=True,
)

test_noised_loader = torch.utils.data.DataLoader(
    torch.utils.data.Subset(test_noise_set, list(range(64))),
    batch_size=batch_size,
    shuffle=False,
)


run_res = run_eval(encoder, decoder, test_noised_loader, ae_pass_handler)


plot_samples(run_res["real"][0:9], run_res["recon"][0:9])


torch.manual_seed(42)

latent_dim = 24
learning_rate = 1e-4
encoder = Encoder(latent_dim=latent_dim)
decoder = Decoder(latent_dim=latent_dim)

encoder = encoder.to(device)
decoder = decoder.to(device)

optimizer = optim.Adam(
    chain(encoder.parameters(), decoder.parameters()),
    lr=learning_rate,
    weight_decay=1e-5,
)
for i in range(1, 6):
    train(
        encoder=encoder,
        decoder=decoder,
        optimizer=optimizer,
        loader=train_loader,
        epoch=i,
        single_pass_handler=ae_pass_handler,
        loss_handler=ae_loss_handler,
        log_interval=450,
    )

Train Epoch: 1 [0/60000 (0%)]            Loss: 0.721638
Train Epoch: 1 [28800/60000 (48%)]       Loss: 0.109821
Train Epoch: 1 [57600/60000 (96%)]       Loss: 0.095298
Train Epoch: 2 [0/60000 (0%)]            Loss: 0.097660
Train Epoch: 2 [28800/60000 (48%)]       Loss: 0.086182
Train Epoch: 2 [57600/60000 (96%)]       Loss: 0.084730
Train Epoch: 3 [0/60000 (0%)]            Loss: 0.084065
Train Epoch: 3 [28800/60000 (48%)]       Loss: 0.082797
Train Epoch: 3 [57600/60000 (96%)]       Loss: 0.083865
Train Epoch: 4 [0/60000 (0%)]            Loss: 0.082765
Train Epoch: 4 [28800/60000 (48%)]       Loss: 0.080701
Train Epoch: 4 [57600/60000 (96%)]       Loss: 0.080299
Train Epoch: 5 [0/60000 (0%)]            Loss: 0.080472
Train Epoch: 5 [28800/60000 (48%)]       Loss: 0.083011
Train Epoch: 5 [57600/60000 (96%)]       Loss: 0.081955


encoder = encoder.eval()
decoder = decoder.eval()


imgs, labels = next(iter(test_loader))


latent_space1 = encoder(imgs[labels == 7][0:1].to(device))
latent_space2 = encoder(imgs[labels == 6][0:1].to(device))


interp_steps = 10
weight = torch.linspace(0, 1, steps=interp_steps)
interp = torch.lerp(
    latent_space1.repeat(interp_steps, 1),
    latent_space2.repeat(interp_steps, 1),
    weight=weight.view(-1, 1).to(device),
)
iterp_imgs = decoder(interp)


_, axs = plt.subplots(nrows=1, ncols=interp_steps, figsize=(16, 4))
for label in range(0, interp_steps):
    figure = iterp_imgs[label].cpu().detach().numpy()
    figure = figure.reshape(28, 28)
    ax = axs[label]
    ax.imshow(figure, cmap="Greys_r", clim=(0, 1))
    ax.grid(False)
    ax.get_xaxis().set_visible(False)
    ax.get_yaxis().set_visible(False);


from PIL import Image

interp_steps = 200
weight = torch.linspace(0, 1, steps=interp_steps)
interp = torch.lerp(
    latent_space1.repeat(interp_steps, 1),
    latent_space2.repeat(interp_steps, 1),
    weight=weight.view(-1, 1).to(device),
)
iterp_imgs = decoder(interp)

resize_coeff = 10
imgs = np.squeeze(iterp_imgs.cpu().detach().numpy())
size = (imgs.shape[1] * resize_coeff, imgs.shape[2] * resize_coeff)


imgs = [
    Image.fromarray(np.uint8(img * 255)).resize(size).convert("RGB") for img in imgs
]
imgs[0].save(
    "ae_img.gif",
    save_all=True,
    append_images=imgs[1:],
    optimize=False,
    duration=40,
    loop=0,
)


from IPython.display import Image as iImage

iImage(open("ae_img.gif", "rb").read())


torch.manual_seed(42)


class VAEEncoder(Encoder):
    def __init__(self, latent_dim):
        if latent_dim % 2 != 0:  # check for the parity of the latent space
            raise Exception("Latent size for VAEEncoder must be even")
        super().__init__(latent_dim)


def vae_split(latent):
    size = latent.shape[1] // 2  # divide the latent representation into mu and log_var
    mu = latent[:, :size]
    log_var = latent[:, size:]
    return mu, log_var


def vae_reparametrize(mu, log_var):
    sigma = torch.exp(0.5 * log_var)
    eps = torch.randn(mu.shape[0], mu.shape[1]).to(device)
    return eps * sigma + mu


def vae_pass_handler(encoder, decoder, data, *args, **kwargs):
    latent = encoder(data)
    mu, log_var = vae_split(latent)
    sample = vae_reparametrize(mu, log_var)
    recon = decoder(sample)
    return latent, recon


def kld_loss(mu, log_var):
    var = log_var.exp()
    kl_loss = torch.mean(-0.5 * torch.sum(log_var - var - mu**2 + 1, dim=1), dim=0)
    return kl_loss


def kl_loss_handler(data, recon, latent, kld_weight=0.1, *args, **kwargs):
    mu, log_var = vae_split(latent)
    kl_loss = kld_loss(mu, log_var)
    return kld_weight * kl_loss


torch.manual_seed(42)

latent_dim = 2

learning_rate = 1e-4
encoder = VAEEncoder(latent_dim=latent_dim * 2)
decoder = Decoder(latent_dim=latent_dim)


encoder = encoder.to(device)
decoder = decoder.to(device)

optimizer = optim.Adam(
    chain(encoder.parameters(), decoder.parameters()), lr=learning_rate
)
for i in range(1, 3):
    train(
        encoder=encoder,
        decoder=decoder,
        optimizer=optimizer,
        loader=train_loader,
        epoch=i,
        single_pass_handler=vae_pass_handler,
        loss_handler=kl_loss_handler,
        log_interval=450,
    )

Train Epoch: 1 [0/60000 (0%)]            Loss: 0.027355
Train Epoch: 1 [28800/60000 (48%)]       Loss: 0.000234
Train Epoch: 1 [57600/60000 (96%)]       Loss: 0.000071
Train Epoch: 2 [0/60000 (0%)]            Loss: 0.000074
Train Epoch: 2 [28800/60000 (48%)]       Loss: 0.000038
Train Epoch: 2 [57600/60000 (96%)]       Loss: 0.000041


encoder = encoder.eval()
decoder = decoder.eval()


run_res = run_eval(encoder, decoder, test_loader, vae_pass_handler)


mu, log_var = vae_split(run_res["latent"])
var = np.exp(log_var)


plt.hist(mu.ravel())
plt.show()


plt.hist(var.ravel());


import seaborn as sns

sns.set_style("whitegrid")

pal = sns.color_palette("Paired", n_colors=10)
plot_manifold(mu, run_res["labels"], title="Manifold mu")


def vae_loss_handler(data, recon, latent, kld_weight=0.005, *args, **kwargs):
    mu, log_var = vae_split(latent)
    kl_loss = kld_loss(mu, log_var)
    # add bce loss(reconstruction)
    loss = F.binary_cross_entropy(recon, data) + kld_weight * kl_loss
    return loss


torch.manual_seed(42)

latent_dim = 2

learning_rate = 1e-4
encoder = VAEEncoder(latent_dim=latent_dim * 2)
decoder = Decoder(latent_dim=latent_dim)


encoder = encoder.to(device)
decoder = decoder.to(device)

optimizer = optim.Adam(
    chain(encoder.parameters(), decoder.parameters()), lr=learning_rate
)
for i in range(1, 6):
    train(
        encoder=encoder,
        decoder=decoder,
        optimizer=optimizer,
        loader=train_loader,
        epoch=i,
        single_pass_handler=vae_pass_handler,
        loss_handler=vae_loss_handler,
        log_interval=450,
    )

Train Epoch: 1 [0/60000 (0%)]            Loss: 0.848170
Train Epoch: 1 [28800/60000 (48%)]       Loss: 0.223265
Train Epoch: 1 [57600/60000 (96%)]       Loss: 0.217001
Train Epoch: 2 [0/60000 (0%)]            Loss: 0.206945
Train Epoch: 2 [28800/60000 (48%)]       Loss: 0.215345
Train Epoch: 2 [57600/60000 (96%)]       Loss: 0.209484
Train Epoch: 3 [0/60000 (0%)]            Loss: 0.206822
Train Epoch: 3 [28800/60000 (48%)]       Loss: 0.207551
Train Epoch: 3 [57600/60000 (96%)]       Loss: 0.221646
Train Epoch: 4 [0/60000 (0%)]            Loss: 0.216063
Train Epoch: 4 [28800/60000 (48%)]       Loss: 0.196483
Train Epoch: 4 [57600/60000 (96%)]       Loss: 0.204343
Train Epoch: 5 [0/60000 (0%)]            Loss: 0.206879
Train Epoch: 5 [28800/60000 (48%)]       Loss: 0.211418
Train Epoch: 5 [57600/60000 (96%)]       Loss: 0.211934


encoder = encoder.eval()
decoder = decoder.eval()


run_res = run_eval(encoder, decoder, test_loader, vae_pass_handler)


mu, log_var = vae_split(run_res["latent"])


pal = sns.color_palette("Paired", n_colors=10)
plot_manifold(mu, run_res["labels"])


torch.manual_seed(42)

latent_dim = 24
learning_rate = 1e-4

encoder = VAEEncoder(latent_dim=latent_dim * 2)
decoder = Decoder(latent_dim=latent_dim)

encoder = encoder.to(device)
decoder = decoder.to(device)

optimizer = optim.Adam(
    chain(encoder.parameters(), decoder.parameters()), lr=learning_rate
)
for i in range(1, 6):
    train(
        encoder=encoder,
        decoder=decoder,
        optimizer=optimizer,
        loader=train_loader,
        epoch=i,
        single_pass_handler=vae_pass_handler,
        loss_handler=vae_loss_handler,
        log_interval=450,
    )

Train Epoch: 1 [0/60000 (0%)]            Loss: 0.620591
Train Epoch: 1 [28800/60000 (48%)]       Loss: 0.213971
Train Epoch: 1 [57600/60000 (96%)]       Loss: 0.202555
Train Epoch: 2 [0/60000 (0%)]            Loss: 0.192386
Train Epoch: 2 [28800/60000 (48%)]       Loss: 0.195283
Train Epoch: 2 [57600/60000 (96%)]       Loss: 0.188361
Train Epoch: 3 [0/60000 (0%)]            Loss: 0.190172
Train Epoch: 3 [28800/60000 (48%)]       Loss: 0.193771
Train Epoch: 3 [57600/60000 (96%)]       Loss: 0.177115
Train Epoch: 4 [0/60000 (0%)]            Loss: 0.186943
Train Epoch: 4 [28800/60000 (48%)]       Loss: 0.185550
Train Epoch: 4 [57600/60000 (96%)]       Loss: 0.179029
Train Epoch: 5 [0/60000 (0%)]            Loss: 0.185708
Train Epoch: 5 [28800/60000 (48%)]       Loss: 0.178904
Train Epoch: 5 [57600/60000 (96%)]       Loss: 0.185438


encoder = encoder.eval()
decoder = decoder.eval()


imgs, labels = next(iter(test_loader))
latent_space1_mu, _ = vae_split(encoder(imgs[labels == 7][0:1].to(device)))
latent_space2_mu, _ = vae_split(encoder(imgs[labels == 6][0:1].to(device)))


interp_steps = 10
weight = torch.linspace(0, 1, steps=interp_steps)
interp = torch.lerp(
    latent_space1_mu.repeat(interp_steps, 1),
    latent_space2_mu.repeat(interp_steps, 1),
    weight=weight.view(-1, 1).to(device),
)
iterp_imgs = decoder(interp)
_, axs = plt.subplots(nrows=1, ncols=interp_steps, figsize=(16, 4))
for label in range(0, interp_steps):
    figure = iterp_imgs[label].cpu().detach().numpy()
    figure = figure.reshape(28, 28)
    ax = axs[label]
    ax.imshow(figure, cmap="Greys_r", clim=(0, 1))
    ax.grid(False)
    ax.get_xaxis().set_visible(False)
    ax.get_yaxis().set_visible(False);


from PIL import Image

interp_steps = 200
weight = torch.linspace(0, 1, steps=interp_steps)
interp = torch.lerp(
    latent_space1_mu.repeat(interp_steps, 1),
    latent_space2_mu.repeat(interp_steps, 1),
    weight=weight.view(-1, 1).to(device),
)
iterp_imgs = decoder(interp)


resize_coeff = 10
imgs = np.squeeze(iterp_imgs.cpu().detach().numpy())
size = (imgs.shape[1] * resize_coeff, imgs.shape[2] * resize_coeff)


imgs = [
    Image.fromarray(np.uint8(img * 255)).resize(size).convert("RGB") for img in imgs
]
imgs[0].save(
    "vae_img.gif",
    save_all=True,
    append_images=imgs[1:],
    optimize=False,
    duration=40,
    loop=0,
)


from IPython.display import Image as iImage

iImage(open("vae_img.gif", "rb").read())


run_res = run_eval(encoder, decoder, test_noised_loader, vae_pass_handler)
plot_samples(run_res["real"][0:9], run_res["recon"][0:9])


run_res = run_eval(encoder, decoder, test_loader, vae_pass_handler)
plot_samples(run_res["real"][0:9], run_res["recon"][0:9])


imgs, labels = next(iter(test_loader))
real_9_straight = imgs[labels == 9][6:7]  # find some straight "nine"
real_1_straight = imgs[labels == 1][3:4]  # find some straight "one"
real_1_tilted = imgs[labels == 1][0:1]    # find some tilted "one"


size = (256, 256)
Image.fromarray(np.uint8(np.squeeze(real_9_straight.numpy()) * 255)).resize(size)


Image.fromarray(np.uint8(np.squeeze(real_1_straight.numpy()) * 255)).resize(size)


Image.fromarray(np.uint8(np.squeeze(real_1_tilted.numpy()) * 255)).resize(size)


latent_9_straight, _ = vae_split(encoder(real_9_straight.to(device)))
latent_1_straight, _ = vae_split(encoder(real_1_straight.to(device)))
latent_1_tilted, _ = vae_split(encoder(real_1_tilted.to(device)))


latent_9_tilted = latent_9_straight - latent_1_straight + latent_1_tilted
gen_9_tilted = decoder(latent_9_tilted)


Image.fromarray(np.uint8(np.squeeze(gen_9_tilted.cpu().detach().numpy()) * 255)).resize(size)


np.random.seed(42)

# create dataset
x1 = np.linspace(-2.2, 2.2, 2000)
fx = np.sin(x1)
dots1 = np.vstack([x1, fx]).T

t = np.linspace(0, 2 * np.pi, num=2000)
dots2 = 0.5 * np.array([np.sin(t), np.cos(t)]).T + np.array([1.5, -0.5])[None, :]

dots = np.vstack([dots1, dots2])
noise = 0.06 * np.random.randn(*dots.shape)

labels = np.array([0] * x1.shape[0] + [1] * t.shape[0])
noised = dots + noise


# Visualization
colors = ["b"] * x1.shape[0] + ["g"] * t.shape[0]
plt.figure(figsize=(10, 6))
plt.xlim([-2.5, 2.5])
plt.ylim([-1.5, 1.5])
plt.scatter(noised[:, 0], noised[:, 1], c=colors)
plt.plot(dots1[:, 0], dots1[:, 1], color="red", linewidth=4)
plt.plot(dots2[:, 0], dots2[:, 1], color="yellow", linewidth=4)
plt.grid(False)


class SimpleEncoderDecoder(nn.Module):
    def __init__(self):
        super().__init__()
        self.encoder = nn.Sequential(
            nn.Linear(2, 32),
            nn.LeakyReLU(negative_slope=0.2),
            nn.Linear(32, 64),
            nn.LeakyReLU(negative_slope=0.2),
            nn.Linear(64, 1),
        )
        self.decoder = nn.Sequential(
            nn.Linear(1, 64),
            nn.LeakyReLU(negative_slope=0.2),
            nn.Linear(64, 32),
            nn.LeakyReLU(negative_slope=0.2),
            nn.Linear(32, 2),
        )

    def forward(self, x):
        x = self.encoder(x)
        x = self.decoder(x)
        return x


from sklearn.model_selection import train_test_split

x_train, x_test = train_test_split(noised, test_size=0.25, random_state=42)
x_train = torch.from_numpy(x_train).float()
x_test = torch.from_numpy(x_test).float()


from tqdm.notebook import tqdm

torch.manual_seed(42)

encdec = SimpleEncoderDecoder()
optimizer = optim.Adam(encdec.parameters())
criterion = nn.MSELoss()
scheduler = optim.lr_scheduler.ReduceLROnPlateau(
    optimizer, "min", patience=50
)  # to optimize learning rate


for epoch in tqdm(range(5000)):
    optimizer.zero_grad()
    x_restored = encdec(x_train)
    loss = criterion(x_train, x_restored)
    loss.backward()
    if optimizer.param_groups[0]["lr"] < 10e-7:  # if learning step becomes too small
        print(epoch)
        break

    with torch.no_grad():
        x_restored = encdec(x_test)
        val_loss = criterion(x_test, x_restored)
    scheduler.step(val_loss)
    optimizer.step()

  0%|          | 0/5000 [00:00<?, ?it/s]


print(val_loss)

tensor(0.0112)


with torch.no_grad():
    x_restored = encdec(x_test)
    dots_restored = x_restored.numpy()


plt.figure(figsize=(10, 6))
plt.plot(dots1[:, 0], dots1[:, 1], color="red", linewidth=4)
plt.plot(dots2[:, 0], dots2[:, 1], color="yellow", linewidth=4)
plt.scatter(noised[:, 0], noised[:, 1], c=colors)
plt.scatter(dots_restored[:, 0], dots_restored[:, 1], color="grey", linewidth=4)
plt.grid(False)


class SimpleConditionalEncoderDecoder(nn.Module):
    def __init__(self):
        super().__init__()
        self.encoder = nn.Sequential(
            nn.Linear(3, 32),
            nn.LeakyReLU(negative_slope=0.2),
            nn.Linear(32, 64),
            nn.LeakyReLU(negative_slope=0.2),
            nn.Linear(64, 1),
        )
        self.decoder = nn.Sequential(
            nn.Linear(2, 64),
            nn.LeakyReLU(negative_slope=0.2),
            nn.Linear(64, 32),
            nn.LeakyReLU(negative_slope=0.2),
            nn.Linear(32, 2),
        )

    def forward(self, x, y):
        x = torch.cat(
            [x, y.view(-1, 1)], dim=1
        )  # combine the labels with X, change the dimension of the labels
        z = self.encoder(x)
        x = torch.cat([z, y.view(-1, 1)], dim=1)
        x = self.decoder(x)
        return x


x_train, x_test, y_train, y_test = train_test_split(
    noised, labels, test_size=0.25, random_state=42
)
x_train = torch.from_numpy(x_train).float()
y_train = torch.from_numpy(y_train).float()
x_test = torch.from_numpy(x_test).float()
y_test = torch.from_numpy(y_test).float()


torch.manual_seed(42)

encdec = SimpleConditionalEncoderDecoder()
optimizer = optim.Adam(encdec.parameters())
criterion = nn.MSELoss()
scheduler = optim.lr_scheduler.ReduceLROnPlateau(optimizer, "min", patience=50)


for epoch in tqdm(range(5000)):
    optimizer.zero_grad()
    x_restored = encdec(x_train, y_train)
    loss = criterion(x_train, x_restored)
    loss.backward()
    if optimizer.param_groups[0]["lr"] < 10e-7:
        print(epoch)
        break

    with torch.no_grad():
        x_restored = encdec(x_test, y_test)
        val_loss = criterion(x_test, x_restored)
    scheduler.step(val_loss)
    optimizer.step()

  0%|          | 0/5000 [00:00<?, ?it/s]


print(val_loss)

tensor(0.0053)


with torch.no_grad():
    X_restored = encdec(x_test, y_test)
    dots_restored = X_restored.numpy()


plt.figure(figsize=(10, 6))
plt.plot(dots1[:, 0], dots1[:, 1], color="red", linewidth=4)
plt.plot(dots2[:, 0], dots2[:, 1], color="yellow", linewidth=4)
plt.scatter(noised[:, 0], noised[:, 1], c=colors)
plt.scatter(dots_restored[:, 0], dots_restored[:, 1], color="grey", linewidth=4)
plt.grid(False)


class CDecoder(nn.Module):
    def __init__(self, latent_dim):
        super().__init__()

        hidden_dims = [512, 256, 128, 64, 32]
        self.linear = nn.Linear(
            in_features=latent_dim + 10,  # add +10(num of labels) to latent space
            out_features=hidden_dims[0],
        )

        modules = []
        for i in range(len(hidden_dims) - 1):
            modules.append(
                nn.Sequential(
                    nn.ConvTranspose2d(
                        hidden_dims[i],
                        hidden_dims[i + 1],
                        kernel_size=3,
                        stride=2,
                        padding=1,
                        output_padding=1,
                    ),
                    nn.BatchNorm2d(hidden_dims[i + 1]),
                    nn.LeakyReLU(),
                )
            )

        modules.append(
            nn.Sequential(
                nn.ConvTranspose2d(
                    hidden_dims[-1],
                    hidden_dims[-1],
                    kernel_size=3,
                    stride=2,
                    padding=1,
                    output_padding=1,
                ),
                nn.BatchNorm2d(hidden_dims[-1]),
                nn.LeakyReLU(),
                nn.Conv2d(hidden_dims[-1], out_channels=1, kernel_size=7, padding=1),
                nn.Sigmoid(),
            )
        )

        self.decoder = nn.Sequential(*modules)

    def forward(self, x, lab):
        x = torch.cat([x, lab], dim=1)  # concatenate latent vector and label
        x = self.linear(x)
        x = x.view(-1, 512, 1, 1)
        x = self.decoder(x)
        return x


def cvae_pass_handler(encoder, decoder, data, label, *args, **kwargs):
    latent = encoder(data)
    mu, log_var = vae_split(latent)
    sample = vae_reparametrize(mu, log_var)
    label = torch.nn.functional.one_hot(label, num_classes=10)  # labels to ohe
    recon = decoder(sample, label)
    return latent, recon


torch.manual_seed(42)

latent_dim = 2

learning_rate = 1e-2
encoder = VAEEncoder(latent_dim=latent_dim * 2)
decoder = CDecoder(latent_dim=latent_dim)


encoder = encoder.to(device)
decoder = decoder.to(device)

optimizer = optim.Adam(
    chain(encoder.parameters(), decoder.parameters()), lr=learning_rate
)

for i in range(1, 6):
    train(
        encoder=encoder,
        decoder=decoder,
        optimizer=optimizer,
        loader=train_loader,
        epoch=i,
        single_pass_handler=cvae_pass_handler,
        loss_handler=vae_loss_handler,
        log_interval=450,
    )

Train Epoch: 1 [0/60000 (0%)]            Loss: 0.660004
Train Epoch: 1 [28800/60000 (48%)]       Loss: 0.200454
Train Epoch: 1 [57600/60000 (96%)]       Loss: 0.202574
Train Epoch: 2 [0/60000 (0%)]            Loss: 0.189119
Train Epoch: 2 [28800/60000 (48%)]       Loss: 0.182508
Train Epoch: 2 [57600/60000 (96%)]       Loss: 0.184041
Train Epoch: 3 [0/60000 (0%)]            Loss: 0.181480
Train Epoch: 3 [28800/60000 (48%)]       Loss: 0.190918
Train Epoch: 3 [57600/60000 (96%)]       Loss: 0.177304
Train Epoch: 4 [0/60000 (0%)]            Loss: 0.189897
Train Epoch: 4 [28800/60000 (48%)]       Loss: 0.174542
Train Epoch: 4 [57600/60000 (96%)]       Loss: 0.193535
Train Epoch: 5 [0/60000 (0%)]            Loss: 0.204862
Train Epoch: 5 [28800/60000 (48%)]       Loss: 0.195257
Train Epoch: 5 [57600/60000 (96%)]       Loss: 0.187902


encoder = encoder.eval()
decoder = decoder.eval()


run_res = run_eval(encoder, decoder, test_loader, cvae_pass_handler)


plot_manifold(run_res["latent"], run_res["labels"])


plot_manifold(run_res["latent"][run_res["labels"] == 4])


plot_manifold(run_res["latent"][run_res["labels"] == 9])


steps = 20
space1 = torch.linspace(-2, 2, steps)
space2 = torch.linspace(-2, 2, steps)
grid = torch.cartesian_prod(space1, space2)
label = torch.full((grid.shape[0],), 4)
label = torch.nn.functional.one_hot(label, num_classes=10)
with torch.no_grad():
    imgs = decoder(grid.to(device), label.to(device))
    imgs = imgs.cpu().numpy().squeeze()

plot_samples(
    *[imgs[x : x + steps] for x in range(0, steps * steps, steps)], single_size=0.35
)


steps = 20
space1 = torch.linspace(-2, 2, steps)
space2 = torch.linspace(-2, 2, steps)
grid = torch.cartesian_prod(space1, space2)
label = torch.full((grid.shape[0],), 9)
label = torch.nn.functional.one_hot(label, num_classes=10)
with torch.no_grad():
    imgs = decoder(grid.to(device), label.to(device))
    imgs = imgs.cpu().numpy().squeeze()

plot_samples(
    *[imgs[x : x + steps] for x in range(0, steps * steps, steps)], single_size=0.35
)


imgs, labels = next(iter(test_loader))
real = imgs[labels == 2][1:2]


size = (256, 256)
Image.fromarray(np.uint8(np.squeeze(real.numpy()) * 255)).resize(size)


torch.manual_seed(42)

sample_size = 10

mu, log_var = vae_split(encoder(real.to(device)))
sigma = torch.exp(0.5 * log_var)
z = torch.randn(sample_size, mu.shape[1]).to(device)
latent = z * sigma + mu

label = torch.full((sample_size,), 5)
label = torch.nn.functional.one_hot(label, num_classes=10)


with torch.no_grad():
    imgs = decoder(latent.to(device), label.to(device))
    imgs = np.squeeze(imgs.cpu().numpy())


plot_samples(imgs)

Автоэнкодер (AE)¶

Unsupervised learning¶

Representation learning¶

Снижение размерности¶

Архитектура автоэнкодера¶

Сжатие информации и потери¶

Manifold assumption¶

Метод главных компонент (PCA)¶

Аналогия AE и PCA¶

Очищение изображения от шумов¶

Добавление шума к исходной выборке¶

PCA для избавления от шума¶

Латентное представление цифр после PCA¶

Реализация автоэнкодера¶

Обнаружение аномалий¶

Предобучение на неразмеченных данных¶

Автоэнкодер как генератор и его ограничения. Плавная интерполяция¶

Вариационные автоэнкодеры (VAE)¶

Решение с помощью регуляризации¶

Реализация вариационного автоэнкодера¶

Первая модификация¶

Reparametrization trick¶

Вторая модификация¶

Дивергенция Кульбака-Лейблера¶

Только KL-дивергенция¶

Совмещаем ошибку восстановления и KL-дивергению¶

Векторная арифметика¶

Проблемы «ванильного» VAE¶

Автоэнкодеры с условием (CAE)¶

Мотивация¶

Несвязные компоненты и автокодировщик с условиями¶

Условные вариационные автоэнкодеры (CVAE)¶

Реализация вариационного автоэнкодера с условиями, CVAE¶

Генерация заданных цифр из латентного распределения¶

Генерация заданных цифр с переносом стиля¶

Разделение (disentangling) стиля и метки¶