AI anime generation using GANs

A highly interesting application of generative adversarial networks is image generation. One popular and challenging use case of image generation is creating anime faces. It's a great project that one can build while getting started with GANs. So, let's dive straight ahead and build one ourselves!

generator = Sequential(name='generator')
generator.add(layers.Dense(8 * 8 * 512, input_dim=100))
generator.add(layers.ReLU())
generator.add(layers.Reshape((8, 8, 512)))
generator.add(layers.Conv2DTranspose(256, (4, 4), strides=(2, 2), padding='same', kernel_initializer=keras.initializers.RandomNormal(mean=0.0, stddev=0.02)))
generator.add(layers.ReLU())
generator.add(layers.Conv2DTranspose(128, (4, 4), strides=(2, 2), padding='same', kernel_initializer=keras.initializers.RandomNormal(mean=0.0, stddev=0.02)))
generator.add(layers.ReLU())
generator.add(layers.Conv2DTranspose(64, (4, 4), strides=(2, 2), padding='same', kernel_initializer=keras.initializers.RandomNormal(mean=0.0, stddev=0.02)))
generator.add(layers.ReLU())
generator.add(layers.Conv2D(3, (4, 4), padding='same', activation='tanh'))
generator.summary()

discriminator = Sequential(name='discriminator')
input_shape = (64, 64, 3)
discriminator.add(layers.Conv2D(64, (4, 4), strides=(2, 2), padding='same', input_shape=input_shape))
discriminator.add(layers.BatchNormalization())
discriminator.add(layers.LeakyReLU(alpha=0.2))
discriminator.add(layers.Conv2D(128, (4, 4), strides=(2, 2), padding='same'))
discriminator.add(layers.BatchNormalization())
discriminator.add(layers.LeakyReLU(alpha=0.2))
discriminator.add(layers.Conv2D(128, (4, 4), strides=(2, 2), padding='same'))
discriminator.add(layers.BatchNormalization())
discriminator.add(layers.LeakyReLU(alpha=0.2))
discriminator.add(layers.Flatten())
discriminator.add(layers.Dropout(0.3))
discriminator.add(layers.Dense(1, activation='sigmoid'))
discriminator.summary()

DCGAN class

We define our custom DCGAN class inheriting from keras.Model. This class shows the training process between a generator and a discriminator.
The __init__ constructor initializes the DCGAN class with the generator, discriminator, and latent dimension. Let's go through the important keywords here.
- self.generator and self.discriminator: Store generator and discriminator models.
- self.latent_dim: Holds the dimension of random noise for the generator.
- self.discriminator_loss_metric and self.generator_loss_metric: Metrics to track losses.
The metrics property returns loss metrics for monitoring.
The compile method configures the optimizer and loss function for training.
The train_step method defines a training step for the DCGAN. Then it computes the batch size and generates random noise. It also uses gradient tape for differentiation.
Inside the gradient tape context, we calculate the following:
- Discriminator loss for real images and labels with slight noise.
- Discriminator loss for fake images.
- Combined discriminator loss as the average.
- Gradients of discriminator loss and update the discriminator's variables.
- Generator loss using fake images and gradients.
- Update the generator's variables.
Next, we update the discriminator and generator loss metrics.
We finally return the updated loss metrics for monitoring.

class DCGAN(keras.Model):
    def __init__(self, generator, discriminator, latent_dim):
        super(DCGAN, self).__init__()
        self.generator = generator
        self.discriminator = discriminator
        self.latent_dim = latent_dim
        self.discriminator_loss_metric = keras.metrics.Mean(name='discriminator_loss')
        self.generator_loss_metric = keras.metrics.Mean(name='generator_loss')
        
    @property
    def metrics(self):
        return [self.discriminator_loss_metric, self.generator_loss_metric]
    
    def compile(self, g_opt, d_opt, loss_fn):
        super(DCGAN, self).compile()
        self.g_opt = g_opt
        self.d_opt = d_opt
        self.loss_fn = loss_fn
        
    def train_step(self, real_imgs):
        batch_size = tf.shape(real_imgs)[0]
        noise = tf.random.normal(shape=(batch_size, self.latent_dim))
        
        with tf.GradientTape() as tape:
            pred_real = self.discriminator(real_imgs, training=True)
            real_labels = tf.ones((batch_size, 1)) + 0.05 * tf.random.uniform((batch_size, 1))
            discriminator_loss_real = self.loss_fn(real_labels, pred_real)
            
            fake_imgs = self.generator(noise, training=True)
            pred_fake = self.discriminator(fake_imgs, training=True)
            fake_labels = tf.zeros((batch_size, 1))
            discriminator_loss_fake = self.loss_fn(fake_labels, pred_fake)
            
            discriminator_loss = (discriminator_loss_real + discriminator_loss_fake) / 2
            
        gradients = tape.gradient(discriminator_loss, self.discriminator.trainable_variables)
        self.d_opt.apply_gradients(zip(gradients, self.discriminator.trainable_variables))
        
      
        labels = tf.ones((batch_size, 1))
        with tf.GradientTape() as tape:
            fake_imgs = self.generator(noise, training=True)
            pred_fake = self.discriminator(fake_imgs, training=True)
            generator_loss = self.loss_fn(labels, pred_fake)
            
        gradients = tape.gradient(generator_loss, self.generator.trainable_variables)
        self.g_opt.apply_gradients(zip(gradients, self.generator.trainable_variables))
        
        self.discriminator_loss_metric.update_state(discriminator_loss)
        self.generator_loss_metric.update_state(generator_loss)
        
        return {'discriminator_loss': self.discriminator_loss_metric.result(),
                'generator_loss': self.generator_loss_metric.result()}

DCGANMonitor class

The DCGANMonitor class inherits from keras.callbacks.Callback. It initializes the callback with the number of images to generate num_imgs and the dimensions of the latent space latent_dim. self.noise is the random noise for image generation.
The on_epoch_end method basically gets the generated images from the generator, and after scaling them, it displays the plot using a 5 x 5 grid.
The on_train_end method saves the trained generator and discriminator as "generator.h5" and "discriminator.h5" so that we can use them again later on without spending a lot of time on training.

class DCGANMonitor(keras.callbacks.Callback):
    def __init__(self, num_imgs=25, latent_dim=100):
        self.num_imgs = num_imgs
        self.latent_dim = latent_dim
        self.noise = tf.random.normal([25, latent_dim])
    def on_epoch_end(self, epoch, logs=None):
        gen_imgs = self.model.generator(self.noise)
        gen_imgs = (gen_imgs * 127.5) + 127.5
        fig = plt.figure(figsize=(8, 8))
        for i in range(self.num_imgs):
            plt.subplot(5, 5, i+1)
            img = array_to_img(gen_imgs[i])
            plt.imshow(img)
            plt.axis('off')
        plt.show()
    
    def on_train_end(self, logs=None):
        self.model.generator.save('generator.h5')
        self.model.discriminator.save('discriminator.h5')
dcgan = DCGAN(generator, discriminator, 100)

body {
    font-family: Arial, sans-serif;
    margin: 0;
    padding: 0;
    background-color: #f8f9fa;
    display: flex;
    align-items: center;
    justify-content: center;
    height: 100vh;
}

.container {
    text-align: center;
    padding: 20px;
    background-color: white;
    border-radius: 10px;
    box-shadow: 0 0 10px rgba(0, 0, 0, 0.1);
}

img {
    max-width: 100%;
    border-radius: 5px;
    margin-top: 20px;
}

h1 {
    margin-top: 20px;
    color: #333;
}

p {
    color: #666;
}

Generator	Discriminator
The generator creates new data samples by trying to mimic the real data.	The discriminator tries to distinguish between our real and generator data.

AI anime generation using GANs

Generative adversarial networks

Imports

Image loading and display

Training image processing

Generator

Discriminator

DCGAN class

DCGANMonitor class

Model compilation

Model fitting

A few epoch outputs

Anime faces output

Flask application

Application output

Project execution