Rnn gradient explodes

ShootingSpace · March 16, 2018, 4:34pm

Problem solved with gradient clip

The rnn class is borrowed from this tutorial

class RNN(gluon.Block):
    def __init__(self, mode, seed, vocab_size, num_embed, num_hidden,
                 num_layers, dropout, **kwargs):
        super(RNN, self).__init__(**kwargs)
        if seed:
            mx.random.seed(seed)

        with self.name_scope():
            # self.drop = nn.Dropout(dropout)
            # self.encoder = nn.Embedding(vocab_size, num_embed,
            #                             weight_initializer = mx.init.Uniform(0.1))
            if mode == 'rnn_relu':
                self.rnn = rnn.RNN(num_hidden, num_layers, activation='relu', dropout=dropout,
                                   input_size=num_embed)
            elif mode == 'rnn_tanh':
                self.rnn = rnn.RNN(num_hidden, num_layers, dropout=dropout,
                                   input_size=num_embed)
            elif mode == 'lstm':
                self.rnn = rnn.LSTM(num_hidden, num_layers, dropout=dropout,
                                    input_size=num_embed)
            elif mode == 'gru':
                self.rnn = rnn.GRU(num_hidden, num_layers, dropout=dropout,
                                   input_size=num_embed)
            else:
                raise ValueError("Invalid mode %s. Options are rnn_relu, "
                                 "rnn_tanh, lstm, and gru"%mode)
            self.decoder = nn.Dense(vocab_size, in_units = num_hidden)
            self.num_hidden = num_hidden

    def forward(self, inputs, hidden):
        with inputs.context:
            output, hidden = self.rnn(inputs, hidden)
            decoded = self.decoder(output.reshape((-1, self.num_hidden)))
            return decoded, hidden

    def begin_state(self, *args, **kwargs):
        return self.rnn.begin_state(*args, **kwargs)

loss = gluon.loss.SoftmaxCrossEntropyLoss(sparse_label=False, batch_axis=1)

Switch to linux meets thet same issue.

ThomasDelteil · March 20, 2018, 7:15pm

@ShootingSpace you solved your problem using gradient clipping right?

Topic		Replies	Views
Hybridized RNN State Initialization Error Gluon	1	405	June 3, 2021
More examples - Gluon for hybrid block Gluon	1	717	November 7, 2017
How to remember the state of LSTM when using gluon? Gluon	1	633	October 22, 2018
Gluon RNN with sequence length and defer initialization Gluon	4	607	October 8, 2020
RL algorithm in Gluon Gluon	2	687	June 2, 2018

Rnn gradient explodes

Related Topics