Modify the egs scripts of mustc

ad46064b · xuchen · c4f60362 · ad46064b · ad46064b
Commit ad46064b authored Mar 16, 2021 by xuchen
--- a/egs/mustc/asr/conf/asr_train.yaml
+++ b/egs/mustc/asr/conf/asr_train.yaml
+train-subset: train_asr
+valid-subset: dev_asr
+
+max-epoch: 50
+max-update: 100000
+
+num-workers: 8
+patience: 10
+no-progress-bar: True
+log-interval: 100
+seed: 1
+report-accuracy: True
+
+#load-params: 
+#load-pretrained-encoder-from: 
+
+arch: s2t_transformer_s
+share-decoder-input-output-embed: True
+optimizer: adam
+clip-norm: 10.0
+lr-scheduler: inverse_sqrt
+warmup-init-lr: 1e-7
+warmup-updates: 10000
+lr: 1e-3
+#adam_betas: (0.9,0.98)
+
+criterion: label_smoothed_cross_entropy
+label_smoothing: 0.1
+
+conv-kernel-sizes: 5,5
+conv-channels: 1024
+dropout: 0.1
+activation-fn: relu
+encoder-embed-dim: 256
+encoder-ffn-embed-dim: 2048
+encoder-layers: 12
+decoder-layers: 6
+encoder-attention-heads: 4
+
+#decoder-embed-dim: 256
+#decoder-ffn-embed-dim: 2048
+#decoder-attention-heads: 4
+#attention-dropout: 0.1
+#activation-dropout: 0.1
--- a/egs/mustc/asr/run.sh
+++ b/egs/mustc/asr/run.sh
@@ -29,7 +29,8 @@ pwd_dir=$PWD

 # dataset
 src_lang=en
-lang=${src_lang}
+tgt_lang=de
+lang=${src_lang}-${tgt_lang}

 dataset=mustc
 task=speech_to_text
@@ -124,7 +125,7 @@ if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then

    cmd="python3 -u ${root_dir}/fairseq_cli/train.py
        $data_dir/$lang
-		--config-yaml ${data_config}
+        --config-yaml ${data_config}
        --train-config ${train_config}
        --task speech_to_text
        --max-tokens ${max_tokens}