optimize the shell script

be9c1ab4 · xuchen · b23817e0 · be9c1ab4 · be9c1ab4 · be9c1ab4
Commit be9c1ab4 authored Sep 03, 2021 by xuchen
--- a/egs/librispeech/asr/conf/train.yaml
+++ b/egs/librispeech/asr/conf/train.yaml
-train-subset: train_st
+train-subset: train-clean-100,train-clean-360,train-other-500
-valid-subset: dev_st
+valid-subset: dev-clean
-max-epoch: 50
+max-epoch: 100
-max-update: 100000
+max-update: 300000
 num-workers: 8
 patience: 10

--- a/egs/librispeech/asr/conf/conformer.yaml
+++ b/egs/librispeech/asr/conf/conformer.yaml
+arch: s2t_conformer_s
+macaron-style: True
+use-cnn-module: True
+cnn-module-kernel: 31
--- a/egs/librispeech/asr/conf/train_ctc_debug.yaml
+++ b/egs/librispeech/asr/conf/train_ctc_debug.yaml
@@ -12,7 +12,7 @@ log-interval: 100
 seed: 1
 report-accuracy: True
-arch: s2t_transformer_s
+#arch: s2t_transformer_s
 share-decoder-input-output-embed: True
 optimizer: adam
 clip-norm: 10.0
@@ -26,13 +26,13 @@ ctc-weight: 0.3
 criterion: label_smoothed_cross_entropy_with_ctc
 label_smoothing: 0.1
-conv-kernel-sizes: 5,5
+#conv-kernel-sizes: 5,5
 conv-channels: 1024
 dropout: 0.1
 activation-fn: relu
-encoder-embed-dim: 256
+#encoder-embed-dim: 256
 encoder-ffn-embed-dim: 2048
-encoder-layers: 3
+encoder-layers: 12
 decoder-layers: 3
 encoder-attention-heads: 4
@@ -42,8 +42,8 @@ cnn-module-kernel: 31
 adpater: subsample
-#decoder-embed-dim: 256
+decoder-embed-dim: 256
-#decoder-ffn-embed-dim: 2048
+decoder-ffn-embed-dim: 2048
-#decoder-attention-heads: 4
+decoder-attention-heads: 4
-#attention-dropout: 0.1
+attention-dropout: 0.1
-#activation-dropout: 0.1
+activation-dropout: 0.1
--- a/egs/librispeech/asr/conf/dlcl.yaml
+++ b/egs/librispeech/asr/conf/dlcl.yaml
+use-enc-dlcl: True
+use-dec-dlcl: True
--- a/egs/librispeech/asr/conf/local_attn.yaml
+++ b/egs/librispeech/asr/conf/local_attn.yaml
+encoder-attention-type: local
+hard-mask-window: 0
+gauss-mask-sigma: 3
+init-mask-weight: 0
\ No newline at end of file
--- a/egs/librispeech/asr/conf/train_ctc_conformer_rpr.yaml
+++ b/egs/librispeech/asr/conf/train_ctc_conformer_rpr.yaml
-train-subset: train_st
+arch: pys2t_transformer_s
-valid-subset: dev_st
+encoder-embed-dim: 512
+pyramid-stages: 4
-max-epoch: 50
+pyramid-layers: 2_2_5_3
-max-update: 100000
+encoder-attention-type: reduced
+pyramid-attn-sample-ratios: 8_4_2_1
+pyramid-sr-ratios: 2_2_2_2
+pyramid-embed-dims: 64_128_256_512
+pyramid-reduced-embed: conv
+pyramid-embed-norm: True
+pyramid-position-embed: 1_1_1_1
+pyramid-kernel-sizes: 5_5_5_5
+pyramid-ffn-ratios: 8_8_8_4
+pyramid-heads: 1_2_4_8
+train-subset: train-clean-100,train-clean-360,train-other-500
+valid-subset: dev-clean
+max-epoch: 100
+max-update: 300000
 num-workers: 8
 patience: 10
@@ -14,7 +29,6 @@ report-accuracy: True
 #load-pretrained-encoder-from:
 #load-pretrained-decoder-from:
-arch: s2t_conformer_s
 share-decoder-input-output-embed: True
 optimizer: adam
 clip-norm: 10.0
@@ -24,31 +38,19 @@ warmup-updates: 10000
 lr: 2e-3
 #adam_betas: (0.9,0.98)
-ctc-weight: 0.3
+criterion: label_smoothed_cross_entropy
-criterion: label_smoothed_cross_entropy_with_ctc
 label_smoothing: 0.1
-conv-kernel-sizes: 5,5
 conv-channels: 1024
 dropout: 0.1
 activation-fn: relu
-encoder-embed-dim: 256
 encoder-ffn-embed-dim: 2048
 encoder-layers: 12
 decoder-layers: 6
 encoder-attention-heads: 4
-macaron-style: True
+decoder-embed-dim: 256
-use-cnn-module: True
+decoder-ffn-embed-dim: 2048
-cnn-module-kernel: 31
+decoder-attention-heads: 4
+attention-dropout: 0.1
-encoder-attention-type: relative
+activation-dropout: 0.1
-decoder-attention-type: relative
-max-encoder-relative-length: 100
-max-decoder-relative-length: 20
-#decoder-embed-dim: 256
-#decoder-ffn-embed-dim: 2048
-#decoder-attention-heads: 4
-#attention-dropout: 0.1
-#activation-dropout: 0.1
--- a/egs/librispeech/asr/conf/pyramid_enc6.yaml
+++ b/egs/librispeech/asr/conf/pyramid_enc6.yaml
+arch: pys2t_transformer_s
+encoder-embed-dim: 512
+pyramid-stages: 3
+pyramid-layers: 3_6_3
+encoder-attention-type: reduced
+pyramid-attn-sample-ratios: 4_2_1
+pyramid-sr-ratios: 2_2_2
+pyramid-embed-dims: 128_256_512
+pyramid-reduced-embed: conv
+pyramid-embed-norm: True
+pyramid-position-embed: 1_1_1
+pyramid-kernel-sizes: 5_5_5
+pyramid-ffn-ratios: 8_8_4
+pyramid-heads: 2_4_8
+train-subset: train-clean-100,train-clean-360,train-other-500
+valid-subset: dev-clean
+max-epoch: 100
+max-update: 300000
+num-workers: 8
+patience: 10
+no-progress-bar: True
+log-interval: 100
+seed: 1
+report-accuracy: True
+#load-pretrained-encoder-from:
+#load-pretrained-decoder-from:
+share-decoder-input-output-embed: True
+optimizer: adam
+clip-norm: 10.0
+lr-scheduler: inverse_sqrt
+warmup-init-lr: 1e-7
+warmup-updates: 10000
+lr: 2e-3
+#adam_betas: (0.9,0.98)
+criterion: label_smoothed_cross_entropy
+label_smoothing: 0.1
+conv-channels: 1024
+dropout: 0.1
+activation-fn: relu
+encoder-ffn-embed-dim: 2048
+encoder-layers: 6
+decoder-layers: 6
+encoder-attention-heads: 4
+decoder-embed-dim: 256
+decoder-ffn-embed-dim: 2048
+decoder-attention-heads: 4
+attention-dropout: 0.1
+activation-dropout: 0.1
--- a/egs/librispeech/asr/conf/train_sate.yaml
+++ b/egs/librispeech/asr/conf/train_sate.yaml
-train-subset: train_st
+arch: pys2t_transformer_s
-valid-subset: dev_st
+encoder-embed-dim: 512
+pyramid-stages: 3
-max-epoch: 50
+pyramid-layers: 3_6_3
-max-update: 100000
+encoder-attention-type: reduced
+pyramid-attn-sample-ratios: 4_2_1
+pyramid-sr-ratios: 2_2_2
+pyramid-embed-dims: 128_256_512
+pyramid-reduced-embed: conv
+pyramid-embed-norm: True
+pyramid-position-embed: 1_1_1
+pyramid-kernel-sizes: 5_5_5
+pyramid-ffn-ratios: 8_8_4
+pyramid-heads: 2_4_8
+train-subset: train-clean-100,train-clean-360,train-other-500
+valid-subset: dev-clean
+max-epoch: 100
+max-update: 300000
 num-workers: 8
 patience: 10
@@ -12,11 +27,8 @@ seed: 1
 report-accuracy: True
 #load-pretrained-encoder-from:
-#load-pretrained-acoustic-encoder-from:
-#load-pretrained-text-encoder-from:
 #load-pretrained-decoder-from:
-arch: s2t_sate
 share-decoder-input-output-embed: True
 optimizer: adam
 clip-norm: 10.0
@@ -29,28 +41,16 @@ lr: 2e-3
 criterion: label_smoothed_cross_entropy
 label_smoothing: 0.1
-encoder-normalize-before: True
-decoder-normalize-before: True
-conv-kernel-sizes: 5,5
 conv-channels: 1024
 dropout: 0.1
 activation-fn: relu
-encoder-embed-dim: 256
 encoder-ffn-embed-dim: 2048
 encoder-layers: 12
-text-encoder-layers: 6
 decoder-layers: 6
 encoder-attention-heads: 4
-macaron-style: True
+decoder-embed-dim: 256
-use-cnn-module: True
+decoder-ffn-embed-dim: 2048
-cnn-module-kernel: 31
+decoder-attention-heads: 4
+attention-dropout: 0.1
-acoustic-encoder: transformer
+activation-dropout: 0.1
-adapter: league
-#decoder-embed-dim: 256
-#decoder-ffn-embed-dim: 2048
-#decoder-attention-heads: 4
-#attention-dropout: 0.1
-#activation-dropout: 0.1
--- a/egs/librispeech/asr/conf/rpr.yaml
+++ b/egs/librispeech/asr/conf/rpr.yaml
-encoder-attention-type: relative
+encoder-attention-type: rel_selfattn
-decoder-attention-type: relative
-max-encoder-relative-length: 100
-max-decoder-relative-length: 20
\ No newline at end of file
--- a/egs/librispeech/asr/conf/tmp.yaml
+++ b/egs/librispeech/asr/conf/tmp.yaml
--- a/egs/librispeech/asr/conf/train_ctc_sate.yaml
+++ b/egs/librispeech/asr/conf/train_ctc_sate.yaml
-train-subset: train_st
-valid-subset: dev_st
-max-epoch: 50
-max-update: 100000
-num-workers: 8
-patience: 10
-no-progress-bar: True
-log-interval: 100
-seed: 1
-report-accuracy: True
-#load-pretrained-encoder-from:
-#load-pretrained-acoustic-encoder-from:
-#load-pretrained-text-encoder-from:
-#load-pretrained-decoder-from:
-arch: s2t_sate
-share-decoder-input-output-embed: True
-optimizer: adam
-clip-norm: 10.0
-lr-scheduler: inverse_sqrt
-warmup-init-lr: 1e-7
-warmup-updates: 10000
-lr: 2e-3
-#adam_betas: (0.9,0.98)
-ctc-weight: 0.3
-criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
-encoder-normalize-before: True
-decoder-normalize-before: True
-conv-kernel-sizes: 5,5
-conv-channels: 1024
-dropout: 0.1
-activation-fn: relu
-encoder-embed-dim: 256
-encoder-ffn-embed-dim: 2048
-encoder-layers: 12
-text-encoder-layers: 6
-decoder-layers: 6
-encoder-attention-heads: 4
-macaron-style: True
-use-cnn-module: True
-cnn-module-kernel: 31
-acoustic-encoder: transformer
-adapter: league
-#decoder-embed-dim: 256
-#decoder-ffn-embed-dim: 2048
-#decoder-attention-heads: 4
-#attention-dropout: 0.1
-#activation-dropout: 0.1
--- a/egs/librispeech/asr/conf/train_ctc_sate_conformer.yaml
+++ b/egs/librispeech/asr/conf/train_ctc_sate_conformer.yaml
-train-subset: train_st
-valid-subset: dev_st
-max-epoch: 50
-max-update: 100000
-num-workers: 8
-patience: 10
-no-progress-bar: True
-log-interval: 100
-seed: 1
-report-accuracy: True
-#load-pretrained-encoder-from:
-#load-pretrained-acoustic-encoder-from:
-#load-pretrained-text-encoder-from:
-#load-pretrained-decoder-from:
-arch: s2t_sate
-share-decoder-input-output-embed: True
-optimizer: adam
-clip-norm: 10.0
-lr-scheduler: inverse_sqrt
-warmup-init-lr: 1e-7
-warmup-updates: 10000
-lr: 2e-3
-#adam_betas: (0.9,0.98)
-ctc-weight: 0.3
-criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
-encoder-normalize-before: True
-decoder-normalize-before: True
-conv-kernel-sizes: 5,5
-conv-channels: 1024
-dropout: 0.1
-activation-fn: relu
-encoder-embed-dim: 256
-encoder-ffn-embed-dim: 2048
-encoder-layers: 12
-text-encoder-layers: 6
-decoder-layers: 6
-encoder-attention-heads: 4
-macaron-style: True
-use-cnn-module: True
-cnn-module-kernel: 31
-acoustic-encoder: conformer
-adapter: league
-#decoder-embed-dim: 256
-#decoder-ffn-embed-dim: 2048
-#decoder-attention-heads: 4
-#attention-dropout: 0.1
-#activation-dropout: 0.1
--- a/egs/librispeech/asr/conf/train_ctc_sate_rpr.yaml
+++ b/egs/librispeech/asr/conf/train_ctc_sate_rpr.yaml
-train-subset: train_st
-valid-subset: dev_st
-max-epoch: 50
-max-update: 100000
-num-workers: 8
-patience: 10
-no-progress-bar: True
-log-interval: 100
-seed: 1
-report-accuracy: True
-#load-pretrained-encoder-from:
-#load-pretrained-acoustic-encoder-from:
-#load-pretrained-text-encoder-from:
-#load-pretrained-decoder-from:
-arch: s2t_sate
-share-decoder-input-output-embed: True
-optimizer: adam
-clip-norm: 10.0
-lr-scheduler: inverse_sqrt
-warmup-init-lr: 1e-7
-warmup-updates: 10000
-lr: 2e-3
-#adam_betas: (0.9,0.98)
-ctc-weight: 0.3
-criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
-encoder-normalize-before: True
-decoder-normalize-before: True
-conv-kernel-sizes: 5,5
-conv-channels: 1024
-dropout: 0.1
-activation-fn: relu
-encoder-embed-dim: 256
-encoder-ffn-embed-dim: 2048
-encoder-layers: 12
-text-encoder-layers: 6
-decoder-layers: 6
-encoder-attention-heads: 4
-macaron-style: True
-use-cnn-module: True
-cnn-module-kernel: 31
-acoustic-encoder: transformer
-adapter: league
-encoder-attention-type: relative
-decoder-attention-type: relative
-max-encoder-relative-length: 100
-max-decoder-relative-length: 20
-#decoder-embed-dim: 256
-#decoder-ffn-embed-dim: 2048
-#decoder-attention-heads: 4
-#attention-dropout: 0.1
-#activation-dropout: 0.1
--- a/egs/librispeech/asr/conf/train_ctc_templete.yaml
+++ b/egs/librispeech/asr/conf/train_ctc_templete.yaml
-train-subset: train_st
-valid-subset: dev_st
-max-epoch: 50
-max-update: 100000
-num-workers: 8
-patience: 10
-no-progress-bar: True
-log-interval: 100
-seed: 1
-report-accuracy: True
-#load-pretrained-encoder-from:
-#load-pretrained-decoder-from:
-arch: s2t_conformer_m
-share-decoder-input-output-embed: True
-optimizer: adam
-clip-norm: 10.0
-lr-scheduler: inverse_sqrt
-warmup-init-lr: 1e-7
-warmup-updates: 10000
-lr: 1e-3
-#adam_betas: (0.9,0.98)
-ctc-weight: 0.3
-criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
-conv-kernel-sizes: 5,5
-conv-channels: 1024
-#dropout: 0.1
-#activation-fn: relu
-#encoder-embed-dim: 256
-#encoder-ffn-embed-dim: 2048
-#encoder-layers: 12
-#decoder-layers: 6
-#encoder-attention-heads: 4
-#decoder-embed-dim: 256
-#decoder-ffn-embed-dim: 2048
-#decoder-attention-heads: 4
-#attention-dropout: 0.1
-#activation-dropout: 0.1
-# conformer
-#macaron-style: True
-#use-cnn-module: True
-#cnn-module-kernel: 31
-# relative position encoding
-#encoder-attention-type: relative
-#decoder-attention-type: relative
-#max-encoder-relative-length: 100
-#max-decoder-relative-length: 20
--- a/egs/librispeech/asr/conf/train_sate_rpr.yaml
+++ b/egs/librispeech/asr/conf/train_sate_rpr.yaml
-train-subset: train_st,train_covost
-valid-subset: dev_st
-max-epoch: 50
-max-update: 100000
-num-workers: 8
-patience: 10
-no-progress-bar: True
-log-interval: 100
-seed: 1
-report-accuracy: True
-#load-pretrained-encoder-from:
-#load-pretrained-acoustic-encoder-from:
-#load-pretrained-text-encoder-from:
-#load-pretrained-decoder-from:
-arch: s2t_sate
-share-decoder-input-output-embed: True
-optimizer: adam
-clip-norm: 10.0
-lr-scheduler: inverse_sqrt
-warmup-init-lr: 1e-7
-warmup-updates: 10000
-lr: 2e-3
-#adam_betas: (0.9,0.98)
-criterion: label_smoothed_cross_entropy
-label_smoothing: 0.1
-encoder-normalize-before: True
-decoder-normalize-before: True
-conv-kernel-sizes: 5,5
-conv-channels: 1024
-dropout: 0.1
-activation-fn: relu
-encoder-embed-dim: 256
-encoder-ffn-embed-dim: 2048
-encoder-layers: 12
-text-encoder-layers: 6
-decoder-layers: 6
-encoder-attention-heads: 4
-macaron-style: True
-use-cnn-module: True
-cnn-module-kernel: 31
-acoustic-encoder: transformer
-adapter: league
-encoder-attention-type: relative
-decoder-attention-type: relative
-max-encoder-relative-length: 100
-max-decoder-relative-length: 20
-#decoder-embed-dim: 256
-#decoder-ffn-embed-dim: 2048
-#decoder-attention-heads: 4
-#attention-dropout: 0.1
-#activation-dropout: 0.1
--- a/egs/librispeech/asr/decode.sh
+++ b/egs/librispeech/asr/decode.sh
@@ -3,7 +3,7 @@
 gpu_num=1
 data_dir=
-test_subset=(test-cleam test-other)
+test_subset=(test-clean test-other)
 exp_name=
 if [ "$#" -eq 1 ]; then
@@ -13,7 +13,7 @@ fi
 n_average=10
 beam_size=5
 len_penalty=1.0
-max_tokens=10000
+max_tokens=80000
 dec_model=checkpoint_best.pt
 cmd="./run.sh

--- a/egs/librispeech/asr/local/monitor.sh
+++ b/egs/librispeech/asr/local/monitor.sh
 gpu_num=1
+cmd="sh train.sh"
 while :
 do
-    all_devices=$(seq 0 `gpustat | sed '1,2d' | wc -l`);
+    record=$(mktemp -t temp.record.XXXXXX)
+    gpustat > $record
+    all_devices=$(seq 0 "$(sed '1,2d' ${record} | wc -l)");
    count=0
    for dev in ${all_devices[@]}
    do
-        line=`expr $dev + 2`
+        line=$((dev + 2))
-        use=`gpustat -p | head -n $line | tail -1 | cut -d '|' -f4 | wc -w`
+        use=$(head -n $line ${record} | tail -1 | cut -d '|' -f3 | cut -d '/' -f1)
-        if [[ $use -eq 0 ]]; then
+        if [[ $use -lt 100 ]]; then
            device[$count]=$dev
-            count=`expr $count + 1`
+            count=$((count + 1))
            if [[ $count -eq $gpu_num ]]; then
                break
            fi

--- a/egs/librispeech/asr/local/path.sh
+++ b/egs/librispeech/asr/local/path.sh
-MAIN_ROOT=$PWD/../../..
-KALDI_ROOT=$MAIN_ROOT/tools/kaldi
-export PATH=$PWD/utils/:$KALDI_ROOT/tools/openfst/bin:$PATH
-[ ! -f $KALDI_ROOT/tools/config/common_path.sh ] && echo >&2 "The standard file $KALDI_ROOT/tools/config/common_path.sh is not present -> Exit!" && exit 1
-. $KALDI_ROOT/tools/config/common_path.sh
-export LC_ALL=C
-export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:$MAIN_ROOT/src/lib
-export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:$MAIN_ROOT/tools/chainer_ctc/ext/warp-ctc/build
-. "${MAIN_ROOT}"/tools/activate_python.sh && . "${MAIN_ROOT}"/tools/extra_path.sh
-export PATH=$MAIN_ROOT/utils:$MAIN_ROOT/espnet/bin:$PATH
-export OMP_NUM_THREADS=1
-# check extra module installation
-if ! which tokenizer.perl > /dev/null; then
-    echo "Error: it seems that moses is not installed." >&2
-    echo "Error: please install moses as follows." >&2
-    echo "Error: cd ${MAIN_ROOT}/tools && make moses.done" >&2
-    return 1
-fi
-# NOTE(kan-bayashi): Use UTF-8 in Python to avoid UnicodeDecodeError when LC_ALL=C
-export PYTHONIOENCODING=UTF-8
--- a/egs/librispeech/asr/local/utils.sh
+++ b/egs/librispeech/asr/local/utils.sh
@@ -5,17 +5,18 @@ get_devices(){
    device=()
    while :
    do
-        record=`mktemp -t temp.record.XXXXXX`
+        record=$(mktemp -t temp.record.XXXXXX)
        gpustat > $record
-        all_devices=$(seq 0 `cat $record | sed '1,2d' | wc -l`);
+        all_devices=$(seq 0 "$(sed '1,2d' ${record} | wc -l)");
        count=0
        for dev in ${all_devices[@]}
        do
-            line=`expr $dev + 2`
+            line=$((dev + 2))
-            use=`cat $record | head -n $line | tail -1 | cut -d '|' -f3 | cut -d '/' -f1`
+            use=$(head -n $line ${record} | tail -1 | cut -d '|' -f3 | cut -d '/' -f1)
            if [[ $use -lt 100 ]]; then
                device[$count]=$dev
-                count=`expr $count + 1`
+                count=$((count + 1))
                if [[ $count -eq $gpu_num ]]; then
                    break
                fi

--- a/egs/librispeech/asr/run.sh
+++ b/egs/librispeech/asr/run.sh
@@ -20,7 +20,7 @@ stop_stage=0
 ######## hardware ########
 # devices
-device=()
+#device=()
 gpu_num=8
 update_freq=1
@@ -42,19 +42,19 @@ specific_prefix=valid
 specific_dir=/home/xuchen/st/data/mustc/st_lcrm/en-de
 asr_vocab_prefix=spm_unigram10000_st_share
-org_data_dir=/media/data/${dataset}
+org_data_dir=~/st/data/${dataset}
 data_dir=~/st/data/${dataset}
 test_subset=dev-clean,dev-other,test-clean,test-other
 # exp
-exp_prefix=${time}
+exp_prefix=$(date "+%m%d")
 extra_tag=
 extra_parameter=
 exp_tag=baseline
 exp_name=
 # config
-train_config=train_ctc.yaml
+train_config=ctc
 data_config=config.yaml
 # training setting
@@ -79,10 +79,10 @@ fi
 . ./local/parse_options.sh || exit 1;
-# full path
-train_config=$pwd_dir/conf/${train_config}
 if [[ -z ${exp_name} ]]; then
-    exp_name=${exp_prefix}_$(basename ${train_config%.*})_${exp_tag}
+    config_string=${train_config//,/_}
+#    exp_name=${exp_prefix}_$(basename ${train_config%.*})_${exp_tag}
+    exp_name=${exp_prefix}_${config_string}_${exp_tag}
    if [[ -n ${extra_tag} ]]; then
        exp_name=${exp_name}_${extra_tag}
    fi
@@ -102,7 +102,6 @@ if [ ${stage} -le 0 ] && [ ${stop_stage} -ge 0 ]; then
    if [[ ! -e ${data_dir} ]]; then
        mkdir -p ${data_dir}
    fi
-    source ~/tools/audio/bin/activate
    cmd="python ${root_dir}/examples/speech_to_text/prep_librispeech_data.py
        --data-root ${org_data_dir}
@@ -120,7 +119,7 @@ if [ ${stage} -le 0 ] && [ ${stop_stage} -ge 0 ]; then
        --speed-perturb"
    fi
    echo -e "\033[34mRun command: \n${cmd} \033[0m"
-    [[ $eval -eq 1 ]] && eval $cmd
+    [[ $eval -eq 1 ]] && eval ${cmd}
 fi
 if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
@@ -129,7 +128,7 @@ if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
    if [[ -z ${device} || ${#device[@]} -eq 0 ]]; then
 		if [[ ${gpu_num} -eq 0 ]]; then
-			device=()
+			device=""
 		else
        	source ./local/utils.sh
        	device=$(get_devices $gpu_num 0)
@@ -146,12 +145,31 @@ if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
    cp ${BASH_SOURCE[0]} ${model_dir}
    cp ${PWD}/train.sh ${model_dir}
-    cp ${train_config} ${model_dir}
+    config_list="${train_config//,/ }"
+    idx=0
+    for config in ${config_list[@]}
+    do
+        config_path=$pwd_dir/conf/${config}.yaml
+        if [[ ! -f ${config_path} ]]; then
+            echo "No config file ${config_path}"
+            exit
+        fi
+        cp ${config_path} ${model_dir}
+        if [[ idx -eq 0 ]]; then
+            extra_parameter="${extra_parameter}
+        --train-config ${config_path}"
+        else
+            extra_parameter="${extra_parameter}
+        --train-config${idx} ${config_path}"
+        fi
+        idx=$((idx + 1))
+    done
    cmd="python3 -u ${root_dir}/fairseq_cli/train.py
        ${data_dir}
        --config-yaml ${data_config}
-        --train-config ${train_config}
        --task ${task}
        --max-tokens ${max_tokens}
        --skip-invalid-size-inputs-valid-test
@@ -160,7 +178,7 @@ if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
        --save-dir ${model_dir}
        --tensorboard-logdir ${model_dir}"
-    if [[ -n ${extra_parameter} ]]; then
+	if [[ -n ${extra_parameter} ]]; then
        cmd="${cmd}
        ${extra_parameter}"
    fi
@@ -213,8 +231,8 @@ if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
    # save info
    log=./history.log
-    echo "${time} | ${device} | ${data_dir} | ${model_dir} " >> $log
+    echo "${time} | ${device} | ${data_dir} | ${exp_name} | ${model_dir} " >> $log
-    cat $log | tail -n 50 > tmp.log
+    tail -n 50 ${log} > tmp.log
    mv tmp.log $log
    export CUDA_VISIBLE_DEVICES=${device}
@@ -222,7 +240,7 @@ if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
    if [[ $eval -eq 1 ]]; then
 		eval $cmd
 		sleep 2s
-		tail -n `wc -l ${model_dir}/train.log | awk '{print $1+1}'` -f ${model_dir}/train.log
+		tail -n "$(wc -l ${model_dir}/train.log | awk '{print $1+1}')" -f ${model_dir}/train.log
 	fi
 fi
 wait
@@ -245,7 +263,7 @@ if [ ${stage} -le 2 ] && [ ${stop_stage} -ge 2 ]; then
    if [[ -z ${device} || ${#device[@]} -eq 0 ]]; then
 		if [[ ${gpu_num} -eq 0 ]]; then
-			device=()
+			device=""
 		else
        	source ./local/utils.sh
        	device=$(get_devices $gpu_num 0)
@@ -253,8 +271,6 @@ if [ ${stage} -le 2 ] && [ ${stop_stage} -ge 2 ]; then
    fi
    export CUDA_VISIBLE_DEVICES=${device}
-	#tmp_file=$(mktemp ${model_dir}/tmp-XXXXX)
-	#trap 'rm -rf ${tmp_file}' EXIT
 	result_file=${model_dir}/decode_result
 	[[ -f ${result_file} ]] && rm ${result_file}

--- a/egs/librispeech/asr/train.sh
+++ b/egs/librispeech/asr/train.sh
@@ -2,18 +2,23 @@
 # training the model
-gpu_num=8
+gpu_num=4
-update_freq=2
+update_freq=1
-max_tokens=20000
+max_tokens=200000
+exp_tag=
+config_list=(base)
+config_list=(pyramid)
+# exp full name
+exp_name=
 extra_tag=
 extra_parameter=
 #extra_tag="${extra_tag}"
 #extra_parameter="${extra_parameter} "
-exp_tag=
+train_config=$(echo ${config_list[*]} | sed 's/ /,/g')
-train_config=train_ctc.yaml
 cmd="./run.sh
    --stage 1
@@ -24,6 +29,9 @@ cmd="./run.sh
    --max_tokens ${max_tokens}
    "
+if [[ -n ${exp_name} ]]; then
+    cmd="$cmd --exp_name ${exp_name}"
+fi
 if [[ -n ${exp_tag} ]]; then
    cmd="$cmd --exp_tag ${exp_tag}"
 fi
@@ -31,8 +39,9 @@ if [[ -n ${extra_tag} ]]; then
    cmd="$cmd --extra_tag ${extra_tag}"
 fi
 if [[ -n ${extra_parameter} ]]; then
-    cmd="$cmd --extra_parameter \"${extra_parameter}\""
+#    cmd="$cmd --extra_parameter \"${extra_parameter}\""
+    cmd="$cmd --extra_parameter ${extra_parameter}"
 fi
-echo $cmd
+echo ${cmd}
-eval $cmd
+eval ${cmd}
--- a/egs/librispeech/asr/conf/train_ctc_sate_conformer_rpr.yaml
+++ b/egs/librispeech/asr/conf/train_ctc_sate_conformer_rpr.yaml
-train-subset: train_st
+arch: pys2t_transformer_s
-valid-subset: dev_st
+encoder-embed-dim: 512
+pyramid-stages: 3
+pyramid-layers: 2_2_2
+pyramid-sr-ratios: 2_2_2
+pyramid-embed-dims: 128_256_512
+pyramid-reduced-embed: conv
+pyramid-embed-norm: True
+pyramid-position-embed: 1_0_0
+pyramid-kernel-sizes: 5_5_5
+pyramid-ffn-ratios: 8_8_4
+pyramid-heads: 2_4_8
+train-subset: train_asr
+valid-subset: dev_asr
 max-epoch: 50
 max-update: 100000
@@ -12,11 +25,8 @@ seed: 1
 report-accuracy: True
 #load-pretrained-encoder-from:
-#load-pretrained-acoustic-encoder-from:
-#load-pretrained-text-encoder-from:
 #load-pretrained-decoder-from:
-arch: s2t_sate
 share-decoder-input-output-embed: True
 optimizer: adam
 clip-norm: 10.0
@@ -26,35 +36,17 @@ warmup-updates: 10000
 lr: 2e-3
 #adam_betas: (0.9,0.98)
-ctc-weight: 0.3
+criterion: label_smoothed_cross_entropy
-criterion: label_smoothed_cross_entropy_with_ctc
 label_smoothing: 0.1
-encoder-normalize-before: True
-decoder-normalize-before: True
-conv-kernel-sizes: 5,5
 conv-channels: 1024
 dropout: 0.1
 activation-fn: relu
-encoder-embed-dim: 256
 encoder-ffn-embed-dim: 2048
-encoder-layers: 12
+encoder-layers: 6
-text-encoder-layers: 6
 decoder-layers: 6
 encoder-attention-heads: 4
-macaron-style: True
-use-cnn-module: True
-cnn-module-kernel: 31
-acoustic-encoder: conformer
-adapter: league
-encoder-attention-type: relative
-decoder-attention-type: relative
-max-encoder-relative-length: 100
-max-decoder-relative-length: 20
 decoder-embed-dim: 256
 decoder-ffn-embed-dim: 2048
 decoder-attention-heads: 4

--- a/egs/mustc/asr/conf/rpr.yaml
+++ b/egs/mustc/asr/conf/rpr.yaml
-encoder-attention-type: relative
+encoder-attention-type: rel_selfattn
-decoder-attention-type: relative
-max-encoder-relative-length: 100
-max-decoder-relative-length: 20
--- a/egs/mustc/asr/decode.sh
+++ b/egs/mustc/asr/decode.sh
@@ -13,7 +13,7 @@ fi
 n_average=10
 beam_size=5
 len_penalty=1.0
-max_tokens=10000
+max_tokens=80000
 dec_model=checkpoint_best.pt
 cmd="./run.sh

--- a/egs/mustc/asr/local/monitor.sh
+++ b/egs/mustc/asr/local/monitor.sh
@@ -8,7 +8,7 @@ do
    all_devices=$(seq 0 "$(sed '1,2d' ${record} | wc -l)");
    count=0
-    for dev in "${all_devices[@]}"
+    for dev in ${all_devices[@]}
    do
        line=$((dev + 2))
        use=$(head -n $line ${record} | tail -1 | cut -d '|' -f3 | cut -d '/' -f1)

--- a/egs/mustc/asr/local/utils.sh
+++ b/egs/mustc/asr/local/utils.sh
@@ -10,7 +10,7 @@ get_devices(){
        all_devices=$(seq 0 "$(sed '1,2d' ${record} | wc -l)");
        count=0
-        for dev in "${all_devices[@]}"
+        for dev in ${all_devices[@]}
        do
            line=$((dev + 2))
            use=$(head -n $line ${record} | tail -1 | cut -d '|' -f3 | cut -d '/' -f1)

--- a/egs/mustc/asr/run.sh
+++ b/egs/mustc/asr/run.sh
@@ -91,8 +91,9 @@ fi
 . ./local/parse_options.sh || exit 1;
 if [[ -z ${exp_name} ]]; then
+    config_string=${train_config//,/_}
 #    exp_name=${exp_prefix}_$(basename ${train_config%.*})_${exp_tag}
-    exp_name=${exp_prefix}_${train_config}_${exp_tag}
+    exp_name=${exp_prefix}_${config_string}_${exp_tag}
    if [[ -n ${extra_tag} ]]; then
        exp_name=${exp_name}_${extra_tag}
    fi
@@ -170,7 +171,7 @@ if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
    config_list="${train_config//,/ }"
    idx=0
-    for config in "${config_list[@]}"
+    for config in ${config_list[@]}
    do
        config_path=$pwd_dir/conf/${config}.yaml
        if [[ ! -f ${config_path} ]]; then
@@ -297,7 +298,7 @@ if [ ${stage} -le 2 ] && [ ${stop_stage} -ge 2 ]; then
 	[[ -f ${result_file} ]] && rm ${result_file}
    test_subset=${test_subset//,/ }
-	for subset in "${test_subset[@]}"; do
+	for subset in ${test_subset[@]}; do
        subset=${subset}_asr
  		cmd="python ${root_dir}/fairseq_cli/generate.py
        ${data_dir}

--- a/egs/mustc/asr/train.sh
+++ b/egs/mustc/asr/train.sh
@@ -7,7 +7,7 @@ update_freq=1
 max_tokens=40000
 exp_tag=
-config_list=(ctc local_attn)
+config_list=(pyramid)
 # exp full name
 exp_name=

--- a/egs/mustc/st/conf/rpr.yaml
+++ b/egs/mustc/st/conf/rpr.yaml
-encoder-attention-type: relative
+encoder-attention-type: rel_selfattn
-decoder-attention-type: relative
+#encoder-attention-type: relative
-max-encoder-relative-length: 100
+#decoder-attention-type: relative
-max-decoder-relative-length: 20
+#max-encoder-relative-length: 100
+#max-decoder-relative-length: 20
--- a/egs/mustc/st/local/monitor.sh
+++ b/egs/mustc/st/local/monitor.sh
@@ -8,7 +8,7 @@ do
    all_devices=$(seq 0 "$(sed '1,2d' ${record} | wc -l)");
    count=0
-    for dev in "${all_devices[@]}"
+    for dev in ${all_devices[@]}
    do
        line=$((dev + 2))
        use=$(head -n $line ${record} | tail -1 | cut -d '|' -f3 | cut -d '/' -f1)

--- a/egs/mustc/st/local/utils.sh
+++ b/egs/mustc/st/local/utils.sh
@@ -10,7 +10,7 @@ get_devices(){
        all_devices=$(seq 0 "$(sed '1,2d' ${record} | wc -l)");
        count=0
-        for dev in "${all_devices[@]}"
+        for dev in ${all_devices[@]}
        do
            line=$((dev + 2))
            use=$(head -n $line ${record} | tail -1 | cut -d '|' -f3 | cut -d '/' -f1)

--- a/egs/mustc/st/run.sh
+++ b/egs/mustc/st/run.sh
@@ -49,7 +49,7 @@ asr_vocab_prefix=spm_unigram10000_st_share
 st_vocab_prefix=spm_unigram10000_st_share
 org_data_dir=~/st/data/${dataset}
-data_dir=~/st/data/${dataset}/asr
+data_dir=~/st/data/${dataset}/st
 test_subset=tst-COMMON
 # exp
@@ -99,8 +99,9 @@ fi
 . ./local/parse_options.sh || exit 1;
 if [[ -z ${exp_name} ]]; then
+    config_string=${train_config//,/_}
 #    exp_name=${exp_prefix}_$(basename ${train_config%.*})_${exp_tag}
-    exp_name=${exp_prefix}_${train_config}_${exp_tag}
+    exp_name=${exp_prefix}_${config_string}_${exp_tag}
    if [[ -n ${extra_tag} ]]; then
        exp_name=${exp_name}_${extra_tag}
    fi
@@ -211,7 +212,7 @@ if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
    config_list="${train_config//,/ }"
    idx=0
-    for config in "${config_list[@]}"
+    for config in ${config_list[@]}
    do
        config_path=$pwd_dir/conf/${config}.yaml
        if [[ ! -f ${config_path} ]]; then

--- a/egs/mustc/st/train.sh
+++ b/egs/mustc/st/train.sh
@@ -6,7 +6,7 @@ gpu_num=8
 update_freq=1
 max_tokens=40000
-exp_tag=
+exp_tag=baseline
 config_list=(ctc local_attn)
 # exp full name