optimize the shell script

1a7d6fb8 · xuchen · 07f0ab14 · 1a7d6fb8 · 1a7d6fb8 · 1a7d6fb8
Commit 1a7d6fb8 authored Aug 24, 2021 by xuchen
--- a/egs/mustc/st/conf/train.yaml
+++ b/egs/mustc/st/conf/train.yaml
-train-subset: train_st
+train-subset: train_asr
-valid-subset: dev_st
+valid-subset: dev_asr
 max-epoch: 50
 max-update: 100000

--- a/egs/mustc/asr/conf/conformer.yaml
+++ b/egs/mustc/asr/conf/conformer.yaml
+arch: s2t_conformer_s
+macaron-style: True
+use-cnn-module: True
+cnn-module-kernel: 31
--- a/egs/mustc/st/conf/train_ctc.yaml
+++ b/egs/mustc/st/conf/train_ctc.yaml
-train-subset: train_st
+train-subset: train_asr
-valid-subset: dev_st
+valid-subset: dev_asr
 max-epoch: 50
 max-update: 100000

--- a/egs/mustc/asr/conf/dlcl.yaml
+++ b/egs/mustc/asr/conf/dlcl.yaml
+use-enc-dlcl: True
+use-dec-dlcl: True
--- a/egs/mustc/st/conf/train_local_attn.yaml
+++ b/egs/mustc/st/conf/train_local_attn.yaml
 encoder-attention-type: local
-hard-mask-window: 20
+hard-mask-window: 0
-gauss-mask-sigma: 0
+gauss-mask-sigma: 3
 init-mask-weight: 0
\ No newline at end of file
--- a/egs/mustc/asr/conf/rpr.yaml
+++ b/egs/mustc/asr/conf/rpr.yaml
+encoder-attention-type: relative
+decoder-attention-type: relative
+max-encoder-relative-length: 100
+max-decoder-relative-length: 20
--- a/egs/mustc/asr/conf/tmp.yaml
+++ b/egs/mustc/asr/conf/tmp.yaml
--- a/egs/mustc/asr/conf/train_ctc_conformer.yaml
+++ b/egs/mustc/asr/conf/train_ctc_conformer.yaml
-train-subset: train_st
-valid-subset: dev_st
-max-epoch: 50
-max-update: 100000
-num-workers: 8
-patience: 10
-no-progress-bar: True
-log-interval: 100
-seed: 1
-report-accuracy: True
-#load-pretrained-encoder-from:
-#load-pretrained-decoder-from:
-arch: s2t_conformer_s
-share-decoder-input-output-embed: True
-optimizer: adam
-clip-norm: 10.0
-lr-scheduler: inverse_sqrt
-warmup-init-lr: 1e-7
-warmup-updates: 10000
-lr: 2e-3
-#adam_betas: (0.9,0.98)
-ctc-weight: 0.3
-criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
-conv-kernel-sizes: 5,5
-conv-channels: 1024
-dropout: 0.1
-activation-fn: relu
-encoder-embed-dim: 256
-encoder-ffn-embed-dim: 2048
-encoder-layers: 12
-decoder-layers: 6
-encoder-attention-heads: 4
-macaron-style: True
-use-cnn-module: True
-cnn-module-kernel: 31
-decoder-embed-dim: 256
-decoder-ffn-embed-dim: 2048
-decoder-attention-heads: 4
-attention-dropout: 0.1
-activation-dropout: 0.1
--- a/egs/mustc/asr/conf/train_ctc_conformer_rpr.yaml
+++ b/egs/mustc/asr/conf/train_ctc_conformer_rpr.yaml
-train-subset: train_st
-valid-subset: dev_st
-max-epoch: 50
-max-update: 100000
-num-workers: 8
-patience: 10
-no-progress-bar: True
-log-interval: 100
-seed: 1
-report-accuracy: True
-#load-pretrained-encoder-from:
-#load-pretrained-decoder-from:
-arch: s2t_conformer_s
-share-decoder-input-output-embed: True
-optimizer: adam
-clip-norm: 10.0
-lr-scheduler: inverse_sqrt
-warmup-init-lr: 1e-7
-warmup-updates: 10000
-lr: 2e-3
-#adam_betas: (0.9,0.98)
-ctc-weight: 0.3
-criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
-conv-kernel-sizes: 5,5
-conv-channels: 1024
-dropout: 0.1
-activation-fn: relu
-encoder-embed-dim: 256
-encoder-ffn-embed-dim: 2048
-encoder-layers: 12
-decoder-layers: 6
-encoder-attention-heads: 4
-macaron-style: True
-use-cnn-module: True
-cnn-module-kernel: 31
-encoder-attention-type: relative
-decoder-attention-type: relative
-max-encoder-relative-length: 100
-max-decoder-relative-length: 20
-#decoder-embed-dim: 256
-#decoder-ffn-embed-dim: 2048
-#decoder-attention-heads: 4
-#attention-dropout: 0.1
-#activation-dropout: 0.1
--- a/egs/mustc/asr/conf/train_ctc_rpr.yaml
+++ b/egs/mustc/asr/conf/train_ctc_rpr.yaml
-train-subset: train_st
-valid-subset: dev_st
-max-epoch: 50
-max-update: 100000
-num-workers: 8
-patience: 10
-no-progress-bar: True
-log-interval: 100
-seed: 1
-report-accuracy: True
-#load-pretrained-encoder-from:
-#load-pretrained-decoder-from:
-arch: s2t_transformer_s
-share-decoder-input-output-embed: True
-optimizer: adam
-clip-norm: 10.0
-lr-scheduler: inverse_sqrt
-warmup-init-lr: 1e-7
-warmup-updates: 10000
-lr: 2e-3
-#adam_betas: (0.9,0.98)
-ctc-weight: 0.3
-criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
-conv-kernel-sizes: 5,5
-conv-channels: 1024
-dropout: 0.1
-activation-fn: relu
-encoder-embed-dim: 256
-encoder-ffn-embed-dim: 2048
-encoder-layers: 12
-decoder-layers: 6
-encoder-attention-heads: 4
-encoder-attention-type: relative
-decoder-attention-type: relative
-max-encoder-relative-length: 100
-max-decoder-relative-length: 20
-decoder-embed-dim: 256
-decoder-ffn-embed-dim: 2048
-decoder-attention-heads: 4
-attention-dropout: 0.1
-activation-dropout: 0.1
--- a/egs/mustc/asr/conf/train_ctc_sate_conformer.yaml
+++ b/egs/mustc/asr/conf/train_ctc_sate_conformer.yaml
-train-subset: train_st
-valid-subset: dev_st
-max-epoch: 50
-max-update: 100000
-num-workers: 8
-patience: 10
-no-progress-bar: True
-log-interval: 100
-seed: 1
-report-accuracy: True
-#load-pretrained-encoder-from:
-#load-pretrained-acoustic-encoder-from:
-#load-pretrained-text-encoder-from:
-#load-pretrained-decoder-from:
-arch: s2t_sate
-share-decoder-input-output-embed: True
-optimizer: adam
-clip-norm: 10.0
-lr-scheduler: inverse_sqrt
-warmup-init-lr: 1e-7
-warmup-updates: 10000
-lr: 2e-3
-#adam_betas: (0.9,0.98)
-ctc-weight: 0.3
-criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
-encoder-normalize-before: True
-decoder-normalize-before: True
-conv-kernel-sizes: 5,5
-conv-channels: 1024
-dropout: 0.1
-activation-fn: relu
-encoder-embed-dim: 256
-encoder-ffn-embed-dim: 2048
-encoder-layers: 12
-text-encoder-layers: 6
-decoder-layers: 6
-encoder-attention-heads: 4
-macaron-style: True
-use-cnn-module: True
-cnn-module-kernel: 31
-acoustic-encoder: conformer
-adapter: league
-#decoder-embed-dim: 256
-#decoder-ffn-embed-dim: 2048
-#decoder-attention-heads: 4
-#attention-dropout: 0.1
-#activation-dropout: 0.1
--- a/egs/mustc/asr/conf/train_ctc_sate_conformer_rpr.yaml
+++ b/egs/mustc/asr/conf/train_ctc_sate_conformer_rpr.yaml
-train-subset: train_st
-valid-subset: dev_st
-max-epoch: 50
-max-update: 100000
-num-workers: 8
-patience: 10
-no-progress-bar: True
-log-interval: 100
-seed: 1
-report-accuracy: True
-#load-pretrained-encoder-from:
-#load-pretrained-acoustic-encoder-from:
-#load-pretrained-text-encoder-from:
-#load-pretrained-decoder-from:
-arch: s2t_sate
-share-decoder-input-output-embed: True
-optimizer: adam
-clip-norm: 10.0
-lr-scheduler: inverse_sqrt
-warmup-init-lr: 1e-7
-warmup-updates: 10000
-lr: 2e-3
-#adam_betas: (0.9,0.98)
-ctc-weight: 0.3
-criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
-encoder-normalize-before: True
-decoder-normalize-before: True
-conv-kernel-sizes: 5,5
-conv-channels: 1024
-dropout: 0.1
-activation-fn: relu
-encoder-embed-dim: 256
-encoder-ffn-embed-dim: 2048
-encoder-layers: 12
-text-encoder-layers: 6
-decoder-layers: 6
-encoder-attention-heads: 4
-macaron-style: True
-use-cnn-module: True
-cnn-module-kernel: 31
-acoustic-encoder: conformer
-adapter: league
-encoder-attention-type: relative
-decoder-attention-type: relative
-max-encoder-relative-length: 100
-max-decoder-relative-length: 20
-decoder-embed-dim: 256
-decoder-ffn-embed-dim: 2048
-decoder-attention-heads: 4
-attention-dropout: 0.1
-activation-dropout: 0.1
--- a/egs/mustc/asr/conf/train_ctc_sate_rpr.yaml
+++ b/egs/mustc/asr/conf/train_ctc_sate_rpr.yaml
-train-subset: train_st
-valid-subset: dev_st
-max-epoch: 50
-max-update: 100000
-num-workers: 8
-patience: 10
-no-progress-bar: True
-log-interval: 100
-seed: 1
-report-accuracy: True
-#load-pretrained-encoder-from:
-#load-pretrained-acoustic-encoder-from:
-#load-pretrained-text-encoder-from:
-#load-pretrained-decoder-from:
-arch: s2t_sate
-share-decoder-input-output-embed: True
-optimizer: adam
-clip-norm: 10.0
-lr-scheduler: inverse_sqrt
-warmup-init-lr: 1e-7
-warmup-updates: 10000
-lr: 2e-3
-#adam_betas: (0.9,0.98)
-ctc-weight: 0.3
-criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
-encoder-normalize-before: True
-decoder-normalize-before: True
-conv-kernel-sizes: 5,5
-conv-channels: 1024
-dropout: 0.1
-activation-fn: relu
-encoder-embed-dim: 256
-encoder-ffn-embed-dim: 2048
-encoder-layers: 12
-text-encoder-layers: 6
-decoder-layers: 6
-encoder-attention-heads: 4
-macaron-style: True
-use-cnn-module: True
-cnn-module-kernel: 31
-acoustic-encoder: transformer
-adapter: league
-encoder-attention-type: relative
-decoder-attention-type: relative
-max-encoder-relative-length: 100
-max-decoder-relative-length: 20
-#decoder-embed-dim: 256
-#decoder-ffn-embed-dim: 2048
-#decoder-attention-heads: 4
-#attention-dropout: 0.1
-#activation-dropout: 0.1
--- a/egs/mustc/asr/conf/train_ctc_templete.yaml
+++ b/egs/mustc/asr/conf/train_ctc_templete.yaml
-train-subset: train_st
-valid-subset: dev_st
-max-epoch: 50
-max-update: 100000
-num-workers: 8
-patience: 10
-no-progress-bar: True
-log-interval: 100
-seed: 1
-report-accuracy: True
-#load-pretrained-encoder-from:
-#load-pretrained-decoder-from:
-arch: s2t_conformer_m
-share-decoder-input-output-embed: True
-optimizer: adam
-clip-norm: 10.0
-lr-scheduler: inverse_sqrt
-warmup-init-lr: 1e-7
-warmup-updates: 10000
-lr: 1e-3
-#adam_betas: (0.9,0.98)
-ctc-weight: 0.3
-criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
-conv-kernel-sizes: 5,5
-conv-channels: 1024
-#dropout: 0.1
-#activation-fn: relu
-#encoder-embed-dim: 256
-#encoder-ffn-embed-dim: 2048
-#encoder-layers: 12
-#decoder-layers: 6
-#encoder-attention-heads: 4
-#decoder-embed-dim: 256
-#decoder-ffn-embed-dim: 2048
-#decoder-attention-heads: 4
-#attention-dropout: 0.1
-#activation-dropout: 0.1
-# conformer
-#macaron-style: True
-#use-cnn-module: True
-#cnn-module-kernel: 31
-# relative position encoding
-#encoder-attention-type: relative
-#decoder-attention-type: relative
-#max-encoder-relative-length: 100
-#max-decoder-relative-length: 20
--- a/egs/mustc/asr/conf/train_sate.yaml
+++ b/egs/mustc/asr/conf/train_sate.yaml
-train-subset: train_st
-valid-subset: dev_st
-max-epoch: 50
-max-update: 100000
-num-workers: 8
-patience: 10
-no-progress-bar: True
-log-interval: 100
-seed: 1
-report-accuracy: True
-#load-pretrained-encoder-from:
-#load-pretrained-acoustic-encoder-from:
-#load-pretrained-text-encoder-from:
-#load-pretrained-decoder-from:
-arch: s2t_sate
-share-decoder-input-output-embed: True
-optimizer: adam
-clip-norm: 10.0
-lr-scheduler: inverse_sqrt
-warmup-init-lr: 1e-7
-warmup-updates: 10000
-lr: 2e-3
-#adam_betas: (0.9,0.98)
-criterion: label_smoothed_cross_entropy
-label_smoothing: 0.1
-encoder-normalize-before: True
-decoder-normalize-before: True
-conv-kernel-sizes: 5,5
-conv-channels: 1024
-dropout: 0.1
-activation-fn: relu
-encoder-embed-dim: 256
-encoder-ffn-embed-dim: 2048
-encoder-layers: 12
-text-encoder-layers: 6
-decoder-layers: 6
-encoder-attention-heads: 4
-macaron-style: True
-use-cnn-module: True
-cnn-module-kernel: 31
-acoustic-encoder: transformer
-adapter: league
-#decoder-embed-dim: 256
-#decoder-ffn-embed-dim: 2048
-#decoder-attention-heads: 4
-#attention-dropout: 0.1
-#activation-dropout: 0.1
--- a/egs/mustc/asr/conf/train_sate_rpr.yaml
+++ b/egs/mustc/asr/conf/train_sate_rpr.yaml
-train-subset: train_st,train_covost
-valid-subset: dev_st
-max-epoch: 50
-max-update: 100000
-num-workers: 8
-patience: 10
-no-progress-bar: True
-log-interval: 100
-seed: 1
-report-accuracy: True
-#load-pretrained-encoder-from:
-#load-pretrained-acoustic-encoder-from:
-#load-pretrained-text-encoder-from:
-#load-pretrained-decoder-from:
-arch: s2t_sate
-share-decoder-input-output-embed: True
-optimizer: adam
-clip-norm: 10.0
-lr-scheduler: inverse_sqrt
-warmup-init-lr: 1e-7
-warmup-updates: 10000
-lr: 2e-3
-#adam_betas: (0.9,0.98)
-criterion: label_smoothed_cross_entropy
-label_smoothing: 0.1
-encoder-normalize-before: True
-decoder-normalize-before: True
-conv-kernel-sizes: 5,5
-conv-channels: 1024
-dropout: 0.1
-activation-fn: relu
-encoder-embed-dim: 256
-encoder-ffn-embed-dim: 2048
-encoder-layers: 12
-text-encoder-layers: 6
-decoder-layers: 6
-encoder-attention-heads: 4
-macaron-style: True
-use-cnn-module: True
-cnn-module-kernel: 31
-acoustic-encoder: transformer
-adapter: league
-encoder-attention-type: relative
-decoder-attention-type: relative
-max-encoder-relative-length: 100
-max-decoder-relative-length: 20
-#decoder-embed-dim: 256
-#decoder-ffn-embed-dim: 2048
-#decoder-attention-heads: 4
-#attention-dropout: 0.1
-#activation-dropout: 0.1
--- a/egs/mustc/asr/decode.sh
+++ b/egs/mustc/asr/decode.sh
@@ -31,9 +31,9 @@ cmd="./run.sh
 if [[ -n ${data_dir} ]]; then
    cmd="$cmd --data_dir ${data_dir}"
 fi
-if [[ -n ${test_subset} ]]; then
+if [[ ${#test_subset[@]} -eq 0 ]]; then
-    test_subset=`echo ${test_subset[*]} | sed 's/ /,/g'`
+    subsets=$(echo ${test_subset[*]} | sed 's/ /,/g')
-    cmd="$cmd --test_subset ${test_subset}"
+    cmd="$cmd --test_subset ${subsets}"
 fi
 echo $cmd

--- a/egs/mustc/asr/local/monitor.sh
+++ b/egs/mustc/asr/local/monitor.sh
 gpu_num=1
+cmd="sh train.sh"
 while :
 do
-    all_devices=$(seq 0 `gpustat | sed '1,2d' | wc -l`);
+    record=$(mktemp -t temp.record.XXXXXX)
+    gpustat > $record
+    all_devices=$(seq 0 "$(sed '1,2d' ${record} | wc -l)");
    count=0
-    for dev in ${all_devices[@]}
+    for dev in "${all_devices[@]}"
    do
-        line=`expr $dev + 2`
+        line=$((dev + 2))
-        use=`gpustat -p | head -n $line | tail -1 | cut -d '|' -f4 | wc -w`
+        use=$(head -n $line ${record} | tail -1 | cut -d '|' -f3 | cut -d '/' -f1)
-        if [[ $use -eq 0 ]]; then
+        if [[ $use -lt 100 ]]; then
            device[$count]=$dev
-            count=`expr $count + 1`
+            count=$((count + 1))
            if [[ $count -eq $gpu_num ]]; then
                break
            fi

--- a/egs/mustc/asr/local/path.sh
+++ b/egs/mustc/asr/local/path.sh
-MAIN_ROOT=$PWD/../../..
-KALDI_ROOT=$MAIN_ROOT/tools/kaldi
-export PATH=$PWD/utils/:$KALDI_ROOT/tools/openfst/bin:$PATH
-[ ! -f $KALDI_ROOT/tools/config/common_path.sh ] && echo >&2 "The standard file $KALDI_ROOT/tools/config/common_path.sh is not present -> Exit!" && exit 1
-. $KALDI_ROOT/tools/config/common_path.sh
-export LC_ALL=C
-export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:$MAIN_ROOT/src/lib
-export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:$MAIN_ROOT/tools/chainer_ctc/ext/warp-ctc/build
-. "${MAIN_ROOT}"/tools/activate_python.sh && . "${MAIN_ROOT}"/tools/extra_path.sh
-export PATH=$MAIN_ROOT/utils:$MAIN_ROOT/espnet/bin:$PATH
-export OMP_NUM_THREADS=1
-# check extra module installation
-if ! which tokenizer.perl > /dev/null; then
-    echo "Error: it seems that moses is not installed." >&2
-    echo "Error: please install moses as follows." >&2
-    echo "Error: cd ${MAIN_ROOT}/tools && make moses.done" >&2
-    return 1
-fi
-# NOTE(kan-bayashi): Use UTF-8 in Python to avoid UnicodeDecodeError when LC_ALL=C
-export PYTHONIOENCODING=UTF-8
--- a/egs/mustc/asr/local/utils.sh
+++ b/egs/mustc/asr/local/utils.sh
@@ -5,17 +5,18 @@ get_devices(){
    device=()
    while :
    do
-        record=`mktemp -t temp.record.XXXXXX`
+        record=$(mktemp -t temp.record.XXXXXX)
        gpustat > $record
-        all_devices=$(seq 0 `cat $record | sed '1,2d' | wc -l`);
+        all_devices=$(seq 0 "$(sed '1,2d' ${record} | wc -l)");
        count=0
-        for dev in ${all_devices[@]}
+        for dev in "${all_devices[@]}"
        do
-            line=`expr $dev + 2`
+            line=$((dev + 2))
-            use=`cat $record | head -n $line | tail -1 | cut -d '|' -f3 | cut -d '/' -f1`
+            use=$(head -n $line ${record} | tail -1 | cut -d '|' -f3 | cut -d '/' -f1)
            if [[ $use -lt 100 ]]; then
                device[$count]=$dev
-                count=`expr $count + 1`
+                count=$((count + 1))
                if [[ $count -eq $gpu_num ]]; then
                    break
                fi

--- a/egs/mustc/asr/run.sh
+++ b/egs/mustc/asr/run.sh
@@ -32,12 +32,12 @@ src_lang=en
 tgt_lang=de
 lang=${src_lang}-${tgt_lang}
-dataset=mustc-v2
+dataset=mustc
 task=speech_to_text
 vocab_type=unigram
 vocab_size=5000
 speed_perturb=0
-lcrm=1
+lcrm=0
 tokenizer=0
 use_specific_dict=0
@@ -45,19 +45,19 @@ specific_prefix=valid
 specific_dir=/home/xuchen/st/data/mustc/st_lcrm/en-de
 asr_vocab_prefix=spm_unigram10000_st_share
-org_data_dir=/media/data/${dataset}
+org_data_dir=~/st/data/${dataset}
 data_dir=~/st/data/${dataset}/asr
 test_subset=tst-COMMON
 # exp
-exp_prefix=${time}
+exp_prefix=$(date "+%m%d")
 extra_tag=
 extra_parameter=
 exp_tag=baseline
 exp_name=
 # config
-train_config=train_ctc.yaml
+train_config=ctc
 data_config=config_asr.yaml
 # training setting
@@ -90,10 +90,9 @@ fi
 . ./local/parse_options.sh || exit 1;
-# full path
-train_config=$pwd_dir/conf/${train_config}
 if [[ -z ${exp_name} ]]; then
-    exp_name=${exp_prefix}_$(basename ${train_config%.*})_${exp_tag}
+#    exp_name=${exp_prefix}_$(basename ${train_config%.*})_${exp_tag}
+    exp_name=${exp_prefix}_${train_config}_${exp_tag}
    if [[ -n ${extra_tag} ]]; then
        exp_name=${exp_name}_${extra_tag}
    fi
@@ -112,7 +111,6 @@ if [ ${stage} -le 0 ] && [ ${stop_stage} -ge 0 ]; then
    if [[ ! -e ${data_dir}/${lang} ]]; then
        mkdir -p ${data_dir}/${lang}
    fi
-    source ~/tools/audio/bin/activate
    cmd="python ${root_dir}/examples/speech_to_text/prep_mustc_data.py
        --data-root ${org_data_dir}
@@ -142,7 +140,6 @@ if [ ${stage} -le 0 ] && [ ${stop_stage} -ge 0 ]; then
    echo -e "\033[34mRun command: \n${cmd} \033[0m"
    [[ $eval -eq 1 ]] && eval ${cmd}
-    deactivate
 fi
 data_dir=${data_dir}/${lang}
@@ -153,7 +150,7 @@ if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
    if [[ -z ${device} || ${#device[@]} -eq 0 ]]; then
 		if [[ ${gpu_num} -eq 0 ]]; then
-			device=()
+			device=""
 		else
        	source ./local/utils.sh
        	device=$(get_devices $gpu_num 0)
@@ -170,12 +167,31 @@ if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
    cp ${BASH_SOURCE[0]} ${model_dir}
    cp ${PWD}/train.sh ${model_dir}
-    cp ${train_config} ${model_dir}
+    config_list="${train_config//,/ }"
+    idx=0
+    for config in "${config_list[@]}"
+    do
+        config_path=$pwd_dir/conf/${config}.yaml
+        if [[ ! -f ${config_path} ]]; then
+            echo "No config file ${config_path}"
+            exit
+        fi
+        cp ${config_path} ${model_dir}
+        if [[ idx -eq 0 ]]; then
+            extra_parameter="${extra_parameter}
+        --train-config ${config_path}"
+        else
+            extra_parameter="${extra_parameter}
+        --train-config${idx} ${config_path}"
+        fi
+        idx=$((idx + 1))
+    done
    cmd="python3 -u ${root_dir}/fairseq_cli/train.py
        ${data_dir}
        --config-yaml ${data_config}
-        --train-config ${train_config}
        --task ${task}
        --max-tokens ${max_tokens}
        --skip-invalid-size-inputs-valid-test
@@ -184,7 +200,7 @@ if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
        --save-dir ${model_dir}
        --tensorboard-logdir ${model_dir}"
-    if [[ -n ${extra_parameter} ]]; then
+	if [[ -n ${extra_parameter} ]]; then
        cmd="${cmd}
        ${extra_parameter}"
    fi
@@ -237,8 +253,8 @@ if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
    # save info
    log=./history.log
-    echo "${time} | ${device} | ${data_dir} | ${model_dir} " >> $log
+    echo "${time} | ${device} | ${data_dir} | ${exp_name} | ${model_dir} " >> $log
-    cat $log | tail -n 50 > tmp.log
+    tail -n 50 ${log} > tmp.log
    mv tmp.log $log
    export CUDA_VISIBLE_DEVICES=${device}
@@ -246,7 +262,7 @@ if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
    if [[ $eval -eq 1 ]]; then
 		eval $cmd
 		sleep 2s
-		tail -n `wc -l ${model_dir}/train.log | awk '{print $1+1}'` -f ${model_dir}/train.log
+		tail -n "$(wc -l ${model_dir}/train.log | awk '{print $1+1}')" -f ${model_dir}/train.log
 	fi
 fi
 wait
@@ -269,7 +285,7 @@ if [ ${stage} -le 2 ] && [ ${stop_stage} -ge 2 ]; then
    if [[ -z ${device} || ${#device[@]} -eq 0 ]]; then
 		if [[ ${gpu_num} -eq 0 ]]; then
-			device=()
+			device=""
 		else
        	source ./local/utils.sh
        	device=$(get_devices $gpu_num 0)
@@ -277,13 +293,11 @@ if [ ${stage} -le 2 ] && [ ${stop_stage} -ge 2 ]; then
    fi
    export CUDA_VISIBLE_DEVICES=${device}
-	#tmp_file=$(mktemp ${model_dir}/tmp-XXXXX)
-	#trap 'rm -rf ${tmp_file}' EXIT
 	result_file=${model_dir}/decode_result
 	[[ -f ${result_file} ]] && rm ${result_file}
-    test_subset=(${test_subset//,/ })
+    test_subset=${test_subset//,/ }
-	for subset in ${test_subset[@]}; do
+	for subset in "${test_subset[@]}"; do
        subset=${subset}_asr
  		cmd="python ${root_dir}/fairseq_cli/generate.py
        ${data_dir}

--- a/egs/mustc/asr/train.sh
+++ b/egs/mustc/asr/train.sh
@@ -3,30 +3,21 @@
 # training the model
 gpu_num=8
-update_freq=2
+update_freq=1
-max_tokens=20000
+max_tokens=40000
+exp_tag=
+config_list=(ctc local_attn)
+# exp full name
 exp_name=
 extra_tag=
 extra_parameter=
 #extra_tag="${extra_tag}"
 #extra_parameter="${extra_parameter} "
-#extra_tag="${extra_tag}_encdlcl"
+train_config=$(echo ${config_list[*]} | sed 's/ /,/g')
-#extra_parameter="${extra_parameter} --use-enc-dlcl"
-#extra_tag="${extra_tag}_decdlcl"
-#extra_parameter="${extra_parameter} --use-dec-dlcl"
-exp_tag=baseline
-train_config=train_ctc.yaml
-#train_config=train_ctc_conformer.yaml
-#train_config=train_ctc_conformer_rpr.yaml
-#train_config=train_ctc_sate.yaml
-#train_config=train_ctc_sate_rpr.yaml
-#train_config=train_ctc_sate_conformer.yaml
-#train_config=train_ctc_sate_conformer_rpr.yaml
 cmd="./run.sh
    --stage 1
@@ -47,8 +38,9 @@ if [[ -n ${extra_tag} ]]; then
    cmd="$cmd --extra_tag ${extra_tag}"
 fi
 if [[ -n ${extra_parameter} ]]; then
-    cmd="$cmd --extra_parameter \"${extra_parameter}\""
+#    cmd="$cmd --extra_parameter \"${extra_parameter}\""
+    cmd="$cmd --extra_parameter ${extra_parameter}"
 fi
-echo $cmd
+echo ${cmd}
-eval $cmd
+eval ${cmd}
--- a/egs/mustc/st/binary.sh
+++ b/egs/mustc/st/binary.sh
@@ -15,9 +15,7 @@ src_lang=en
 tgt_lang=de
 splits=(2019)
-source ~/tools/audio/bin/activate
+splits=$(echo ${splits[*]} | sed 's/ /_/g')
-splits=`echo ${splits[*]} | sed 's/ /,/g'`
 cp -r ${vocab_dir}/${asr_vocab_prefix}.* ${data_dir}/${src_lang}-${tgt_lang}
 cp -r ${vocab_dir}/${st_vocab_prefix}.* ${data_dir}/${src_lang}-${tgt_lang}
@@ -48,4 +46,3 @@ cmd="python ${root_dir}/examples/speech_to_text/prep_st_data.py
 echo -e "\033[34mRun command: \n${cmd} \033[0m"
 [[ $eval -eq 1 ]] && eval ${cmd}
-deactivate
--- a/egs/mustc/asr/conf/train.yaml
+++ b/egs/mustc/asr/conf/train.yaml
--- a/egs/mustc/st/conf/conformer.yaml
+++ b/egs/mustc/st/conf/conformer.yaml
+arch: s2t_conformer_s
+macaron-style: True
+use-cnn-module: True
+cnn-module-kernel: 31
--- a/egs/mustc/asr/conf/train_ctc.yaml
+++ b/egs/mustc/asr/conf/train_ctc.yaml
--- a/egs/mustc/st/conf/dlcl.yaml
+++ b/egs/mustc/st/conf/dlcl.yaml
+use-enc-dlcl: True
+use-dec-dlcl: True
--- a/egs/mustc/st/conf/local_attn.yaml
+++ b/egs/mustc/st/conf/local_attn.yaml
+encoder-attention-type: local
+hard-mask-window: 0
+gauss-mask-sigma: 3
+init-mask-weight: 0
\ No newline at end of file
--- a/egs/mustc/st/conf/rpr.yaml
+++ b/egs/mustc/st/conf/rpr.yaml
+encoder-attention-type: relative
+decoder-attention-type: relative
+max-encoder-relative-length: 100
+max-decoder-relative-length: 20
--- a/egs/mustc/st/conf/sate.yaml
+++ b/egs/mustc/st/conf/sate.yaml
+arch: s2t_sate_s
+acoustic-encoder: transformer
+adapter: league
+#load-pretrained-encoder-from:
+#load-pretrained-acoustic-encoder-from:
+#load-pretrained-text-encoder-from:
+#load-pretrained-decoder-from:
--- a/egs/mustc/asr/conf/train_ctc_sate.yaml
+++ b/egs/mustc/asr/conf/train_ctc_sate.yaml
--- a/egs/mustc/st/conf/tmp.yaml
+++ b/egs/mustc/st/conf/tmp.yaml
--- a/egs/mustc/st/conf/train_ctc_conformer.yaml
+++ b/egs/mustc/st/conf/train_ctc_conformer.yaml
-train-subset: train_st
-valid-subset: dev_st
-max-epoch: 50
-max-update: 100000
-num-workers: 8
-patience: 10
-no-progress-bar: True
-log-interval: 100
-seed: 1
-report-accuracy: True
-#load-pretrained-encoder-from:
-#load-pretrained-decoder-from:
-arch: s2t_conformer_s
-share-decoder-input-output-embed: True
-optimizer: adam
-clip-norm: 10.0
-lr-scheduler: inverse_sqrt
-warmup-init-lr: 1e-7
-warmup-updates: 10000
-lr: 2e-3
-#adam_betas: (0.9,0.98)
-ctc-weight: 0.3
-criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
-conv-kernel-sizes: 5,5
-conv-channels: 1024
-dropout: 0.1
-activation-fn: relu
-encoder-embed-dim: 256
-encoder-ffn-embed-dim: 2048
-encoder-layers: 12
-decoder-layers: 6
-encoder-attention-heads: 4
-macaron-style: True
-use-cnn-module: True
-cnn-module-kernel: 31
-decoder-embed-dim: 256
-decoder-ffn-embed-dim: 2048
-decoder-attention-heads: 4
-attention-dropout: 0.1
-activation-dropout: 0.1
--- a/egs/mustc/st/conf/train_ctc_conformer_rpr.yaml
+++ b/egs/mustc/st/conf/train_ctc_conformer_rpr.yaml
-train-subset: train_st
-valid-subset: dev_st
-max-epoch: 50
-max-update: 100000
-num-workers: 8
-patience: 10
-no-progress-bar: True
-log-interval: 100
-seed: 1
-report-accuracy: True
-#load-pretrained-encoder-from:
-#load-pretrained-decoder-from:
-arch: s2t_conformer_s
-share-decoder-input-output-embed: True
-optimizer: adam
-clip-norm: 10.0
-lr-scheduler: inverse_sqrt
-warmup-init-lr: 1e-7
-warmup-updates: 10000
-lr: 2e-3
-#adam_betas: (0.9,0.98)
-ctc-weight: 0.3
-criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
-conv-kernel-sizes: 5,5
-conv-channels: 1024
-dropout: 0.1
-activation-fn: relu
-encoder-embed-dim: 256
-encoder-ffn-embed-dim: 2048
-encoder-layers: 12
-decoder-layers: 6
-encoder-attention-heads: 4
-macaron-style: True
-use-cnn-module: True
-cnn-module-kernel: 31
-encoder-attention-type: relative
-decoder-attention-type: relative
-max-encoder-relative-length: 100
-max-decoder-relative-length: 20
-#decoder-embed-dim: 256
-#decoder-ffn-embed-dim: 2048
-#decoder-attention-heads: 4
-#attention-dropout: 0.1
-#activation-dropout: 0.1
--- a/egs/mustc/st/conf/train_ctc_rpr.yaml
+++ b/egs/mustc/st/conf/train_ctc_rpr.yaml
-train-subset: train_st
-valid-subset: dev_st
-max-epoch: 50
-max-update: 100000
-num-workers: 8
-patience: 10
-no-progress-bar: True
-log-interval: 100
-seed: 1
-report-accuracy: True
-#load-pretrained-encoder-from:
-#load-pretrained-decoder-from:
-arch: s2t_transformer_s
-share-decoder-input-output-embed: True
-optimizer: adam
-clip-norm: 10.0
-lr-scheduler: inverse_sqrt
-warmup-init-lr: 1e-7
-warmup-updates: 10000
-lr: 2e-3
-#adam_betas: (0.9,0.98)
-ctc-weight: 0.3
-criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
-conv-kernel-sizes: 5,5
-conv-channels: 1024
-dropout: 0.1
-activation-fn: relu
-encoder-embed-dim: 256
-encoder-ffn-embed-dim: 2048
-encoder-layers: 12
-decoder-layers: 6
-encoder-attention-heads: 4
-encoder-attention-type: relative
-decoder-attention-type: relative
-max-encoder-relative-length: 100
-max-decoder-relative-length: 20
-decoder-embed-dim: 256
-decoder-ffn-embed-dim: 2048
-decoder-attention-heads: 4
-attention-dropout: 0.1
-activation-dropout: 0.1
--- a/egs/mustc/st/conf/train_ctc_sate.yaml
+++ b/egs/mustc/st/conf/train_ctc_sate.yaml
-train-subset: train_st
-valid-subset: dev_st
-max-epoch: 50
-max-update: 100000
-num-workers: 8
-patience: 10
-no-progress-bar: True
-log-interval: 100
-seed: 1
-report-accuracy: True
-#load-pretrained-encoder-from:
-#load-pretrained-acoustic-encoder-from:
-#load-pretrained-text-encoder-from:
-#load-pretrained-decoder-from:
-arch: s2t_sate
-share-decoder-input-output-embed: True
-optimizer: adam
-clip-norm: 10.0
-lr-scheduler: inverse_sqrt
-warmup-init-lr: 1e-7
-warmup-updates: 10000
-lr: 2e-3
-#adam_betas: (0.9,0.98)
-ctc-weight: 0.3
-criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
-encoder-normalize-before: True
-decoder-normalize-before: True
-conv-kernel-sizes: 5,5
-conv-channels: 1024
-dropout: 0.1
-activation-fn: relu
-encoder-embed-dim: 256
-encoder-ffn-embed-dim: 2048
-encoder-layers: 12
-text-encoder-layers: 6
-decoder-layers: 6
-encoder-attention-heads: 4
-macaron-style: True
-use-cnn-module: True
-cnn-module-kernel: 31
-acoustic-encoder: transformer
-adapter: league
-#decoder-embed-dim: 256
-#decoder-ffn-embed-dim: 2048
-#decoder-attention-heads: 4
-#attention-dropout: 0.1
-#activation-dropout: 0.1
--- a/egs/mustc/st/conf/train_ctc_sate_conformer.yaml
+++ b/egs/mustc/st/conf/train_ctc_sate_conformer.yaml
-train-subset: train_st
-valid-subset: dev_st
-max-epoch: 50
-max-update: 100000
-num-workers: 8
-patience: 10
-no-progress-bar: True
-log-interval: 100
-seed: 1
-report-accuracy: True
-#load-pretrained-encoder-from:
-#load-pretrained-acoustic-encoder-from:
-#load-pretrained-text-encoder-from:
-#load-pretrained-decoder-from:
-arch: s2t_sate
-share-decoder-input-output-embed: True
-optimizer: adam
-clip-norm: 10.0
-lr-scheduler: inverse_sqrt
-warmup-init-lr: 1e-7
-warmup-updates: 10000
-lr: 2e-3
-#adam_betas: (0.9,0.98)
-ctc-weight: 0.3
-criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
-encoder-normalize-before: True
-decoder-normalize-before: True
-conv-kernel-sizes: 5,5
-conv-channels: 1024
-dropout: 0.1
-activation-fn: relu
-encoder-embed-dim: 256
-encoder-ffn-embed-dim: 2048
-encoder-layers: 12
-text-encoder-layers: 6
-decoder-layers: 6
-encoder-attention-heads: 4
-macaron-style: True
-use-cnn-module: True
-cnn-module-kernel: 31
-acoustic-encoder: conformer
-adapter: league
-#decoder-embed-dim: 256
-#decoder-ffn-embed-dim: 2048
-#decoder-attention-heads: 4
-#attention-dropout: 0.1
-#activation-dropout: 0.1
--- a/egs/mustc/st/conf/train_ctc_sate_conformer_rpr.yaml
+++ b/egs/mustc/st/conf/train_ctc_sate_conformer_rpr.yaml
-train-subset: train_st
-valid-subset: dev_st
-max-epoch: 50
-max-update: 100000
-num-workers: 8
-patience: 10
-no-progress-bar: True
-log-interval: 100
-seed: 1
-report-accuracy: True
-#load-pretrained-encoder-from:
-#load-pretrained-acoustic-encoder-from:
-#load-pretrained-text-encoder-from:
-#load-pretrained-decoder-from:
-arch: s2t_sate
-share-decoder-input-output-embed: True
-optimizer: adam
-clip-norm: 10.0
-lr-scheduler: inverse_sqrt
-warmup-init-lr: 1e-7
-warmup-updates: 10000
-lr: 2e-3
-#adam_betas: (0.9,0.98)
-ctc-weight: 0.3
-criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
-encoder-normalize-before: True
-decoder-normalize-before: True
-conv-kernel-sizes: 5,5
-conv-channels: 1024
-dropout: 0.1
-activation-fn: relu
-encoder-embed-dim: 256
-encoder-ffn-embed-dim: 2048
-encoder-layers: 12
-text-encoder-layers: 6
-decoder-layers: 6
-encoder-attention-heads: 4
-macaron-style: True
-use-cnn-module: True
-cnn-module-kernel: 31
-acoustic-encoder: conformer
-adapter: league
-encoder-attention-type: relative
-decoder-attention-type: relative
-max-encoder-relative-length: 100
-max-decoder-relative-length: 20
-decoder-embed-dim: 256
-decoder-ffn-embed-dim: 2048
-decoder-attention-heads: 4
-attention-dropout: 0.1
-activation-dropout: 0.1
--- a/egs/mustc/st/conf/train_ctc_sate_rpr.yaml
+++ b/egs/mustc/st/conf/train_ctc_sate_rpr.yaml
-train-subset: train_st
-valid-subset: dev_st
-max-epoch: 50
-max-update: 100000
-num-workers: 8
-patience: 10
-no-progress-bar: True
-log-interval: 100
-seed: 1
-report-accuracy: True
-#load-pretrained-encoder-from:
-#load-pretrained-acoustic-encoder-from:
-#load-pretrained-text-encoder-from:
-#load-pretrained-decoder-from:
-arch: s2t_sate
-share-decoder-input-output-embed: True
-optimizer: adam
-clip-norm: 10.0
-lr-scheduler: inverse_sqrt
-warmup-init-lr: 1e-7
-warmup-updates: 10000
-lr: 2e-3
-#adam_betas: (0.9,0.98)
-ctc-weight: 0.3
-criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
-encoder-normalize-before: True
-decoder-normalize-before: True
-conv-kernel-sizes: 5,5
-conv-channels: 1024
-dropout: 0.1
-activation-fn: relu
-encoder-embed-dim: 256
-encoder-ffn-embed-dim: 2048
-encoder-layers: 12
-text-encoder-layers: 6
-decoder-layers: 6
-encoder-attention-heads: 4
-macaron-style: True
-use-cnn-module: True
-cnn-module-kernel: 31
-acoustic-encoder: transformer
-adapter: league
-encoder-attention-type: relative
-decoder-attention-type: relative
-max-encoder-relative-length: 100
-max-decoder-relative-length: 20
-#decoder-embed-dim: 256
-#decoder-ffn-embed-dim: 2048
-#decoder-attention-heads: 4
-#attention-dropout: 0.1
-#activation-dropout: 0.1
--- a/egs/mustc/st/conf/train_ctc_templete.yaml
+++ b/egs/mustc/st/conf/train_ctc_templete.yaml
-train-subset: train_st
-valid-subset: dev_st
-max-epoch: 50
-max-update: 100000
-num-workers: 8
-patience: 10
-no-progress-bar: True
-log-interval: 100
-seed: 1
-report-accuracy: True
-#load-pretrained-encoder-from:
-#load-pretrained-decoder-from:
-arch: s2t_conformer_m
-share-decoder-input-output-embed: True
-optimizer: adam
-clip-norm: 10.0
-lr-scheduler: inverse_sqrt
-warmup-init-lr: 1e-7
-warmup-updates: 10000
-lr: 1e-3
-#adam_betas: (0.9,0.98)
-ctc-weight: 0.3
-criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
-conv-kernel-sizes: 5,5
-conv-channels: 1024
-#dropout: 0.1
-#activation-fn: relu
-#encoder-embed-dim: 256
-#encoder-ffn-embed-dim: 2048
-#encoder-layers: 12
-#decoder-layers: 6
-#encoder-attention-heads: 4
-#decoder-embed-dim: 256
-#decoder-ffn-embed-dim: 2048
-#decoder-attention-heads: 4
-#attention-dropout: 0.1
-#activation-dropout: 0.1
-# conformer
-#macaron-style: True
-#use-cnn-module: True
-#cnn-module-kernel: 31
-# relative position encoding
-#encoder-attention-type: relative
-#decoder-attention-type: relative
-#max-encoder-relative-length: 100
-#max-decoder-relative-length: 20
--- a/egs/mustc/st/conf/train_sate.yaml
+++ b/egs/mustc/st/conf/train_sate.yaml
-train-subset: train_st
-valid-subset: dev_st
-max-epoch: 50
-max-update: 100000
-num-workers: 8
-patience: 10
-no-progress-bar: True
-log-interval: 100
-seed: 1
-report-accuracy: True
-#load-pretrained-encoder-from:
-#load-pretrained-acoustic-encoder-from:
-#load-pretrained-text-encoder-from:
-#load-pretrained-decoder-from:
-arch: s2t_sate
-share-decoder-input-output-embed: True
-optimizer: adam
-clip-norm: 10.0
-lr-scheduler: inverse_sqrt
-warmup-init-lr: 1e-7
-warmup-updates: 10000
-lr: 2e-3
-#adam_betas: (0.9,0.98)
-criterion: label_smoothed_cross_entropy
-label_smoothing: 0.1
-encoder-normalize-before: True
-decoder-normalize-before: True
-conv-kernel-sizes: 5,5
-conv-channels: 1024
-dropout: 0.1
-activation-fn: relu
-encoder-embed-dim: 256
-encoder-ffn-embed-dim: 2048
-encoder-layers: 12
-text-encoder-layers: 6
-decoder-layers: 6
-encoder-attention-heads: 4
-macaron-style: True
-use-cnn-module: True
-cnn-module-kernel: 31
-acoustic-encoder: transformer
-adapter: league
-#decoder-embed-dim: 256
-#decoder-ffn-embed-dim: 2048
-#decoder-attention-heads: 4
-#attention-dropout: 0.1
-#activation-dropout: 0.1
--- a/egs/mustc/st/conf/train_sate_rpr.yaml
+++ b/egs/mustc/st/conf/train_sate_rpr.yaml
-train-subset: train_st,train_covost
-valid-subset: dev_st
-max-epoch: 50
-max-update: 100000
-num-workers: 8
-patience: 10
-no-progress-bar: True
-log-interval: 100
-seed: 1
-report-accuracy: True
-#load-pretrained-encoder-from:
-#load-pretrained-acoustic-encoder-from:
-#load-pretrained-text-encoder-from:
-#load-pretrained-decoder-from:
-arch: s2t_sate
-share-decoder-input-output-embed: True
-optimizer: adam
-clip-norm: 10.0
-lr-scheduler: inverse_sqrt
-warmup-init-lr: 1e-7
-warmup-updates: 10000
-lr: 2e-3
-#adam_betas: (0.9,0.98)
-criterion: label_smoothed_cross_entropy
-label_smoothing: 0.1
-encoder-normalize-before: True
-decoder-normalize-before: True
-conv-kernel-sizes: 5,5
-conv-channels: 1024
-dropout: 0.1
-activation-fn: relu
-encoder-embed-dim: 256
-encoder-ffn-embed-dim: 2048
-encoder-layers: 12
-text-encoder-layers: 6
-decoder-layers: 6
-encoder-attention-heads: 4
-macaron-style: True
-use-cnn-module: True
-cnn-module-kernel: 31
-acoustic-encoder: transformer
-adapter: league
-encoder-attention-type: relative
-decoder-attention-type: relative
-max-encoder-relative-length: 100
-max-decoder-relative-length: 20
-#decoder-embed-dim: 256
-#decoder-ffn-embed-dim: 2048
-#decoder-attention-heads: 4
-#attention-dropout: 0.1
-#activation-dropout: 0.1
--- a/egs/mustc/st/decode.sh
+++ b/egs/mustc/st/decode.sh
@@ -31,9 +31,9 @@ cmd="./run.sh
 if [[ -n ${data_dir} ]]; then
    cmd="$cmd --data_dir ${data_dir}"
 fi
-if [[ -n ${test_subset} ]]; then
+if [[ ${#test_subset[@]} -eq 0 ]]; then
-    test_subset=`echo ${test_subset[*]} | sed 's/ /,/g'`
+    subsets=$(echo ${test_subset[*]} | sed 's/ /,/g')
-    cmd="$cmd --test_subset ${test_subset}"
+    cmd="$cmd --test_subset ${subsets}"
 fi
 echo $cmd

--- a/egs/mustc/st/local/monitor.sh
+++ b/egs/mustc/st/local/monitor.sh
@@ -3,15 +3,19 @@ cmd="sh train.sh"
 while :
 do
-    all_devices=$(seq 0 `gpustat | sed '1,2d' | wc -l`);
+    record=$(mktemp -t temp.record.XXXXXX)
+    gpustat > $record
+    all_devices=$(seq 0 "$(sed '1,2d' ${record} | wc -l)");
    count=0
-    for dev in ${all_devices[@]}
+    for dev in "${all_devices[@]}"
    do
-        line=`expr $dev + 2`
+        line=$((dev + 2))
-        use=`gpustat -p | head -n $line | tail -1 | cut -d '|' -f4 | wc -w`
+        use=$(head -n $line ${record} | tail -1 | cut -d '|' -f3 | cut -d '/' -f1)
-        if [[ $use -eq 0 ]]; then
+        if [[ $use -lt 100 ]]; then
            device[$count]=$dev
-            count=`expr $count + 1`
+            count=$((count + 1))
            if [[ $count -eq $gpu_num ]]; then
                break
            fi

--- a/egs/mustc/st/local/path.sh
+++ b/egs/mustc/st/local/path.sh
-MAIN_ROOT=$PWD/../../..
-KALDI_ROOT=$MAIN_ROOT/tools/kaldi
-export PATH=$PWD/utils/:$KALDI_ROOT/tools/openfst/bin:$PATH
-[ ! -f $KALDI_ROOT/tools/config/common_path.sh ] && echo >&2 "The standard file $KALDI_ROOT/tools/config/common_path.sh is not present -> Exit!" && exit 1
-. $KALDI_ROOT/tools/config/common_path.sh
-export LC_ALL=C
-export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:$MAIN_ROOT/src/lib
-export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:$MAIN_ROOT/tools/chainer_ctc/ext/warp-ctc/build
-. "${MAIN_ROOT}"/tools/activate_python.sh && . "${MAIN_ROOT}"/tools/extra_path.sh
-export PATH=$MAIN_ROOT/utils:$MAIN_ROOT/espnet/bin:$PATH
-export OMP_NUM_THREADS=1
-# check extra module installation
-if ! which tokenizer.perl > /dev/null; then
-    echo "Error: it seems that moses is not installed." >&2
-    echo "Error: please install moses as follows." >&2
-    echo "Error: cd ${MAIN_ROOT}/tools && make moses.done" >&2
-    return 1
-fi
-# NOTE(kan-bayashi): Use UTF-8 in Python to avoid UnicodeDecodeError when LC_ALL=C
-export PYTHONIOENCODING=UTF-8
--- a/egs/mustc/st/local/utils.sh
+++ b/egs/mustc/st/local/utils.sh
@@ -5,17 +5,18 @@ get_devices(){
    device=()
    while :
    do
-        record=`mktemp -t temp.record.XXXXXX`
+        record=$(mktemp -t temp.record.XXXXXX)
        gpustat > $record
-        all_devices=$(seq 0 `cat $record | sed '1,2d' | wc -l`);
+        all_devices=$(seq 0 "$(sed '1,2d' ${record} | wc -l)");
        count=0
-        for dev in ${all_devices[@]}
+        for dev in "${all_devices[@]}"
        do
-            line=`expr $dev + 2`
+            line=$((dev + 2))
-            use=`cat $record | head -n $line | tail -1 | cut -d '|' -f3 | cut -d '/' -f1`
+            use=$(head -n $line ${record} | tail -1 | cut -d '|' -f3 | cut -d '/' -f1)
            if [[ $use -lt 100 ]]; then
                device[$count]=$dev
-                count=`expr $count + 1`
+                count=$((count + 1))
                if [[ $count -eq $gpu_num ]]; then
                    break
                fi

--- a/egs/mustc/st/run.sh
+++ b/egs/mustc/st/run.sh
@@ -48,8 +48,8 @@ specific_dir=/home/xuchen/st/data/mustc/st_lcrm/en-de
 asr_vocab_prefix=spm_unigram10000_st_share
 st_vocab_prefix=spm_unigram10000_st_share
-org_data_dir=/media/data/${dataset}
+org_data_dir=~/st/data/${dataset}
-data_dir=~/st/data/${dataset}/st
+data_dir=~/st/data/${dataset}/asr
 test_subset=tst-COMMON
 # exp
@@ -60,9 +60,7 @@ exp_tag=baseline
 exp_name=
 # config
-train_config=train_ctc.yaml
+train_config=ctc
-train_config1=
-train_config2=
 # training setting
 fp16=1
@@ -100,10 +98,9 @@ fi
 . ./local/parse_options.sh || exit 1;
-# full path
-train_config=$pwd_dir/conf/${train_config}
 if [[ -z ${exp_name} ]]; then
-    exp_name=${exp_prefix}_$(basename ${train_config%.*})_${exp_tag}
+#    exp_name=${exp_prefix}_$(basename ${train_config%.*})_${exp_tag}
+    exp_name=${exp_prefix}_${train_config}_${exp_tag}
    if [[ -n ${extra_tag} ]]; then
        exp_name=${exp_name}_${extra_tag}
    fi
@@ -122,7 +119,6 @@ if [ ${stage} -le 0 ] && [ ${stop_stage} -ge 0 ]; then
    if [[ ! -e ${data_dir}/${lang} ]]; then
        mkdir -p ${data_dir}/${lang}
    fi
-    source ~/tools/audio/bin/activate
    cmd="python ${root_dir}/examples/speech_to_text/prep_mustc_data.py
        --data-root ${org_data_dir}
@@ -185,7 +181,6 @@ if [ ${stage} -le 0 ] && [ ${stop_stage} -ge 0 ]; then
    echo -e "\033[34mRun command: \n${cmd} \033[0m"
    [[ $eval -eq 1 ]] && eval ${cmd}
-    deactivate
 fi
 data_dir=${data_dir}/${lang}
@@ -196,7 +191,7 @@ if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
    if [[ -z ${device} || ${#device[@]} -eq 0 ]]; then
 		if [[ ${gpu_num} -eq 0 ]]; then
-			device=()
+			device=""
 		else
        	source ./local/utils.sh
        	device=$(get_devices $gpu_num 0)
@@ -213,12 +208,31 @@ if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
    cp ${BASH_SOURCE[0]} ${model_dir}
    cp ${PWD}/train.sh ${model_dir}
-    cp ${train_config} ${model_dir}
+    config_list="${train_config//,/ }"
+    idx=0
+    for config in "${config_list[@]}"
+    do
+        config_path=$pwd_dir/conf/${config}.yaml
+        if [[ ! -f ${config_path} ]]; then
+            echo "No config file ${config_path}"
+            exit
+        fi
+        cp ${config_path} ${model_dir}
+        if [[ idx -eq 0 ]]; then
+            extra_parameter="${extra_parameter}
+        --train-config ${config_path}"
+        else
+            extra_parameter="${extra_parameter}
+        --train-config${idx} ${config_path}"
+        fi
+        idx=$((idx + 1))
+    done
    cmd="python3 -u ${root_dir}/fairseq_cli/train.py
        ${data_dir}
        --config-yaml ${data_config}
-        --train-config ${train_config}
        --task ${task}
        --max-tokens ${max_tokens}
        --skip-invalid-size-inputs-valid-test
@@ -227,14 +241,6 @@ if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
        --save-dir ${model_dir}
        --tensorboard-logdir ${model_dir}"
-    if [[ -n ${train_config1} ]]; then
-        cmd="${cmd}
-        --train-config1 ${train_config1}"
-    fi
-	if [[ -n ${train_config2} ]]; then
-        cmd="${cmd}
-        --train-config2 ${train_config2}"
-    fi
 	if [[ -n ${extra_parameter} ]]; then
        cmd="${cmd}
        ${extra_parameter}"
@@ -297,8 +303,8 @@ if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
    # save info
    log=./history.log
-    echo "${time} | ${device} | ${data_dir} | ${model_dir} " >> $log
+    echo "${time} | ${device} | ${data_dir} | ${exp_name} | ${model_dir} " >> $log
-    cat $log | tail -n 50 > tmp.log
+    tail -n 50 ${log} > tmp.log
    mv tmp.log $log
    export CUDA_VISIBLE_DEVICES=${device}
@@ -306,7 +312,7 @@ if [ ${stage} -le 1 ] && [ ${stop_stage} -ge 1 ]; then
    if [[ $eval -eq 1 ]]; then
 		eval $cmd
 		sleep 2s
-		tail -n `wc -l ${model_dir}/train.log | awk '{print $1+1}'` -f ${model_dir}/train.log
+		tail -n "$(wc -l ${model_dir}/train.log | awk '{print $1+1}')" -f ${model_dir}/train.log
 	fi
 fi
 wait
@@ -329,7 +335,7 @@ if [ ${stage} -le 2 ] && [ ${stop_stage} -ge 2 ]; then
    if [[ -z ${device} || ${#device[@]} -eq 0 ]]; then
 		if [[ ${gpu_num} -eq 0 ]]; then
-			device=()
+			device=""
 		else
        	source ./local/utils.sh
        	device=$(get_devices $gpu_num 0)
@@ -340,8 +346,8 @@ if [ ${stage} -le 2 ] && [ ${stop_stage} -ge 2 ]; then
 	result_file=${model_dir}/decode_result
 	[[ -f ${result_file} ]] && rm ${result_file}
-    test_subset=(${test_subset//,/ })
+    test_subset=${test_subset//,/ }
-	for subset in ${test_subset[@]}; do
+	for subset in "${test_subset[@]}"; do
        subset=${subset}_st
  		cmd="python ${root_dir}/fairseq_cli/generate.py
        ${data_dir}

--- a/egs/mustc/st/train.sh
+++ b/egs/mustc/st/train.sh
@@ -6,29 +6,18 @@ gpu_num=8
 update_freq=1
 max_tokens=40000
+exp_tag=
+config_list=(ctc local_attn)
+# exp full name
 exp_name=
 extra_tag=
 extra_parameter=
 #extra_tag="${extra_tag}"
 #extra_parameter="${extra_parameter} "
-#extra_tag="${extra_tag}_encdlcl"
+train_config=$(echo ${config_list[*]} | sed 's/ /,/g')
-#extra_parameter="${extra_parameter} --use-enc-dlcl"
-#extra_tag="${extra_tag}_decdlcl"
-#extra_parameter="${extra_parameter} --use-dec-dlcl"
-exp_tag=baseline
-train_config=train_ctc.yaml
-#train_config=train_ctc_conformer.yaml
-#train_config=train_ctc_conformer_rpr.yaml
-#train_config=train_ctc_sate.yaml
-#train_config=train_ctc_sate_rpr.yaml
-#train_config=train_ctc_sate_conformer.yaml
-#train_config=train_ctc_sate_conformer_rpr.yaml
-train_config1=train_local_attn.yaml
 cmd="./run.sh
    --stage 1
@@ -39,9 +28,6 @@ cmd="./run.sh
    --max_tokens ${max_tokens}
    "
-if [[ -n ${train_config1} ]]; then
-    cmd="$cmd --train_config1 ${train_config1}"
-fi
 if [[ -n ${exp_name} ]]; then
    cmd="$cmd --exp_name ${exp_name}"
 fi
@@ -52,8 +38,9 @@ if [[ -n ${extra_tag} ]]; then
    cmd="$cmd --extra_tag ${extra_tag}"
 fi
 if [[ -n ${extra_parameter} ]]; then
-    cmd="$cmd --extra_parameter \"${extra_parameter}\""
+#    cmd="$cmd --extra_parameter \"${extra_parameter}\""
+    cmd="$cmd --extra_parameter ${extra_parameter}"
 fi
-echo $cmd
+echo ${cmd}
-eval $cmd
+eval ${cmd}