accu update

533dac9c · xuchen · f1dc8723 · 533dac9c · 533dac9c · 533dac9c
Commit 533dac9c authored Nov 26, 2023 by xuchen
--- a/egs/aishell/asr/conf/base.yaml
+++ b/egs/aishell/asr/conf/base.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 subsampling-type: conv1d
 subsampling-layers: 2

--- a/egs/aishell/asr/conf/base_nonorm.yaml
+++ b/egs/aishell/asr/conf/base_nonorm.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 subsampling-type: conv1d
 subsampling-layers: 2

--- a/egs/aishell/asr/conf/basis.yaml
+++ b/egs/aishell/asr/conf/basis.yaml
@@ -25,5 +25,7 @@ num-workers: 8
 no-progress-bar: True
 log-interval: 100
 seed: 1
+label-smoothing: 0.1
 report-accuracy: True
 skip-invalid-size-inputs-valid-test: True
\ No newline at end of file
--- a/egs/aishell/asr/conf/big.yaml
+++ b/egs/aishell/asr/conf/big.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 0.0014
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 subsampling-type: conv1d
 subsampling-layers: 2

--- a/egs/aishell/asr/conf/big_wenet.yaml
+++ b/egs/aishell/asr/conf/big_wenet.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 1e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 subsampling-type: conv2d
 subsampling-layers: 2

--- a/egs/aishell/asr/conf/pds_base.yaml
+++ b/egs/aishell/asr/conf/pds_base.yaml
@@ -7,10 +7,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/aishell/asr/conf/pds_base_16.yaml
+++ b/egs/aishell/asr/conf/pds_base_16.yaml
@@ -23,10 +23,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/aishell/asr/conf/pds_base_32.yaml
+++ b/egs/aishell/asr/conf/pds_base_32.yaml
@@ -23,10 +23,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/aishell/asr/conf/pds_base_8.yaml
+++ b/egs/aishell/asr/conf/pds_base_8.yaml
@@ -23,10 +23,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/aishell/asr/conf/pds_big_8.yaml
+++ b/egs/aishell/asr/conf/pds_big_8.yaml
@@ -23,10 +23,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 0.0014
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.15
 activation-fn: relu

--- a/egs/aishell/asr/conf/purectc.yaml
+++ b/egs/aishell/asr/conf/purectc.yaml
@@ -5,7 +5,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 zero_infinity: True

--- a/egs/aishell/asr/run.sh
+++ b/egs/aishell/asr/run.sh
@@ -40,7 +40,7 @@ task=speech_to_text
 vocab_type=unigram
 vocab_type=char
 vocab_size=10000
-speed_perturb=0
+speed_perturb=1
 lcrm=0
 tokenizer=0
 use_raw_audio=0

--- a/egs/covost/asr/conf/base.yaml
+++ b/egs/covost/asr/conf/base.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-embed-norm: True
 encoder-no-scale-embedding: True

--- a/egs/covost/asr/conf/basis.yaml
+++ b/egs/covost/asr/conf/basis.yaml
@@ -23,5 +23,6 @@ num-workers: 8
 no-progress-bar: True
 log-interval: 100
 seed: 1
+label-smoothing: 0.1
 report-accuracy: True
 skip-invalid-size-inputs-valid-test: True
--- a/egs/covost/asr/conf/big.yaml
+++ b/egs/covost/asr/conf/big.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-embed-norm: True
 encoder-no-scale-embedding: True

--- a/egs/covost/asr/conf/pds_base.yaml
+++ b/egs/covost/asr/conf/pds_base.yaml
@@ -9,10 +9,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/covost/asr/conf/pds_base_16.yaml
+++ b/egs/covost/asr/conf/pds_base_16.yaml
@@ -22,10 +22,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/covost/asr/conf/pds_base_32.yaml
+++ b/egs/covost/asr/conf/pds_base_32.yaml
@@ -22,10 +22,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/covost/asr/conf/pds_base_8.yaml
+++ b/egs/covost/asr/conf/pds_base_8.yaml
@@ -31,10 +31,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/covost/asr/conf/pds_base_8_grow.yaml
+++ b/egs/covost/asr/conf/pds_base_8_grow.yaml
@@ -32,10 +32,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/covost/asr/conf/pds_base_8_grow512.yaml
+++ b/egs/covost/asr/conf/pds_base_8_grow512.yaml
@@ -32,10 +32,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/covost/asr/conf/pds_big_8.yaml
+++ b/egs/covost/asr/conf/pds_big_8.yaml
@@ -22,10 +22,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.15
 activation-fn: relu

--- a/egs/covost/asr/conf/purectc.yaml
+++ b/egs/covost/asr/conf/purectc.yaml
@@ -5,7 +5,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 zero_infinity: True

--- a/egs/covost/asr/conf/purectc_pds_base_8.yaml
+++ b/egs/covost/asr/conf/purectc_pds_base_8.yaml
@@ -32,7 +32,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 post-process: sentencepiece

--- a/egs/covost/asr/conf/purectc_pds_base_8_compare.yaml
+++ b/egs/covost/asr/conf/purectc_pds_base_8_compare.yaml
@@ -30,7 +30,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 0.0015
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 post-process: sentencepiece

--- a/egs/covost/asr/conf/purectc_pds_base_8_grow.yaml
+++ b/egs/covost/asr/conf/purectc_pds_base_8_grow.yaml
@@ -34,7 +34,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 0.002
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 post-process: sentencepiece

--- a/egs/covost/asr/conf/purectc_pds_base_8_grow512.yaml
+++ b/egs/covost/asr/conf/purectc_pds_base_8_grow512.yaml
@@ -34,7 +34,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 0.002
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 post-process: sentencepiece

--- a/egs/covost/asr/conf/purectc_pds_base_8_grow_compare.yaml
+++ b/egs/covost/asr/conf/purectc_pds_base_8_grow_compare.yaml
@@ -30,7 +30,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 0.0015
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 post-process: sentencepiece

--- a/egs/covost/mt/conf/base.yaml
+++ b/egs/covost/mt/conf/base.yaml
@@ -7,10 +7,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 8000
 lr: 1e-3
-adam_betas: (0.9,0.997)
+adam-betas: (0.9,0.997)
 criterion: label_smoothed_cross_entropy
-label_smoothing: 0.1
 dropout: 0.1
 attention-dropout: 0.1

--- a/egs/covost/mt/conf/basis.yaml
+++ b/egs/covost/mt/conf/basis.yaml
@@ -25,5 +25,6 @@ num-workers: 8
 no-progress-bar: True
 log-interval: 100
 seed: 1
+label-smoothing: 0.1
 report-accuracy: True
 skip-invalid-size-inputs-valid-test: True
\ No newline at end of file
--- a/egs/covost/mt/conf/debug.yaml
+++ b/egs/covost/mt/conf/debug.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 8000
 lr: 1e-3
-adam_betas: (0.9,0.997)
+adam-betas: (0.9,0.997)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 attention-dropout: 0.1

--- a/egs/covost/mt/conf/small.yaml
+++ b/egs/covost/mt/conf/small.yaml
@@ -7,10 +7,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 8000
 lr: 1e-3
-adam_betas: (0.9,0.997)
+adam-betas: (0.9,0.997)
 criterion: label_smoothed_cross_entropy
-label_smoothing: 0.1
 dropout: 0.1
 attention-dropout: 0.1

--- a/egs/covost/st/conf/at12.yaml
+++ b/egs/covost/st/conf/at12.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/covost/st/conf/at12_big.yaml
+++ b/egs/covost/st/conf/at12_big.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 1e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/covost/st/conf/at12_pds_big.yaml
+++ b/egs/covost/st/conf/at12_pds_big.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 1e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/covost/st/conf/base.yaml
+++ b/egs/covost/st/conf/base.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-embed-norm: True
 encoder-no-scale-embedding: True

--- a/egs/covost/st/conf/basis.yaml
+++ b/egs/covost/st/conf/basis.yaml
@@ -25,5 +25,6 @@ num-workers: 8
 no-progress-bar: True
 log-interval: 100
 seed: 1
+label-smoothing: 0.1
 report-accuracy: True
 skip-invalid-size-inputs-valid-test: True
--- a/egs/covost/st/conf/big.yaml
+++ b/egs/covost/st/conf/big.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 1e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-embed-norm: True
 encoder-no-scale-embedding: True

--- a/egs/covost/st/conf/dual.yaml
+++ b/egs/covost/st/conf/dual.yaml
@@ -26,10 +26,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: join_speech_and_text_loss
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/covost/st/conf/multibranch.yaml
+++ b/egs/covost/st/conf/multibranch.yaml
@@ -45,10 +45,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 subsampling-type: conv1d
 subsampling-layers: 2

--- a/egs/covost/st/conf/pds_base.yaml
+++ b/egs/covost/st/conf/pds_base.yaml
@@ -9,10 +9,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/covost/st/conf/pds_base_16.yaml
+++ b/egs/covost/st/conf/pds_base_16.yaml
@@ -24,10 +24,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/covost/st/conf/pds_base_32.yaml
+++ b/egs/covost/st/conf/pds_base_32.yaml
@@ -24,10 +24,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/covost/st/conf/pds_base_4_444.yaml
+++ b/egs/covost/st/conf/pds_base_4_444.yaml
@@ -22,10 +22,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/covost/st/conf/pds_base_8.yaml
+++ b/egs/covost/st/conf/pds_base_8.yaml
@@ -28,10 +28,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/covost/st/conf/pds_base_8_336.yaml
+++ b/egs/covost/st/conf/pds_base_8_336.yaml
@@ -28,10 +28,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/covost/st/conf/pds_base_8_363.yaml
+++ b/egs/covost/st/conf/pds_base_8_363.yaml
@@ -28,10 +28,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/covost/st/conf/pds_base_8_444.yaml
+++ b/egs/covost/st/conf/pds_base_8_444.yaml
@@ -28,10 +28,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/covost/st/conf/pds_base_8_633.yaml
+++ b/egs/covost/st/conf/pds_base_8_633.yaml
@@ -28,10 +28,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/covost/st/conf/pds_big_16.yaml
+++ b/egs/covost/st/conf/pds_big_16.yaml
@@ -24,10 +24,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 1e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.15
 activation-fn: relu

--- a/egs/covost/st/conf/pds_big_32.yaml
+++ b/egs/covost/st/conf/pds_big_32.yaml
@@ -24,10 +24,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 1e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.15
 activation-fn: relu

--- a/egs/covost/st/conf/pds_big_8.yaml
+++ b/egs/covost/st/conf/pds_big_8.yaml
@@ -24,10 +24,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 1e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.15
 activation-fn: relu

--- a/egs/covost/st/conf/pds_big_deep_16.yaml
+++ b/egs/covost/st/conf/pds_big_deep_16.yaml
@@ -24,10 +24,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 1e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.15
 activation-fn: relu

--- a/egs/covost/st/conf/pds_big_deep_32.yaml
+++ b/egs/covost/st/conf/pds_big_deep_32.yaml
@@ -24,10 +24,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 1e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.15
 activation-fn: relu

--- a/egs/covost/st/conf/pds_big_deep_8.yaml
+++ b/egs/covost/st/conf/pds_big_deep_8.yaml
@@ -24,10 +24,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 1e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.15
 activation-fn: relu

--- a/egs/covost/st/conf/pds_deep_16.yaml
+++ b/egs/covost/st/conf/pds_deep_16.yaml
@@ -24,10 +24,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/covost/st/conf/pds_deep_32.yaml
+++ b/egs/covost/st/conf/pds_deep_32.yaml
@@ -24,10 +24,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/covost/st/conf/pds_deep_8.yaml
+++ b/egs/covost/st/conf/pds_deep_8.yaml
@@ -22,10 +22,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/covost/st/conf/pure2ctc.yaml
+++ b/egs/covost/st/conf/pure2ctc.yaml
@@ -13,7 +13,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/covost/st/conf/pure2ctc_big.yaml
+++ b/egs/covost/st/conf/pure2ctc_big.yaml
@@ -13,7 +13,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 1e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/covost/st/conf/pure2ctc_pds_big.yaml
+++ b/egs/covost/st/conf/pure2ctc_pds_big.yaml
@@ -13,7 +13,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 1e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/covost/st/conf/purectc_sate.yaml
+++ b/egs/covost/st/conf/purectc_sate.yaml
@@ -6,7 +6,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 zero_infinity: True

--- a/egs/covost/st/conf/purexctc.yaml
+++ b/egs/covost/st/conf/purexctc.yaml
@@ -12,7 +12,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/covost/st/conf/sate.yaml
+++ b/egs/covost/st/conf/sate.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/covost/st/conf/sate_big.yaml
+++ b/egs/covost/st/conf/sate_big.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 1e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/covost/st/conf/sate_big_pds.yaml
+++ b/egs/covost/st/conf/sate_big_pds.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 1e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-embed-norm: True
 encoder-no-scale-embedding: True

--- a/egs/covost/st/conf/sate_deep.yaml
+++ b/egs/covost/st/conf/sate_deep.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/covost/st/conf/sate_pds_16.yaml
+++ b/egs/covost/st/conf/sate_pds_16.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-embed-norm: True
 encoder-no-scale-embedding: True

--- a/egs/covost/st/conf/sate_pds_8.yaml
+++ b/egs/covost/st/conf/sate_pds_8.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-embed-norm: True
 encoder-no-scale-embedding: True

--- a/egs/covost/st/conf/sate_pds_8_336.yaml
+++ b/egs/covost/st/conf/sate_pds_8_336.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-embed-norm: True
 encoder-no-scale-embedding: True

--- a/egs/covost/st/conf/sate_pds_8_363.yaml
+++ b/egs/covost/st/conf/sate_pds_8_363.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-embed-norm: True
 encoder-no-scale-embedding: True

--- a/egs/covost/st/conf/sate_pds_8_444.yaml
+++ b/egs/covost/st/conf/sate_pds_8_444.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-embed-norm: True
 encoder-no-scale-embedding: True

--- a/egs/covost/st/conf/sate_pds_8_633.yaml
+++ b/egs/covost/st/conf/sate_pds_8_633.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-embed-norm: True
 encoder-no-scale-embedding: True

--- a/egs/covost/st/conf/sate_pds_base_8.yaml
+++ b/egs/covost/st/conf/sate_pds_base_8.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-embed-norm: True
 encoder-no-scale-embedding: True

--- a/egs/covost/st/conf/sate_pds_deep_8.yaml
+++ b/egs/covost/st/conf/sate_pds_deep_8.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-embed-norm: True
 encoder-no-scale-embedding: True

--- a/egs/covost/st/conf/w2v2.yaml
+++ b/egs/covost/st/conf/w2v2.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-embed-norm: True
 encoder-no-scale-embedding: True

--- a/egs/covost/st/conf/xctc_s2s.yaml
+++ b/egs/covost/st/conf/xctc_s2s.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/fisher_callhome/asr/conf/base.yaml
+++ b/egs/fisher_callhome/asr/conf/base.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-embed-norm: True
 encoder-no-scale-embedding: True

--- a/egs/fisher_callhome/asr/conf/basis.yaml
+++ b/egs/fisher_callhome/asr/conf/basis.yaml
@@ -23,5 +23,6 @@ num-workers: 8
 no-progress-bar: True
 log-interval: 100
 seed: 1
+label-smoothing: 0.1
 report-accuracy: True
 skip-invalid-size-inputs-valid-test: True
--- a/egs/fisher_callhome/asr/conf/big.yaml
+++ b/egs/fisher_callhome/asr/conf/big.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-embed-norm: True
 encoder-no-scale-embedding: True

--- a/egs/fisher_callhome/asr/conf/pds_base.yaml
+++ b/egs/fisher_callhome/asr/conf/pds_base.yaml
@@ -9,10 +9,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/fisher_callhome/asr/conf/pds_base_16.yaml
+++ b/egs/fisher_callhome/asr/conf/pds_base_16.yaml
@@ -22,10 +22,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/fisher_callhome/asr/conf/pds_base_32.yaml
+++ b/egs/fisher_callhome/asr/conf/pds_base_32.yaml
@@ -22,10 +22,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/fisher_callhome/asr/conf/pds_base_8.yaml
+++ b/egs/fisher_callhome/asr/conf/pds_base_8.yaml
 arch: pdss2t_transformer_s_8
-#pds-ctc: 0_1_1_0
-#intermedia-adapter: league
-#intermedia-ctc-weight: 0.1
-#encoder-attention-type: reduced
-#pds-attn-ds-ratios: 4_2_2_1
-#attention-reduced-method: pool
-#attention-reduced-q: True
 encoder-embed-dim: 256
 pds-stages: 4
-#ctc-layer: 12
 pds-layers: 4_2_2_4
 pds-ratios: 2_2_1_2
 pds-fusion: True
@@ -31,10 +21,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/fisher_callhome/asr/conf/pds_base_8_grow.yaml
+++ b/egs/fisher_callhome/asr/conf/pds_base_8_grow.yaml
@@ -32,10 +32,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/fisher_callhome/asr/conf/pds_base_8_grow512.yaml
+++ b/egs/fisher_callhome/asr/conf/pds_base_8_grow512.yaml
@@ -32,10 +32,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/fisher_callhome/asr/conf/pds_big_8.yaml
+++ b/egs/fisher_callhome/asr/conf/pds_big_8.yaml
@@ -22,10 +22,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.15
 activation-fn: relu

--- a/egs/fisher_callhome/asr/conf/purectc.yaml
+++ b/egs/fisher_callhome/asr/conf/purectc.yaml
@@ -5,7 +5,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 zero_infinity: True

--- a/egs/fisher_callhome/asr/conf/purectc_pds_base_8.yaml
+++ b/egs/fisher_callhome/asr/conf/purectc_pds_base_8.yaml
@@ -32,7 +32,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 post-process: sentencepiece

--- a/egs/fisher_callhome/asr/conf/purectc_pds_base_8_compare.yaml
+++ b/egs/fisher_callhome/asr/conf/purectc_pds_base_8_compare.yaml
@@ -30,7 +30,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 0.0015
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 post-process: sentencepiece

--- a/egs/fisher_callhome/asr/conf/purectc_pds_base_8_grow.yaml
+++ b/egs/fisher_callhome/asr/conf/purectc_pds_base_8_grow.yaml
@@ -34,7 +34,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 0.002
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 post-process: sentencepiece

--- a/egs/fisher_callhome/asr/conf/purectc_pds_base_8_grow512.yaml
+++ b/egs/fisher_callhome/asr/conf/purectc_pds_base_8_grow512.yaml
@@ -34,7 +34,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 0.002
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 post-process: sentencepiece

--- a/egs/fisher_callhome/asr/conf/purectc_pds_base_8_grow_compare.yaml
+++ b/egs/fisher_callhome/asr/conf/purectc_pds_base_8_grow_compare.yaml
@@ -30,7 +30,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 0.0015
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 post-process: sentencepiece

--- a/egs/fisher_callhome/mt/conf/base.yaml
+++ b/egs/fisher_callhome/mt/conf/base.yaml
@@ -7,10 +7,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 8000
 lr: 1e-3
-adam_betas: (0.9,0.997)
+adam-betas: (0.9,0.997)
 criterion: label_smoothed_cross_entropy
-label_smoothing: 0.1
 dropout: 0.1
 attention-dropout: 0.1

--- a/egs/fisher_callhome/mt/conf/basis.yaml
+++ b/egs/fisher_callhome/mt/conf/basis.yaml
@@ -25,5 +25,6 @@ num-workers: 8
 no-progress-bar: True
 log-interval: 100
 seed: 1
+label-smoothing: 0.1
 report-accuracy: True
 skip-invalid-size-inputs-valid-test: True
\ No newline at end of file
--- a/egs/fisher_callhome/mt/conf/debug.yaml
+++ b/egs/fisher_callhome/mt/conf/debug.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 8000
 lr: 1e-3
-adam_betas: (0.9,0.997)
+adam-betas: (0.9,0.997)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 attention-dropout: 0.1

--- a/egs/fisher_callhome/mt/conf/small.yaml
+++ b/egs/fisher_callhome/mt/conf/small.yaml
@@ -7,10 +7,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 8000
 lr: 1e-3
-adam_betas: (0.9,0.997)
+adam-betas: (0.9,0.997)
 criterion: label_smoothed_cross_entropy
-label_smoothing: 0.1
 dropout: 0.1
 attention-dropout: 0.1

--- a/egs/fisher_callhome/st/conf/at12.yaml
+++ b/egs/fisher_callhome/st/conf/at12.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/fisher_callhome/st/conf/at12_big.yaml
+++ b/egs/fisher_callhome/st/conf/at12_big.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 1e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/fisher_callhome/st/conf/base.yaml
+++ b/egs/fisher_callhome/st/conf/base.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-embed-norm: True
 encoder-no-scale-embedding: True

--- a/egs/fisher_callhome/st/conf/basis.yaml
+++ b/egs/fisher_callhome/st/conf/basis.yaml
@@ -25,5 +25,6 @@ num-workers: 8
 no-progress-bar: True
 log-interval: 100
 seed: 1
+label-smoothing: 0.1
 report-accuracy: True
 skip-invalid-size-inputs-valid-test: True
--- a/egs/fisher_callhome/st/conf/dual.yaml
+++ b/egs/fisher_callhome/st/conf/dual.yaml
@@ -26,10 +26,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: join_speech_and_text_loss
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/fisher_callhome/st/conf/multibranch.yaml
+++ b/egs/fisher_callhome/st/conf/multibranch.yaml
@@ -45,10 +45,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 subsampling-type: conv1d
 subsampling-layers: 2

--- a/egs/fisher_callhome/st/conf/pds_base.yaml
+++ b/egs/fisher_callhome/st/conf/pds_base.yaml
@@ -9,10 +9,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/fisher_callhome/st/conf/pds_base_16.yaml
+++ b/egs/fisher_callhome/st/conf/pds_base_16.yaml
@@ -24,10 +24,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/fisher_callhome/st/conf/pds_base_32.yaml
+++ b/egs/fisher_callhome/st/conf/pds_base_32.yaml
@@ -24,10 +24,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/fisher_callhome/st/conf/pds_base_8.yaml
+++ b/egs/fisher_callhome/st/conf/pds_base_8.yaml
@@ -28,10 +28,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/fisher_callhome/st/conf/pds_base_8_336.yaml
+++ b/egs/fisher_callhome/st/conf/pds_base_8_336.yaml
@@ -28,10 +28,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/fisher_callhome/st/conf/pds_base_8_363.yaml
+++ b/egs/fisher_callhome/st/conf/pds_base_8_363.yaml
@@ -28,10 +28,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/fisher_callhome/st/conf/pds_base_8_444.yaml
+++ b/egs/fisher_callhome/st/conf/pds_base_8_444.yaml
@@ -28,10 +28,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/fisher_callhome/st/conf/pds_base_8_633.yaml
+++ b/egs/fisher_callhome/st/conf/pds_base_8_633.yaml
@@ -28,10 +28,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/fisher_callhome/st/conf/pure2ctc.yaml
+++ b/egs/fisher_callhome/st/conf/pure2ctc.yaml
@@ -13,7 +13,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/fisher_callhome/st/conf/pure2ctc_big.yaml
+++ b/egs/fisher_callhome/st/conf/pure2ctc_big.yaml
@@ -13,7 +13,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 1e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/fisher_callhome/st/conf/purectc_sate.yaml
+++ b/egs/fisher_callhome/st/conf/purectc_sate.yaml
@@ -6,7 +6,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 zero_infinity: True

--- a/egs/fisher_callhome/st/conf/purexctc.yaml
+++ b/egs/fisher_callhome/st/conf/purexctc.yaml
@@ -12,7 +12,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/fisher_callhome/st/conf/sate.yaml
+++ b/egs/fisher_callhome/st/conf/sate.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/fisher_callhome/st/conf/sate_big.yaml
+++ b/egs/fisher_callhome/st/conf/sate_big.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 1e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/fisher_callhome/st/conf/sate_big_pds.yaml
+++ b/egs/fisher_callhome/st/conf/sate_big_pds.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 1e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-embed-norm: True
 encoder-no-scale-embedding: True

--- a/egs/fisher_callhome/st/conf/sate_deep.yaml
+++ b/egs/fisher_callhome/st/conf/sate_deep.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/fisher_callhome/st/conf/sate_pds_16.yaml
+++ b/egs/fisher_callhome/st/conf/sate_pds_16.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-embed-norm: True
 encoder-no-scale-embedding: True

--- a/egs/fisher_callhome/st/conf/sate_pds_8.yaml
+++ b/egs/fisher_callhome/st/conf/sate_pds_8.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-embed-norm: True
 encoder-no-scale-embedding: True

--- a/egs/fisher_callhome/st/conf/sate_pds_8_336.yaml
+++ b/egs/fisher_callhome/st/conf/sate_pds_8_336.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-embed-norm: True
 encoder-no-scale-embedding: True

--- a/egs/fisher_callhome/st/conf/sate_pds_8_363.yaml
+++ b/egs/fisher_callhome/st/conf/sate_pds_8_363.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-embed-norm: True
 encoder-no-scale-embedding: True

--- a/egs/fisher_callhome/st/conf/sate_pds_8_444.yaml
+++ b/egs/fisher_callhome/st/conf/sate_pds_8_444.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-embed-norm: True
 encoder-no-scale-embedding: True

--- a/egs/fisher_callhome/st/conf/sate_pds_8_633.yaml
+++ b/egs/fisher_callhome/st/conf/sate_pds_8_633.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-embed-norm: True
 encoder-no-scale-embedding: True

--- a/egs/fisher_callhome/st/conf/w2v2.yaml
+++ b/egs/fisher_callhome/st/conf/w2v2.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-embed-norm: True
 encoder-no-scale-embedding: True

--- a/egs/fisher_callhome/st/conf/xctc_s2s.yaml
+++ b/egs/fisher_callhome/st/conf/xctc_s2s.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/iwslt14/mt/conf/base.yaml
+++ b/egs/iwslt14/mt/conf/base.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 8000
 lr: 1e-3
-adam_betas: (0.9,0.997)
+adam-betas: (0.9,0.997)
 criterion: label_smoothed_cross_entropy
-label_smoothing: 0.1
 dropout: 0.3
 attention-dropout: 0.0

--- a/egs/iwslt14/mt/conf/base_ctc.yaml
+++ b/egs/iwslt14/mt/conf/base_ctc.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 8000
 lr: 1e-3
-adam_betas: (0.9,0.997)
+adam-betas: (0.9,0.997)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.3
 attention-dropout: 0.0

--- a/egs/iwslt14/mt/conf/base_fair.yaml
+++ b/egs/iwslt14/mt/conf/base_fair.yaml
@@ -7,10 +7,9 @@ weight-decay: 0.0001
 warmup-init-lr: 1e-7
 warmup-updates: 4000
 lr: 5e-4
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy
-label_smoothing: 0.1
 dropout: 0.3

--- a/egs/iwslt14/mt/conf/basis.yaml
+++ b/egs/iwslt14/mt/conf/basis.yaml
@@ -16,5 +16,6 @@ num-workers: 8
 no-progress-bar: True
 log-interval: 100
 seed: 1
+label-smoothing: 0.1
 report-accuracy: True
 skip-invalid-size-inputs-valid-test: True
\ No newline at end of file
--- a/egs/iwslt2022/asr/conf/base.yaml
+++ b/egs/iwslt2022/asr/conf/base.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 subsampling-type: conv1d
 subsampling-layers: 2

--- a/egs/iwslt2022/asr/conf/basis.yaml
+++ b/egs/iwslt2022/asr/conf/basis.yaml
@@ -16,5 +16,6 @@ num-workers: 8
 no-progress-bar: True
 log-interval: 100
 seed: 1
+label-smoothing: 0.1
 report-accuracy: True
 skip-invalid-size-inputs-valid-test: True
\ No newline at end of file
--- a/egs/iwslt2022/asr/conf/big.yaml
+++ b/egs/iwslt2022/asr/conf/big.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 subsampling-type: conv1d
 subsampling-layers: 2

--- a/egs/iwslt2022/asr/conf/pds_base.yaml
+++ b/egs/iwslt2022/asr/conf/pds_base.yaml
@@ -9,10 +9,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/iwslt2022/asr/conf/pds_base_16.yaml
+++ b/egs/iwslt2022/asr/conf/pds_base_16.yaml
@@ -22,10 +22,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/iwslt2022/asr/conf/pds_base_32.yaml
+++ b/egs/iwslt2022/asr/conf/pds_base_32.yaml
@@ -22,10 +22,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/iwslt2022/asr/conf/pds_base_8.yaml
+++ b/egs/iwslt2022/asr/conf/pds_base_8.yaml
@@ -22,10 +22,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/iwslt2022/asr/conf/pds_base_8_grow.yaml
+++ b/egs/iwslt2022/asr/conf/pds_base_8_grow.yaml
@@ -33,10 +33,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/iwslt2022/asr/conf/pds_big_8.yaml
+++ b/egs/iwslt2022/asr/conf/pds_big_8.yaml
@@ -22,10 +22,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.15
 activation-fn: relu

--- a/egs/iwslt2022/asr/conf/purectc.yaml
+++ b/egs/iwslt2022/asr/conf/purectc.yaml
@@ -5,7 +5,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 zero_infinity: True

--- a/egs/iwslt2022/mt/conf/base.yaml
+++ b/egs/iwslt2022/mt/conf/base.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 8000
 lr: 1e-3
-adam_betas: (0.9,0.997)
+adam-betas: (0.9,0.997)
 criterion: label_smoothed_cross_entropy
-label_smoothing: 0.1
 dropout: 0.1
 attention-dropout: 0.1

--- a/egs/iwslt2022/mt/conf/basis.yaml
+++ b/egs/iwslt2022/mt/conf/basis.yaml
@@ -15,5 +15,6 @@ num-workers: 8
 no-progress-bar: True
 log-interval: 100
 seed: 1
+label-smoothing: 0.1
 report-accuracy: True
 skip-invalid-size-inputs-valid-test: True
\ No newline at end of file
--- a/egs/iwslt2022/mt/conf/deep.yaml
+++ b/egs/iwslt2022/mt/conf/deep.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 1000
 lr: 2e-4
-adam_betas: (0.9,0.997)
+adam-betas: (0.9,0.997)
 criterion: label_smoothed_cross_entropy
-label_smoothing: 0.1
 dropout: 0.1
 attention-dropout: 0.1

--- a/egs/iwslt2022/mt/conf/small.yaml
+++ b/egs/iwslt2022/mt/conf/small.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 8000
 lr: 1e-3
-adam_betas: (0.9,0.997)
+adam-betas: (0.9,0.997)
 criterion: label_smoothed_cross_entropy
-label_smoothing: 0.1
 dropout: 0.1
 attention-dropout: 0.1

--- a/egs/iwslt2022/st/conf/base.yaml
+++ b/egs/iwslt2022/st/conf/base.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 subsampling-type: conv1d
 subsampling-layers: 2

--- a/egs/iwslt2022/st/conf/basis.yaml
+++ b/egs/iwslt2022/st/conf/basis.yaml
@@ -17,5 +17,6 @@ num-workers: 8
 no-progress-bar: True
 log-interval: 100
 seed: 1
+label-smoothing: 0.1
 report-accuracy: True
 skip-invalid-size-inputs-valid-test: True
\ No newline at end of file
--- a/egs/iwslt2022/st/conf/dual_big_pds_grow.yaml
+++ b/egs/iwslt2022/st/conf/dual_big_pds_grow.yaml
@@ -13,10 +13,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 1000
 lr: 1e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: join_speech_and_text_loss
-label_smoothing: 0.1
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/iwslt2022/st/conf/pds_base.yaml
+++ b/egs/iwslt2022/st/conf/pds_base.yaml
@@ -9,10 +9,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/iwslt2022/st/conf/pds_base_16.yaml
+++ b/egs/iwslt2022/st/conf/pds_base_16.yaml
@@ -22,10 +22,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/iwslt2022/st/conf/pds_base_32.yaml
+++ b/egs/iwslt2022/st/conf/pds_base_32.yaml
@@ -22,10 +22,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/iwslt2022/st/conf/pds_base_8.yaml
+++ b/egs/iwslt2022/st/conf/pds_base_8.yaml
@@ -26,10 +26,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/iwslt2022/st/conf/sate.yaml
+++ b/egs/iwslt2022/st/conf/sate.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/iwslt2022/st/conf/sate_big.yaml
+++ b/egs/iwslt2022/st/conf/sate_big.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 1e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/iwslt2022/st/conf/sate_big_pds.yaml
+++ b/egs/iwslt2022/st/conf/sate_big_pds.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 1e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/iwslt2022/st/conf/sate_big_pds_grow.yaml
+++ b/egs/iwslt2022/st/conf/sate_big_pds_grow.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 1000
 lr: 5e-4
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/iwslt2022/st/conf/sate_pds.yaml
+++ b/egs/iwslt2022/st/conf/sate_pds.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/libri_trans/asr/conf/base.yaml
+++ b/egs/libri_trans/asr/conf/base.yaml
@@ -7,10 +7,9 @@ warmup-init-lr: 1e-7
 warmup-updates: 10000
 weight-decay: 1e-6
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 subsampling-type: conv1d
 subsampling-layers: 2

--- a/egs/libri_trans/asr/conf/basis.yaml
+++ b/egs/libri_trans/asr/conf/basis.yaml
@@ -15,6 +15,7 @@ num-workers: 8
 no-progress-bar: True
 log-interval: 100
 seed: 1
+label-smoothing: 0.1
 report-accuracy: True
 skip-invalid-size-inputs-valid-test: True
 post-process: sentencepiece
\ No newline at end of file
--- a/egs/libri_trans/asr/conf/debug.yaml
+++ b/egs/libri_trans/asr/conf/debug.yaml
@@ -7,10 +7,9 @@ warmup-init-lr: 1e-7
 warmup-updates: 10000
 weight-decay: 1e-6
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 subsampling-type: conv1d
 subsampling-layers: 2

--- a/egs/libri_trans/asr/conf/pds_base.yaml
+++ b/egs/libri_trans/asr/conf/pds_base.yaml
@@ -9,10 +9,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/libri_trans/asr/conf/pds_base_16.yaml
+++ b/egs/libri_trans/asr/conf/pds_base_16.yaml
@@ -22,10 +22,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/libri_trans/asr/conf/pds_base_32.yaml
+++ b/egs/libri_trans/asr/conf/pds_base_32.yaml
@@ -22,10 +22,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/libri_trans/asr/conf/pds_base_8.yaml
+++ b/egs/libri_trans/asr/conf/pds_base_8.yaml
@@ -22,10 +22,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/libri_trans/asr/conf/purectc.yaml
+++ b/egs/libri_trans/asr/conf/purectc.yaml
@@ -6,7 +6,7 @@ warmup-init-lr: 1e-7
 warmup-updates: 10000
 weight-decay: 1e-6
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 zero_infinity: True

--- a/egs/libri_trans/mt/conf/base.yaml
+++ b/egs/libri_trans/mt/conf/base.yaml
@@ -7,10 +7,9 @@ warmup-init-lr: 1e-7
 warmup-updates: 8000
 weight-decay: 1e-6
 lr: 1e-3
-adam_betas: (0.9,0.997)
+adam-betas: (0.9,0.997)
 criterion: label_smoothed_cross_entropy
-label_smoothing: 0.1
 dropout: 0.1
 attention-dropout: 0.1

--- a/egs/libri_trans/mt/conf/basis.yaml
+++ b/egs/libri_trans/mt/conf/basis.yaml
@@ -15,5 +15,6 @@ num-workers: 8
 no-progress-bar: True
 log-interval: 100
 seed: 1
+label-smoothing: 0.1
 report-accuracy: True
 skip-invalid-size-inputs-valid-test: True
\ No newline at end of file
--- a/egs/libri_trans/mt/conf/small.yaml
+++ b/egs/libri_trans/mt/conf/small.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 8000
 lr: 1e-3
-adam_betas: (0.9,0.997)
+adam-betas: (0.9,0.997)
 criterion: label_smoothed_cross_entropy
-label_smoothing: 0.1
 dropout: 0.1
 attention-dropout: 0.1

--- a/egs/libri_trans/st/conf/base.yaml
+++ b/egs/libri_trans/st/conf/base.yaml
@@ -7,10 +7,9 @@ warmup-init-lr: 1e-7
 warmup-updates: 10000
 weight-decay: 1e-6
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 subsampling-type: conv1d
 subsampling-layers: 2

--- a/egs/libri_trans/st/conf/basis.yaml
+++ b/egs/libri_trans/st/conf/basis.yaml
@@ -15,6 +15,7 @@ num-workers: 8
 no-progress-bar: True
 log-interval: 100
 seed: 1
+label-smoothing: 0.1
 report-accuracy: True
 skip-invalid-size-inputs-valid-test: True
 post-process: sentencepiece
\ No newline at end of file
--- a/egs/libri_trans/st/conf/pds_base.yaml
+++ b/egs/libri_trans/st/conf/pds_base.yaml
@@ -9,10 +9,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/libri_trans/st/conf/pds_base_16.yaml
+++ b/egs/libri_trans/st/conf/pds_base_16.yaml
@@ -22,10 +22,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/libri_trans/st/conf/pds_base_32.yaml
+++ b/egs/libri_trans/st/conf/pds_base_32.yaml
@@ -22,10 +22,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/libri_trans/st/conf/pds_base_8.yaml
+++ b/egs/libri_trans/st/conf/pds_base_8.yaml
@@ -22,10 +22,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/libri_trans/st/conf/sate.yaml
+++ b/egs/libri_trans/st/conf/sate.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/libri_trans/st/conf/sate_big.yaml
+++ b/egs/libri_trans/st/conf/sate_big.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 1e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/libri_trans/st/conf/sate_big_pds.yaml
+++ b/egs/libri_trans/st/conf/sate_big_pds.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 1e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/libri_trans/st/conf/sate_pds.yaml
+++ b/egs/libri_trans/st/conf/sate_pds.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-normalize-before: True
 decoder-normalize-before: True

--- a/egs/librispeech/asr/conf/ConformerCTCSmall.yaml
+++ b/egs/librispeech/asr/conf/ConformerCTCSmall.yaml
@@ -8,7 +8,7 @@ warmup-init-lr: 1e-7
 warmup-updates: 10000
 weight-decay: 1e-6
 lr: 0.0015
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 post-process: sentencepiece

--- a/egs/librispeech/asr/conf/EffecientConformerCTCMedium.yaml
+++ b/egs/librispeech/asr/conf/EffecientConformerCTCMedium.yaml
@@ -35,7 +35,7 @@ warmup-init-lr: 1e-7
 warmup-updates: 10000
 weight-decay: 1e-6
 lr: 0.0015
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 post-process: sentencepiece

--- a/egs/librispeech/asr/conf/EffecientConformerCTCSmall.yaml
+++ b/egs/librispeech/asr/conf/EffecientConformerCTCSmall.yaml
@@ -30,7 +30,7 @@ warmup-init-lr: 1e-7
 warmup-updates: 10000
 weight-decay: 1e-6
 lr: 0.002
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 ctc-weight: 1.0

--- a/egs/librispeech/asr/conf/base.yaml
+++ b/egs/librispeech/asr/conf/base.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 subsampling-type: conv1d
 subsampling-layers: 2

--- a/egs/librispeech/asr/conf/basis.yaml
+++ b/egs/librispeech/asr/conf/basis.yaml
@@ -27,5 +27,6 @@ num-workers: 8
 no-progress-bar: True
 log-interval: 100
 seed: 1
+label-smoothing: 0.1
 report-accuracy: True
 skip-invalid-size-inputs-valid-test: True
\ No newline at end of file
--- a/egs/librispeech/asr/conf/big.yaml
+++ b/egs/librispeech/asr/conf/big.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 0.0014
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 subsampling-type: conv1d
 subsampling-layers: 2

--- a/egs/librispeech/asr/conf/compare_my_purectc_pds_base_8.yaml
+++ b/egs/librispeech/asr/conf/compare_my_purectc_pds_base_8.yaml
@@ -28,7 +28,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 0.002
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 ctc-weight: 1.0

--- a/egs/librispeech/asr/conf/compare_purectc_base.yaml
+++ b/egs/librispeech/asr/conf/compare_purectc_base.yaml
@@ -7,7 +7,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 0.002
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 ctc-weight: 1.0

--- a/egs/librispeech/asr/conf/compare_purectc_pds_base_8.yaml
+++ b/egs/librispeech/asr/conf/compare_purectc_pds_base_8.yaml
@@ -29,7 +29,7 @@ warmup-init-lr: 1e-7
 warmup-updates: 10000
 weight-decay: 1e-6
 lr: 0.002
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 ctc-weight: 1.0

--- a/egs/librispeech/asr/conf/pds_base.yaml
+++ b/egs/librispeech/asr/conf/pds_base.yaml
@@ -7,10 +7,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/librispeech/asr/conf/pds_base_16.yaml
+++ b/egs/librispeech/asr/conf/pds_base_16.yaml
@@ -23,10 +23,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/librispeech/asr/conf/pds_base_16_growth.yaml
+++ b/egs/librispeech/asr/conf/pds_base_16_growth.yaml
@@ -23,10 +23,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/librispeech/asr/conf/pds_base_16_growth_fusion320.yaml
+++ b/egs/librispeech/asr/conf/pds_base_16_growth_fusion320.yaml
@@ -24,10 +24,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/librispeech/asr/conf/pds_base_32.yaml
+++ b/egs/librispeech/asr/conf/pds_base_32.yaml
@@ -23,10 +23,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/librispeech/asr/conf/pds_base_4.yaml
+++ b/egs/librispeech/asr/conf/pds_base_4.yaml
@@ -23,10 +23,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/librispeech/asr/conf/pds_base_8.yaml
+++ b/egs/librispeech/asr/conf/pds_base_8.yaml
@@ -23,10 +23,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/librispeech/asr/conf/pds_base_8_444.yaml
+++ b/egs/librispeech/asr/conf/pds_base_8_444.yaml
@@ -23,10 +23,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/librispeech/asr/conf/pds_base_8_growth.yaml
+++ b/egs/librispeech/asr/conf/pds_base_8_growth.yaml
@@ -24,10 +24,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/librispeech/asr/conf/pds_base_8_growth_fusion256.yaml
+++ b/egs/librispeech/asr/conf/pds_base_8_growth_fusion256.yaml
@@ -24,10 +24,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/librispeech/asr/conf/pds_big.yaml
+++ b/egs/librispeech/asr/conf/pds_big.yaml
@@ -11,10 +11,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.15
 activation-fn: relu

--- a/egs/librispeech/asr/conf/pds_big_16.yaml
+++ b/egs/librispeech/asr/conf/pds_big_16.yaml
@@ -23,10 +23,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 0.0014
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.15
 activation-fn: relu

--- a/egs/librispeech/asr/conf/pds_big_32.yaml
+++ b/egs/librispeech/asr/conf/pds_big_32.yaml
@@ -23,10 +23,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 0.0014
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.15
 activation-fn: relu

--- a/egs/librispeech/asr/conf/pds_big_8.yaml
+++ b/egs/librispeech/asr/conf/pds_big_8.yaml
@@ -23,10 +23,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 0.0014
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.15
 activation-fn: relu

--- a/egs/librispeech/asr/conf/pds_deep.yaml
+++ b/egs/librispeech/asr/conf/pds_deep.yaml
@@ -11,10 +11,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/librispeech/asr/conf/pds_deep18_16.yaml
+++ b/egs/librispeech/asr/conf/pds_deep18_16.yaml
@@ -23,10 +23,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/librispeech/asr/conf/pds_deep18_32.yaml
+++ b/egs/librispeech/asr/conf/pds_deep18_32.yaml
@@ -24,10 +24,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/librispeech/asr/conf/pds_deep18_8.yaml
+++ b/egs/librispeech/asr/conf/pds_deep18_8.yaml
@@ -23,10 +23,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/librispeech/asr/conf/pds_deep18_big_8.yaml
+++ b/egs/librispeech/asr/conf/pds_deep18_big_8.yaml
@@ -23,10 +23,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 0.0014
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.15
 activation-fn: relu

--- a/egs/librispeech/asr/conf/pds_deep30_16.yaml
+++ b/egs/librispeech/asr/conf/pds_deep30_16.yaml
@@ -23,10 +23,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/librispeech/asr/conf/pds_deep30_32.yaml
+++ b/egs/librispeech/asr/conf/pds_deep30_32.yaml
@@ -24,10 +24,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/librispeech/asr/conf/pds_deep30_8.yaml
+++ b/egs/librispeech/asr/conf/pds_deep30_8.yaml
@@ -23,10 +23,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/librispeech/asr/conf/pds_deep_16.yaml
+++ b/egs/librispeech/asr/conf/pds_deep_16.yaml
@@ -23,10 +23,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/librispeech/asr/conf/pds_deep_32.yaml
+++ b/egs/librispeech/asr/conf/pds_deep_32.yaml
@@ -23,10 +23,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/librispeech/asr/conf/pds_deep_8.yaml
+++ b/egs/librispeech/asr/conf/pds_deep_8.yaml
@@ -23,10 +23,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/librispeech/asr/conf/purectc.yaml
+++ b/egs/librispeech/asr/conf/purectc.yaml
@@ -7,7 +7,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 zero_infinity: True

--- a/egs/librispeech/asr/conf/purectc_inter.yaml
+++ b/egs/librispeech/asr/conf/purectc_inter.yaml
@@ -7,7 +7,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 zero_infinity: True

--- a/egs/librispeech/asr/conf/purectc_pds_base_16.yaml
+++ b/egs/librispeech/asr/conf/purectc_pds_base_16.yaml
@@ -29,7 +29,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 zero_infinity: True

--- a/egs/librispeech/asr/conf/purectc_pds_base_16_growth.yaml
+++ b/egs/librispeech/asr/conf/purectc_pds_base_16_growth.yaml
@@ -24,7 +24,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 ctc-weight: 1.0

--- a/egs/librispeech/asr/conf/purectc_pds_base_16_growth_fusion256.yaml
+++ b/egs/librispeech/asr/conf/purectc_pds_base_16_growth_fusion256.yaml
@@ -24,7 +24,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 ctc-weight: 1.0

--- a/egs/librispeech/asr/conf/purectc_pds_base_16_growth_fusion320.yaml
+++ b/egs/librispeech/asr/conf/purectc_pds_base_16_growth_fusion320.yaml
@@ -24,7 +24,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 ctc-weight: 1.0

--- a/egs/librispeech/asr/conf/purectc_pds_base_16_growth_fusion360.yaml
+++ b/egs/librispeech/asr/conf/purectc_pds_base_16_growth_fusion360.yaml
@@ -24,7 +24,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 ctc-weight: 1.0

--- a/egs/librispeech/asr/conf/purectc_pds_base_8.yaml
+++ b/egs/librispeech/asr/conf/purectc_pds_base_8.yaml
@@ -29,7 +29,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 zero_infinity: True

--- a/egs/librispeech/asr/conf/purectc_pds_base_8_666.yaml
+++ b/egs/librispeech/asr/conf/purectc_pds_base_8_666.yaml
@@ -29,7 +29,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 zero_infinity: True

--- a/egs/librispeech/asr/conf/purectc_pds_base_8_666_growth360.yaml
+++ b/egs/librispeech/asr/conf/purectc_pds_base_8_666_growth360.yaml
@@ -29,7 +29,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 zero_infinity: True

--- a/egs/librispeech/asr/conf/purectc_pds_base_8_growth.yaml
+++ b/egs/librispeech/asr/conf/purectc_pds_base_8_growth.yaml
@@ -24,7 +24,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 ctc-weight: 1.0

--- a/egs/librispeech/asr/conf/purectc_pds_base_8_growth360.yaml
+++ b/egs/librispeech/asr/conf/purectc_pds_base_8_growth360.yaml
@@ -24,7 +24,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 ctc-weight: 1.0

--- a/egs/librispeech/asr/conf/purectc_pds_base_8_growth_fusion256.yaml
+++ b/egs/librispeech/asr/conf/purectc_pds_base_8_growth_fusion256.yaml
@@ -24,7 +24,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 ctc-weight: 1.0

--- a/egs/librispeech/asr/conf/purectc_pds_big_16.yaml
+++ b/egs/librispeech/asr/conf/purectc_pds_big_16.yaml
@@ -24,7 +24,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 0.0014
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 zero_infinity: True

--- a/egs/librispeech/asr/conf/purectc_pds_big_8.yaml
+++ b/egs/librispeech/asr/conf/purectc_pds_big_8.yaml
@@ -24,7 +24,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 0.0014
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 zero_infinity: True

--- a/egs/librispeech/asr/conf/purectc_pds_large_16.yaml
+++ b/egs/librispeech/asr/conf/purectc_pds_large_16.yaml
@@ -24,7 +24,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 0.001
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 zero_infinity: True

--- a/egs/librispeech/asr/conf/purectc_pds_large_8.yaml
+++ b/egs/librispeech/asr/conf/purectc_pds_large_8.yaml
@@ -24,7 +24,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 0.001
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 zero_infinity: True

--- a/egs/librispeech/asr/conf/reproduction_bil_ctc_syn.yaml
+++ b/egs/librispeech/asr/conf/reproduction_bil_ctc_syn.yaml
@@ -6,11 +6,10 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 weight-decay: 1e-4
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 subsampling-type: conv1d
 subsampling-layers: 2

--- a/egs/librispeech/asr/conf/reproduction_encdec_aipa_bilctc_kd.yaml
+++ b/egs/librispeech/asr/conf/reproduction_encdec_aipa_bilctc_kd.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 subsampling-type: conv1d
 subsampling-layers: 2
@@ -19,6 +18,9 @@ subsampling-stride: 2
 subsampling-norm: none
 subsampling-activation: glu
+encoder-embed-norm: True
+encoder-no-scale-embedding: True
 dropout: 0.1
 activation-fn: relu
 encoder-embed-dim: 256

--- a/egs/librispeech/asr/conf/reproduction_encdec_aipa_kd.yaml
+++ b/egs/librispeech/asr/conf/reproduction_encdec_aipa_kd.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 subsampling-type: conv1d
 subsampling-layers: 2
@@ -19,6 +18,9 @@ subsampling-stride: 2
 subsampling-norm: none
 subsampling-activation: glu
+encoder-embed-norm: True
+encoder-no-scale-embedding: True
 dropout: 0.1
 activation-fn: relu
 encoder-embed-dim: 256

--- a/egs/librispeech/asr/conf/reproduction_encdec_aipa_kd_nohardloss.yaml
+++ b/egs/librispeech/asr/conf/reproduction_encdec_aipa_kd_nohardloss.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 subsampling-type: conv1d
 subsampling-layers: 2
@@ -19,6 +18,9 @@ subsampling-stride: 2
 subsampling-norm: none
 subsampling-activation: glu
+encoder-embed-norm: True
+encoder-no-scale-embedding: True
 dropout: 0.1
 activation-fn: relu
 encoder-embed-dim: 256

--- a/egs/librispeech/asr/conf/reproduction_purectc_aipa_bilctc_kd.yaml
+++ b/egs/librispeech/asr/conf/reproduction_purectc_aipa_bilctc_kd.yaml
@@ -7,7 +7,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 zero_infinity: True
@@ -23,6 +23,9 @@ subsampling-stride: 2
 subsampling-norm: none
 subsampling-activation: glu
+encoder-embed-norm: True
+encoder-no-scale-embedding: True
 dropout: 0.1
 activation-fn: relu
 encoder-embed-dim: 256
@@ -52,11 +55,11 @@ inter-mixup-ratio-decay-params: 20000,40000,0
 # Bilingual CTC
 share-ctc-and-embed: True
 share-xctc-and-embed: True
-ctc-weight: 0.3
+ctc-weight: 0.2
 xctc-weight: 1
 # InterCTC
-inter-ctc-weight: 0.2
+inter-ctc-weight: 0.1
 inter-ctc-layers: 6,9,12,15
 share-inter-ctc: True
 inter-xctc-weight: 1.0
@@ -67,9 +70,10 @@ ctc-pae: inter_league
 xctc-pae: inter_league
 pae-unnorm-input: True
-ctc-mixup-consistent-weight: 0.15
+ctc-mixup-consistent-weight: 0.1
-inter-ctc-mixup-consistent-weight: 0.1
+inter-ctc-mixup-consistent-weight: 0.05
-mixup-consistent-weight: 0.5
+xctc-mixup-consistent-weight: 0.5
+xinter-ctc-mixup-consistent-weight: 0.5
 # Conformer
 macaron-style: True

--- a/egs/librispeech/asr/conf/reproduction_purectc_aipa_kd.yaml
+++ b/egs/librispeech/asr/conf/reproduction_purectc_aipa_kd.yaml
@@ -7,7 +7,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 zero_infinity: True
@@ -24,6 +24,9 @@ subsampling-stride: 2
 subsampling-norm: none
 subsampling-activation: glu
+encoder-embed-norm: True
+encoder-no-scale-embedding: True
 dropout: 0.1
 activation-fn: relu
 encoder-embed-dim: 256

--- a/egs/librispeech/asr/conf/reproduction_purectc_aipa_kd_nohardloss.yaml
+++ b/egs/librispeech/asr/conf/reproduction_purectc_aipa_kd_nohardloss.yaml
@@ -7,7 +7,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 zero_infinity: True
@@ -24,6 +24,9 @@ subsampling-stride: 2
 subsampling-norm: none
 subsampling-activation: glu
+encoder-embed-norm: True
+encoder-no-scale-embedding: True
 dropout: 0.1
 activation-fn: relu
 encoder-embed-dim: 256

--- a/egs/librispeech/asr/decode.sh
+++ b/egs/librispeech/asr/decode.sh
@@ -6,19 +6,23 @@ data_tag=asr
 #data_tag=asr_joint_lcrm_niu
 test_subset=(dev-clean dev-other test-clean test-other all)
 test_subset=(dev-clean dev-other test-clean test-other)
+#test_subset=(train-clean-50)
+#test_subset=(dev-clean)
+#test_subset=(dev-other)
+#test_subset=(train-clean-5k-sort)
 exp_name=
 if [ "$#" -eq 1 ]; then
    exp_name=$1
 fi
-ctc_infer=1
+ctc_infer=0
 n_average=10
-beam_size=5
+beam_size=1
 infer_ctc_weight=0
 len_penalty=1.0
 max_tokens=50000
-batch_size=0
+batch_size=1
 infer_debug=0
 dec_model=checkpoint_best.pt

--- a/egs/librispeech/asr/local/cal_bleu.sh
+++ b/egs/librispeech/asr/local/cal_bleu.sh
@@ -23,7 +23,7 @@ if [[ ${tokenizer} -eq 1 ]]; then
 fi
 echo "SacreBLEU" >> ${record}
-cmd="cat ${gen} | sacrebleu ${ref} -m bleu -w 4 -l ${lang_pair}"
+cmd="cat ${gen} | sacrebleu ${ref} -m bleu -w 4 -l ${lang_pair} | jq -r .score"
 eval $cmd >> ${record}
 cat ${record}
 rm ${record}
--- a/egs/librispeech/asr/nohup.out
+++ b/egs/librispeech/asr/nohup.out
+./run.sh --stage 2 --stop_stage 2 --gpu_num 1 --exp_name 1123_purectc_conformer_norm_100h_layer36_interw1_x1 --n_average 10 --beam_size 1 --len_penalty 1.0 --batch_size 1 --max_tokens 50000 --dec_model checkpoint_best.pt --ctc_infer 0 --infer_ctc_weight 0 --infer_debug 0 --data_tag asr --test_subset dev-clean,dev-other,test-clean,test-other
+Start Stage: 2
+Stop  Stage: 2
+Stage 2: Decoding
+[34mRun command: 
+python3  /xuchen/st/S2T/fairseq_cli/generate.py
+            /xuchen/st/data/librispeech/asr
+            --config-yaml config.yaml
+            --gen-subset dev-clean
+            --task speech_to_text
+            --path /xuchen/st/checkpoints/librispeech/asr//1123_purectc_conformer_norm_100h_layer36_interw1_x1/avg_best10_checkpoint.pt
+            --results-path /xuchen/st/checkpoints/librispeech/asr//1123_purectc_conformer_norm_100h_layer36_interw1_x1
+            --batch-size 1
+            --max-tokens 50000
+            --beam 1
+            --lenpen 1.0
+            --infer-ctc-weight 0
+            --scoring wer
+            --early-exit-count 6 [0m
+[34mRun command: 
+python3  /xuchen/st/S2T/fairseq_cli/generate.py
+            /xuchen/st/data/librispeech/asr
+            --config-yaml config.yaml
+            --gen-subset dev-other
+            --task speech_to_text
+            --path /xuchen/st/checkpoints/librispeech/asr//1123_purectc_conformer_norm_100h_layer36_interw1_x1/avg_best10_checkpoint.pt
+            --results-path /xuchen/st/checkpoints/librispeech/asr//1123_purectc_conformer_norm_100h_layer36_interw1_x1
+            --batch-size 1
+            --max-tokens 50000
+            --beam 1
+            --lenpen 1.0
+            --infer-ctc-weight 0
+            --scoring wer
+            --early-exit-count 6 [0m
+[34mRun command: 
+python3  /xuchen/st/S2T/fairseq_cli/generate.py
+            /xuchen/st/data/librispeech/asr
+            --config-yaml config.yaml
+            --gen-subset test-clean
+            --task speech_to_text
+            --path /xuchen/st/checkpoints/librispeech/asr//1123_purectc_conformer_norm_100h_layer36_interw1_x1/avg_best10_checkpoint.pt
+            --results-path /xuchen/st/checkpoints/librispeech/asr//1123_purectc_conformer_norm_100h_layer36_interw1_x1
+            --batch-size 1
+            --max-tokens 50000
+            --beam 1
+            --lenpen 1.0
+            --infer-ctc-weight 0
+            --scoring wer
+            --early-exit-count 6 [0m
+[34mRun command: 
+python3  /xuchen/st/S2T/fairseq_cli/generate.py
+            /xuchen/st/data/librispeech/asr
+            --config-yaml config.yaml
+            --gen-subset test-other
+            --task speech_to_text
+            --path /xuchen/st/checkpoints/librispeech/asr//1123_purectc_conformer_norm_100h_layer36_interw1_x1/avg_best10_checkpoint.pt
+            --results-path /xuchen/st/checkpoints/librispeech/asr//1123_purectc_conformer_norm_100h_layer36_interw1_x1
+            --batch-size 1
+            --max-tokens 50000
+            --beam 1
+            --lenpen 1.0
+            --infer-ctc-weight 0
+            --scoring wer
+            --early-exit-count 6 [0m
+2023-11-26 00:02:34 | INFO | fairseq_cli.generate | Translated 2,703 sentences (59,825 tokens) in 169.3s (15.96 sentences/s, 353.34 tokens/s)
+Generate dev-clean with beam=1: WER: 8.96
+2023-11-26 00:07:24 | INFO | fairseq_cli.generate | Translated 2,864 sentences (55,375 tokens) in 219.3s (13.06 sentences/s, 252.51 tokens/s)
+Generate dev-other with beam=1: WER: 21.21
+2023-11-26 00:10:57 | INFO | fairseq_cli.generate | Translated 2,620 sentences (57,617 tokens) in 158.0s (16.59 sentences/s, 364.77 tokens/s)
+Generate test-clean with beam=1: WER: 9.34
+2023-11-26 00:15:40 | INFO | fairseq_cli.generate | Translated 2,939 sentences (56,865 tokens) in 226.7s (12.96 sentences/s, 250.80 tokens/s)
+Generate test-other with beam=1: WER: 21.57
--- a/egs/librispeech/asr/run.sh
+++ b/egs/librispeech/asr/run.sh
@@ -55,8 +55,7 @@ org_data_dir=${data_root_dir}/data/${dataset}
 data_dir=${data_root_dir}/data/${data_model_subfix}
 test_subset=dev-clean,dev-other,test-clean,test-other,all
-# exp
+# exp sub_tag=
-sub_tag=
 exp_prefix=$(date "+%m%d")
 extra_tag=
 extra_parameter=
@@ -71,19 +70,22 @@ step_valid=0
 # Decoding Settings
 dec_model=checkpoint_best.pt
 cer=0
-ctc_infer=1
+ctc_infer=0
 infer_ctc_weight=0
 ctc_self_ensemble=0
 ctc_inter_logit=0
 n_average=10
-batch_size=0
+batch_size=1
 beam_size=5
 len_penalty=1.0
 single=0
-epoch_ensemble=1
+epoch_ensemble=0
 best_ensemble=1
 infer_debug=0
 infer_score=0
+infer_tag=ee6
+infer_parameters="--early-exit-count 6"
+#infer_parameters="--early-exit-layer 12"
 #infer_parameters="--cal-monotonic-cross-attn-weights --cal-localness --localness-window 0.1 --cal-topk-cross-attn-weights --topk-cross-attn-weights 15 --cal-entropy"
 data_config=config.yaml
@@ -364,6 +366,9 @@ if [ ${stage} -le 2 ] && [ ${stop_stage} -ge 2 ]; then
        if [[ ${infer_score} -eq 1 ]]; then
            suffix=${suffix}_score
        fi
+	if [[ -n ${infer_tag} ]]; then
+		suffix=${suffix}_${infer_tag}
+	fi
        suffix=`echo $suffix | sed -e "s#__#_#"`
        result_file=${model_dir}/decode_result_${suffix}
@@ -476,6 +481,7 @@ if [ ${stage} -le 2 ] && [ ${stop_stage} -ge 2 ]; then
            fi
        done
        echo
+	echo "" >> ${result_file}
        cat ${result_file}
    done
 fi
--- a/egs/mustc/asr/conf/base.yaml
+++ b/egs/mustc/asr/conf/base.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-embed-norm: True
 encoder-no-scale-embedding: True

--- a/egs/mustc/asr/conf/basis.yaml
+++ b/egs/mustc/asr/conf/basis.yaml
@@ -25,5 +25,6 @@ num-workers: 8
 no-progress-bar: True
 log-interval: 100
 seed: 1
+label-smoothing: 0.1
 report-accuracy: True
 skip-invalid-size-inputs-valid-test: True
\ No newline at end of file
--- a/egs/mustc/asr/conf/big.yaml
+++ b/egs/mustc/asr/conf/big.yaml
@@ -6,10 +6,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 0.0014
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 encoder-embed-norm: True
 encoder-no-scale-embedding: True

--- a/egs/mustc/asr/conf/ipa.yaml
+++ b/egs/mustc/asr/conf/ipa.yaml
@@ -9,7 +9,7 @@ inter-mixup-decoder-emb: False
 ctc-mixup-consistent-weight: 0
 inter-ctc-mixup-consistent-weight: 0
 mixup-consistent-weight: 0
-cal-mixup-loss: True
+mixup-no-hard-loss: False
 no-specaugment: False
 layer-out-norm: False

--- a/egs/mustc/asr/conf/pds_base_16.yaml
+++ b/egs/mustc/asr/conf/pds_base_16.yaml
@@ -23,10 +23,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/mustc/asr/conf/pds_base_32.yaml
+++ b/egs/mustc/asr/conf/pds_base_32.yaml
@@ -23,10 +23,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/mustc/asr/conf/pds_base_8.yaml
+++ b/egs/mustc/asr/conf/pds_base_8.yaml
@@ -23,10 +23,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/mustc/asr/conf/pds_base_8_grow.yaml
+++ b/egs/mustc/asr/conf/pds_base_8_grow.yaml
@@ -24,10 +24,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/mustc/asr/conf/pds_base_8_grow512.yaml
+++ b/egs/mustc/asr/conf/pds_base_8_grow512.yaml
@@ -24,10 +24,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.1
 activation-fn: relu

--- a/egs/mustc/asr/conf/pds_big_8.yaml
+++ b/egs/mustc/asr/conf/pds_big_8.yaml
@@ -23,10 +23,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 0.0014
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: label_smoothed_cross_entropy_with_ctc
-label_smoothing: 0.1
 dropout: 0.15
 activation-fn: relu

--- a/egs/mustc/asr/conf/purectc.yaml
+++ b/egs/mustc/asr/conf/purectc.yaml
@@ -5,7 +5,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 zero_infinity: True

--- a/egs/mustc/asr/conf/purectc_pds_base_8.yaml
+++ b/egs/mustc/asr/conf/purectc_pds_base_8.yaml
@@ -24,7 +24,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 2e-3
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 post-process: sentencepiece

--- a/egs/mustc/asr/conf/purectc_pds_base_8_compare.yaml
+++ b/egs/mustc/asr/conf/purectc_pds_base_8_compare.yaml
@@ -23,7 +23,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 0.0015
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 post-process: sentencepiece

--- a/egs/mustc/asr/conf/purectc_pds_base_8_grow.yaml
+++ b/egs/mustc/asr/conf/purectc_pds_base_8_grow.yaml
@@ -24,7 +24,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 0.002
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 post-process: sentencepiece

--- a/egs/mustc/asr/conf/purectc_pds_base_8_grow512.yaml
+++ b/egs/mustc/asr/conf/purectc_pds_base_8_grow512.yaml
@@ -24,7 +24,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 0.002
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 post-process: sentencepiece

--- a/egs/mustc/asr/conf/purectc_pds_base_8_grow_compare.yaml
+++ b/egs/mustc/asr/conf/purectc_pds_base_8_grow_compare.yaml
@@ -23,7 +23,7 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 10000
 lr: 0.0015
-adam_betas: (0.9,0.98)
+adam-betas: (0.9,0.98)
 criterion: ctc
 post-process: sentencepiece

--- a/egs/mustc/mt/conf/base.yaml
+++ b/egs/mustc/mt/conf/base.yaml
@@ -7,10 +7,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 8000
 lr: 1e-3
-adam_betas: (0.9,0.997)
+adam-betas: (0.9,0.997)
 criterion: label_smoothed_cross_entropy
-label_smoothing: 0.1
 dropout: 0.1
 attention-dropout: 0.1

--- a/egs/mustc/mt/conf/basis.yaml
+++ b/egs/mustc/mt/conf/basis.yaml
@@ -25,5 +25,6 @@ num-workers: 8
 no-progress-bar: True
 log-interval: 100
 seed: 1
+label-smoothing: 0.1
 report-accuracy: True
 skip-invalid-size-inputs-valid-test: True
\ No newline at end of file
--- a/egs/mustc/mt/conf/small.yaml
+++ b/egs/mustc/mt/conf/small.yaml
@@ -7,10 +7,9 @@ lr-scheduler: inverse_sqrt
 warmup-init-lr: 1e-7
 warmup-updates: 8000
 lr: 1e-3
-adam_betas: (0.9,0.997)
+adam-betas: (0.9,0.997)
 criterion: label_smoothed_cross_entropy
-label_smoothing: 0.1
 dropout: 0.1
 attention-dropout: 0.1

--- a/entry.sh
+++ b/entry.sh
@@ -5,6 +5,8 @@ cd ${THIS_DIR}
 export ST_ROOT=/xuchen/st
 export NCCL_DEBUG=INFO
+source /xuchen/tools/miniconda3/etc/profile.d/conda.sh
+conda activate fair
 echo "nameserver 114.114.114.114" >> /etc/resolv.conf
 if [[ `pip list | grep fairseq | wc -l` -eq 0 ]]; then 

--- a/entry_loop.sh
+++ b/entry_loop.sh
@@ -5,6 +5,8 @@ cd ${THIS_DIR}
 export ST_ROOT=/xuchen/st
 export NCCL_DEBUG=INFO
+source /xuchen/tools/miniconda3/etc/profile.d/conda.sh
+conda activate fair
 echo "nameserver 114.114.114.114" >> /etc/resolv.conf
 if [[ `pip list | grep fairseq | wc -l` -eq 0 ]]; then 
@@ -57,6 +59,7 @@ do
    echo_flag=1
    while :
    do
+        gpustat
        record=$(mktemp -t temp.record.XXXXXX)
        gpustat > $record
        all_devices=$(seq 0 "$(sed '1,2d' ${record} | wc -l)");

--- a/setup.py
+++ b/setup.py
@@ -205,6 +205,10 @@ def do_setup(package_data):
            "espnet",
            "torchaudio",
            "pandas",
+            "sacremoses",
+            "tensorboard",
+            "jiwer",
+            "gpustat",
        ],
        dependency_links=dependency_links,
        packages=find_packages(