better code of multi-gpu runs

df76b612 · xiaotong · 182633ac · df76b612 · df76b612 · df76b612
Commit df76b612 authored Sep 15, 2018 by xiaotong
--- a/source/sample/transformer/T2TEncoder.cpp
+++ b/source/sample/transformer/T2TEncoder.cpp
@@ -128,8 +128,6 @@ XTensor AttEncoder::Make(XTensor &input, XTensor &mask, bool skipInputRes)
            /* layer normalization */
            x = attLayerNorms[i].Make(res);
-            llnum = -1;
        }
        /* fnn */

--- a/source/source.zip
+++ b/source/source.zip
--- a/source/tensor/XTensor.cpp
+++ b/source/tensor/XTensor.cpp
@@ -553,10 +553,16 @@ void XTensor::SetZeroAll(XStream * stream)
 #ifdef USE_CUDA
            int size = sizeof(int) + (sizeof(int)+sizeof(DTYPE)) * unitNumNonZero;
+            int devIDBackup = 0;
+            cudaGetDevice(&devIDBackup);
+            cudaSetDevice(devID);
            if(stream == NULL)
                cudaMemset(data, 0, size);
            else
                cudaMemsetAsync(data, 0, size, stream->stream);
+            cudaSetDevice(devIDBackup);
 #endif
        }
        else
@@ -567,10 +573,16 @@ void XTensor::SetZeroAll(XStream * stream)
    else{
        if(devID >= 0){
 #ifdef USE_CUDA
+            int devIDBackup = 0;
+            cudaGetDevice(&devIDBackup);
+            cudaSetDevice(devID);
            if(stream == NULL)
                cudaMemset(data, 0, unitNum * unitSize);
            else
                cudaMemsetAsync(data, 0, unitNum * unitSize, stream->stream);
+            cudaSetDevice(devIDBackup);
 #endif
        }
        else