Merge with HU Chi branch (Don't use this! It's an incomplete version)

1. Support X_INT dataType for Clip and ScaleAndShift function. 2. Minor error fixed.

Merge with HU Chi branch (Don't use this! It's an incomplete version)
1. Support X_INT dataType for Clip and ScaleAndShift function. 2. Minor error fixed.
3f48d22b · liyinqiao · 7876ba5b · 3f48d22b · 3f48d22b · 3f48d22b
Commit 3f48d22b authored Mar 12, 2020 by liyinqiao
--- a/source/tensor/core/math/Clip.cpp
+++ b/source/tensor/core/math/Clip.cpp
@@ -45,18 +45,33 @@ void _Clip(const XTensor * a, XTensor * b, DTYPE lower, DTYPE upper)
 #endif
    CheckNTErrors((_IsSameShaped(a, b)), "Input tensors should have the same type!");
-    CheckNTErrors((a->dataType == DEFAULT_DTYPE), "TODO!");
+    if (a->dataType == DEFAULT_DTYPE) {
-    DTYPE * d = (DTYPE*)a->data;
+        DTYPE* d = (DTYPE*)a->data;
-    DTYPE * db = (DTYPE*)b->data;
+        DTYPE* db = (DTYPE*)b->data;
-    for (int i = 0; i < a->unitNum; i++) {
+        for (int i = 0; i < a->unitNum; i++) {
-        if (d[i] > upper)
+            if (d[i] > upper)
-            db[i] = upper;
+                db[i] = upper;
-        else if (d[i] < lower)
+            else if (d[i] < lower)
-            db[i] = lower;
+                db[i] = lower;
-        else
+            else
-            db[i] = d[i];
+                db[i] = d[i];
+        }
+    }
+    else if (a->dataType == X_INT) {
+        int* d = (int*)a->data;
+        int* db = (int*)b->data;
+        for (int i = 0; i < a->unitNum; i++) {
+            if (d[i] > upper)
+                db[i] = upper;
+            else if (d[i] < lower)
+                db[i] = lower;
+            else
+                db[i] = d[i];
+        }
    }
+    else
+        ShowNTErrors("TODO!");
 }
 /*

--- a/source/tensor/core/math/Clip.cu
+++ b/source/tensor/core/math/Clip.cu
@@ -36,8 +36,9 @@ set each entry to its clip value (CUDA Kernel)
 >> upper - the upper border
 >> size - size of the data array
 */
+template <class T>
 __global__
-void KernelClip(DTYPE * a, DTYPE * b, DTYPE lower, DTYPE upper, int size)
+void KernelClip(T * a, T * b, T lower, T upper, int size)
 {
    int i = blockDim.x * blockIdx.x + threadIdx.x;
@@ -63,6 +64,7 @@ This is for float16 computation
 __global__
 void KernelClip(__half * a, __half * b, DTYPE lower, DTYPE upper, int size)
 {
+    ShowNTErrors("TODO!");
    return;
 }
@@ -90,7 +92,13 @@ void _CudaClip(const XTensor * a, XTensor * b, DTYPE lower, DTYPE upper)
    ProtectCudaDev(a->devID, devIDBackup);
    if (a->dataType == DEFAULT_DTYPE) {
-        KernelClip << <blocks, threads >> >((DTYPE*)a->data, (DTYPE*)b->data, lower, upper, a->unitNum);
+        KernelClip<DTYPE> << <blocks, threads >> >((DTYPE *)a->data, (DTYPE *)b->data, lower, upper, a->unitNum);
+    }
+    else if (a->dataType == X_INT) {
+        int lower1 = (int)lower;
+        int upper1 = (int)upper;
+        KernelClip<int> << <blocks, threads >> >((int *)a->data, (int *)b->data, lower1, upper1, a->unitNum);
    }
    else if (a->dataType == X_FLOAT16) {
        KernelClip << <blocks, threads >> >((__half*)a->data, (__half*)b->data, lower, upper, a->unitNum);

--- a/source/tensor/core/math/Clip.cuh
+++ b/source/tensor/core/math/Clip.cuh
@@ -29,8 +29,8 @@ namespace nts { // namespace nts(NiuTrans.Tensor)
 #ifdef USE_CUDA
 /* set each entry to its clip value (CUDA Kernel) */
-__global__
+template <class T> __global__
-void KernelClip(DTYPE * a, DTYPE * b, DTYPE lower, DTYPE upper, int size);
+void KernelClip(T * a, T * b, T lower, T upper, int size);
 /* set each entry to its clip value (CUDA Kernel) with float16 data type*/
 __global__

--- a/source/tensor/core/math/ScaleAndShift.cpp
+++ b/source/tensor/core/math/ScaleAndShift.cpp
@@ -47,34 +47,62 @@ void _ScaleAndShift(const XTensor * a, XTensor * b, DTYPE scale, DTYPE shift)
        return;
    }
 #endif
+    if (a->dataType == DEFAULT_DTYPE) {
-    CheckNTErrors((a->dataType == DEFAULT_DTYPE), "The tensor is not in the default data type!");
+        /* sparse tensor */
+        if(a->isSparse) {
-    /* sparse tensor */
+            int num = a->unitNumNonZero;
-    if(a->isSparse){
+            char * d = (char*)a->data + sizeof(int);
-        int num = a->unitNumNonZero;
+            char * f = d + (sizeof(int) + sizeof(DTYPE)) * 0 + sizeof(int);
-        char * d = (char*)a->data + sizeof(int);
+            char * db = (char*)b->data + sizeof(int);
-        char * f = d + (sizeof(int) + sizeof(DTYPE)) * 0 + sizeof(int);
+            char * fb = db + (sizeof(int) + sizeof(DTYPE)) * 0 + sizeof(int);
-        char * db = (char*)b->data + sizeof(int);
+            for(int i = 0; i < num; i++){
-        char * fb = db + (sizeof(int) + sizeof(DTYPE)) * 0 + sizeof(int);
+                DTYPE * v = (DTYPE*)f;
-        for(int i = 0; i < num; i++){
+                DTYPE * vb = (DTYPE*)fb;
-            DTYPE * v = (DTYPE*)f;
+                *vb = *v * scale + shift;
-            DTYPE * vb = (DTYPE*)fb;
+                f += sizeof(int) + sizeof(DTYPE);
-            *vb = *v * scale + shift;
+                fb += sizeof(int) + sizeof(DTYPE);
-            f += sizeof(int) + sizeof(DTYPE);
+            }
-            fb += sizeof(int) + sizeof(DTYPE);
+        }
+        /* dense tensor */
+        else {
+            DTYPE * va = (DTYPE*)a->data;
+            DTYPE * vb = (DTYPE*)b->data;
+            for(int i = 0; i < b->unitNum; i++){
+                *vb = *va * scale + shift;
+                va++;
+                vb++;
+            }
        }
    }
-    /* dense tensor */
+    else if (a->dataType == X_INT) {
-    else{
+        /* sparse tensor */
-        DTYPE * va = (DTYPE*)a->data;
+        if(a->isSparse) {
-        DTYPE * vb = (DTYPE*)b->data;
+            int num = a->unitNumNonZero;
-        for(int i = 0; i < b->unitNum; i++){
+            char * d = (char*)a->data + sizeof(int);
-            *vb = *va * scale + shift;
+            char * f = d + (sizeof(int) + sizeof(int)) * 0 + sizeof(int);
-            va++;
+            char * db = (char*)b->data + sizeof(int);
-            vb++;
+            char * fb = db + (sizeof(int) + sizeof(int)) * 0 + sizeof(int);
+            for(int i = 0; i < num; i++){
+                int * v = (int*)f;
+                int * vb = (int*)fb;
+                *vb = *v * scale + shift;
+                f += sizeof(int) + sizeof(int);
+                fb += sizeof(int) + sizeof(int);
+            }
+        }
+        /* dense tensor */
+        else {
+            int * va = (int*)a->data;
+            int * vb = (int*)b->data;
+            for(int i = 0; i < b->unitNum; i++){
+                *vb = *va * scale + shift;
+                va++;
+                vb++;
+            }
        }
    }
+    else
+        ShowNTErrors("TODO!");
 }
 /* 

--- a/source/tensor/core/math/ScaleAndShift.cu
+++ b/source/tensor/core/math/ScaleAndShift.cu
@@ -34,9 +34,9 @@ scale and shift all tensor entires b = a * scale + shift (CUDA Kernel)
 >> scale - how much we want to scale it
 >> shift - how much we want to shift it
 */
-template<bool isUnitScale, bool isZeroShift>
+template<class T, bool isUnitScale, bool isZeroShift>
 __global__ 
-void KernelScaleAndShift(DTYPE * a, DTYPE * b, int size, DTYPE scale, DTYPE shift)
+void KernelScaleAndShift(T * a, T * b, int size, T scale, T shift)
 {
    int i = blockDim.x * blockIdx.x + threadIdx.x;
@@ -108,13 +108,26 @@ void _CudaScaleAndShift(const XTensor * a, XTensor * b, DTYPE scale, DTYPE shift
        if(a->dataType == DEFAULT_DTYPE){
            if(scale == 1.0F && shift == 0)
-                KernelScaleAndShift<true, true> <<<blocks, threads>>>((DTYPE*)a->data, (DTYPE*)b->data, a->unitNum, scale, shift);
+                KernelScaleAndShift<DTYPE, true, true> <<<blocks, threads>>>((DTYPE*)a->data, (DTYPE*)b->data, a->unitNum, scale, shift);
            else if (scale == 1.0F && shift != 0)
-                KernelScaleAndShift<true, false> << <blocks, threads >> >((DTYPE*)a->data, (DTYPE*)b->data, a->unitNum, scale, shift);
+                KernelScaleAndShift<DTYPE, true, false> << <blocks, threads >> >((DTYPE*)a->data, (DTYPE*)b->data, a->unitNum, scale, shift);
            else if(scale != 1.0F && shift == 0)
-                KernelScaleAndShift<false, true> << <blocks, threads >> >((DTYPE*)a->data, (DTYPE*)b->data, a->unitNum, scale, shift);
+                KernelScaleAndShift<DTYPE, false, true> << <blocks, threads >> >((DTYPE*)a->data, (DTYPE*)b->data, a->unitNum, scale, shift);
            else
-                KernelScaleAndShift<false, false> << <blocks, threads >> >((DTYPE*)a->data, (DTYPE*)b->data, a->unitNum, scale, shift);
+                KernelScaleAndShift<DTYPE, false, false> << <blocks, threads >> >((DTYPE*)a->data, (DTYPE*)b->data, a->unitNum, scale, shift);
+        }
+        else if (a->dataType == X_INT) {
+            int scale2 = int(scale);
+            int shift2 = int(shift);
+            if (scale == 1.0F && shift == 0)
+                KernelScaleAndShift<int, true, true><<<blocks, threads>>>((int *)a->data, (int *)b->data, a->unitNum, scale2, shift2);
+            else if (scale == 1.0F && shift != 0)
+                KernelScaleAndShift<int, true, false><<<blocks, threads>>>((int *)a->data, (int *)b->data, a->unitNum, scale2, shift2);
+            else if (scale != 1.0F && shift == 0)
+                KernelScaleAndShift<int, false, true><<<blocks, threads>>>((int *)a->data, (int *)b->data, a->unitNum, scale2, shift2);
+            else
+                KernelScaleAndShift<int, false, false><<<blocks, threads>>>((int *)a->data, (int *)b->data, a->unitNum, scale2, shift2);
        }
        else if(a->dataType == X_FLOAT16){
            unsigned short scale2 = FloatToFloat16(scale);