update divdim

b5c4aa4e · linye · 2ffea05e · b5c4aa4e · b5c4aa4e · b5c4aa4e
Commit b5c4aa4e authored Jul 15, 2019 by linye
--- a/source/tensor/core/arithmetic/DivDim.cu
+++ b/source/tensor/core/arithmetic/DivDim.cu
@@ -17,6 +17,7 @@

 /*
 * $Created by: Xu Chen (email: hello_master1954@163.com) 2018-08-15
+ * $Update by: Lin Ye (email: linye2015@outlook.com) 2019-07-15 float16 added
 */

 #include "DivDim.cuh"
@@ -168,6 +169,35 @@ void _CudaDivDim(const XTensor * a, const XTensor * b, XTensor * c, int n, DTYPE
            ShowNTErrors("Something is wrong!");
        }
    }
+    else if (a->dataType == X_FLOAT16) {
+        unsigned short temp = FloatToFloat16(alpha);
+        half alpha1 = *((half *)&temp);
+        if (stride > 1){
+            GDevs.GetCudaThread2D(a->devID, stride * blockNum, blockSize, MAX_INT, cudaGrids, cudaBlocks);
+            if (alpha == (DTYPE)0.0F)
+                KernelDivWithCol<__half, false> <<<dim3(cudaGrids[0], cudaGrids[1]), dim3(cudaBlocks[0], cudaBlocks[1])>>>
+                                                 ((__half*)a->data, (__half*)b->data, (__half*)c->data,
+                                                   blockSize, stride, blockSize * stride, blockNum, alpha1);
+            else
+                KernelDivWithCol<__half, true>  <<<dim3(cudaGrids[0], cudaGrids[1]), dim3(cudaBlocks[0], cudaBlocks[1])>>>
+                                                 ((__half*)a->data, (__half*)b->data, (__half*)c->data,
+                                                   blockSize, stride, blockSize * stride, blockNum, alpha1);
+        }
+        else if (stride == 1){
+            GDevs.GetCudaThread2D(a->devID, blockSize, blockNum, MAX_INT, cudaGrids, cudaBlocks);
+            if (alpha == (DTYPE)0.0F)
+                KernelDivWithRow<__half, false> <<<dim3(cudaGrids[0], cudaGrids[1]), dim3(cudaBlocks[0], cudaBlocks[1])>>>
+                                                 ((__half*)a->data, (__half*)b->data, (__half*)c->data,
+                                                   blockNum, blockSize, alpha1);
+            else
+                KernelDivWithRow<__half, true>  <<<dim3(cudaGrids[0], cudaGrids[1]), dim3(cudaBlocks[0], cudaBlocks[1])>>>
+                                                 ((__half*)a->data, (__half*)b->data, (__half*)c->data,
+                                                   blockNum, blockSize, alpha1);
+        }
+        else {
+            ShowNTErrors("Something is wrong!");
+        }
+    }
    else {
        ShowNTErrors("TODO!");
    }

--- a/source/tensor/test/TDivDim.cpp
+++ b/source/tensor/test/TDivDim.cpp
@@ -17,11 +17,13 @@

 /*
 * $Created by: Xu Chen (email: hello_master1954@163.com) 2018-08-14
+ * $Update by: Lin Ye (email: linye2015@outlook.com) 2019-07-15 float16 added
 */

 #include "TDivDim.h"
 #include "../core/arithmetic/DivDim.h"
 #include "../XTensor.h"
+#include "../core/getandset/ConvertDataType.h"

 namespace nts { // namespace nts(NiuTrans.Tensor)

@@ -251,6 +253,207 @@ bool TestDivDim2()
 #endif // USE_CUDA
 }

+/*
+case 3: float16 tensor division c = a/b + \alpha * c
+where the size of b is equal to the n-th dimension of a,
+i.e., a is divided with b by broadcasting.
+In this case, (2, 4) / (2) = (2, 4), n = 0, alpha = 0.0.
+*/
+bool TestDivDim3()
+{
+    /* a tensor of size (2, 4) */
+    int aOrder = 2;
+    int * aDimSize = new int[aOrder];
+    aDimSize[0] = 2;
+    aDimSize[1] = 4;
+
+    int aUnitNum = 1;
+    for (int i = 0; i < aOrder; i++)
+        aUnitNum *= aDimSize[i];
+
+    /* a tensor of size (2) */
+    int bOrder = 1;
+    int * bDimSize = new int[bOrder];
+    bDimSize[0] = 2;
+
+    int bUnitNum = 1;
+    for (int i = 0; i < bOrder; i++)
+        bUnitNum *= bDimSize[i];
+
+    DTYPE aData[2][4] = { {0.0F, 1.0F, 2.0F, 3.0F},
+                          {4.0F, 5.0F, 6.0F, 7.0F} };
+    DTYPE bData[2] = {1.0F, -1.0F};
+    DTYPE answer[2][4] = { {0.0F, 1.0F, 2.0F, 3.0F},
+                           {-4.0F, -5.0F, -6.0F, -7.0F} };
+
+    /* CPU test */
+    bool cpuTest = true;
+
+#ifdef USE_CUDA
+    /* GPU test */
+    bool gpuTest = true;
+
+    /* create tensor */
+    XTensor * aGPU = NewTensor(aOrder, aDimSize, X_FLOAT, 1.0F, 0);
+    XTensor * bGPU = NewTensor(bOrder, bDimSize, X_FLOAT, 1.0F, 0);
+    XTensor * cGPU = NewTensor(aOrder, aDimSize, X_FLOAT, 1.0F, 0);
+    XTensor * cMeGPU = NewTensor(aOrder, aDimSize, X_FLOAT, 1.0F, 0);
+    XTensor cUserGPU;
+
+    /* create float16 tensor */
+    XTensor aHalfGPU;
+    XTensor bHalfGPU;
+    XTensor cHalfGPU;
+    XTensor cMeHalfGPU;
+    XTensor cUserHalfGPU;
+
+    /* Initialize variables */
+    aGPU->SetData(aData, aUnitNum);
+    cMeGPU->SetData(aData, aUnitNum);
+    bGPU->SetData(bData, bUnitNum);
+    cGPU->SetZeroAll();
+
+    /* convert data type from float to float16 */
+    aHalfGPU = ConvertDataType(*aGPU, X_FLOAT16);
+    bHalfGPU = ConvertDataType(*bGPU, X_FLOAT16);
+    cHalfGPU = ConvertDataType(*cGPU, X_FLOAT16);
+    cMeHalfGPU = ConvertDataType(*cMeGPU, X_FLOAT16);
+
+    /* call sum function */
+    _DivDim(&aHalfGPU, &bHalfGPU, &cHalfGPU, 0);
+    _DivDim(&cMeHalfGPU, &bHalfGPU, 0);
+    cUserHalfGPU = DivDim(aHalfGPU, bHalfGPU, 0);
+
+    /* convert data type from float16 to float */
+    _ConvertDataType(&cHalfGPU, cGPU);
+    _ConvertDataType(&cMeHalfGPU, cMeGPU);
+    cUserGPU = ConvertDataType(cUserHalfGPU, X_FLOAT);
+
+    /* check results */
+    gpuTest = cGPU->CheckData(answer, aUnitNum) &&
+              cMeGPU->CheckData(answer, aUnitNum) &&
+              cUserGPU.CheckData(answer, aUnitNum);
+
+    /* destroy variables */
+    delete aGPU;
+    delete bGPU;
+    delete cGPU;
+    delete cMeGPU;
+    delete[] aDimSize;
+    delete[] bDimSize;
+
+    return cpuTest && gpuTest;
+#else
+    /* destroy variables */
+    delete[] aDimSize;
+    delete[] bDimSize;
+
+    return cpuTest;
+#endif // USE_CUDA
+}
+
+/*
+case 4: float16 tensor division c = a/b + \alpha * c
+where the size of b is equal to the n-th dimension of a,
+i.e., a is divided with b by broadcasting.
+In this case, (2, 4) / (2, 2) = (2, 4), n = 1.
+*/
+bool TestDivDim4()
+{
+    /* a tensor of size (2, 4) */
+    int aOrder = 2;
+    int * aDimSize = new int[aOrder];
+    aDimSize[0] = 2;
+    aDimSize[1] = 4;
+
+    int aUnitNum = 1;
+    for (int i = 0; i < aOrder; i++)
+        aUnitNum *= aDimSize[i];
+
+    /* a tensor of size (2, 2) */
+    int bOrder = 2;
+    int * bDimSize = new int[bOrder];
+    bDimSize[0] = 2;
+    bDimSize[1] = 2;
+
+    int bUnitNum = 1;
+    for (int i = 0; i < bOrder; i++)
+        bUnitNum *= bDimSize[i];
+
+    DTYPE aData[2][4] = { {0.0F, 1.0F, 2.0F, 3.0F},
+                          {4.0F, 5.0F, 6.0F, 7.0F} };
+    DTYPE bData[2][2] = { {1.0F, -1.0F},
+                          {-1.0F, 1.0F} };
+    DTYPE answer[2][4] = { {0.0F, -1.0F, -2.0F, 3.0F},
+                           {4.0F, -5.0F, -6.0F, 7.0F} };
+
+    /* CPU test */
+    bool cpuTest = true;
+
+#ifdef USE_CUDA
+    /* GPU test */
+    bool gpuTest = true;
+
+    /* create tensor */
+    XTensor * aGPU = NewTensor(aOrder, aDimSize, X_FLOAT, 1.0F, 0);
+    XTensor * bGPU = NewTensor(bOrder, bDimSize, X_FLOAT, 1.0F, 0);
+    XTensor * cGPU = NewTensor(aOrder, aDimSize, X_FLOAT, 1.0F, 0);
+    XTensor * cMeGPU = NewTensor(aOrder, aDimSize, X_FLOAT, 1.0F, 0);
+    XTensor cUserGPU;
+
+    /* create float16 tensor */
+    XTensor aHalfGPU;
+    XTensor bHalfGPU;
+    XTensor cHalfGPU;
+    XTensor cMeHalfGPU;
+    XTensor cUserHalfGPU;
+
+    /* Initialize variables */
+    aGPU->SetData(aData, aUnitNum);
+    cMeGPU->SetData(aData, aUnitNum);
+    bGPU->SetData(bData, bUnitNum);
+    cGPU->SetZeroAll();
+
+    /* convert data type from float to float16 */
+    aHalfGPU = ConvertDataType(*aGPU, X_FLOAT16);
+    bHalfGPU = ConvertDataType(*bGPU, X_FLOAT16);
+    cHalfGPU = ConvertDataType(*cGPU, X_FLOAT16);
+    cMeHalfGPU = ConvertDataType(*cMeGPU, X_FLOAT16);
+
+    /* call sum function */
+    _DivDim(&aHalfGPU, &bHalfGPU, &cHalfGPU, 1);
+    _DivDim(&cMeHalfGPU, &bHalfGPU, 1);
+    cUserHalfGPU = DivDim(aHalfGPU, bHalfGPU, 1);
+
+    /* convert data type from float16 to float */
+    _ConvertDataType(&cHalfGPU, cGPU);
+    _ConvertDataType(&cMeHalfGPU, cMeGPU);
+    cUserGPU = ConvertDataType(cUserHalfGPU, X_FLOAT);
+
+    /* check results */
+    gpuTest = cGPU->CheckData(answer, aUnitNum) &&
+              cMeGPU->CheckData(answer, aUnitNum) &&
+              cUserGPU.CheckData(answer, aUnitNum);
+
+    /* destroy variables */
+    delete aGPU;
+    delete bGPU;
+    delete cGPU;
+    delete cMeGPU;
+    delete[] aDimSize;
+    delete[] bDimSize;
+
+    return cpuTest && gpuTest;
+#else
+    /* destroy variables */
+    delete[] aDimSize;
+    delete[] bDimSize;
+
+    return cpuTest;
+#endif // USE_CUDA
+}
+
+
 /* other cases */
 /*
    TODO!!
@@ -280,6 +483,24 @@ bool TestDivDim()
    else
        XPRINT(0, stdout, ">> case 2 passed!\n");

+    /* case 3 test */
+    caseFlag = TestDivDim3();
+    if (!caseFlag) {
+        returnFlag = false;
+        XPRINT(0, stdout, ">> case 3 failed!\n");
+    }
+    else
+        XPRINT(0, stdout, ">> case 3 passed!\n");
+
+    /* case 4 test */
+    caseFlag = TestDivDim4();
+    if (!caseFlag) {
+        returnFlag = false;
+        XPRINT(0, stdout, ">> case 4 failed!\n");
+    }
+    else
+        XPRINT(0, stdout, ">> case 4 passed!\n");
+
    /* other cases test */
    /*
        TODO!!

--- a/source/tensor/test/Test.cpp
+++ b/source/tensor/test/Test.cpp
@@ -39,7 +39,7 @@ bool Test()
    //wrong = !TestCopyIndexed() || wrong;
    //wrong = !TestCopyValues() || wrong;
    //wrong = !TestDiv() || wrong;
-    //wrong = !TestDivDim() || wrong;
+    wrong = !TestDivDim() || wrong;
    //wrong = !TestExp() || wrong;
    //wrong = !TestGather() || wrong;
    //wrong = !TestLog() || wrong;
@@ -82,7 +82,7 @@ bool Test()
    
    //wrong = !TestCrossEntropy() || wrong;
 	//wrong = !TestDropout() || wrong;
-    wrong = !TestHardTanH() || wrong;
+    //wrong = !TestHardTanH() || wrong;
    //wrong = !TestIdentity() || wrong;
    //wrong = !TestLogSoftmax() || wrong;
    //wrong = !TestLoss() || wrong;