update test of multiply, softmax, unsqueeze, crossentropy

01747e0d · linye · 4c0fafc0 · 01747e0d · 01747e0d · 01747e0d
Commit 01747e0d authored Aug 02, 2019 by linye
--- a/source/tensor/test/TCrossEntropy.cpp
+++ b/source/tensor/test/TCrossEntropy.cpp
@@ -23,6 +23,7 @@
 #include "TCrossEntropy.h"
 #include "../loss/CrossEntropy.h"
 #include "../core/math/ScaleAndShift.h"
+#include "../core/getandset/ConvertDataType.h"

 namespace nts { // namespace nts(NiuTrans.Tensor)

@@ -406,6 +407,329 @@ bool TestCrossEntropy4()
 #endif // USE_CUDA
 }

+/*
+case 5: float16 test CrossEntropy function.
+loss = sum_{i} (-t_i * log(y_i))
+where t_i is the gold standard and y_i is the model output.
+*/
+bool TestCrossEntropy5()
+{
+    /* a tensor of size (1, 4) */
+    int order = 2;
+    int * dimSize = new int[order];
+    dimSize[0] = 1;
+    dimSize[1] = 4;
+
+    int unitNum = 1;
+    for (int i = 0; i < order; i++)
+        unitNum *= dimSize[i];
+
+    DTYPE outputData[4] = {0.25F, 0.25F, 0.25F, 0.25F};
+    DTYPE goldData[4] = {0.5F, 0.5F, 0.0F, 0.0F};
+    DTYPE answer = 1.3863F;
+    DTYPE error1;
+    DTYPE error2;
+
+    /* CPU test */
+    bool cpuTest = true;
+
+#ifdef USE_CUDA
+    /* GPU test */
+    bool gpuTest = true;
+
+    /* create tensor */
+    XTensor * outputGPU = NewTensor(order, dimSize, X_FLOAT, 1.0F, 0);
+    XTensor * goldGPU = NewTensor(order, dimSize, X_FLOAT, 1.0F, 0);
+    XTensor * lossGPU = NewTensor1D(1, X_FLOAT, 0);
+
+    /* create float16 tensor */
+    XTensor outputHalfGPU;
+    XTensor goldHalfGPU;
+    XTensor lossHalfGPU;
+
+    /* Initialize variables */
+    outputGPU->SetData(outputData, unitNum);
+    goldGPU->SetData(goldData, unitNum);
+
+    /* convert data type from float to float16 */
+    outputHalfGPU = ConvertDataType(*outputGPU, X_FLOAT16);
+    goldHalfGPU = ConvertDataType(*goldGPU, X_FLOAT16);
+    lossHalfGPU = ConvertDataType(*lossGPU, X_FLOAT16);
+
+    /* call CrossEntropy function */
+    _CrossEntropyFast(&outputHalfGPU, &goldHalfGPU, &lossHalfGPU);
+    error2 = _CrossEntropy(&outputHalfGPU, &goldHalfGPU, REDUCE_SUM);
+
+    /* convert data type from float16 to float */
+    _ConvertDataType(&lossHalfGPU, lossGPU);
+    error1 = lossGPU->Get1D(0);
+
+    /* check results */
+    gpuTest = (fabs(error1 - answer) < 1e-3F &&
+               fabs(error2 - answer) < 1e-3F);
+
+    /* destroy variables */
+    delete outputGPU;
+    delete goldGPU;
+    delete lossGPU;
+
+    delete[] dimSize;
+
+    return cpuTest && gpuTest;
+#else
+    /* destroy variables */
+    delete[] dimSize;
+
+    return cpuTest;
+#endif // USE_CUDA
+}
+
+/*
+case 6: float16 test CrossEntropy function.
+loss = sum_{i} (-t_i * log(y_i))
+where t_i is the gold standard and y_i is the model output.
+*/
+bool TestCrossEntropy6()
+{
+    /* a tensor of size (4, 10) */
+    int order = 2;
+    int * dimSize = new int[order];
+    dimSize[0] = 4;
+    dimSize[1] = 10;
+
+    int unitNum = 1;
+    for (int i = 0; i < order; i++)
+        unitNum *= dimSize[i];
+
+    DTYPE outputData[4][10] = { {0.5F, 2.6F, 0.3F, 1.7F, 0.6F,
+                                 0.1F, 0.7F, 1.3F, 0.4F, 0.6F},
+                                {0.5F, 1.6F, 0.2F, 1.1F, 0.3F,
+                                 0.8F, 2.2F, 0.1F, 0.1F, 0.8F},
+                                {0.2F, 0.5F, 1.1F, 1.2F, 0.6F,
+                                 0.1F, 0.2F, 0.7F, 0.5F, 0.7F},
+                                {0.2F, 1.7F, 0.6F, 1.5F, 0.8F,
+                                 0.1F, 0.8F, 0.1F, 0.6F, 0.2F} };
+    DTYPE answer1 = 4.3275F;
+    DTYPE answer2 = 1.0818F;
+    DTYPE error1;
+    DTYPE error2;
+    DTYPE error3;
+    DTYPE error4;
+
+    /* CPU test */
+    bool cpuTest = true;
+
+#ifdef USE_CUDA
+    /* GPU test */
+    bool gpuTest = true;
+
+    /* create tensor */
+    XTensor * outputGPU = NewTensor(order, dimSize, X_FLOAT, 1.0F, 0);
+    XTensor * goldGPU = NewTensor(order, dimSize, X_FLOAT, 1.0F, 0);
+
+    /* create float16 tensor */
+    XTensor outputHalfGPU;
+    XTensor goldHalfGPU;
+
+    /* Initialize variables */
+    outputGPU->SetData(outputData, unitNum);
+    goldGPU->SetZeroAll();
+    goldGPU->Set2D(1.0F, 0, 9);
+    goldGPU->Set2D(1.0F, 1, 7);
+    goldGPU->Set2D(1.0F, 2, 2);
+    goldGPU->Set2D(1.0F, 3, 9);
+
+    /* convert data type from float to float16 */
+    outputHalfGPU = ConvertDataType(*outputGPU, X_FLOAT16);
+    goldHalfGPU = ConvertDataType(*goldGPU, X_FLOAT16);
+
+    /* call CrossEntropy function */
+    error1 = _CrossEntropy(&outputHalfGPU, &goldHalfGPU, REDUCE_SUM);
+    error2 = _CrossEntropy(&outputHalfGPU, &goldHalfGPU, REDUCE_MEAN);
+    error3 = _CrossEntropyFast(&outputHalfGPU, &goldHalfGPU, REDUCE_SUM);
+    error4 = _CrossEntropyFast(&outputHalfGPU, &goldHalfGPU, REDUCE_MEAN);
+
+    /* check results */
+    gpuTest = (fabs(error1 - answer1) < 1e-2F &&
+               fabs(error2 - answer2) < 1e-2F &&
+               fabs(error3 - answer1) < 1e-2F &&
+               fabs(error4 - answer2) < 1e-2F);
+
+    /* destroy variables */
+    delete outputGPU;
+    delete goldGPU;
+
+    delete[] dimSize;
+
+    return cpuTest && gpuTest;
+#else
+    /* destroy variables */
+    delete[] dimSize;
+
+    return cpuTest;
+#endif // USE_CUDA
+}
+
+/*
+case 7: float16 test CrossEntropy function.
+loss = sum_{i} (-t_i * log(y_i))
+where t_i is the gold standard and y_i is the model output.
+In this case, I compute the cross entropy with weight.
+*/
+bool TestCrossEntropy7()
+{
+    /* a output tensor of size (4, 4) */
+    int order = 2;
+    int * dimSize = new int[order];
+    dimSize[0] = 4;
+    dimSize[1] = 4;
+
+    int unitNum = 1;
+    for (int i = 0; i < order; i++)
+        unitNum *= dimSize[i];
+
+    /* a weight tensor of size (4) */
+    int wOrder = 1;
+    int * wDimSize = new int[wOrder];
+    wDimSize[0] = 4;
+
+    int wUnitNum = 1;
+    for (int i = 0; i < wOrder; i++)
+        wUnitNum *= wDimSize[i];
+
+    DTYPE outputData[4][4] = { {0.3F, 0.2F, 0.3F, 0.2F},
+                               {0.1F, 0.4F, 0.2F, 0.3F},
+                               {0.7F, 0.1F, 0.1F, 0.1F},
+                               {0.5F, 0.1F, 0.2F, 0.2F} };
+    DTYPE weightData[4] = {2.0F, 1.0F, 5.0F, 0.0F};
+    DTYPE answer[4] = {2.4079F, 0.9163F, 11.5129F, 0.0F};
+
+    /* CPU test */
+    bool cpuTest = true;
+
+#ifdef USE_CUDA
+    /* GPU test */
+    bool gpuTest = true;
+
+    /* create tensor */
+    XTensor * outputGPU = NewTensor(order, dimSize, X_FLOAT, 1.0F, 0);
+    XTensor * goldGPU = NewTensor(order, dimSize, X_FLOAT, 1.0F, 0);
+    XTensor * lossGPU = NewTensor1D(4, X_FLOAT, 0);
+    XTensor * weightGPU = NewTensor(wOrder, wDimSize, X_FLOAT, 1.0F, 0);
+
+    /* create float16 tensor */
+    XTensor outputHalfGPU;
+    XTensor goldHalfGPU;
+    XTensor lossHalfGPU;
+    XTensor weightHalfGPU;
+
+    /* Initialize variables */
+    outputGPU->SetData(outputData, unitNum);
+    weightGPU->SetData(weightData, wUnitNum);
+    goldGPU->SetZeroAll();
+    goldGPU->Set2D(1.0F, 0, 0);
+    goldGPU->Set2D(1.0F, 1, 1);
+    goldGPU->Set2D(1.0F, 2, 2);
+    goldGPU->Set2D(1.0F, 3, 3);
+
+    /* convert data type from float to float16 */
+    outputHalfGPU = ConvertDataType(*outputGPU, X_FLOAT16);
+    goldHalfGPU = ConvertDataType(*goldGPU, X_FLOAT16);
+    lossHalfGPU = ConvertDataType(*lossGPU, X_FLOAT16);
+    weightHalfGPU = ConvertDataType(*weightGPU, X_FLOAT16);
+
+    /* call CrossEntropy function */
+    _CrossEntropyFast(&outputHalfGPU, &goldHalfGPU, &lossHalfGPU, &weightHalfGPU);
+
+    /* convert data type from float16 to float */
+    _ConvertDataType(&lossHalfGPU, lossGPU);
+
+    /* check results */
+    gpuTest = lossGPU->CheckData(answer, 4, 1e-2F);
+
+    /* destroy variables */
+    delete outputGPU;
+    delete goldGPU;
+    delete lossGPU;
+    delete weightGPU;
+    delete[] dimSize;
+    delete[] wDimSize;
+
+    return cpuTest && gpuTest;
+#else
+    /* destroy variables */
+    delete[] dimSize;
+    delete[] wDimSize;
+
+    return cpuTest;
+#endif // USE_CUDA
+}
+
+/*
+case 8: float16 test CrossEntropy function.
+loss = sum_{i} (-t_i * log(y_i))
+where t_i is the gold standard and y_i is the model output.
+*/
+bool TestCrossEntropy8()
+{
+    /* a tensor of size (10, 1) */
+    int order = 2;
+    int * dimSize = new int[order];
+    dimSize[0] = 10;
+    dimSize[1] = 1;
+
+    int unitNum = 1;
+    for (int i = 0; i < order; i++)
+        unitNum *= dimSize[i];
+
+    /* CPU test */
+    bool cpuTest = true;
+
+    DTYPE answer = 0.0F;
+    DTYPE error;
+
+#ifdef USE_CUDA
+    /* GPU test */
+    bool gpuTest = true;
+
+    /* create tensor */
+    XTensor * outputGPU = NewTensor(order, dimSize, X_FLOAT, 1.0F, 0);
+    XTensor * goldGPU = NewTensor(order, dimSize, X_FLOAT, 1.0F, 0);
+
+    /* create float16 tensor */
+    XTensor outputHalfGPU;
+    XTensor goldHalfGPU;
+
+    /* Initialize variables */
+    outputGPU->SetZeroAll();
+    goldGPU->SetZeroAll();
+    _ScaleAndShiftMe(outputGPU, 1, 1);
+    _ScaleAndShiftMe(goldGPU, 1, 2);
+
+    /* convert data type from float to float16 */
+    outputHalfGPU = ConvertDataType(*outputGPU, X_FLOAT16);
+    goldHalfGPU = ConvertDataType(*goldGPU, X_FLOAT16);
+
+    /* call CrossEntropy function */
+    error = _CrossEntropyFast(&outputHalfGPU, &goldHalfGPU);
+
+    /* check results */
+    gpuTest = (fabs(error - answer) < 1e-4);
+
+    /* destroy variables */
+    delete outputGPU;
+    delete goldGPU;
+    delete[] dimSize;
+
+    return cpuTest && gpuTest;
+#else
+    /* destroy variables */
+    delete[] dimSize;
+
+    return cpuTest;
+#endif // USE_CUDA
+}
+
 /* other cases */
 /*
 TODO!!
@@ -453,6 +777,42 @@ bool TestCrossEntropy()
    else
        XPRINT(0, stdout, ">> case 4 passed!\n");

+    /* case 5 test */
+    caseFlag = TestCrossEntropy5();
+    if (!caseFlag) {
+        returnFlag = false;
+        XPRINT(0, stdout, ">> case 5 failed!\n");
+    }
+    else
+        XPRINT(0, stdout, ">> case 5 passed!\n");
+
+    /* case 6 test */
+    caseFlag = TestCrossEntropy6();
+    if (!caseFlag) {
+        returnFlag = false;
+        XPRINT(0, stdout, ">> case 6 failed!\n");
+    }
+    else
+        XPRINT(0, stdout, ">> case 6 passed!\n");
+
+    /* case 7 test */
+    caseFlag = TestCrossEntropy7();
+    if (!caseFlag) {
+        returnFlag = false;
+        XPRINT(0, stdout, ">> case 7 failed!\n");
+    }
+    else
+        XPRINT(0, stdout, ">> case 7 passed!\n");
+
+    /* case 8 test */
+    caseFlag = TestCrossEntropy8();
+    if (!caseFlag) {
+        returnFlag = false;
+        XPRINT(0, stdout, ">> case 8 failed!\n");
+    }
+    else
+        XPRINT(0, stdout, ">> case 8 passed!\n");
+
    ///* other cases test */
    ///*
    //TODO!!

--- a/source/tensor/test/TMultiply.cpp
+++ b/source/tensor/test/TMultiply.cpp
@@ -20,6 +20,7 @@
 */

 #include "TMultiply.h"
+#include "../core/getandset/ConvertDataType.h"

 namespace nts { // namespace nts(NiuTrans.Tensor)

@@ -148,6 +149,118 @@ bool TestMultiply1()
 #endif // USE_CUDA
 }

+/*
+case 2: float16 element-wise product of two tensors
+c(i) = a(i)*b(i) + \alpha * c(i)
+In this case, (2, 2)  (2, 2) -> (2, 2), leadingDim=0, alpha=0.
+*/
+bool TestMultiply2()
+{
+    /* a source tensor of size (2, 2) */
+    int sOrder1 = 2;
+    int * sDimSize1 = new int[sOrder1];
+    sDimSize1[0] = 2;
+    sDimSize1[1] = 2;
+
+    int sUnitNum1 = 1;
+    for (int i = 0; i < sOrder1; i++)
+        sUnitNum1 *= sDimSize1[i];
+
+    /* a source tensor of size (2, 2) */
+    int sOrder2 = 2;
+    int * sDimSize2 = new int[sOrder2];
+    sDimSize2[0] = 2;
+    sDimSize2[1] = 2;
+
+    int sUnitNum2 = 1;
+    for (int i = 0; i < sOrder2; i++)
+        sUnitNum2 *= sDimSize2[i];
+
+    /* a target tensor of size (2, 2) */
+    int tOrder = 2;
+    int * tDimSize = new int[tOrder];
+    tDimSize[0] = 2;
+    tDimSize[1] = 2;
+
+    int tUnitNum = 1;
+    for (int i = 0; i < tOrder; i++)
+        tUnitNum *= tDimSize[i];
+
+    DTYPE sData1[2][2] = { {0.0F, 1.0F},
+                           {2.0F, 3.0F} };
+    DTYPE sData2[2][2] = { {0.0F, 1.0F},
+                           {2.0F, 3.0F} };
+    DTYPE answer[2][2] = { {0.0F, 1.0F},
+                           {4.0F, 9.0F} };
+
+    /* CPU test */
+    bool cpuTest = true;
+
+#ifdef USE_CUDA
+    /* GPU test */
+    bool gpuTest = true;
+
+    /* create tensor */
+    XTensor * sGPU1 = NewTensor(sOrder1, sDimSize1, X_FLOAT, 1.0F, 0);
+    XTensor * sGPU2 = NewTensor(sOrder2, sDimSize2, X_FLOAT, 1.0F, 0);
+    XTensor * tGPU = NewTensor(tOrder, tDimSize, X_FLOAT, 1.0F, 0);
+    XTensor * tMeGPU = NewTensor(tOrder, tDimSize, X_FLOAT, 1.0F, 0);
+    XTensor tUserGPU;
+
+    /* create float16 tensor */
+    XTensor sHalfGPU1;
+    XTensor sHalfGPU2;
+    XTensor tHalfGPU;
+    XTensor tMeHalfGPU;
+    XTensor tUserHalfGPU;
+
+    /* Initialize variables */
+    sGPU1->SetData(sData1, sUnitNum1);
+    tMeGPU->SetData(sData1, sUnitNum1);
+    sGPU2->SetData(sData2, sUnitNum2);
+    tGPU->SetZeroAll();
+
+    /* convert data type from float to float16 */
+    sHalfGPU1 = ConvertDataType(*sGPU1, X_FLOAT16);
+    sHalfGPU2 = ConvertDataType(*sGPU2, X_FLOAT16);
+    tHalfGPU = ConvertDataType(*tGPU, X_FLOAT16);
+    tMeHalfGPU = ConvertDataType(*tMeGPU, X_FLOAT16);
+
+    /* call multiply function */
+    _Multiply(&sHalfGPU1, &sHalfGPU2, &tHalfGPU, 0, 0);
+    _MultiplyMe(&tMeHalfGPU, &sHalfGPU2, 0, 0);
+    tUserHalfGPU = Multiply(sHalfGPU1, sHalfGPU2, 0);
+
+    /* convert data type from float16 to float */
+    _ConvertDataType(&tHalfGPU, tGPU);
+    _ConvertDataType(&tMeHalfGPU, tMeGPU);
+    tUserGPU = ConvertDataType(tUserHalfGPU, X_FLOAT);
+
+    /* check results */
+    gpuTest = tGPU->CheckData(answer, tUnitNum) &&
+              tMeGPU->CheckData(answer, tUnitNum) &&
+              tUserGPU.CheckData(answer, tUnitNum);
+
+    /* destroy variables */
+    delete sGPU1;
+    delete sGPU2;
+    delete tGPU;
+    delete tMeGPU;
+    delete[] sDimSize1;
+    delete[] sDimSize2;
+    delete[] tDimSize;
+
+    return cpuTest && gpuTest;
+#else
+    /* destroy variables */
+    delete[] sDimSize1;
+    delete[] sDimSize2;
+    delete[] tDimSize;
+
+    return cpuTest;
+#endif // USE_CUDA
+}
+
 /* other cases */
 /*
 TODO!!
@@ -169,6 +282,16 @@ bool TestMultiply()
    else
        XPRINT(0, stdout, ">> case 1 passed!\n");

+    /* case 2 test */
+    caseFlag = TestMultiply2();
+
+    if (!caseFlag) {
+        returnFlag = false;
+        XPRINT(0, stdout, ">> case 2 failed!\n");
+    }
+    else
+        XPRINT(0, stdout, ">> case 2 passed!\n");
+
    /* other cases test */
    /*
    TODO!!

--- a/source/tensor/test/TSoftmax.cpp
+++ b/source/tensor/test/TSoftmax.cpp
@@ -22,6 +22,7 @@
 #include "../XTensor.h"
 #include "../XUtility.h"
 #include "TSoftmax.h"
+#include "../core/getandset/ConvertDataType.h"

 namespace nts { // namespace nts(NiuTrans.Tensor)

@@ -207,6 +208,167 @@ bool TestSoftmax2()
 #endif // USE_CUDA
 }

+
+/*
+case 3: float16 test Softmax function.
+softmax function: y = e^x / \sum_{i} e^{x_i}
+*/
+bool TestSoftmax3()
+{
+    /* a tensor of size (2, 3) */
+    int order = 2;
+    int * dimSize = new int[order];
+    dimSize[0] = 2;
+    dimSize[1] = 3;
+
+    int unitNum = 1;
+    for (int i = 0; i < order; i++)
+        unitNum *= dimSize[i];
+
+    DTYPE xData[2][3] = { {0.0F, 1.0F, 2.0F},
+                          {0.5F, 0.7F, 1.4F} };
+    DTYPE answer[2][3] = { {0.0900F, 0.2447F, 0.6652F},
+                           {0.2136F, 0.2609F, 0.5254F} };
+
+    /* CPU test */
+    bool cpuTest = true;
+
+#ifdef USE_CUDA
+    /* GPU test */
+    bool gpuTest = true;
+
+    /* create tensors */
+    XTensor * xGPU = NewTensor(order, dimSize, X_FLOAT, 1.0F, 0);
+    XTensor * yGPU = NewTensor(order, dimSize, X_FLOAT, 1.0F, 0);
+    XTensor yUserGPU;
+
+    /* create float16 tensors */
+    XTensor xHalfGPU;
+    XTensor yHalfGPU;
+    XTensor yUserHalfGPU;
+
+    /* initialize variables */
+    xGPU->SetData(xData, unitNum);
+    yGPU->SetZeroAll();
+
+    /* convert data type from float to float16 */
+    xHalfGPU = ConvertDataType(*xGPU, X_FLOAT16);
+    yHalfGPU = ConvertDataType(*yGPU, X_FLOAT16);
+
+    /* call softmax function */
+    _Softmax(&xHalfGPU, &yHalfGPU, 1);
+    yUserHalfGPU = Softmax(xHalfGPU, 1);
+
+    /* convert data type from float16 to float */
+    _ConvertDataType(&yHalfGPU, yGPU);
+    yUserGPU = ConvertDataType(yUserHalfGPU, X_FLOAT);
+
+    /* check result */
+    gpuTest = yGPU->CheckData(answer, unitNum, 1e-3F) &&
+              yUserGPU.CheckData(answer, unitNum, 1e-3F);
+
+    /* destroy variables */
+    delete xGPU;
+    delete yGPU;
+    delete[] dimSize;
+
+    return cpuTest && gpuTest;
+#else
+    /* destroy variables */
+    delete[] dimSize;
+
+    return cpuTest;
+#endif // USE_CUDA
+}
+
+/*
+case 4: float16 test SoftmaxBackward function.
+SoftmaxBackward function: dE/dx_j = -gold_j + y_j
+In this case, LossName=CROSSENTROPY.
+*/
+bool TestSoftmax4()
+{
+    /* a input tensor of size (2, 3) */
+    int order = 2;
+    int * dimSize = new int[order];
+    dimSize[0] = 1;
+    dimSize[1] = 3;
+
+    int unitNum = 1;
+    for (int i = 0; i < order; i++)
+        unitNum *= dimSize[i];
+
+    DTYPE xData[1][3] = { {0.0F, 1.0F, 2.0F} };
+    DTYPE gData[1][3] = { {0.0F, 0.0F, 1.0F} };
+    DTYPE yAnswer[1][3] = { {0.0900F, 0.2447F, 0.6652F} };
+    DTYPE dedxAnswer[1][3] = {0.0900F, 0.2447F, -0.3347F};
+
+    /* CPU test */
+    bool cpuTest = true;
+
+#ifdef USE_CUDA
+    /* GPU test */
+    bool gpuTest = true;
+
+    /* create tensors */
+    XTensor * xGPU = NewTensor(order, dimSize, X_FLOAT, 1.0F, 0);
+    XTensor * yGPU = NewTensor(order, dimSize, X_FLOAT, 1.0F, 0);
+    XTensor * gGPU = NewTensor(order, dimSize, X_FLOAT, 1.0F, 0);
+    XTensor * dedyGPU = NewTensor(order, dimSize, X_FLOAT, 1.0F, 0);
+    XTensor * dedxGPU = NewTensor(order, dimSize, X_FLOAT, 1.0F, 0);
+
+    /* create float16 tensors */
+    XTensor xHalfGPU;
+    XTensor yHalfGPU;
+    XTensor gHalfGPU;
+    XTensor dedyHalfGPU;
+    XTensor dedxHalfGPU;
+
+    /* initialize variables */
+    xGPU->SetData(xData, unitNum);
+    gGPU->SetData(gData, unitNum);
+    yGPU->SetZeroAll();
+    dedxGPU->SetZeroAll();
+    dedyGPU->SetZeroAll();
+
+    /* convert data type from float to float16 */
+    xHalfGPU = ConvertDataType(*xGPU, X_FLOAT16);
+    yHalfGPU = ConvertDataType(*yGPU, X_FLOAT16);
+    gHalfGPU = ConvertDataType(*gGPU, X_FLOAT16);
+    dedxHalfGPU = ConvertDataType(*dedxGPU, X_FLOAT16);
+    dedyHalfGPU = ConvertDataType(*dedyGPU, X_FLOAT16);
+
+    /* call softmax function */
+    _Softmax(&xHalfGPU, &yHalfGPU, 1);
+
+    /* call SoftmaxBackward function */
+    _SoftmaxBackward(&gHalfGPU, &yHalfGPU, &xHalfGPU, &dedyHalfGPU, &dedxHalfGPU, NULL, 1, CROSSENTROPY);
+
+    /* convert data type from float to float16 */
+    _ConvertDataType(&yHalfGPU, yGPU);
+    _ConvertDataType(&dedxHalfGPU, dedxGPU);
+
+    /* check result */
+    gpuTest = yGPU->CheckData(yAnswer, unitNum, 1e-3F) &&
+              dedxGPU->CheckData(dedxAnswer, unitNum, 1e-3F);
+
+    /* destroy variables */
+    delete xGPU;
+    delete yGPU;
+    delete gGPU;
+    delete dedxGPU;
+    delete dedyGPU;
+    delete[] dimSize;
+
+    return cpuTest && gpuTest;
+#else
+    /* destroy variables */
+    delete[] dimSize;
+
+    return cpuTest;
+#endif // USE_CUDA
+}
+
 /* other cases */
 /*
    TODO!!
@@ -238,6 +400,26 @@ bool TestSoftmax()
    else
        XPRINT(0, stdout, ">> case 2 passed!\n");

+    /* case 3 test */
+    caseFlag = TestSoftmax3();
+
+    if (!caseFlag) {
+        returnFlag = false;
+        XPRINT(0, stdout, ">> case 3 failed!\n");
+    }
+    else
+        XPRINT(0, stdout, ">> case 3 passed!\n");
+
+    /* case 4 test */
+    caseFlag = TestSoftmax4();
+
+    if (!caseFlag) {
+        returnFlag = false;
+        XPRINT(0, stdout, ">> case 4 failed!\n");
+    }
+    else
+        XPRINT(0, stdout, ">> case 4 passed!\n");
+
    /* other cases test */
    /*
    TODO!!

--- a/source/tensor/test/TUnsqueeze.cpp
+++ b/source/tensor/test/TUnsqueeze.cpp
@@ -21,6 +21,7 @@

 #include "../XList.h"
 #include "TUnsqueeze.h"
+#include "../core/getandset/ConvertDataType.h"

 namespace nts { // namespace nts(NiuTrans.Tensor)

@@ -153,6 +154,128 @@ bool TestUnsqueeze1()
 #endif // USE_CUDA
 }

+/*
+case 2: float16 insert a dimension by copying the blocks for x times (where x is the size of the inerted dimension)
+In this case,
+(2, 3) -> (2, 2, 3), dim=1, dSize=2
+(2, 3) -> (2, 3, 2), dim=2, dSize=2
+*/
+bool TestUnsqueeze2()
+{
+    /* a source tensor of size (2, 3) */
+    int sOrder = 2;
+    int * sDimSize = new int[sOrder];
+    sDimSize[0] = 2;
+    sDimSize[1] = 3;
+
+    int sUnitNum = 1;
+    for (int i = 0; i < sOrder; i++)
+        sUnitNum *= sDimSize[i];
+
+    /* a target tensor of size (2, 2, 3) */
+    int tOrder1 = 3;
+    int * tDimSize1 = new int[tOrder1];
+    tDimSize1[0] = 2;
+    tDimSize1[1] = 2;
+    tDimSize1[2] = 3;
+
+    int tUnitNum1 = 1;
+    for (int i = 0; i < tOrder1; i++)
+        tUnitNum1 *= tDimSize1[i];
+
+    /* a target tensor of size (2, 3, 2) */
+    int tOrder2 = 3;
+    int * tDimSize2 = new int[tOrder2];
+    tDimSize2[0] = 2;
+    tDimSize2[1] = 3;
+    tDimSize2[2] = 2;
+
+    int tUnitNum2 = 1;
+    for (int i = 0; i < tOrder2; i++)
+        tUnitNum2 *= tDimSize2[i];
+
+    DTYPE sData[2][3] = { {0.0F, 1.0F, 2.0F},
+                          {3.0F, 4.0F, 5.0F} };
+    DTYPE answer1[2][2][3] = { { {0.0F, 1.0F, 2.0F},
+                                 {0.0F, 1.0F, 2.0F} },
+                               { {3.0F, 4.0F, 5.0F},
+                                 {3.0F, 4.0F, 5.0F} } };
+    DTYPE answer2[2][3][2] = { { {0.0F, 0.0F},
+                                 {1.0F, 1.0F},
+                                 {2.0F, 2.0F} },
+                               { {3.0F, 3.0F},
+                                 {4.0F, 4.0F},
+                                 {5.0F, 5.0F} } };
+
+    /* CPU test */
+    bool cpuTest = true;
+
+#ifdef USE_CUDA
+    /* GPU test */
+    bool gpuTest = true;
+
+    /* create tensor */
+    XTensor * sGPU = NewTensor(sOrder, sDimSize, X_FLOAT, 1.0F, 0);
+    XTensor * tGPU1 = NewTensor(tOrder1, tDimSize1, X_FLOAT, 1.0F, 0);
+    XTensor * tGPU2 = NewTensor(tOrder2, tDimSize2, X_FLOAT, 1.0F, 0);
+    XTensor tUserGPU1;
+    XTensor tUserGPU2;
+
+    /* create float16 tensor */
+    XTensor sHalfGPU;
+    XTensor tHalfGPU1;
+    XTensor tHalfGPU2;
+    XTensor tUserHalfGPU1;
+    XTensor tUserHalfGPU2;
+
+    /* Initialize variables */
+    sGPU->SetData(sData, sUnitNum);
+    tGPU1->SetZeroAll();
+    tGPU2->SetZeroAll();
+
+    /* convert data type from float to float16 */
+    sHalfGPU = ConvertDataType(*sGPU, X_FLOAT16);
+    tHalfGPU1 = ConvertDataType(*tGPU1, X_FLOAT16);
+    tHalfGPU2 = ConvertDataType(*tGPU2, X_FLOAT16);
+
+    /* call unsqueeze function */
+    _Unsqueeze(&sHalfGPU, &tHalfGPU1, 1, 2);
+    _Unsqueeze(&sHalfGPU, &tHalfGPU2, 2, 2);
+    tUserHalfGPU1 = Unsqueeze(sHalfGPU, 1, 2);
+    tUserHalfGPU2 = Unsqueeze(sHalfGPU, 2, 2);
+
+    /* convert data type from float16 to float */
+    _ConvertDataType(&tHalfGPU1, tGPU1);
+    _ConvertDataType(&tHalfGPU2, tGPU2);
+    tUserGPU1 = ConvertDataType(tUserHalfGPU1, X_FLOAT);
+    tUserGPU2 = ConvertDataType(tUserHalfGPU2, X_FLOAT);
+
+    /* check results */
+    gpuTest = tGPU1->CheckData(answer1, tUnitNum1) &&
+              tUserGPU1.CheckData(answer1, tUnitNum1) &&
+              tGPU2->CheckData(answer2, tUnitNum2) &&
+              tUserGPU2.CheckData(answer2, tUnitNum2);
+
+    /* destroy variables */
+    delete sGPU;
+    delete tGPU1;
+    delete tGPU2;
+    delete[] sDimSize;
+    delete[] tDimSize1;
+    delete[] tDimSize2;
+
+    return cpuTest && gpuTest;
+#else
+    /* destroy variables */
+    delete[] sDimSize;
+    delete[] tDimSize1;
+    delete[] tDimSize2;
+
+    return cpuTest;
+#endif // USE_CUDA
+}
+
+
 /* other cases */
 /*
    TODO!!
@@ -174,6 +297,16 @@ bool TestUnsqueeze()
    else
        XPRINT(0, stdout, ">> case 1 passed!\n");

+    /* case 2 test */
+    caseFlag = TestUnsqueeze2();
+
+    if (!caseFlag) {
+        returnFlag = false;
+        XPRINT(0, stdout, ">> case 2 failed!\n");
+    }
+    else
+        XPRINT(0, stdout, ">> case 2 passed!\n");
+
    /* other cases test */
    /*
    TODO!!

--- a/source/tensor/test/Test.cpp
+++ b/source/tensor/test/Test.cpp
@@ -76,10 +76,10 @@ bool Test()
    //wrong = !TestTan() || wrong;
    //wrong = !TestTranspose() || wrong;
    //wrong = !TestTopK() || wrong;
-    //wrong = !TestUnsqueeze() || wrong;
+    wrong = !TestUnsqueeze() || wrong;
    //wrong = !TestXMem() || wrong;
    //
-    //wrong = !TestCrossEntropy() || wrong;
+    wrong = !TestCrossEntropy() || wrong;
    //wrong = !TestDropout() || wrong;
    //wrong = !TestHardTanH() || wrong;
    //wrong = !TestIdentity() || wrong;
@@ -87,7 +87,7 @@ bool Test()
    //wrong = !TestLoss() || wrong;
    //wrong = !TestRectify() || wrong;
    //wrong = !TestSigmoid() || wrong;
-    //wrong = !TestSoftmax() || wrong;
+    wrong = !TestSoftmax() || wrong;

    /* other test */
    /*