int8 matrix bug fixed

3ad0e638 · linye · b5c4aa4e · 3ad0e638 · 3ad0e638 · 3ad0e638
Commit 3ad0e638 authored Jul 16, 2019 by linye
--- a/source/tensor/core/arithmetic/XTensorBLAS.cu
+++ b/source/tensor/core/arithmetic/XTensorBLAS.cu
@@ -17,7 +17,7 @@

 /*
 * $Created by: XIAO Tong (email: xiaotong@mail.neu.edu.cn) 2018-04-24
-* $Update by: Lin Ye (email: linye2015@outlook.com) 2019-07-06 float16/int8 added
+* $Update by: Lin Ye (email: linye2015@outlook.com) 2019-07-16 float16/int8 added
 */

 #include "../../XUtility.h"
@@ -94,25 +94,23 @@ void _CudaBLASMatrixMUL(cublasHandle_t * handle,
        cublasSetMathMode(*handle, CUBLAS_DEFAULT_MATH);
    }
    else if (dataTypeA == X_INT8 && dataTypeB == X_INT8 && dataTypeC == X_FLOAT) {
-        int alpha2 = (int)alpha;
-        int beta2 = (int)beta;
        /*
        CUDA requires that the dimension of two tensor( lda, ldb ) should be multiples of 4.
        details in https://devtalk.nvidia.com/default/topic/999101/about-cublasgemm-int8-support/
        */
-        if (mb % 4 != 0 || ma % 4 != 0) {
-            ShowNTErrors("mb, ma( lda, ldb ) should be multiples of 4!");
-            return;
-        }
+        //if (mb % 4 != 0 || ma % 4 != 0) {
+        //    ShowNTErrors("mb, ma( lda, ldb ) should be multiples of 4!");
+        //    return;
+        //}
        cublasSetMathMode(*handle, CUBLAS_TENSOR_OP_MATH);
        if (transposedA == X_NOTRANS && transposedB == X_NOTRANS)
-            cublasGemmEx(*handle, CUBLAS_OP_N, CUBLAS_OP_N, mc, nc, ma, (__int8*)&alpha2, b, CUDA_R_8I, mb, a, CUDA_R_8I, ma, (__int8*)&beta2, c, CUDA_R_32F, mc, CUDA_R_32F, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
+            cublasGemmEx(*handle, CUBLAS_OP_N, CUBLAS_OP_N, mc, nc, ma, &alpha, b, CUDA_R_8I, mb, a, CUDA_R_8I, ma, &beta, c, CUDA_R_32F, mc, CUDA_R_32F, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
        else if (transposedA == X_TRANS && transposedB == X_NOTRANS)
-            cublasGemmEx(*handle, CUBLAS_OP_N, CUBLAS_OP_T, mc, nc, ma, (__int8*)&alpha2, b, CUDA_R_8I, mb, a, CUDA_R_8I, ma, (__int8*)&beta2, c, CUDA_R_32F, mc, CUDA_R_32F, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
+            cublasGemmEx(*handle, CUBLAS_OP_N, CUBLAS_OP_T, mc, nc, ma, &alpha, b, CUDA_R_8I, mb, a, CUDA_R_8I, ma, &beta, c, CUDA_R_32F, mc, CUDA_R_32F, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
        else if (transposedA == X_NOTRANS && transposedB == X_TRANS)
-            cublasGemmEx(*handle, CUBLAS_OP_T, CUBLAS_OP_N, mc, nc, ma, (__int8*)&alpha2, b, CUDA_R_8I, mb, a, CUDA_R_8I, ma, (__int8*)&beta2, c, CUDA_R_32F, mc, CUDA_R_32F, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
+            cublasGemmEx(*handle, CUBLAS_OP_T, CUBLAS_OP_N, mc, nc, ma, &alpha, b, CUDA_R_8I, mb, a, CUDA_R_8I, ma, &beta, c, CUDA_R_32F, mc, CUDA_R_32F, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
        else if (transposedA == X_TRANS && transposedB == X_TRANS)
-            cublasGemmEx(*handle, CUBLAS_OP_T, CUBLAS_OP_T, mc, nc, ma, (__int8*)&alpha2, b, CUDA_R_8I, mb, a, CUDA_R_8I, ma, (__int8*)&beta2, c, CUDA_R_32F, mc, CUDA_R_32F, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
+            cublasGemmEx(*handle, CUBLAS_OP_T, CUBLAS_OP_T, mc, nc, ma, &alpha, b, CUDA_R_8I, mb, a, CUDA_R_8I, ma, &beta, c, CUDA_R_32F, mc, CUDA_R_32F, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
        cublasSetMathMode(*handle, CUBLAS_DEFAULT_MATH);
    }
    else {
@@ -183,25 +181,23 @@ void _CudaBLASMatrixMULBatched(cublasHandle_t * handle,
        cublasSetMathMode(*handle, CUBLAS_DEFAULT_MATH);
    }
    else if (dataTypeA == X_INT8 && dataTypeB == X_INT8 && dataTypeC == X_FLOAT) {
-        int alpha2 = (int)alpha;
-        int beta2 = (int)beta;
        /*
        CUDA requires that the dimension of two tensor( lda, ldb ) should be multiples of 4.
        details in https://devtalk.nvidia.com/default/topic/999101/about-cublasgemm-int8-support/
        */
-        if (mb % 4 != 0 || ma % 4 != 0) {
-            ShowNTErrors("mb, ma( lda, ldb ) should be multiples of 4!");
-            return;
-        }
+        //if (mb % 4 != 0 || ma % 4 != 0) {
+        //    ShowNTErrors("mb, ma( lda, ldb ) should be multiples of 4!");
+        //    return;
+        //}
        cublasSetMathMode(*handle, CUBLAS_TENSOR_OP_MATH);
        if (transposedA == X_NOTRANS && transposedB == X_NOTRANS)
-            cublasGemmBatchedEx(*handle, CUBLAS_OP_N, CUBLAS_OP_N, mc, nc, ma, (__int8*)&alpha2, b, CUDA_R_8I, mb, a, CUDA_R_8I, ma, (__int8*)&beta2, c, CUDA_R_32F, mc, count, CUDA_R_32F, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
+            cublasGemmBatchedEx(*handle, CUBLAS_OP_N, CUBLAS_OP_N, mc, nc, ma, &alpha, b, CUDA_R_8I, mb, a, CUDA_R_8I, ma, &beta, c, CUDA_R_32F, mc, count, CUDA_R_32F, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
        else if (transposedA == X_TRANS && transposedB == X_NOTRANS)
-            cublasGemmBatchedEx(*handle, CUBLAS_OP_N, CUBLAS_OP_T, mc, nc, ma, (__int8*)&alpha2, b, CUDA_R_8I, mb, a, CUDA_R_8I, ma, (__int8*)&beta2, c, CUDA_R_32F, mc, count, CUDA_R_32F, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
+            cublasGemmBatchedEx(*handle, CUBLAS_OP_N, CUBLAS_OP_T, mc, nc, ma, &alpha, b, CUDA_R_8I, mb, a, CUDA_R_8I, ma, &beta, c, CUDA_R_32F, mc, count, CUDA_R_32F, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
        else if (transposedA == X_NOTRANS && transposedB == X_TRANS)
-            cublasGemmBatchedEx(*handle, CUBLAS_OP_T, CUBLAS_OP_N, mc, nc, ma, (__int8*)&alpha2, b, CUDA_R_8I, mb, a, CUDA_R_8I, ma, (__int8*)&beta2, c, CUDA_R_32F, mc, count, CUDA_R_32F, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
+            cublasGemmBatchedEx(*handle, CUBLAS_OP_T, CUBLAS_OP_N, mc, nc, ma, &alpha, b, CUDA_R_8I, mb, a, CUDA_R_8I, ma, &beta, c, CUDA_R_32F, mc, count, CUDA_R_32F, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
        else if (transposedA == X_TRANS && transposedB == X_TRANS)
-            cublasGemmBatchedEx(*handle, CUBLAS_OP_T, CUBLAS_OP_T, mc, nc, ma, (__int8*)&alpha2, b, CUDA_R_8I, mb, a, CUDA_R_8I, ma, (__int8*)&beta2, c, CUDA_R_32F, mc, count, CUDA_R_32F, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
+            cublasGemmBatchedEx(*handle, CUBLAS_OP_T, CUBLAS_OP_T, mc, nc, ma, &alpha, b, CUDA_R_8I, mb, a, CUDA_R_8I, ma, &beta, c, CUDA_R_32F, mc, count, CUDA_R_32F, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
        cublasSetMathMode(*handle, CUBLAS_DEFAULT_MATH);
    }
    else {
@@ -270,47 +266,23 @@ void _CudaBLASMatrixMULBatchedStrided(cublasHandle_t * handle,
        cublasSetMathMode(*handle, CUBLAS_DEFAULT_MATH);
    }
    else if (dataTypeA == X_INT8 && dataTypeB == X_INT8 && dataTypeC == X_FLOAT) {
-        int alpha2 = (int)alpha;
-        int beta2 = (int)beta;
        /*
        CUDA requires that the dimension of two tensor( lda, ldb ) should be multiples of 4.
        details in https://devtalk.nvidia.com/default/topic/999101/about-cublasgemm-int8-support/
        */
-        if (mb % 4 != 0 || ma % 4 != 0) {
-            ShowNTErrors("mb, ma( lda, ldb ) should be multiples of 4!");
-            return;
-        }
-        cublasSetMathMode(*handle, CUBLAS_TENSOR_OP_MATH);
-        if (transposedA == X_NOTRANS && transposedB == X_NOTRANS)
-            cublasGemmStridedBatchedEx(*handle, CUBLAS_OP_N, CUBLAS_OP_N, mc, nc, ma, (__int8*)&alpha2, b, CUDA_R_8I, mb, strideB, a, CUDA_R_8I, ma, strideA, (__int8*)&beta2, c, CUDA_R_32F, mc, strideC, count, CUDA_R_32F, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
-        else if (transposedA == X_TRANS && transposedB == X_NOTRANS)
-            cublasGemmStridedBatchedEx(*handle, CUBLAS_OP_N, CUBLAS_OP_T, mc, nc, ma, (__int8*)&alpha2, b, CUDA_R_8I, mb, strideB, a, CUDA_R_8I, ma, strideA, (__int8*)&beta2, c, CUDA_R_32F, mc, strideC, count, CUDA_R_32F, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
-        else if (transposedA == X_NOTRANS && transposedB == X_TRANS)
-            cublasGemmStridedBatchedEx(*handle, CUBLAS_OP_T, CUBLAS_OP_N, mc, nc, ma, (__int8*)&alpha2, b, CUDA_R_8I, mb, strideB, a, CUDA_R_8I, ma, strideA, (__int8*)&beta2, c, CUDA_R_32F, mc, strideC, count, CUDA_R_32F, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
-        else if (transposedA == X_TRANS && transposedB == X_TRANS)
-            cublasGemmStridedBatchedEx(*handle, CUBLAS_OP_T, CUBLAS_OP_T, mc, nc, ma, (__int8*)&alpha2, b, CUDA_R_8I, mb, strideB, a, CUDA_R_8I, ma, strideA, (__int8*)&beta2, c, CUDA_R_32F, mc, strideC, count, CUDA_R_32F, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
-        cublasSetMathMode(*handle, CUBLAS_DEFAULT_MATH);
-    }
-    else if (dataTypeA == X_INT8 && dataTypeB == X_INT8 && dataTypeC == X_INT) {
-        int alpha2 = (int)alpha;
-        int beta2 = (int)beta;
-        /*
-        CUDA requires that the dimension of two tensor( lda, ldb ) should be multiples of 4.
-        details in https://devtalk.nvidia.com/default/topic/999101/about-cublasgemm-int8-support/
-        */
-        if (mb % 4 != 0 || ma % 4 != 0) {
-            ShowNTErrors("mb, ma( lda, ldb ) should be multiples of 4!");
-            return;
-        }
+        //if (mb % 4 != 0 || ma % 4 != 0) {
+        //    ShowNTErrors("mb, ma( lda, ldb ) should be multiples of 4!");
+        //    return;
+        //}
        cublasSetMathMode(*handle, CUBLAS_TENSOR_OP_MATH);
        if (transposedA == X_NOTRANS && transposedB == X_NOTRANS)
-            cublasGemmStridedBatchedEx(*handle, CUBLAS_OP_N, CUBLAS_OP_N, mc, nc, ma, (__int8*)&alpha2, b, CUDA_R_8I, mb, strideB, a, CUDA_R_8I, ma, strideA, (__int8*)&beta2, c, CUDA_C_32I, mc, strideC, count, CUDA_R_32I, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
+            cublasGemmStridedBatchedEx(*handle, CUBLAS_OP_N, CUBLAS_OP_N, mc, nc, ma, &alpha, b, CUDA_R_8I, mb, strideB, a, CUDA_R_8I, ma, strideA, &beta, c, CUDA_R_32F, mc, strideC, count, CUDA_R_32F, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
        else if (transposedA == X_TRANS && transposedB == X_NOTRANS)
-            cublasGemmStridedBatchedEx(*handle, CUBLAS_OP_N, CUBLAS_OP_T, mc, nc, ma, (__int8*)&alpha2, b, CUDA_R_8I, mb, strideB, a, CUDA_R_8I, ma, strideA, (__int8*)&beta2, c, CUDA_C_32I, mc, strideC, count, CUDA_R_32I, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
+            cublasGemmStridedBatchedEx(*handle, CUBLAS_OP_N, CUBLAS_OP_T, mc, nc, ma, &alpha, b, CUDA_R_8I, mb, strideB, a, CUDA_R_8I, ma, strideA, &beta, c, CUDA_R_32F, mc, strideC, count, CUDA_R_32F, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
        else if (transposedA == X_NOTRANS && transposedB == X_TRANS)
-            cublasGemmStridedBatchedEx(*handle, CUBLAS_OP_T, CUBLAS_OP_N, mc, nc, ma, (__int8*)&alpha2, b, CUDA_R_8I, mb, strideB, a, CUDA_R_8I, ma, strideA, (__int8*)&beta2, c, CUDA_C_32I, mc, strideC, count, CUDA_R_32I, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
+            cublasGemmStridedBatchedEx(*handle, CUBLAS_OP_T, CUBLAS_OP_N, mc, nc, ma, &alpha, b, CUDA_R_8I, mb, strideB, a, CUDA_R_8I, ma, strideA, &beta, c, CUDA_R_32F, mc, strideC, count, CUDA_R_32F, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
        else if (transposedA == X_TRANS && transposedB == X_TRANS)
-            cublasGemmStridedBatchedEx(*handle, CUBLAS_OP_T, CUBLAS_OP_T, mc, nc, ma, (__int8*)&alpha2, b, CUDA_R_8I, mb, strideB, a, CUDA_R_8I, ma, strideA, (__int8*)&beta2, c, CUDA_C_32I, mc, strideC, count, CUDA_R_32I, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
+            cublasGemmStridedBatchedEx(*handle, CUBLAS_OP_T, CUBLAS_OP_T, mc, nc, ma, &alpha, b, CUDA_R_8I, mb, strideB, a, CUDA_R_8I, ma, strideA, &beta, c, CUDA_R_32F, mc, strideC, count, CUDA_R_32F, CUBLAS_GEMM_DEFAULT_TENSOR_OP);
        cublasSetMathMode(*handle, CUBLAS_DEFAULT_MATH);
    }
    else {

--- a/source/tensor/test/TMatrixMul.cpp
+++ b/source/tensor/test/TMatrixMul.cpp
@@ -807,111 +807,6 @@ bool TestMatrixMul7()
 }


-/*
-case 8: int8 matrix multiplication.
-In this case, int8 a=(2, 3), int8 b=(3, 2) -> int32 c=(2, 2),
-transposedA=X_NOTRANS, transposedB=X_NOTRANS.
-*/
-bool TestMatrixMul8()
-{
-    /* a source tensor of size (2, 3) */
-    int sOrder1 = 2;
-    int * sDimSize1 = new int[sOrder1];
-    sDimSize1[0] = 2;
-    sDimSize1[1] = 3;
-
-    int sUnitNum1 = 1;
-    for (int i = 0; i < sOrder1; i++)
-        sUnitNum1 *= sDimSize1[i];
-
-    /* a source tensor of size (3, 2) */
-    int sOrder2 = 2;
-    int * sDimSize2 = new int[sOrder2];
-    sDimSize2[0] = 3;
-    sDimSize2[1] = 2;
-
-    int sUnitNum2 = 1;
-    for (int i = 0; i < sOrder2; i++)
-        sUnitNum2 *= sDimSize2[i];
-
-    /* a target tensor of size (2, 2) */
-    int tOrder = 2;
-    int * tDimSize = new int[tOrder];
-    tDimSize[0] = 2;
-    tDimSize[1] = 2;
-
-    int tUnitNum = 1;
-    for (int i = 0; i < tOrder; i++)
-        tUnitNum *= tDimSize[i];
-
-    DTYPE sData1[2][3] = { {1, 2, 3},
-                           {-4, 5, 6} };
-    DTYPE sData2[3][2] = { {0, -1},
-                           {1, 2},
-                           {2, 1} };
-    DTYPE answer[2][2] = { {8, 6},
-                           {17, 20} };
-
-    /* CPU test */
-    bool cpuTest = true;
-
-#ifdef USE_CUDA
-    /* GPU test */
-    bool gpuTest = true;
-
-    /* create tensor */
-    XTensor * sGPU1 = NewTensor(sOrder1, sDimSize1, X_FLOAT, 1.0F, 0);
-    XTensor * sGPU2 = NewTensor(sOrder2, sDimSize2, X_FLOAT, 1.0F, 0);
-    XTensor * tGPU = NewTensor(tOrder, tDimSize, X_FLOAT, 1.0F, 0);
-    XTensor * intTGPU = NewTensor(tOrder, tDimSize, X_INT, 1.0F, 0);
-    XTensor tUserGPU;
-    XTensor intTUserGPU;
-
-    /* create int8 tensors */
-    XTensor int8SGPU1;
-    XTensor int8SGPU2;
-
-    /* Initialize variables */
-    sGPU1->SetData(sData1, sUnitNum1);
-    sGPU2->SetData(sData2, sUnitNum2);
-    tGPU->SetZeroAll();
-
-    /* convert data type from float to int8 */
-    int8SGPU1 = ConvertDataType(*sGPU1, X_INT8);
-    int8SGPU2 = ConvertDataType(*sGPU2, X_INT8);
-
-    /* call MatrixMul function */
-    _MatrixMul(&int8SGPU1, X_NOTRANS, &int8SGPU2, X_NOTRANS, intTGPU);
-    intTUserGPU = MatrixMul(int8SGPU1, X_NOTRANS, int8SGPU2, X_NOTRANS, X_INT);
-
-    /* convert data type from int to float32 */
-    _ConvertDataType(intTGPU, tGPU);
-    tUserGPU = ConvertDataType(intTUserGPU, X_FLOAT);
-
-    /* check results */
-    gpuTest = tGPU->CheckData(answer, tUnitNum) && tUserGPU.CheckData(answer, tUnitNum);
-
-    /* destroy variables */
-    delete sGPU1;
-    delete sGPU2;
-    delete tGPU;
-    delete intTGPU;
-    delete[] sDimSize1;
-    delete[] sDimSize2;
-    delete[] tDimSize;
-
-    return cpuTest && gpuTest;
-#else
-    /* destroy variables */
-    delete[] sDimSize1;
-    delete[] sDimSize2;
-    delete[] tDimSize;
-
-    return cpuTest;
-#endif // USE_CUDA
-}
-
-
 /* other cases */
 /*
    TODO!!
@@ -987,15 +882,6 @@ bool TestMatrixMul()
    else
        XPRINT(0, stdout, ">> case 7 passed!\n");

-    /* case 8 test */
-    caseFlag = TestMatrixMul8();
-    if (!caseFlag) {
-        returnFlag = false;
-        XPRINT(0, stdout, ">> case 8 failed!\n");
-    }
-    else
-        XPRINT(0, stdout, ">> case 8 passed!\n");
-
    /* other cases test */
    /*
    TODO!!

--- a/source/tensor/test/Test.cpp
+++ b/source/tensor/test/Test.cpp
@@ -39,11 +39,11 @@ bool Test()
    //wrong = !TestCopyIndexed() || wrong;
    //wrong = !TestCopyValues() || wrong;
    //wrong = !TestDiv() || wrong;
-    wrong = !TestDivDim() || wrong;
+    //wrong = !TestDivDim() || wrong;
    //wrong = !TestExp() || wrong;
    //wrong = !TestGather() || wrong;
    //wrong = !TestLog() || wrong;
-    //wrong = !TestMatrixMul() || wrong;
+    wrong = !TestMatrixMul() || wrong;
    //wrong = !TestMatrixMul2D() || wrong;
    //wrong = !TestMatrixMul2DParallel() || wrong;
    //wrong = !TestMatrixMulBatched() || wrong;