add headers in cpp and fix the bug of MAX_LEN in XLink.h

4641030e · Tianzhi · ba8bc234 · 4641030e · 4641030e · 4641030e
Commit 4641030e authored Mar 18, 2019 by Tianzhi
--- a/Makefile
+++ b/Makefile
@@ -65,7 +65,7 @@ ifeq ($(USE_MKL), 1)
 	                 $(MKL_LIB_DIR)/libmkl_core.a \
 					 $(MKL_LIB_DIR)/libmkl_intel_thread.a \
 					 $(INTEL_ROOT)/lib/intel64/libiomp5.a                                              
-    DYNAMIC_DEPLIB += -liomp5 -lmkl_intel_lp64 -lmkl_intel_thread -lmkl_core
+    #DYNAMIC_DEPLIB += -liomp5 -lmkl_intel_lp64 -lmkl_intel_thread -lmkl_core
 endif   
 ifeq ($(USE_OPENBLAS), 1)
    STATIC_DEPLIB += $(OPENBLAS_LIB_DIR)/libopenblas.a

--- a/niutrans.tensor.cpu
+++ b/niutrans.tensor.cpu
--- a/source/network/XBackwardFunc.o
+++ b/source/network/XBackwardFunc.o
--- a/source/network/XBackwardLoss.o
+++ b/source/network/XBackwardLoss.o
--- a/source/network/XBackwardMath.o
+++ b/source/network/XBackwardMath.o
--- a/source/network/XBackwardShape.o
+++ b/source/network/XBackwardShape.o
--- a/source/network/XNet.o
+++ b/source/network/XNet.o
--- a/source/network/XNoder.o
+++ b/source/network/XNoder.o
--- a/source/sample/fnnlm/FNNLM.o
+++ b/source/sample/fnnlm/FNNLM.o
--- a/source/sample/transformer/T2TAttention.o
+++ b/source/sample/transformer/T2TAttention.o
--- a/source/sample/transformer/T2TDecoder.o
+++ b/source/sample/transformer/T2TDecoder.o
--- a/source/sample/transformer/T2TEmbedding.o
+++ b/source/sample/transformer/T2TEmbedding.o
--- a/source/sample/transformer/T2TEncoder.o
+++ b/source/sample/transformer/T2TEncoder.o
--- a/source/sample/transformer/T2TFNN.o
+++ b/source/sample/transformer/T2TFNN.o
--- a/source/sample/transformer/T2TLayerNormal.o
+++ b/source/sample/transformer/T2TLayerNormal.o
--- a/source/sample/transformer/T2TModel.o
+++ b/source/sample/transformer/T2TModel.o
--- a/source/sample/transformer/T2TOutput.o
+++ b/source/sample/transformer/T2TOutput.o
--- a/source/sample/transformer/T2TPredictor.o
+++ b/source/sample/transformer/T2TPredictor.o
--- a/source/sample/transformer/T2TTrainer.o
+++ b/source/sample/transformer/T2TTrainer.o
--- a/source/sample/transformer/T2TUtility.o
+++ b/source/sample/transformer/T2TUtility.o
--- a/source/sample/transformer/Transformer.o
+++ b/source/sample/transformer/Transformer.o
--- a/source/tensor/XBLAS.cpp
+++ b/source/tensor/XBLAS.cpp
@@ -67,6 +67,13 @@ void (*XBLAS_DGER)(OPENBLAS_CONST enum CBLAS_ORDER, OPENBLAS_CONST BLASINT M, OP
                   OPENBLAS_CONST double *Y, OPENBLAS_CONST BLASINT, OPENBLAS_CONST double *, OPENBLAS_CONST BLASINT, 
                   double *, OPENBLAS_CONST BLASINT);
+float (*XBLAS_SASUM)(OPENBLAS_CONST BLASINT n,OPENBLAS_CONST float *x,OPENBLAS_CONST BLASINT incx);
+float (*XBLAS_ISAMAX)(OPENBLAS_CONST BLASINT n,OPENBLAS_CONST float *x,OPENBLAS_CONST BLASINT incx);
+float (*XBLAS_SNRM2)(OPENBLAS_CONST BLASINT n,OPENBLAS_CONST float *x,OPENBLAS_CONST BLASINT incx);
+void (*XBLAS_SSCAL)(OPENBLAS_CONST BLASINT n,OPENBLAS_CONST float a,OPENBLAS_CONST float *x,OPENBLAS_CONST BLASINT incx);
+void (*XBLAS_SCOPY)(OPENBLAS_CONST BLASINT n,OPENBLAS_CONST float *x,OPENBLAS_CONST BLASINT incx,OPENBLAS_CONST float *y,OPENBLAS_CONST BLASINT incy);
+void (*XBLAS_SAXPY)(OPENBLAS_CONST BLASINT n, OPENBLAS_CONST float a, OPENBLAS_CONST float *x, OPENBLAS_CONST BLASINT incx, OPENBLAS_CONST float *y, OPENBLAS_CONST BLASINT incy);
 /* set the number of threads */
 void (*XBLAS_SET_THREAD_NUM)(int);
@@ -115,6 +122,13 @@ void LoadBLAS(const char * dllFileName)
    (FARPROC&)XBLAS_SGER = GetProcAddress(hBLASDll, "cblas_sger");
    (FARPROC&)XBLAS_DGER = GetProcAddress(hBLASDll, "cblas_dger");
+    (FARPROC&)XBLAS_SASUM = GetProcAddress(hBLASDll, "cblas_sasum");
+    (FARPROC&)XBLAS_ISAMAX = GetProcAddress(hBLASDll, "cblas_isamax");
+    (FARPROC&)XBLAS_SNRM2 = GetProcAddress(hBLASDll, "cblas_snrm2");
+    (FARPROC&)XBLAS_SSCAL = GetProcAddress(hBLASDll, "cblas_sscal");
+    (FARPROC&)XBLAS_SCOPY = GetProcAddress(hBLASDll, "cblas_scopy");
+    (FARPROC&)XBLAS_SAXPY = GetProcAddress(hBLASDll, "cblas_saxpy");
    /* multi-threading */
    (FARPROC&)XBLAS_SET_THREAD_NUM = GetProcAddress(hBLASDll, "openblas_set_num_threads");
    //(FARPROC&)XBLAS_SET_THREAD_NUM = GetProcAddress(hBLASDll, "goto_set_num_threads");
@@ -148,17 +162,31 @@ void LoadBLAS(const char * dllFileName)
    (FARPROC&)XBLAS_SGER = GetProcAddress(hBLASDll, "cblas_sger");
    (FARPROC&)XBLAS_DGER = GetProcAddress(hBLASDll, "cblas_dger");
+    (FARPROC&)XBLAS_SASUM = GetProcAddress(hBLASDll, "cblas_sasum");
+    (FARPROC&)XBLAS_ISAMAX = GetProcAddress(hBLASDll, "cblas_isamax");
+    (FARPROC&)XBLAS_SNRM2 = GetProcAddress(hBLASDll, "cblas_snrm2");
+    (FARPROC&)XBLAS_SSCAL = GetProcAddress(hBLASDll, "cblas_sscal");
+    (FARPROC&)XBLAS_SCOPY = GetProcAddress(hBLASDll, "cblas_scopy");
+    (FARPROC&)XBLAS_SAXPY = GetProcAddress(hBLASDll, "cblas_saxpy");
    /* multi-threading */
    (FARPROC&)XBLAS_SET_THREAD_NUM = GetProcAddress(hBLASDll, "MKL_Set_Num_Threads");
    (FARPROC&)XBLAS_GET_CORE_NUM   = GetProcAddress(hBLASDll, "MKL_Get_Max_Threads");
 #endif // defined(MKL)
 #else // _WIN32
    XBLAS_SGEMM = &cblas_sgemm;
    XBLAS_DGEMM = &cblas_dgemm;
    XBLAS_SGER  = &cblas_sger;
    XBLAS_DGER  = &cblas_dger;
+    XBLAS_SASUM = &cblas_sasum;
+    XBLAS_ISAMAX = &cblas_isamax;
+    XBLAS_SNRM2 = &cblas_snrm2;
+    XBLAS_SSCAL = &cblas_sscal;
+    XBLAS_SCOPY = &cblas_scopy;
+    XBLAS_SAXPY = &cblas_saxpy;
 #if defined(OPENBLAS)
    XBLAS_SET_THREAD_NUM    = &openblas_set_num_threads;
    XBLAS_GET_CORE_NUM      = &openblas_get_num_procs;
@@ -205,4 +233,4 @@ void UnloadBLAS()
 #endif // defined(USE_BLAS) && defined(OPENBLAS)
 } /* end of the nts (NiuTrans.Tensor) namespace */
\ No newline at end of file
--- a/source/tensor/XBLAS.h
+++ b/source/tensor/XBLAS.h
@@ -97,6 +97,15 @@ extern "C" void (*XBLAS_DGER)(OPENBLAS_CONST enum CBLAS_ORDER, OPENBLAS_CONST BL
                              OPENBLAS_CONST double *Y, OPENBLAS_CONST BLASINT, OPENBLAS_CONST double *, OPENBLAS_CONST BLASINT, 
                              double *, OPENBLAS_CONST BLASINT);
+extern "C" float (*XBLAS_SASUM)(OPENBLAS_CONST BLASINT n,OPENBLAS_CONST float *x,OPENBLAS_CONST BLASINT incx);
+extern "C" float (*XBLAS_ISAMAX)(OPENBLAS_CONST BLASINT n,OPENBLAS_CONST float *x,OPENBLAS_CONST BLASINT incx);
+extern "C" float (*XBLAS_ISAMIN)(OPENBLAS_CONST BLASINT n,OPENBLAS_CONST float *x,OPENBLAS_CONST BLASINT incx);
+extern "C" float (*XBLAS_SNRM2)(OPENBLAS_CONST BLASINT n,OPENBLAS_CONST float *x,OPENBLAS_CONST BLASINT incx);
+extern "C" void (*XBLAS_SSCAL)(OPENBLAS_CONST BLASINT n,OPENBLAS_CONST float a,OPENBLAS_CONST float *x,OPENBLAS_CONST BLASINT incx);
+extern "C" void (*XBLAS_SCOPY)(OPENBLAS_CONST BLASINT n,OPENBLAS_CONST float *x,OPENBLAS_CONST BLASINT incx,OPENBLAS_CONST float *y,OPENBLAS_CONST BLASINT incy);
+extern "C" void (*XBLAS_SAXPY)(OPENBLAS_CONST BLASINT n, OPENBLAS_CONST float a, OPENBLAS_CONST float *x, OPENBLAS_CONST BLASINT incx, OPENBLAS_CONST float *y, OPENBLAS_CONST BLASINT  incy);
 /* set the number of threads */
 extern "C" void (*XBLAS_SET_THREAD_NUM)(int);
@@ -134,6 +143,14 @@ extern "C" void cblas_dger (OPENBLAS_CONST enum CBLAS_ORDER order, OPENBLAS_CONS
                        OPENBLAS_CONST double *X, OPENBLAS_CONST BLASINT incX, OPENBLAS_CONST double *Y, OPENBLAS_CONST BLASINT incY, 
                        double *A, OPENBLAS_CONST BLASINT lda);
+extern "C" float cblas_sasum (OPENBLAS_CONST BLASINT n,OPENBLAS_CONST float *x,OPENBLAS_CONST BLASINT incx);
+extern "C" float cblas_isamax (OPENBLAS_CONST BLASINT n,OPENBLAS_CONST float *x,OPENBLAS_CONST BLASINT incx);
+extern "C" float cblas_isamin (OPENBLAS_CONST BLASINT n,OPENBLAS_CONST float *x,OPENBLAS_CONST BLASINT incx);
+extern "C" float cblas_snrm2 (OPENBLAS_CONST BLASINT n,OPENBLAS_CONST float *x,OPENBLAS_CONST BLASINT incx);
+extern "C" void cblas_sscal (OPENBLAS_CONST BLASINT n,OPENBLAS_CONST float a,OPENBLAS_CONST float *x,OPENBLAS_CONST BLASINT incx);
+extern "C" void cblas_scopy (OPENBLAS_CONST BLASINT n,OPENBLAS_CONST float *x,OPENBLAS_CONST BLASINT incx,OPENBLAS_CONST float *y,OPENBLAS_CONST BLASINT incy);
+extern "C" void cblas_saxpy (OPENBLAS_CONST BLASINT n, OPENBLAS_CONST float a, OPENBLAS_CONST float *x, OPENBLAS_CONST BLASINT incx, OPENBLAS_CONST float *y, OPENBLAS_CONST BLASINT  incy);
 #if defined(OPENBLAS)
 /* better control of multi-threading */
 extern "C" void  openblas_set_num_threads(int num_threads);

--- a/source/tensor/XBLAS.o
+++ b/source/tensor/XBLAS.o
--- a/source/tensor/XDataType.o
+++ b/source/tensor/XDataType.o
--- a/source/tensor/XDevice.o
+++ b/source/tensor/XDevice.o
--- a/source/tensor/XGlobal.o
+++ b/source/tensor/XGlobal.o
--- a/source/tensor/XHeap.o
+++ b/source/tensor/XHeap.o
--- a/source/tensor/XLink.h
+++ b/source/tensor/XLink.h
@@ -33,7 +33,7 @@ namespace nts{ // namespace nts(NiuTrans.Tensor)
 /* cross reference */
 struct XTensor;
-#define MAX_OP_NAME_LENGTH 16
+#define MAX_OP_NAME_LENGTH 32
 #define PARAM_UNTI_SIZE    64
 /*

--- a/source/tensor/XLink.o
+++ b/source/tensor/XLink.o
--- a/source/tensor/XList.o
+++ b/source/tensor/XList.o
--- a/source/tensor/XMem.o
+++ b/source/tensor/XMem.o
--- a/source/tensor/XName.o
+++ b/source/tensor/XName.o
--- a/source/tensor/XPRunner.o
+++ b/source/tensor/XPRunner.o
--- a/source/tensor/XQueue.o
+++ b/source/tensor/XQueue.o
--- a/source/tensor/XStream.o
+++ b/source/tensor/XStream.o
--- a/source/tensor/XTensor.o
+++ b/source/tensor/XTensor.o
--- a/source/tensor/XThread.o
+++ b/source/tensor/XThread.o
--- a/source/tensor/XUtility.o
+++ b/source/tensor/XUtility.o
--- a/source/tensor/core/arithmetic/Div.o
+++ b/source/tensor/core/arithmetic/Div.o
--- a/source/tensor/core/arithmetic/DivDim.o
+++ b/source/tensor/core/arithmetic/DivDim.o
--- a/source/tensor/core/arithmetic/MatrixMul.o
+++ b/source/tensor/core/arithmetic/MatrixMul.o
--- a/source/tensor/core/arithmetic/MatrixMul2D.o
+++ b/source/tensor/core/arithmetic/MatrixMul2D.o
--- a/source/tensor/core/arithmetic/MatrixMul2DMultiTheading.o
+++ b/source/tensor/core/arithmetic/MatrixMul2DMultiTheading.o
--- a/source/tensor/core/arithmetic/MatrixMul2DParallel.o
+++ b/source/tensor/core/arithmetic/MatrixMul2DParallel.o
--- a/source/tensor/core/arithmetic/MatrixMulBatched.cpp
+++ b/source/tensor/core/arithmetic/MatrixMulBatched.cpp
@@ -22,6 +22,8 @@
 #include "../../XTensor.h"
 #include "../../XDevice.h"
 #include "../../XName.h"
+#include "../../XBLAS.h"
+#include "../arithmetic/XTensorBLAS.h"
 #include "MatrixMulBatched.h"
 #include "XTensorBLAS.h"
 #include "MatrixMul2D.h"

--- a/source/tensor/core/arithmetic/MatrixMulBatched.o
+++ b/source/tensor/core/arithmetic/MatrixMulBatched.o
--- a/source/tensor/core/arithmetic/MulAndShift.o
+++ b/source/tensor/core/arithmetic/MulAndShift.o
--- a/source/tensor/core/arithmetic/Multiply.o
+++ b/source/tensor/core/arithmetic/Multiply.o
--- a/source/tensor/core/arithmetic/MultiplyDim.o
+++ b/source/tensor/core/arithmetic/MultiplyDim.o
--- a/source/tensor/core/arithmetic/Negate.o
+++ b/source/tensor/core/arithmetic/Negate.o
--- a/source/tensor/core/arithmetic/Sign.o
+++ b/source/tensor/core/arithmetic/Sign.o
--- a/source/tensor/core/arithmetic/Sub.o
+++ b/source/tensor/core/arithmetic/Sub.o
--- a/source/tensor/core/arithmetic/SubDim.o
+++ b/source/tensor/core/arithmetic/SubDim.o
--- a/source/tensor/core/arithmetic/Sum.cpp
+++ b/source/tensor/core/arithmetic/Sum.cpp
@@ -22,6 +22,8 @@
 #include "../../XTensor.h"
 #include "../../XName.h"
 #include "../../XUtility.h"
+#include "../../XBLAS.h"
+#include "../arithmetic/XTensorBLAS.h"
 #include "../movement/CopyValues.h"
 #include "Sum.h"
 #include "Sum.cuh"

--- a/source/tensor/core/arithmetic/Sum.o
+++ b/source/tensor/core/arithmetic/Sum.o
--- a/source/tensor/core/arithmetic/SumByColumnTV.o
+++ b/source/tensor/core/arithmetic/SumByColumnTV.o
--- a/source/tensor/core/arithmetic/SumByColumnVT.o
+++ b/source/tensor/core/arithmetic/SumByColumnVT.o
--- a/source/tensor/core/arithmetic/SumDim.o
+++ b/source/tensor/core/arithmetic/SumDim.o
--- a/source/tensor/core/arithmetic/XTensorBLAS.cpp
+++ b/source/tensor/core/arithmetic/XTensorBLAS.cpp
@@ -49,12 +49,12 @@ void _MatrixMULCPU(const XTensor * a, MATRIX_TRANS_TYPE transposedA,
 #if defined(USE_BLAS)
 	int an = a->dimSize[0];
-    int am = a->dimSize[1];
+        int am = a->dimSize[1];
 	int bn = b->dimSize[0];
 	int bm = b->dimSize[1];
 	int cn = c->dimSize[0];
 	int cm = c->dimSize[1];
+printf("4\n");
    if (transposedA == X_NOTRANS && transposedB == X_NOTRANS)
        GEMM(CblasRowMajor, CblasNoTrans, CblasNoTrans, cn, cm, am, alpha, (DTYPE*)a->data, am, (DTYPE*)b->data, bm, beta, (DTYPE*)c->data, cm);
    else if (transposedA == X_TRANS && transposedB == X_NOTRANS)

--- a/source/tensor/core/arithmetic/XTensorBLAS.o
+++ b/source/tensor/core/arithmetic/XTensorBLAS.o
--- a/source/tensor/core/getandset/ConvertDataType.o
+++ b/source/tensor/core/getandset/ConvertDataType.o
--- a/source/tensor/core/getandset/OnehotAndIndex.o
+++ b/source/tensor/core/getandset/OnehotAndIndex.o
--- a/source/tensor/core/getandset/Select.o
+++ b/source/tensor/core/getandset/Select.o
--- a/source/tensor/core/getandset/SetData.o
+++ b/source/tensor/core/getandset/SetData.o
--- a/source/tensor/core/math/Clip.o
+++ b/source/tensor/core/math/Clip.o
--- a/source/tensor/core/math/Compare.o
+++ b/source/tensor/core/math/Compare.o
--- a/source/tensor/core/math/Normalize.o
+++ b/source/tensor/core/math/Normalize.o
--- a/source/tensor/core/math/Power.o
+++ b/source/tensor/core/math/Power.o
--- a/source/tensor/core/math/ScaleAndShift.cpp
+++ b/source/tensor/core/math/ScaleAndShift.cpp
@@ -22,6 +22,9 @@
 #include "../../XTensor.h"
 #include "../../XName.h"
 #include "../../XUtility.h"
+#include "../../XBLAS.h"
+#include "../arithmetic/XTensorBLAS.h"
+#include "../movement/CopyValues.h"
 #include "ScaleAndShift.h"
 #include "ScaleAndShift.cuh"

--- a/source/tensor/core/math/ScaleAndShift.o
+++ b/source/tensor/core/math/ScaleAndShift.o
--- a/source/tensor/core/math/Unary.o
+++ b/source/tensor/core/math/Unary.o
--- a/source/tensor/core/movement/CopyBlocks.o
+++ b/source/tensor/core/movement/CopyBlocks.o
--- a/source/tensor/core/movement/CopyBlocksInGrid.o
+++ b/source/tensor/core/movement/CopyBlocksInGrid.o
--- a/source/tensor/core/movement/CopyBlocksOnSite.o
+++ b/source/tensor/core/movement/CopyBlocksOnSite.o
--- a/source/tensor/core/movement/CopyData2D.o
+++ b/source/tensor/core/movement/CopyData2D.o
--- a/source/tensor/core/movement/CopyInGrid.o
+++ b/source/tensor/core/movement/CopyInGrid.o
--- a/source/tensor/core/movement/CopyIndexed.o
+++ b/source/tensor/core/movement/CopyIndexed.o
--- a/source/tensor/core/movement/CopyValues.o
+++ b/source/tensor/core/movement/CopyValues.o
--- a/source/tensor/core/movement/Gather.o
+++ b/source/tensor/core/movement/Gather.o
--- a/source/tensor/core/movement/Spread.o
+++ b/source/tensor/core/movement/Spread.o
--- a/source/tensor/core/reduce/ReduceMax.cpp
+++ b/source/tensor/core/reduce/ReduceMax.cpp
@@ -21,6 +21,8 @@
 #include "../../XTensor.h"
 #include "../../XName.h"
+#include "../../XBLAS.h"
+#include "../arithmetic/XTensorBLAS.h"
 #include "ReduceMax.h"
 #include "ReduceMax.cuh"
@@ -77,12 +79,12 @@ void _ReduceMax(const XTensor * input, XTensor * output, int dim)
        blockSize = stride * strideNum;
        for(int k = 0; k < blockNum; k++){
-            if(useBLAS){
+            DTYPE * ip = (DTYPE*)input->data + blockSize * k;
-                *(op + i) = *(ip + i + cblas_isamax(strideNum, ip + i, stride));
+            DTYPE * op = (DTYPE*)output->data + stride * k;
-            } else{
+            for(int i = 0; i < stride; i++){
-                DTYPE * ip = (DTYPE*)input->data + blockSize * k;
+                if(useBLAS){
-                DTYPE * op = (DTYPE*)output->data + stride * k;
+                    *(op + i) = cblas_isamax(strideNum, ip + i, stride);
-                for(int i = 0; i < stride; i++){
+                } else{
                    DTYPE max = FLOAT_MIN;
                    DTYPE * ipe = ip + blockSize;
                    for(DTYPE * ipb = ip + i; ipb < ipe; ipb += stride){

--- a/source/tensor/core/reduce/ReduceMax.o
+++ b/source/tensor/core/reduce/ReduceMax.o
--- a/source/tensor/core/reduce/ReduceMean.o
+++ b/source/tensor/core/reduce/ReduceMean.o
--- a/source/tensor/core/reduce/ReduceSum.cpp
+++ b/source/tensor/core/reduce/ReduceSum.cpp
@@ -23,6 +23,8 @@
 #include "ReduceSum.h"
 #include "ReduceSum.cuh"
 #include "../../XName.h"
+#include "../../XBLAS.h"
+#include "../arithmetic/XTensorBLAS.h"
 namespace nts{ // namespace nts(NiuTrans.Tensor)

--- a/source/tensor/core/reduce/ReduceSum.o
+++ b/source/tensor/core/reduce/ReduceSum.o
--- a/source/tensor/core/reduce/ReduceSumAll.o
+++ b/source/tensor/core/reduce/ReduceSumAll.o
--- a/source/tensor/core/reduce/ReduceSumSquared.o
+++ b/source/tensor/core/reduce/ReduceSumSquared.o
--- a/source/tensor/core/reduce/ReduceVariance.o
+++ b/source/tensor/core/reduce/ReduceVariance.o
--- a/source/tensor/core/shape/Concatenate.o
+++ b/source/tensor/core/shape/Concatenate.o
--- a/source/tensor/core/shape/ConcatenateSolely.o
+++ b/source/tensor/core/shape/ConcatenateSolely.o
--- a/source/tensor/core/shape/MakeMergeBlockIndex.o
+++ b/source/tensor/core/shape/MakeMergeBlockIndex.o
--- a/source/tensor/core/shape/MakeSplitBlockIndex.o
+++ b/source/tensor/core/shape/MakeSplitBlockIndex.o
--- a/source/tensor/core/shape/Merge.o
+++ b/source/tensor/core/shape/Merge.o
--- a/source/tensor/core/shape/MergeBlockLists.o
+++ b/source/tensor/core/shape/MergeBlockLists.o
--- a/source/tensor/core/shape/Permute.o
+++ b/source/tensor/core/shape/Permute.o
--- a/source/tensor/core/shape/Reshape.o
+++ b/source/tensor/core/shape/Reshape.o
--- a/source/tensor/core/shape/Split.o
+++ b/source/tensor/core/shape/Split.o
--- a/source/tensor/core/shape/Squeeze.o
+++ b/source/tensor/core/shape/Squeeze.o
--- a/source/tensor/core/shape/Transpose.o
+++ b/source/tensor/core/shape/Transpose.o
--- a/source/tensor/core/shape/Unsqueeze.o
+++ b/source/tensor/core/shape/Unsqueeze.o
--- a/source/tensor/core/sort/Sort.o
+++ b/source/tensor/core/sort/Sort.o
--- a/source/tensor/core/sort/TopK.o
+++ b/source/tensor/core/sort/TopK.o
--- a/source/tensor/core/utilities/FlushToMem.o
+++ b/source/tensor/core/utilities/FlushToMem.o
--- a/source/tensor/core/utilities/XMatrixSegment.o
+++ b/source/tensor/core/utilities/XMatrixSegment.o
--- a/source/tensor/function/CrossEntropy.o
+++ b/source/tensor/function/CrossEntropy.o
--- a/source/tensor/function/Dropout.o
+++ b/source/tensor/function/Dropout.o
--- a/source/tensor/function/HardTanH.o
+++ b/source/tensor/function/HardTanH.o
--- a/source/tensor/function/Identity.o
+++ b/source/tensor/function/Identity.o
--- a/source/tensor/function/LogSoftmax.o
+++ b/source/tensor/function/LogSoftmax.o
--- a/source/tensor/function/Loss.o
+++ b/source/tensor/function/Loss.o
--- a/source/tensor/function/Rectify.o
+++ b/source/tensor/function/Rectify.o
--- a/source/tensor/function/Sigmoid.o
+++ b/source/tensor/function/Sigmoid.o
--- a/source/tensor/function/Softmax.o
+++ b/source/tensor/function/Softmax.o
--- a/source/tensor/test/TAbsolute.o
+++ b/source/tensor/test/TAbsolute.o
--- a/source/tensor/test/TClip.o
+++ b/source/tensor/test/TClip.o
--- a/source/tensor/test/TCompare.o
+++ b/source/tensor/test/TCompare.o
--- a/source/tensor/test/TConcatenate.o
+++ b/source/tensor/test/TConcatenate.o
--- a/source/tensor/test/TConcatenateSolely.o
+++ b/source/tensor/test/TConcatenateSolely.o
--- a/source/tensor/test/TConvertDataType.o
+++ b/source/tensor/test/TConvertDataType.o
--- a/source/tensor/test/TCopyIndexed.o
+++ b/source/tensor/test/TCopyIndexed.o
--- a/source/tensor/test/TCopyValues.o
+++ b/source/tensor/test/TCopyValues.o
--- a/source/tensor/test/TCos.o
+++ b/source/tensor/test/TCos.o
--- a/source/tensor/test/TCrossEntropy.o
+++ b/source/tensor/test/TCrossEntropy.o
--- a/source/tensor/test/TDiv.o
+++ b/source/tensor/test/TDiv.o
--- a/source/tensor/test/TDivDim.o
+++ b/source/tensor/test/TDivDim.o
--- a/source/tensor/test/TDropout.o
+++ b/source/tensor/test/TDropout.o
--- a/source/tensor/test/TExp.o
+++ b/source/tensor/test/TExp.o
--- a/source/tensor/test/TGather.o
+++ b/source/tensor/test/TGather.o
--- a/source/tensor/test/THardTanH.o
+++ b/source/tensor/test/THardTanH.o
--- a/source/tensor/test/TIdentity.o
+++ b/source/tensor/test/TIdentity.o
--- a/source/tensor/test/TLog.o
+++ b/source/tensor/test/TLog.o
--- a/source/tensor/test/TLogSoftmax.o
+++ b/source/tensor/test/TLogSoftmax.o
--- a/source/tensor/test/TLoss.o
+++ b/source/tensor/test/TLoss.o
--- a/source/tensor/test/TMatrixMul.o
+++ b/source/tensor/test/TMatrixMul.o
--- a/source/tensor/test/TMatrixMul2D.o
+++ b/source/tensor/test/TMatrixMul2D.o
--- a/source/tensor/test/TMatrixMul2DParallel.o
+++ b/source/tensor/test/TMatrixMul2DParallel.o
--- a/source/tensor/test/TMatrixMulBatched.cpp
+++ b/source/tensor/test/TMatrixMulBatched.cpp
--- a/source/tensor/test/TMatrixMulBatched.o
+++ b/source/tensor/test/TMatrixMulBatched.o
--- a/source/tensor/test/TMerge.o
+++ b/source/tensor/test/TMerge.o
--- a/source/tensor/test/TMultiply.o
+++ b/source/tensor/test/TMultiply.o
--- a/source/tensor/test/TMultiplyDim.o
+++ b/source/tensor/test/TMultiplyDim.o
--- a/source/tensor/test/TNegate.o
+++ b/source/tensor/test/TNegate.o
--- a/source/tensor/test/TNormalize.o
+++ b/source/tensor/test/TNormalize.o
--- a/source/tensor/test/TPower.o
+++ b/source/tensor/test/TPower.o
--- a/source/tensor/test/TRectify.o
+++ b/source/tensor/test/TRectify.o
--- a/source/tensor/test/TReduceMax.o
+++ b/source/tensor/test/TReduceMax.o
--- a/source/tensor/test/TReduceMean.o
+++ b/source/tensor/test/TReduceMean.o
--- a/source/tensor/test/TReduceSum.o
+++ b/source/tensor/test/TReduceSum.o
--- a/source/tensor/test/TReduceSumAll.o
+++ b/source/tensor/test/TReduceSumAll.o
--- a/source/tensor/test/TReduceSumSquared.o
+++ b/source/tensor/test/TReduceSumSquared.o
--- a/source/tensor/test/TReduceVariance.o
+++ b/source/tensor/test/TReduceVariance.o
--- a/source/tensor/test/TRound.o
+++ b/source/tensor/test/TRound.o
--- a/source/tensor/test/TScaleAndShift.o
+++ b/source/tensor/test/TScaleAndShift.o
--- a/source/tensor/test/TSelect.o
+++ b/source/tensor/test/TSelect.o
--- a/source/tensor/test/TSetAscendingOrder.o
+++ b/source/tensor/test/TSetAscendingOrder.o
--- a/source/tensor/test/TSetData.o
+++ b/source/tensor/test/TSetData.o
--- a/source/tensor/test/TSigmoid.o
+++ b/source/tensor/test/TSigmoid.o
--- a/source/tensor/test/TSign.o
+++ b/source/tensor/test/TSign.o
--- a/source/tensor/test/TSin.o
+++ b/source/tensor/test/TSin.o
--- a/source/tensor/test/TSoftmax.o
+++ b/source/tensor/test/TSoftmax.o
--- a/source/tensor/test/TSort.o
+++ b/source/tensor/test/TSort.o
--- a/source/tensor/test/TSplit.o
+++ b/source/tensor/test/TSplit.o
--- a/source/tensor/test/TSpread.o
+++ b/source/tensor/test/TSpread.o
--- a/source/tensor/test/TSub.o
+++ b/source/tensor/test/TSub.o
--- a/source/tensor/test/TSubDim.o
+++ b/source/tensor/test/TSubDim.o
--- a/source/tensor/test/TSum.o
+++ b/source/tensor/test/TSum.o
--- a/source/tensor/test/TSumByColumnTV.o
+++ b/source/tensor/test/TSumByColumnTV.o
--- a/source/tensor/test/TSumByColumnVT.o
+++ b/source/tensor/test/TSumByColumnVT.o
--- a/source/tensor/test/TSumDim.o
+++ b/source/tensor/test/TSumDim.o
--- a/source/tensor/test/TTan.o
+++ b/source/tensor/test/TTan.o
--- a/source/tensor/test/TTopK.o
+++ b/source/tensor/test/TTopK.o
--- a/source/tensor/test/TTranspose.o
+++ b/source/tensor/test/TTranspose.o
--- a/source/tensor/test/TUnsqueeze.o
+++ b/source/tensor/test/TUnsqueeze.o
--- a/source/tensor/test/TXMem.o
+++ b/source/tensor/test/TXMem.o
--- a/source/tensor/test/Test.o
+++ b/source/tensor/test/Test.o