finish reduce sum

569cb2dd · Tianzhi · e5f95479 · 569cb2dd · 569cb2dd · 569cb2dd
Commit 569cb2dd authored May 16, 2019 by Tianzhi
--- a/niutrans.network.cpu
+++ b/niutrans.network.cpu
--- a/niutrans.tensor.cpu
+++ b/niutrans.tensor.cpu
--- a/source/network/XBackwardFunc.o
+++ b/source/network/XBackwardFunc.o
--- a/source/network/XBackwardLoss.o
+++ b/source/network/XBackwardLoss.o
--- a/source/network/XBackwardMath.o
+++ b/source/network/XBackwardMath.o
--- a/source/network/XBackwardShape.o
+++ b/source/network/XBackwardShape.o
--- a/source/network/XNet.o
+++ b/source/network/XNet.o
--- a/source/network/XNoder.o
+++ b/source/network/XNoder.o
--- a/source/sample/fnnlm/FNNLM.o
+++ b/source/sample/fnnlm/FNNLM.o
--- a/source/sample/transformer/T2TAttention.o
+++ b/source/sample/transformer/T2TAttention.o
--- a/source/sample/transformer/T2TDecoder.o
+++ b/source/sample/transformer/T2TDecoder.o
--- a/source/sample/transformer/T2TEmbedding.o
+++ b/source/sample/transformer/T2TEmbedding.o
--- a/source/sample/transformer/T2TEncoder.o
+++ b/source/sample/transformer/T2TEncoder.o
--- a/source/sample/transformer/T2TFNN.o
+++ b/source/sample/transformer/T2TFNN.o
--- a/source/sample/transformer/T2TLayerNormal.o
+++ b/source/sample/transformer/T2TLayerNormal.o
--- a/source/sample/transformer/T2TModel.o
+++ b/source/sample/transformer/T2TModel.o
--- a/source/sample/transformer/T2TOutput.o
+++ b/source/sample/transformer/T2TOutput.o
--- a/source/sample/transformer/T2TPredictor.o
+++ b/source/sample/transformer/T2TPredictor.o
--- a/source/sample/transformer/T2TTrainer.o
+++ b/source/sample/transformer/T2TTrainer.o
--- a/source/sample/transformer/T2TUtility.o
+++ b/source/sample/transformer/T2TUtility.o
--- a/source/sample/transformer/Transformer.o
+++ b/source/sample/transformer/Transformer.o
--- a/source/tensor/XBLAS.o
+++ b/source/tensor/XBLAS.o
--- a/source/tensor/XDataType.o
+++ b/source/tensor/XDataType.o
--- a/source/tensor/XDevice.o
+++ b/source/tensor/XDevice.o
--- a/source/tensor/XGlobal.o
+++ b/source/tensor/XGlobal.o
--- a/source/tensor/XHeap.o
+++ b/source/tensor/XHeap.o
--- a/source/tensor/XLink.o
+++ b/source/tensor/XLink.o
--- a/source/tensor/XList.o
+++ b/source/tensor/XList.o
--- a/source/tensor/XMem.o
+++ b/source/tensor/XMem.o
--- a/source/tensor/XName.o
+++ b/source/tensor/XName.o
--- a/source/tensor/XPRunner.o
+++ b/source/tensor/XPRunner.o
--- a/source/tensor/XQueue.o
+++ b/source/tensor/XQueue.o
--- a/source/tensor/XStream.o
+++ b/source/tensor/XStream.o
--- a/source/tensor/XTensor.o
+++ b/source/tensor/XTensor.o
--- a/source/tensor/XThread.o
+++ b/source/tensor/XThread.o
--- a/source/tensor/XUtility.o
+++ b/source/tensor/XUtility.o
--- a/source/tensor/core/arithmetic/Div.o
+++ b/source/tensor/core/arithmetic/Div.o
--- a/source/tensor/core/arithmetic/DivDim.o
+++ b/source/tensor/core/arithmetic/DivDim.o
--- a/source/tensor/core/arithmetic/MatrixMul.o
+++ b/source/tensor/core/arithmetic/MatrixMul.o
--- a/source/tensor/core/arithmetic/MatrixMul2D.o
+++ b/source/tensor/core/arithmetic/MatrixMul2D.o
--- a/source/tensor/core/arithmetic/MatrixMul2DMultiTheading.o
+++ b/source/tensor/core/arithmetic/MatrixMul2DMultiTheading.o
--- a/source/tensor/core/arithmetic/MatrixMul2DParallel.o
+++ b/source/tensor/core/arithmetic/MatrixMul2DParallel.o
--- a/source/tensor/core/arithmetic/MatrixMulBatched.o
+++ b/source/tensor/core/arithmetic/MatrixMulBatched.o
--- a/source/tensor/core/arithmetic/MulAndShift.o
+++ b/source/tensor/core/arithmetic/MulAndShift.o
--- a/source/tensor/core/arithmetic/Multiply.o
+++ b/source/tensor/core/arithmetic/Multiply.o
--- a/source/tensor/core/arithmetic/MultiplyDim.o
+++ b/source/tensor/core/arithmetic/MultiplyDim.o
--- a/source/tensor/core/arithmetic/Negate.o
+++ b/source/tensor/core/arithmetic/Negate.o
--- a/source/tensor/core/arithmetic/Sign.o
+++ b/source/tensor/core/arithmetic/Sign.o
--- a/source/tensor/core/arithmetic/Sub.o
+++ b/source/tensor/core/arithmetic/Sub.o
--- a/source/tensor/core/arithmetic/SubDim.o
+++ b/source/tensor/core/arithmetic/SubDim.o
--- a/source/tensor/core/arithmetic/Sum.o
+++ b/source/tensor/core/arithmetic/Sum.o
--- a/source/tensor/core/arithmetic/SumByColumnTV.o
+++ b/source/tensor/core/arithmetic/SumByColumnTV.o
--- a/source/tensor/core/arithmetic/SumByColumnVT.o
+++ b/source/tensor/core/arithmetic/SumByColumnVT.o
--- a/source/tensor/core/arithmetic/SumDim.o
+++ b/source/tensor/core/arithmetic/SumDim.o
--- a/source/tensor/core/arithmetic/XTensorBLAS.o
+++ b/source/tensor/core/arithmetic/XTensorBLAS.o
--- a/source/tensor/core/getandset/ConvertDataType.o
+++ b/source/tensor/core/getandset/ConvertDataType.o
--- a/source/tensor/core/getandset/OnehotAndIndex.o
+++ b/source/tensor/core/getandset/OnehotAndIndex.o
--- a/source/tensor/core/getandset/Select.o
+++ b/source/tensor/core/getandset/Select.o
--- a/source/tensor/core/getandset/SetData.o
+++ b/source/tensor/core/getandset/SetData.o
--- a/source/tensor/core/math/Clip.o
+++ b/source/tensor/core/math/Clip.o
--- a/source/tensor/core/math/Compare.o
+++ b/source/tensor/core/math/Compare.o
--- a/source/tensor/core/math/Normalize.o
+++ b/source/tensor/core/math/Normalize.o
--- a/source/tensor/core/math/Power.o
+++ b/source/tensor/core/math/Power.o
--- a/source/tensor/core/math/ScaleAndShift.o
+++ b/source/tensor/core/math/ScaleAndShift.o
--- a/source/tensor/core/math/Unary.o
+++ b/source/tensor/core/math/Unary.o
--- a/source/tensor/core/movement/CopyBlocks.o
+++ b/source/tensor/core/movement/CopyBlocks.o
--- a/source/tensor/core/movement/CopyBlocksInGrid.o
+++ b/source/tensor/core/movement/CopyBlocksInGrid.o
--- a/source/tensor/core/movement/CopyBlocksOnSite.o
+++ b/source/tensor/core/movement/CopyBlocksOnSite.o
--- a/source/tensor/core/movement/CopyData2D.o
+++ b/source/tensor/core/movement/CopyData2D.o
--- a/source/tensor/core/movement/CopyInGrid.o
+++ b/source/tensor/core/movement/CopyInGrid.o
--- a/source/tensor/core/movement/CopyIndexed.o
+++ b/source/tensor/core/movement/CopyIndexed.o
--- a/source/tensor/core/movement/CopyValues.o
+++ b/source/tensor/core/movement/CopyValues.o
--- a/source/tensor/core/movement/Gather.o
+++ b/source/tensor/core/movement/Gather.o
--- a/source/tensor/core/movement/Spread.o
+++ b/source/tensor/core/movement/Spread.o
--- a/source/tensor/core/reduce/ReduceMax.o
+++ b/source/tensor/core/reduce/ReduceMax.o
--- a/source/tensor/core/reduce/ReduceMean.o
+++ b/source/tensor/core/reduce/ReduceMean.o
--- a/source/tensor/core/reduce/ReduceSum.cpp
+++ b/source/tensor/core/reduce/ReduceSum.cpp
@@ -24,6 +24,7 @@
 #include "ReduceSum.cuh"
 #include "../../XName.h"
 #include "../../XBLAS.h"
+#include "./VectorBuffer.h"
 #include "../arithmetic/XTensorBLAS.h"
 #include <iostream>

@@ -73,8 +74,8 @@ void _ReduceSum(const XTensor * input, XTensor * output, int dim, const XTensor 
    else{
        CheckNTErrors((input->dataType == DEFAULT_DTYPE), "TODO!");

-        int stride = 1;
        int strideNum = input->dimSizeRDI[dimRDI];
+        int stride = 1;
        int blockSize = 1;
        int blockNum = 1;
        for (int i = 0; i < input->order; i++) {
@@ -85,6 +86,74 @@ void _ReduceSum(const XTensor * input, XTensor * output, int dim, const XTensor 
        }
        blockSize = stride * strideNum;

+        if(input->dimSizeRDI[0] % (4 * 32 / sizeof(DTYPE)) == 0 && input->dimSizeRDI[0] >= 32){
+            int vecBufLength =  32 / sizeof(DTYPE);
+
+            if(dimRDI == 0){
+                //data is contiguous in dim 0
+                for(int i = 0; i < blockNum; i++){
+                    // stride = 1
+                    DTYPE * ip = (DTYPE*)input->data + blockSize * i;
+                    DTYPE * op = (DTYPE*)output->data + i;
+                    DTYPE * sp = shift != NULL ? (DTYPE*)shift->data + i : NULL;
+                    DTYPE bias[32 / sizeof(DTYPE)] = {0};
+                    if(shift != NULL){
+                        for(int k = 0; k < 32 / sizeof(DTYPE); k++)
+                            bias[k] = *(sp);
+                    }
+                    VectorBuffer vecBuf[4];
+                    for(int j = 0; j < 4; j++){
+                        vecBuf[j] = VectorBuffer::loadu((DTYPE*)(ip) + j * vecBufLength, isExp, power, bias);
+                    }
+                    for(int j = 1; j < strideNum / 32; j++){
+                        const DTYPE* ptr = (DTYPE*)(ip + j * vecBufLength);
+                        vecBuf[0] = vecBuf[0] + VectorBuffer::loadu(ptr + 0 * vecBufLength, isExp, power, bias);
+                        vecBuf[1] = vecBuf[1] + VectorBuffer::loadu(ptr + 1 * vecBufLength, isExp, power, bias);
+                        vecBuf[2] = vecBuf[2] + VectorBuffer::loadu(ptr + 2 * vecBufLength, isExp, power, bias);
+                        vecBuf[3] = vecBuf[3] + VectorBuffer::loadu(ptr + 3 * vecBufLength, isExp, power, bias);
+                    }
+                    vecBuf[0] = ((vecBuf[0] + vecBuf[1]) + (vecBuf[2] + vecBuf[3]));
+                    DTYPE sum = (DTYPE) 0.0;
+                    for(int k = 0; k < vecBufLength; k++){
+                        sum = sum + vecBuf[0][k];
+                    }
+                    *op = sum;
+                }
+
+            } else{
+                //data is separated
+                for(int i = 0; i < blockNum; i++){
+                    for(int j = 0; j < input->dimSizeRDI[0] / 32; j++){
+                        DTYPE * ip = (DTYPE*)input->data + blockSize * i;
+                        DTYPE * op = (DTYPE*)output->data + stride * i;
+                        DTYPE * sp = shift != NULL ? (DTYPE*)shift->data + stride * i : NULL;
+                        DTYPE bias[4 * 32 / sizeof(DTYPE)] = {0};
+                        if(shift != NULL){
+                            for(int k = 0; k < 4 * 32 / sizeof(DTYPE); k++)
+                                bias[k] = *(sp + k);
+                        }
+                        VectorBuffer vecBuf[4];
+                        for(int k = 0; k < 4; k++){
+                            vecBuf[k] = VectorBuffer::loadu((DTYPE*)(ip) + (j * 4 + k) * 32 / sizeof(DTYPE), isExp, power, bias + j * 32 / sizeof(DTYPE));
+
+                        }
+                        for(int k = 1; k < strideNum; k++){
+                            DTYPE * ptr = ip + k * stride + (j * 4) * vecBufLength;
+                            vecBuf[0] = vecBuf[0] + VectorBuffer::loadu(ptr + 0 * vecBufLength, isExp, power, bias);
+                            vecBuf[1] = vecBuf[1] + VectorBuffer::loadu(ptr + 1 * vecBufLength, isExp, power, bias + 1 * vecBufLength);
+                            vecBuf[2] = vecBuf[2] + VectorBuffer::loadu(ptr + 2 * vecBufLength, isExp, power, bias + 2 * vecBufLength);
+                            vecBuf[3] = vecBuf[3] + VectorBuffer::loadu(ptr + 3 * vecBufLength, isExp, power, bias + 3 * vecBufLength);
+                        }
+                        for(int k = 0; k < 4; k++){
+                            for(int l = 0; l < vecBufLength; l++)
+                                *(op + j * 32 + 8 * k + l) = vecBuf[k][l];
+                        }
+                    }
+                }
+            }
+        }//run vector buffer
+        else{
+
            for(int k = 0; k < blockNum; k++){
                DTYPE * ip = (DTYPE*)input->data + blockSize * k;
                DTYPE * op = (DTYPE*)output->data + stride * k;
@@ -146,23 +215,14 @@ void _ReduceSum(const XTensor * input, XTensor * output, int dim, const XTensor 
                    else{
                        if(bias == 0){
                            if(power == (DTYPE)1.0){
-//#if defined(USE_BLAS)
-//                                sum = ASUM(strideNum, ip + i, stride);
-//#else
                                    for(DTYPE * ipb = ip + i; ipb < ipe; ipb += stride)
                                        sum += *ipb;
-//#endif
                            }
                            else if(power == (DTYPE)2.0){
-//#if defined(USE_BLAS)
-//                                sum = NRM2(strideNum, ip + i, stride);
-//                                sum = sum * sum;
-//#else
                                    for(DTYPE * ipb = ip + i; ipb < ipe; ipb += stride){
                                        DTYPE value = (*ipb);
                                        sum += value * value;
                                    }
-//#endif
                            }
                            else if(power == (DTYPE)0.5){
                                for(DTYPE * ipb = ip + i; ipb < ipe; ipb += stride){
@@ -179,12 +239,8 @@ void _ReduceSum(const XTensor * input, XTensor * output, int dim, const XTensor 
                        }
                        else{
                            if(power == (DTYPE)1.0){
-//#if defined(USE_BLAS)
-//                                sum = ASUM(strideNum, ip + i, stride);
-//#else
                                    for(DTYPE * ipb = ip + i; ipb < ipe; ipb += stride)
                                        sum += *ipb;
-//#endif
                                sum -= strideNum * bias;
                            }
                            else if(power == (DTYPE)2.0){
@@ -211,6 +267,8 @@ void _ReduceSum(const XTensor * input, XTensor * output, int dim, const XTensor 
                }
            }
        }
+
+    }
 }

 /*

--- a/source/tensor/core/reduce/ReduceSum.o
+++ b/source/tensor/core/reduce/ReduceSum.o
--- a/source/tensor/core/reduce/ReduceSumAll.o
+++ b/source/tensor/core/reduce/ReduceSumAll.o
--- a/source/tensor/core/reduce/ReduceSumSquared.o
+++ b/source/tensor/core/reduce/ReduceSumSquared.o
--- a/source/tensor/core/reduce/ReduceVariance.o
+++ b/source/tensor/core/reduce/ReduceVariance.o
--- a/source/tensor/core/reduce/VectorBuffer.h
+++ b/source/tensor/core/reduce/VectorBuffer.h
+#include <cstring>
+#include <cmath>
+#include "../../XGlobal.h"
+
+
+class VectorBuffer{
+    private:
+        DTYPE values[32 / sizeof(DTYPE)] = {0};
+    public:
+        static int size() {
+            return 32 / sizeof(DTYPE);
+        }
+        VectorBuffer() {}
+        VectorBuffer(DTYPE val) {
+            for (int i = 0; i != size(); i++) {
+              values[i] = val;
+            }
+        }
+        static VectorBuffer loadu(const DTYPE* ptr, bool isExp = false, DTYPE power = (DTYPE)1.0F, DTYPE* bias = NULL) {
+            int count = 32 / sizeof(DTYPE);
+            VectorBuffer vec;
+            if(isExp){
+                if(bias == 0){
+                    if(power == (DTYPE)1.0){
+                        for (int i = 0; i != count; i++) {
+                          vec.values[i] = (DTYPE)std::exp(*(ptr + i));
+                        }
+                    } else if(power == (DTYPE)2.0){
+                        for (int i = 0; i != count; i++) {
+                          vec.values[i] = (DTYPE)std::exp((*(ptr + i)) * (*(ptr + i)));
+                        }
+                    } else if(power == (DTYPE)0.5){
+                        for (int i = 0; i != count; i++) {
+                          vec.values[i] = (DTYPE)std::exp(std::sqrt(*(ptr + i)));
+                        }
+                    } else{
+                        for (int i = 0; i != count; i++) {
+                          vec.values[i] = (DTYPE)std::exp(std::pow(*(ptr + i), power));
+                        }
+                    }
+                }//is bias == 0
+                else{
+                    if(power == (DTYPE)1.0){
+                        for (int i = 0; i != count; i++) {
+                          vec.values[i] = (DTYPE)std::exp(*(ptr + i) - bias[i]);
+                        }
+                    } else if(power == (DTYPE)2.0){
+                        for (int i = 0; i != count; i++) {
+                          DTYPE value = *(ptr + i) - bias[i];
+                          vec.values[i] = (DTYPE)std::exp(value * value);
+                        }
+                    } else if(power == (DTYPE)0.5){
+                        for (int i = 0; i != count; i++) {
+                          vec.values[i] = (DTYPE)std::exp(std::sqrt(*(ptr + i) - bias[i]));
+                        }
+                    } else{
+                        for (int i = 0; i != count; i++) {
+                          vec.values[i] = (DTYPE)std::exp(std::pow(*(ptr + i) - bias[i], power));
+                        }
+                    }
+                }
+            }//isExp
+            else{
+                if(bias == 0){
+                    if(power == (DTYPE)1.0){
+                        std::memcpy(vec.values, ptr, count * sizeof(DTYPE));
+                    } else if(power == (DTYPE)2.0){
+                        for (int i = 0; i != count; i++) {
+                          vec.values[i] = (*(ptr + i)) * (*(ptr + i));
+                        }
+                    } else if(power == (DTYPE)0.5){
+                        for (int i = 0; i != count; i++) {
+                          vec.values[i] = (DTYPE)std::sqrt(*(ptr + i));
+                        }
+                    } else{
+                        for (int i = 0; i != count; i++) {
+                          vec.values[i] = (DTYPE)std::pow(*(ptr + i), power);
+                        }
+                    }
+                }// if bias == 0
+                else{
+                    if(power == (DTYPE)1.0){
+                        for (int i = 0; i != count; i++) {
+                          vec.values[i] = *(ptr + i) - bias[i];
+                        }
+                    } else if(power == (DTYPE)2.0){
+                        for (int i = 0; i != count; i++) {
+                        DTYPE value = *(ptr + i) - bias[i];
+                          vec.values[i] = value * value;
+                        }
+                    } else if(power == (DTYPE)0.5){
+                        for (int i = 0; i != count; i++) {
+                          vec.values[i] = (DTYPE)std::sqrt(*(ptr + i) - bias[i]);
+                        }
+                    } else{
+                        for (int i = 0; i != count; i++) {
+                          vec.values[i] = (DTYPE)std::pow(*(ptr + i) - bias[i], power);
+                        }
+                    }
+                }
+            }
+            return vec;
+        }
+        const DTYPE& operator[](int idx) const {
+            return values[idx];
+        }
+        VectorBuffer operator+(const VectorBuffer &a) {
+            for (int i = 0; i != a.size(); i++) {
+                this->values[i] = a[i] + this->values[i];
+            }
+            return *this;
+        }
+};
\ No newline at end of file
--- a/source/tensor/core/shape/Concatenate.o
+++ b/source/tensor/core/shape/Concatenate.o
--- a/source/tensor/core/shape/ConcatenateSolely.o
+++ b/source/tensor/core/shape/ConcatenateSolely.o
--- a/source/tensor/core/shape/MakeMergeBlockIndex.o
+++ b/source/tensor/core/shape/MakeMergeBlockIndex.o
--- a/source/tensor/core/shape/MakeSplitBlockIndex.o
+++ b/source/tensor/core/shape/MakeSplitBlockIndex.o
--- a/source/tensor/core/shape/Merge.o
+++ b/source/tensor/core/shape/Merge.o
--- a/source/tensor/core/shape/MergeBlockLists.o
+++ b/source/tensor/core/shape/MergeBlockLists.o
--- a/source/tensor/core/shape/Permute.o
+++ b/source/tensor/core/shape/Permute.o
--- a/source/tensor/core/shape/Reshape.o
+++ b/source/tensor/core/shape/Reshape.o
--- a/source/tensor/core/shape/Split.o
+++ b/source/tensor/core/shape/Split.o
--- a/source/tensor/core/shape/Squeeze.o
+++ b/source/tensor/core/shape/Squeeze.o
--- a/source/tensor/core/shape/Transpose.o
+++ b/source/tensor/core/shape/Transpose.o
--- a/source/tensor/core/shape/Unsqueeze.o
+++ b/source/tensor/core/shape/Unsqueeze.o
--- a/source/tensor/core/sort/Sort.o
+++ b/source/tensor/core/sort/Sort.o
--- a/source/tensor/core/sort/TopK.o
+++ b/source/tensor/core/sort/TopK.o
--- a/source/tensor/core/utilities/FlushToMem.o
+++ b/source/tensor/core/utilities/FlushToMem.o
--- a/source/tensor/core/utilities/XMatrixSegment.o
+++ b/source/tensor/core/utilities/XMatrixSegment.o
--- a/source/tensor/function/CrossEntropy.o
+++ b/source/tensor/function/CrossEntropy.o
--- a/source/tensor/function/Dropout.o
+++ b/source/tensor/function/Dropout.o
--- a/source/tensor/function/HardTanH.o
+++ b/source/tensor/function/HardTanH.o
--- a/source/tensor/function/Identity.o
+++ b/source/tensor/function/Identity.o
--- a/source/tensor/function/LogSoftmax.o
+++ b/source/tensor/function/LogSoftmax.o
--- a/source/tensor/function/Loss.o
+++ b/source/tensor/function/Loss.o
--- a/source/tensor/function/Rectify.o
+++ b/source/tensor/function/Rectify.o
--- a/source/tensor/function/Sigmoid.o
+++ b/source/tensor/function/Sigmoid.o
--- a/source/tensor/function/Softmax.o
+++ b/source/tensor/function/Softmax.o
--- a/source/tensor/test/TAbsolute.o
+++ b/source/tensor/test/TAbsolute.o
--- a/source/tensor/test/TClip.o
+++ b/source/tensor/test/TClip.o
--- a/source/tensor/test/TCompare.o
+++ b/source/tensor/test/TCompare.o
--- a/source/tensor/test/TConcatenate.o
+++ b/source/tensor/test/TConcatenate.o
--- a/source/tensor/test/TConcatenateSolely.o
+++ b/source/tensor/test/TConcatenateSolely.o
--- a/source/tensor/test/TConvertDataType.o
+++ b/source/tensor/test/TConvertDataType.o
--- a/source/tensor/test/TCopyIndexed.o
+++ b/source/tensor/test/TCopyIndexed.o
--- a/source/tensor/test/TCopyValues.o
+++ b/source/tensor/test/TCopyValues.o
--- a/source/tensor/test/TCos.o
+++ b/source/tensor/test/TCos.o
--- a/source/tensor/test/TCrossEntropy.o
+++ b/source/tensor/test/TCrossEntropy.o
--- a/source/tensor/test/TDiv.o
+++ b/source/tensor/test/TDiv.o
--- a/source/tensor/test/TDivDim.o
+++ b/source/tensor/test/TDivDim.o
--- a/source/tensor/test/TDropout.o
+++ b/source/tensor/test/TDropout.o
--- a/source/tensor/test/TExp.o
+++ b/source/tensor/test/TExp.o
--- a/source/tensor/test/TGather.o
+++ b/source/tensor/test/TGather.o
--- a/source/tensor/test/THardTanH.o
+++ b/source/tensor/test/THardTanH.o
--- a/source/tensor/test/TIdentity.o
+++ b/source/tensor/test/TIdentity.o
--- a/source/tensor/test/TLog.o
+++ b/source/tensor/test/TLog.o
--- a/source/tensor/test/TLogSoftmax.o
+++ b/source/tensor/test/TLogSoftmax.o
--- a/source/tensor/test/TLoss.o
+++ b/source/tensor/test/TLoss.o
--- a/source/tensor/test/TMatrixMul.o
+++ b/source/tensor/test/TMatrixMul.o
--- a/source/tensor/test/TMatrixMul2D.o
+++ b/source/tensor/test/TMatrixMul2D.o
--- a/source/tensor/test/TMatrixMul2DParallel.o
+++ b/source/tensor/test/TMatrixMul2DParallel.o
--- a/source/tensor/test/TMatrixMulBatched.o
+++ b/source/tensor/test/TMatrixMulBatched.o
--- a/source/tensor/test/TMerge.o
+++ b/source/tensor/test/TMerge.o
--- a/source/tensor/test/TMultiply.o
+++ b/source/tensor/test/TMultiply.o
--- a/source/tensor/test/TMultiplyDim.o
+++ b/source/tensor/test/TMultiplyDim.o
--- a/source/tensor/test/TNegate.o
+++ b/source/tensor/test/TNegate.o
--- a/source/tensor/test/TNormalize.o
+++ b/source/tensor/test/TNormalize.o
--- a/source/tensor/test/TPower.o
+++ b/source/tensor/test/TPower.o
--- a/source/tensor/test/TRectify.o
+++ b/source/tensor/test/TRectify.o
--- a/source/tensor/test/TReduceMax.o
+++ b/source/tensor/test/TReduceMax.o
--- a/source/tensor/test/TReduceMean.o
+++ b/source/tensor/test/TReduceMean.o
--- a/source/tensor/test/TReduceSum.cpp
+++ b/source/tensor/test/TReduceSum.cpp
--- a/source/tensor/test/TReduceSum.o
+++ b/source/tensor/test/TReduceSum.o
--- a/source/tensor/test/TReduceSumAll.o
+++ b/source/tensor/test/TReduceSumAll.o
--- a/source/tensor/test/TReduceSumSquared.o
+++ b/source/tensor/test/TReduceSumSquared.o
--- a/source/tensor/test/TReduceVariance.o
+++ b/source/tensor/test/TReduceVariance.o
--- a/source/tensor/test/TRound.o
+++ b/source/tensor/test/TRound.o
--- a/source/tensor/test/TScaleAndShift.o
+++ b/source/tensor/test/TScaleAndShift.o
--- a/source/tensor/test/TSelect.o
+++ b/source/tensor/test/TSelect.o
--- a/source/tensor/test/TSetAscendingOrder.o
+++ b/source/tensor/test/TSetAscendingOrder.o
--- a/source/tensor/test/TSetData.o
+++ b/source/tensor/test/TSetData.o
--- a/source/tensor/test/TSigmoid.o
+++ b/source/tensor/test/TSigmoid.o
--- a/source/tensor/test/TSign.o
+++ b/source/tensor/test/TSign.o
--- a/source/tensor/test/TSin.o
+++ b/source/tensor/test/TSin.o
--- a/source/tensor/test/TSoftmax.o
+++ b/source/tensor/test/TSoftmax.o
--- a/source/tensor/test/TSort.o
+++ b/source/tensor/test/TSort.o
--- a/source/tensor/test/TSplit.o
+++ b/source/tensor/test/TSplit.o
--- a/source/tensor/test/TSpread.o
+++ b/source/tensor/test/TSpread.o
--- a/source/tensor/test/TSub.o
+++ b/source/tensor/test/TSub.o
--- a/source/tensor/test/TSubDim.o
+++ b/source/tensor/test/TSubDim.o
--- a/source/tensor/test/TSum.o
+++ b/source/tensor/test/TSum.o
--- a/source/tensor/test/TSumByColumnTV.o
+++ b/source/tensor/test/TSumByColumnTV.o
--- a/source/tensor/test/TSumByColumnVT.o
+++ b/source/tensor/test/TSumByColumnVT.o
--- a/source/tensor/test/TSumDim.o
+++ b/source/tensor/test/TSumDim.o
--- a/source/tensor/test/TTan.o
+++ b/source/tensor/test/TTan.o
--- a/source/tensor/test/TTopK.o
+++ b/source/tensor/test/TTopK.o
--- a/source/tensor/test/TTranspose.o
+++ b/source/tensor/test/TTranspose.o
--- a/source/tensor/test/TUnsqueeze.o
+++ b/source/tensor/test/TUnsqueeze.o
--- a/source/tensor/test/TXMem.o
+++ b/source/tensor/test/TXMem.o
--- a/source/tensor/test/Test.cpp
+++ b/source/tensor/test/Test.cpp
--- a/source/tensor/test/Test.o
+++ b/source/tensor/test/Test.o