reminisce
diff --git a/‎Makefile
+26-2 b/‎Makefile
+26-2
diff --git a/‎make/config.mk
+7 b/‎make/config.mk
+7
diff --git a/‎make/osx.mk
+7 b/‎make/osx.mk
+7
diff --git a/‎python/mxnet/model.py
+10-3 b/‎python/mxnet/model.py
+10-3
diff --git a/‎python/mxnet/optimizer.py
+1-1 b/‎python/mxnet/optimizer.py
+1-1
diff --git a/‎python/mxnet/recordio.py
+3-3 b/‎python/mxnet/recordio.py
+3-3
diff --git a/‎src/operator/activation-inl.h
+2-7 b/‎src/operator/activation-inl.h
+2-7
diff --git a/‎src/operator/cudnn_activation-inl.h
+23-63 b/‎src/operator/cudnn_activation-inl.h
+23-63
@@ -98,13 +98,27 @@ OBJ = $(patsubst src/%.cc, build/%.o, $(SRC))
 CUSRC = $(wildcard src/*/*.cu)
 CUOBJ = $(patsubst src/%.cu, build/%_gpu.o, $(CUSRC))
 
+ifneq ($(EXTRA_OPERATORS), NONE)
+	EXTRA_SRC = $(wildcard $(EXTRA_OPERATORS)/*.cc $(EXTRA_OPERATORS)/*/*.cc)
+	EXTRA_OBJ = $(patsubst $(EXTRA_OPERATORS)/%.cc, $(EXTRA_OPERATORS)/build/%.o, $(EXTRA_SRC))
+	EXTRA_CUSRC = $(wildcard $(EXTRA_OPERATORS)/*.cu $(EXTRA_OPERATORS)/*/*.cu)
+	EXTRA_CUOBJ = $(patsubst $(EXTRA_OPERATORS)/%.cu, $(EXTRA_OPERATORS)/build/%_gpu.o, $(EXTRA_CUSRC))
+else
+	EXTRA_SRC =
+	EXTRA_OBJ =
+	EXTRA_CUSRC =
+	EXTRA_CUOBJ =
+endif
+
 LIB_DEP += $(DMLC_CORE)/libdmlc.a
-ALL_DEP = $(OBJ) $(LIB_DEP)
+ALL_DEP = $(OBJ) $(EXTRA_OBJ) $(LIB_DEP)
 ifeq ($(USE_CUDA), 1)
-	ALL_DEP += $(CUOBJ)
+	ALL_DEP += $(CUOBJ) $(EXTRA_CUOBJ)
 	LDFLAGS += -lnvrtc -lcuda
 endif
 
+
+
 build/%.o: src/%.cc
 	@mkdir -p $(@D)
 	$(CXX) -std=c++0x $(CFLAGS) -MM -MT build/$*.o $< >build/$*.d
@@ -115,6 +129,16 @@ build/%_gpu.o: src/%.cu
 	$(NVCC) $(NVCCFLAGS) -Xcompiler "$(CFLAGS)" -M -MT build/$*_gpu.o $< >build/$*_gpu.d
 	$(NVCC) -c -o $@ $(NVCCFLAGS) -Xcompiler "$(CFLAGS)" $<
 
+$(EXTRA_OPERATORS)/build/%.o: $(EXTRA_OPERATORS)/%.cc
+	@mkdir -p $(@D)
+	$(CXX) -std=c++0x $(CFLAGS) -Isrc/operator -MM -MT $(EXTRA_OPERATORS)/build/$*.o $< >$(EXTRA_OPERATORS)/build/$*.d
+	$(CXX) -std=c++0x -c $(CFLAGS) -Isrc/operator -c $< -o $@
+
+$(EXTRA_OPERATORS)/build/%_gpu.o: $(EXTRA_OPERATORS)/%.cu
+	@mkdir -p $(@D)
+	$(NVCC) $(NVCCFLAGS) -Xcompiler "$(CFLAGS) -Isrc/operator" -M -MT $(EXTRA_OPERATORS)/build/$*_gpu.o $< >$(EXTRA_OPERATORS)/build/$*_gpu.d
+	$(NVCC) -c -o $@ $(NVCCFLAGS) -Xcompiler "$(CFLAGS) -Isrc/operator" $<
+
 lib/libmxnet.a: $(ALL_DEP)
 	@mkdir -p $(@D)
 	ar crv $@ $(filter %.o, $?)
 
@@ -95,3 +95,10 @@ LIBJVM=$(JAVA_HOME)/jre/lib/amd64/server
 # libcurl4-openssl-dev is required, it can be installed on Ubuntu by
 # sudo apt-get install -y libcurl4-openssl-dev
 USE_S3 = 0
+
+#----------------------------
+# additional operators
+#----------------------------
+
+# path to folders containing projects specific operators that you don't want to put in src/operators
+EXTRA_OPERATORS =
@@ -82,3 +82,10 @@ LIBJVM=$(JAVA_HOME)/jre/lib/amd64/server
 # libcurl4-openssl-dev is required, it can be installed on Ubuntu by
 # sudo apt-get install -y libcurl4-openssl-dev
 USE_S3 = 0
+
+#----------------------------
+# additional operators
+#----------------------------
+
+# path to folders containing projects specific operators that you don't want to put in src/operators
+EXTRA_OPERATORS =
@@ -493,7 +493,7 @@ class FeedForward(BASE_ESTIMATOR):
         The additional keyword arguments passed to optimizer.
     """
     def __init__(self, symbol, ctx=None,
-                 num_epoch=None, epoch_size=None, optimizer='sgd',
+                 num_epoch=None, epoch_size=None, optimizer='ccsgd',
                  initializer=Uniform(0.01),
                  numpy_batch_size=128,
                  arg_params=None, aux_params=None,
@@ -632,11 +632,13 @@ def _init_eval_iter(self, eval_data):
                             'NDArray/numpy.ndarray/list pair (i.e. tuple/list of length 2)')
         return eval_data
 
-    def predict(self, X):
+    def predict(self, X, num_batch=None):
         """Run the prediction, always only use one device.
         Parameters
         ----------
         X : mxnet.DataIter
+        num_batch : int or None
+            the number of batch to run. Go though all batches if None
         Returns
         -------
         y : numpy.ndarray or a list of numpy.ndarray if the network has multiple outputs.
@@ -652,7 +654,12 @@ def predict(self, X):
         data_arrays = [self._pred_exec.arg_dict[name] for name in data_names]
         output_list = [[] for _ in range(len(self._pred_exec.outputs))]
 
+        i = 0
         for batch in X:
+            if num_batch is not None and i == num_batch:
+                break
+            i += 1
+
             _load_data(batch, data_arrays)
             self._pred_exec.forward(is_train=False)
             padded = batch.pad
@@ -803,7 +810,7 @@ def load(prefix, epoch, ctx=None, **kwargs):
 
     @staticmethod
     def create(symbol, X, y=None, ctx=None,
-               num_epoch=None, epoch_size=None, optimizer='sgd', initializer=Uniform(0.01),
+               num_epoch=None, epoch_size=None, optimizer='ccsgd', initializer=Uniform(0.01),
                eval_data=None, eval_metric='acc',
                epoch_end_callback=None, batch_end_callback=None,
                kvstore='local', logger=None, work_load_list=None, **kwargs):
 
@@ -72,7 +72,7 @@ def _init_cc_optimizer(name, param_keys, param_vals):
             handle to the optimizer
         """
         creator = OptimizerCreator()
-        check_call(_LIB.MXOptimizerFindCreator(ctypes.c_char_p(name),
+        check_call(_LIB.MXOptimizerFindCreator(c_str(name),
                                                ctypes.byref(creator)))
         assert creator, "Cannot find c++ implementation of optimizer \
                         registered with name "+name
 
@@ -157,7 +157,7 @@ def unpack_img(s, iscolor=-1):
     img = cv2.imdecode(img, iscolor)
     return header, img
 
-def pack_img(header, img, quality=80, format='.JPEG'):
+def pack_img(header, img, quality=80, img_fmt='.JPEG'):
     """pack an image into MXImageRecord
 
     Parameters
@@ -175,6 +175,6 @@ def pack_img(header, img, quality=80, format='.JPEG'):
         The packed string
     """
     assert opencv_available
-    ret, buf = cv2.imencode(format, img, [cv2.IMWRITE_JPEG_QUALITY, quality])
-    assert ret
+    ret, buf = cv2.imencode(img_fmt, img, [cv2.IMWRITE_JPEG_QUALITY, quality])
+    assert ret, 'failed encoding image'
     return pack(header, buf.tostring())
@@ -24,7 +24,7 @@ namespace op {
 namespace activation {
 enum ActivationOpInputs {kData};
 enum ActivationOpOutputs {kOut};
-enum ActivationOpType {kReLU, kSigmoid, kTanh, kSoftReLU, kSoftmax};
+enum ActivationOpType {kReLU, kSigmoid, kTanh, kSoftReLU};
 }  // activation
 
 struct ActivationParam : public dmlc::Parameter<ActivationParam> {
@@ -36,7 +36,6 @@ struct ActivationParam : public dmlc::Parameter<ActivationParam> {
     .add_enum("sigmoid", activation::kSigmoid)
     .add_enum("tanh", activation::kTanh)
     .add_enum("softrelu", activation::kSoftReLU)
-    .add_enum("softmax", activation::kSoftmax)
     .describe("Activation function to be applied.");
   }
 };
@@ -140,11 +139,7 @@ class ActivationProp : public OperatorProperty {
     const std::vector<int> &in_data,
     const std::vector<int> &out_data) const override {
 #if MXNET_USE_CUDNN == 1
-    if (param_.act_type == activation::kSoftmax) {
-      return {out_grad[activation::kOut], out_data[activation::kOut]};
-    } else {
-      return {out_grad[activation::kOut], out_data[activation::kOut], in_data[activation::kData]};
-    }
+    return {out_grad[activation::kOut], out_data[activation::kOut], in_data[activation::kData]};
 #else
     return {out_grad[activation::kOut], out_data[activation::kOut]};
 #endif  // MXNET_USE_CUDNN
 
@@ -29,8 +29,6 @@ class CuDNNActivationOp : public Operator {
       case activation::kTanh:
         mode_ = CUDNN_ACTIVATION_TANH;
         break;
-      case activation::kSoftmax:
-        break;
       default:
         LOG(FATAL) << "Not implmented";
         break;
@@ -53,13 +51,11 @@ class CuDNNActivationOp : public Operator {
     Stream<gpu> *s = ctx.get_stream<gpu>();
     Tensor<gpu, 4> data;
     Tensor<gpu, 4> out;
-    cudnnSoftmaxMode_t softmax_mode;
     if (in_data[activation::kData].ndim() == 2) {
       Shape<4> dshape = Shape4(in_data[activation::kData].shape_[0],
                                in_data[activation::kData].shape_[1], 1, 1);
       data = in_data[activation::kData].get_with_shape<gpu, 4, real_t>(dshape, s);
       out = out_data[activation::kOut].get_with_shape<gpu, 4, real_t>(dshape, s);
-      softmax_mode = CUDNN_SOFTMAX_MODE_INSTANCE;
     } else {
       Shape<4> dshape;
       index_t size_left = in_data[activation::kData].Size();
@@ -74,7 +70,6 @@ class CuDNNActivationOp : public Operator {
       dshape[3] = size_left;
       data = in_data[activation::kData].get_with_shape<gpu, 4, real_t>(dshape, s);
       out = out_data[activation::kOut].get_with_shape<gpu, 4, real_t>(dshape, s);
-      softmax_mode = CUDNN_SOFTMAX_MODE_CHANNEL;
     }
     float alpha = 1.0f;
     float beta = 0.0f;
@@ -90,26 +85,14 @@ class CuDNNActivationOp : public Operator {
                                           data.shape_[2],
                                           data.shape_[3]), CUDNN_STATUS_SUCCESS);
     }
-    if (param_.act_type == activation::kSoftmax) {
-      CHECK_EQ(cudnnSoftmaxForward(s->dnn_handle_,
-                                   CUDNN_SOFTMAX_ACCURATE,
-                                   softmax_mode,
-                                   &alpha,
-                                   shape_desc_,
-                                   data.dptr_,
-                                   &beta,
-                                   shape_desc_,
-                                   out.dptr_), CUDNN_STATUS_SUCCESS);
-    } else {
-      CHECK_EQ(cudnnActivationForward(s->dnn_handle_,
-                                      mode_,
-                                      &alpha,
-                                      shape_desc_,
-                                      data.dptr_,
-                                      &beta,
-                                      shape_desc_,
-                                      out.dptr_), CUDNN_STATUS_SUCCESS);
-    }
+    CHECK_EQ(cudnnActivationForward(s->dnn_handle_,
+                                    mode_,
+                                    &alpha,
+                                    shape_desc_,
+                                    data.dptr_,
+                                    &beta,
+                                    shape_desc_,
+                                    out.dptr_), CUDNN_STATUS_SUCCESS);
   }
 
   virtual void Backward(const OpContext &ctx,
@@ -122,9 +105,7 @@ class CuDNNActivationOp : public Operator {
     using namespace mshadow;
     using namespace mshadow::expr;
     CHECK_EQ(out_grad.size(), 1);
-    if (param_.act_type != activation::kSoftmax) {
-      CHECK_EQ(in_data.size(), 1);
-    }
+    CHECK_EQ(in_data.size(), 1);
     CHECK_EQ(out_data.size(), 1);
     CHECK_EQ(req.size(), 1);
     CHECK_EQ(in_grad.size(), 1);
@@ -135,17 +116,13 @@ class CuDNNActivationOp : public Operator {
     Tensor<gpu, 4> data;
     Tensor<gpu, 4> output_data;
     Tensor<gpu, 4> input_grad;
-    cudnnSoftmaxMode_t softmax_mode;
     if (in_grad[activation::kData].ndim() == 2) {
       Shape<4> dshape = Shape4(in_grad[activation::kData].shape_[0],
                                in_grad[activation::kData].shape_[1], 1, 1);
-      if (param_.act_type != activation::kSoftmax) {
-        data = in_data[activation::kData].get_with_shape<gpu, 4, real_t>(dshape, s);
-      }
+      data = in_data[activation::kData].get_with_shape<gpu, 4, real_t>(dshape, s);
       grad = out_grad[activation::kOut].get_with_shape<gpu, 4, real_t>(dshape, s);
       output_data = out_data[activation::kOut].get_with_shape<gpu, 4, real_t>(dshape, s);
       input_grad = in_grad[activation::kData].get_with_shape<gpu, 4, real_t>(dshape, s);
-      softmax_mode = CUDNN_SOFTMAX_MODE_INSTANCE;
     } else {
       Shape<4> dshape;
       index_t size_left = in_grad[activation::kData].Size();
@@ -158,41 +135,24 @@ class CuDNNActivationOp : public Operator {
         size_left /= dshape[i];
       }
       dshape[3] = size_left;
-      if (param_.act_type != activation::kSoftmax) {
-        data = in_data[activation::kData].get_with_shape<gpu, 4, real_t>(dshape, s);
-      }
+      data = in_data[activation::kData].get_with_shape<gpu, 4, real_t>(dshape, s);
       output_data = out_data[activation::kOut].get_with_shape<gpu, 4, real_t>(dshape, s);
       grad = out_grad[activation::kOut].get_with_shape<gpu, 4, real_t>(dshape, s);
       input_grad = in_grad[activation::kData].get_with_shape<gpu, 4, real_t>(dshape, s);
-      softmax_mode = CUDNN_SOFTMAX_MODE_CHANNEL;
     }
     CHECK_EQ(s->dnn_handle_ownership_, mshadow::Stream<gpu>::OwnHandle);
-    if (param_.act_type == activation::kSoftmax) {
-      CHECK_EQ(cudnnSoftmaxBackward(s->dnn_handle_,
-                                    CUDNN_SOFTMAX_ACCURATE,
-                                    softmax_mode,
-                                    &alpha,
-                                    shape_desc_,
-                                    output_data.dptr_,
-                                    shape_desc_,
-                                    grad.dptr_,
-                                    &beta,
-                                    shape_desc_,
-                                    input_grad.dptr_), CUDNN_STATUS_SUCCESS);
-    } else {
-      CHECK_EQ(cudnnActivationBackward(s->dnn_handle_,
-                                       mode_,
-                                       &alpha,
-                                       shape_desc_,
-                                       output_data.dptr_,
-                                       shape_desc_,
-                                       grad.dptr_,
-                                       shape_desc_,
-                                       data.dptr_,
-                                       &beta,
-                                       shape_desc_,
-                                       input_grad.dptr_), CUDNN_STATUS_SUCCESS);
-    }
+    CHECK_EQ(cudnnActivationBackward(s->dnn_handle_,
+                                     mode_,
+                                     &alpha,
+                                     shape_desc_,
+                                     output_data.dptr_,
+                                     shape_desc_,
+                                     grad.dptr_,
+                                     shape_desc_,
+                                     data.dptr_,
+                                     &beta,
+                                     shape_desc_,
+                                     input_grad.dptr_), CUDNN_STATUS_SUCCESS);
   }
 
  private: