microsoft · StrikerRUS · Sep 26, 2019 · Sep 5, 2019 · Sep 6, 2019 · Sep 6, 2019
@@ -80,10 +80,10 @@ def list_to_1d_numpy(data, dtype=np.float32, name='list'):
     elif isinstance(data, Series):
         if _get_bad_pandas_dtypes([data.dtypes]):
             raise ValueError('Series.dtypes must be int, float or bool')
-        if hasattr(data.values, 'values'):  # SparseArray
-            return data.values.values.astype(dtype)
+        if data.dtype == np.float32 or data.dtype == np.float64:
+            return np.array(data, dtype=data.dtype, copy=False)
  * \brief Set vector to a content in info. 
  * \note 
  * - \a monotone_constraints only works for ``C_API_DTYPE_INT8``; 
  * - \a group only works for ``C_API_DTYPE_INT32``; 
  * - \a label and \a weight only work for ``C_API_DTYPE_FLOAT32``; 
  * - \a init_score and \a feature_penalty only work for ``C_API_DTYPE_FLOAT64``. 
  * \brief Set vector to a content in info. 
  * \note 
  * - \a monotone_constraints only works for ``C_API_DTYPE_INT8``; 
  * - \a group only works for ``C_API_DTYPE_INT32``; 
  * - \a label and \a weight only work for ``C_API_DTYPE_FLOAT32``; 
  * - \a init_score and \a feature_penalty only work for ``C_API_DTYPE_FLOAT64``. 
         else:
-            return data.values.astype(dtype)
+            return np.array(data, dtype=dtype, copy=False)  # SparseArray should be supported as well
 @unittest.skipIf(not lgb.compat.PANDAS_INSTALLED, 'pandas is not installed') 
 def test_pandas_sparse(self): 
     import pandas as pd 
     X = pd.DataFrame({"A": pd.SparseArray(np.random.permutation([0, 1, 2] * 100)), 
                       "B": pd.SparseArray(np.random.permutation([0.0, 0.1, 0.2, -0.1, 0.2] * 60)), 
                       "C": pd.SparseArray(np.random.permutation([True, False] * 150))}) 
     y = pd.Series(pd.SparseArray(np.random.permutation([0, 1] * 150))) 
     X_test = pd.DataFrame({"A": pd.SparseArray(np.random.permutation([0, 2] * 30)), 
                            "B": pd.SparseArray(np.random.permutation([0.0, 0.1, 0.2, -0.1] * 15)), 
                            "C": pd.SparseArray(np.random.permutation([True, False] * 30))}) 
     if pd.__version__ >= '0.24.0': 
         for dtype in pd.concat([X.dtypes, X_test.dtypes, pd.Series(y.dtypes)]): 
             self.assertTrue(pd.api.types.is_sparse(dtype)) 
     params = { 
         'objective': 'binary', 
         'verbose': -1 
     } 
     lgb_train = lgb.Dataset(X, y) 
     gbm = lgb.train(params, lgb_train, num_boost_round=10) 
     pred_sparse = gbm.predict(X_test, raw_score=True) 
     if hasattr(X_test, 'sparse'): 
         pred_dense = gbm.predict(X_test.sparse.to_dense(), raw_score=True) 
     else: 
         pred_dense = gbm.predict(X_test.to_dense(), raw_score=True) 
     np.testing.assert_allclose(pred_sparse, pred_dense) 
 @unittest.skipIf(not lgb.compat.PANDAS_INSTALLED, 'pandas is not installed') 
 def test_pandas_sparse(self): 
     import pandas as pd 
     X = pd.DataFrame({"A": pd.SparseArray(np.random.permutation([0, 1, 2] * 100)), 
                       "B": pd.SparseArray(np.random.permutation([0.0, 0.1, 0.2, -0.1, 0.2] * 60)), 
                       "C": pd.SparseArray(np.random.permutation([True, False] * 150))}) 
     y = pd.Series(pd.SparseArray(np.random.permutation([0, 1] * 150))) 
     X_test = pd.DataFrame({"A": pd.SparseArray(np.random.permutation([0, 2] * 30)), 
                            "B": pd.SparseArray(np.random.permutation([0.0, 0.1, 0.2, -0.1] * 15)), 
                            "C": pd.SparseArray(np.random.permutation([True, False] * 30))}) 
     if pd.__version__ >= '0.24.0': 
         for dtype in pd.concat([X.dtypes, X_test.dtypes, pd.Series(y.dtypes)]): 
             self.assertTrue(pd.api.types.is_sparse(dtype)) 
     gbm = lgb.sklearn.LGBMClassifier().fit(X, y) 
     pred_sparse = gbm.predict(X_test, raw_score=True) 
     if hasattr(X_test, 'sparse'): 
         pred_dense = gbm.predict(X_test.sparse.to_dense(), raw_score=True) 
     else: 
         pred_dense = gbm.predict(X_test.to_dense(), raw_score=True) 
     np.testing.assert_allclose(pred_sparse, pred_dense) 
 @unittest.skipIf(not lgb.compat.PANDAS_INSTALLED, 'pandas is not installed') 
 def test_pandas_sparse(self): 
     import pandas as pd 
     X = pd.DataFrame({"A": pd.SparseArray(np.random.permutation([0, 1, 2] * 100)), 
                       "B": pd.SparseArray(np.random.permutation([0.0, 0.1, 0.2, -0.1, 0.2] * 60)), 
                       "C": pd.SparseArray(np.random.permutation([True, False] * 150))}) 
     y = pd.Series(pd.SparseArray(np.random.permutation([0, 1] * 150))) 
     X_test = pd.DataFrame({"A": pd.SparseArray(np.random.permutation([0, 2] * 30)), 
                            "B": pd.SparseArray(np.random.permutation([0.0, 0.1, 0.2, -0.1] * 15)), 
                            "C": pd.SparseArray(np.random.permutation([True, False] * 30))}) 
     if pd.__version__ >= '0.24.0': 
         for dtype in pd.concat([X.dtypes, X_test.dtypes, pd.Series(y.dtypes)]): 
             self.assertTrue(pd.api.types.is_sparse(dtype)) 
     params = { 
         'objective': 'binary', 
         'verbose': -1 
     } 
     lgb_train = lgb.Dataset(X, y) 
     gbm = lgb.train(params, lgb_train, num_boost_round=10) 
     pred_sparse = gbm.predict(X_test, raw_score=True) 
     if hasattr(X_test, 'sparse'): 
         pred_dense = gbm.predict(X_test.sparse.to_dense(), raw_score=True) 
     else: 
         pred_dense = gbm.predict(X_test.to_dense(), raw_score=True) 
     np.testing.assert_allclose(pred_sparse, pred_dense) 
 @unittest.skipIf(not lgb.compat.PANDAS_INSTALLED, 'pandas is not installed') 
 def test_pandas_sparse(self): 
     import pandas as pd 
     X = pd.DataFrame({"A": pd.SparseArray(np.random.permutation([0, 1, 2] * 100)), 
                       "B": pd.SparseArray(np.random.permutation([0.0, 0.1, 0.2, -0.1, 0.2] * 60)), 
                       "C": pd.SparseArray(np.random.permutation([True, False] * 150))}) 
     y = pd.Series(pd.SparseArray(np.random.permutation([0, 1] * 150))) 
     X_test = pd.DataFrame({"A": pd.SparseArray(np.random.permutation([0, 2] * 30)), 
                            "B": pd.SparseArray(np.random.permutation([0.0, 0.1, 0.2, -0.1] * 15)), 
                            "C": pd.SparseArray(np.random.permutation([True, False] * 30))}) 
     if pd.__version__ >= '0.24.0': 
         for dtype in pd.concat([X.dtypes, X_test.dtypes, pd.Series(y.dtypes)]): 
             self.assertTrue(pd.api.types.is_sparse(dtype)) 
     gbm = lgb.sklearn.LGBMClassifier().fit(X, y) 
     pred_sparse = gbm.predict(X_test, raw_score=True) 
     if hasattr(X_test, 'sparse'): 
         pred_dense = gbm.predict(X_test.sparse.to_dense(), raw_score=True) 
     else: 
         pred_dense = gbm.predict(X_test.to_dense(), raw_score=True) 
     np.testing.assert_allclose(pred_sparse, pred_dense) 
     else:
         raise TypeError("Wrong type({0}) for {1}.\n"
                         "It should be list, numpy 1-D array or pandas Series".format(type(data).__name__, name))
@@ -296,7 +296,9 @@ def _data_from_pandas(data, feature_name, categorical_feature, pandas_categorica
             raise ValueError("DataFrame.dtypes for data must be int, float or bool.\n"
                              "Did not expect the data types in the following fields: "
                              + ', '.join(data.columns[bad_indices]))
-        data = data.values.astype('float')
+        data = data.values
+        if data.dtype != np.float32 and data.dtype != np.float64:
+            data = data.astype(np.float32)
     else:
         if feature_name == 'auto':
             feature_name = None
@@ -311,7 +313,9 @@ def _label_from_pandas(label):
             raise ValueError('DataFrame for label cannot have multiple columns')
         if _get_bad_pandas_dtypes(label.dtypes):
             raise ValueError('DataFrame.dtypes for label must be int, float or bool')
-        label = label.values.astype('float').flatten()
+        label = np.ravel(label.values)
+        if label.dtype != np.float32 and label.dtype != np.float64:
+            label = label.astype(np.float32)
     return label
 
 
@@ -534,8 +538,7 @@ def __pred_for_np2d(self, mat, num_iteration, predict_type):
         def inner_predict(mat, num_iteration, predict_type, preds=None):
             if mat.dtype == np.float32 or mat.dtype == np.float64:
                 data = np.array(mat.reshape(mat.size), dtype=mat.dtype, copy=False)
-            else:
-                """change non-float data to float data, need to copy"""
+            else:  # change non-float data to float data, need to copy
                 data = np.array(mat.reshape(mat.size), dtype=np.float32)
             ptr_data, type_ptr_data, _ = c_float_array(data)
             n_preds = self.__get_num_preds(num_iteration, mat.shape[0], predict_type)
@@ -875,8 +878,7 @@ def __init_from_np2d(self, mat, params_str, ref_dataset):
         self.handle = ctypes.c_void_p()
         if mat.dtype == np.float32 or mat.dtype == np.float64:
             data = np.array(mat.reshape(mat.size), dtype=mat.dtype, copy=False)
-        else:
-            # change non-float data to float data, need to copy
+        else:  # change non-float data to float data, need to copy
             data = np.array(mat.reshape(mat.size), dtype=np.float32)
 
         ptr_data, type_ptr_data, _ = c_float_array(data)
@@ -914,8 +916,7 @@ def __init_from_list_np2d(self, mats, params_str, ref_dataset):
 
             if mat.dtype == np.float32 or mat.dtype == np.float64:
                 mats[i] = np.array(mat.reshape(mat.size), dtype=mat.dtype, copy=False)
-            else:
-                # change non-float data to float data, need to copy
+            else:  # change non-float data to float data, need to copy
                 mats[i] = np.array(mat.reshape(mat.size), dtype=np.float32)
 
             chunk_ptr_data, chunk_type_ptr_data, holder = c_float_array(mats[i])
@@ -1011,7 +1012,7 @@ def construct(self):
                     used_indices = list_to_1d_numpy(self.used_indices, np.int32, name='used_indices')
                     assert used_indices.flags.c_contiguous
                     if self.reference.group is not None:
-                        group_info = np.array(self.reference.group).astype(int)
+                        group_info = np.array(self.reference.group).astype(np.int32, copy=False)
                         _, self.group = np.unique(np.repeat(range_(len(group_info)), repeats=group_info)[self.used_indices],
                                                   return_counts=True)
                     self.handle = ctypes.c_void_p()
@@ -2508,7 +2509,7 @@ def feature_importance(self, importance_type='split', iteration=None):
             ctypes.c_int(importance_type_int),
             result.ctypes.data_as(ctypes.POINTER(ctypes.c_double))))
         if importance_type_int == 0:
-            return result.astype(int)
+            return result.astype(np.int32)
         else:
             return result
 

@@ -307,17 +307,17 @@ def _make_n_folds(full_data, folds, nfold, params, seed, fpreproc=None, stratifi
         if hasattr(folds, 'split'):
             group_info = full_data.get_group()
             if group_info is not None:
-                group_info = np.array(group_info, dtype=int)
+                group_info = np.array(group_info, dtype=np.int32, copy=False)
                 flatted_group = np.repeat(range_(len(group_info)), repeats=group_info)
             else:
-                flatted_group = np.zeros(num_data, dtype=int)
+                flatted_group = np.zeros(num_data, dtype=np.int32)
             folds = folds.split(X=np.zeros(num_data), y=full_data.get_label(), groups=flatted_group)
     else:
         if 'objective' in params and params['objective'] == 'lambdarank':
             if not SKLEARN_INSTALLED:
                 raise LightGBMError('Scikit-learn is required for lambdarank cv.')
             # lambdarank task, split according to groups
-            group_info = np.array(full_data.get_group(), dtype=int)
+            group_info = np.array(full_data.get_group(), dtype=np.int32, copy=False)
             flatted_group = np.repeat(range_(len(group_info)), repeats=group_info)
             group_kfold = _LGBMGroupKFold(n_splits=nfold)
             folds = group_kfold.split(X=np.zeros(num_data), groups=flatted_group)