Slightly de-hackify

pandas-dev · jorisvandenbossche · Nov 7, 2018 · Oct 12, 2018 · Oct 22, 2018 · Oct 22, 2018
commit 5902b5ba1be9e10f482d21b0e2b037b7228264f6
diff --git a/pandas/core/internals/blocks.py b/pandas/core/internals/blocks.py
@@ -1,5 +1,5 @@
 # -*- coding: utf-8 -*-
-import copy
+import functools
 import warnings
 import inspect
 import re
@@ -1434,7 +1434,7 @@ def equals(self, other):
             return False
         return array_equivalent(self.values, other.values)
 
-    def _unstack(self, unstacker_func, new_columns):
+    def _unstack(self, unstacker_func, new_columns, n_rows, fill_value):
         """Return a list of unstacked blocks of self
 
         Parameters
@@ -1443,6 +1443,10 @@ def _unstack(self, unstacker_func, new_columns):
             Partially applied unstacker.
         new_columns : Index
             All columns of the unstacked BlockManager.
+        n_rows : int
+            Only used in ExtensionBlock.unstack
+        fill_value : int
+            Only used in ExtensionBlock.unstack
 
         Returns
         -------
@@ -1736,7 +1740,7 @@ def _slice(self, slicer):
     def _try_cast_result(self, result, dtype=None):
         return result
 
-    def _unstack(self, unstacker_func, new_columns):
+    def _unstack(self, unstacker_func, new_columns, n_rows, fill_value):
         """Return a list of unstacked blocks of self
 
         Parameters
@@ -1745,6 +1749,10 @@ def _unstack(self, unstacker_func, new_columns):
             Partially applied unstacker.
         new_columns : Index
             All columns of the unstacked BlockManager.
+        n_rows : int
+            Only used in ExtensionBlock.unstack
+        fill_value : int
+            Only used in ExtensionBlock.unstack
 
         Returns
         -------
@@ -1756,18 +1764,28 @@ def _unstack(self, unstacker_func, new_columns):
         # NonConsolidatable blocks can have a single item only, so we return
         # one block per item
         unstacker = unstacker_func(self.values.T)
-        new_items = unstacker.get_new_columns()
-        new_placement = new_columns.get_indexer(new_items)
-        new_values, mask = unstacker.get_new_values()
 
-        mask = mask.any(0)
+        new_placement, new_values, mask = self._get_unstack_items(
+            unstacker, new_columns
+        )
+
         new_values = new_values.T[mask]
         new_placement = new_placement[mask]
 
         blocks = [self.make_block_same_class(vals, [place])
                   for vals, place in zip(new_values, new_placement)]
         return blocks, mask
 
+    @staticmethod
+    def _get_unstack_items(unstacker, new_columns):
+        # shared with ExtensionBlock
+        new_items = unstacker.get_new_columns()
+        new_placement = new_columns.get_indexer(new_items)
+        new_values, mask = unstacker.get_new_values()
+
+        mask = mask.any(0)
+        return new_placement, new_values, mask
+
 
 class ExtensionBlock(NonConsolidatableMixIn, Block):
     """Block for holding extension types.
@@ -1955,32 +1973,21 @@ def shift(self, periods, axis=0):
     def _ftype(self):
         return getattr(self.values, '_pandas_ftype', Block._ftype)
 
-    def _unstack(self, unstacker_func, new_columns):
-        # I wonder if this is supported
-        fill_value = unstacker_func.keywords['fill_value']
-        unstacker_func = copy.deepcopy(unstacker_func)
-        unstacker_func.keywords['fill_value'] = -1
-
-        # just get the index. Can maybe avoid this?
-        dummy_unstacker = unstacker_func(np.empty((0, 0)))
-
-        dummy_arr = np.arange(len(dummy_unstacker.index))
+    def _unstack(self, unstacker_func, new_columns, n_rows, fill_value):
+        dummy_arr = np.arange(n_rows)
+        dummy_unstacker = functools.partial(unstacker_func, fill_value=-1)
+        unstacker = dummy_unstacker(dummy_arr)
 
-        unstacker = unstacker_func(dummy_arr)
-        new_items = unstacker.get_new_columns()
-        new_placement = new_columns.get_indexer(new_items)
-        new_values, mask = unstacker.get_new_values()
-        mask = mask.any(0)
-
-        new_values = [
-            self.values.take(indices, allow_fill=True,
-                             fill_value=fill_value)
-            for indices in new_values.T
-        ]
+        new_placement, new_values, mask = self._get_unstack_items(
+            unstacker, new_columns
+        )
 
         blocks = [
-            self.make_block_same_class(vals, [place])
-            for vals, place in zip(new_values, new_placement)
+            self.make_block_same_class(
+                self.values.take(indices, allow_fill=True,
+                                 fill_value=fill_value),
+                [place])
+            for indices, place in zip(new_values.T, new_placement)
         ]
         return blocks, mask
 

diff --git a/pandas/core/internals/managers.py b/pandas/core/internals/managers.py
@@ -1405,18 +1405,21 @@ def canonicalize(block):
         return all(block.equals(oblock)
                    for block, oblock in zip(self_blocks, other_blocks))
 
-    def unstack(self, unstacker_func):
+    def unstack(self, unstacker_func, fill_value):
         """Return a blockmanager with all blocks unstacked.
 
         Parameters
         ----------
         unstacker_func : callable
             A (partially-applied) ``pd.core.reshape._Unstacker`` class.
+        fill_value : Any
+            fill_value for newly introduced missing values.
 
         Returns
         -------
         unstacked : BlockManager
         """
+        n_rows = self.shape[-1]
         dummy = unstacker_func(np.empty((0, 0)), value_columns=self.items)
         new_columns = dummy.get_new_columns()
         new_index = dummy.get_new_index()
@@ -1427,7 +1430,10 @@ def unstack(self, unstacker_func):
             blocks, mask = blk._unstack(
                 partial(unstacker_func,
                         value_columns=self.items[blk.mgr_locs.indexer]),
-                new_columns)
+                new_columns,
+                n_rows,
+                fill_value
+            )
 
             new_blocks.extend(blocks)
             columns_mask.extend(mask)

diff --git a/pandas/core/reshape/reshape.py b/pandas/core/reshape/reshape.py
@@ -409,17 +409,11 @@ def unstack(obj, level, fill_value=None):
 
 
 def _unstack_frame(obj, level, fill_value=None):
-    from pandas.core.reshape.concat import concat
-
-    if (obj._is_homogeneous_type and
-            is_extension_array_dtype(obj.dtypes.iloc[0])):
-        frames = [ser.unstack(level=level, fill_value=fill_value)
-                  for name, ser in obj.iteritems()]
-        return concat(frames, axis=1, keys=obj.columns)
     if obj._is_mixed_type:
         unstacker = partial(_Unstacker, index=obj.index,
                             level=level, fill_value=fill_value)
-        blocks = obj._data.unstack(unstacker)
+        blocks = obj._data.unstack(unstacker,
+                                   fill_value=fill_value)
         return obj._constructor(blocks)
     else:
         unstacker = _Unstacker(obj.values, obj.index, level=level,