ENH/TST: Support for non-ascii encodings in DataFrame.to_excel (GH3710)

jreback · jreback · commit 268ee80153c8 · 2014-03-12T08:57:46.000-04:00
diff --git a/doc/source/release.rst b/doc/source/release.rst
@@ -151,6 +151,7 @@ Improvements to existing features
 - perf improvements in single-dtyped indexing (:issue:`6484`)
 - ``StataWriter`` and ``DataFrame.to_stata`` accept time stamp and data labels (:issue:`6545`)
 - offset/freq info now in Timestamp __repr__ (:issue:`4553`)
+- Support passing ``encoding`` with xlwt (:issue:`3710`)
 
 .. _release.bug_fixes-0.14.0:
 
diff --git a/pandas/core/frame.py b/pandas/core/frame.py
@@ -1151,7 +1151,7 @@ def to_csv(self, path_or_buf=None, sep=",", na_rep='', float_format=None,
     def to_excel(self, excel_writer, sheet_name='Sheet1', na_rep='',
                  float_format=None, cols=None, header=True, index=True,
                  index_label=None, startrow=0, startcol=0, engine=None,
-                 merge_cells=True):
+                 merge_cells=True, encoding=None):
         """
         Write DataFrame to a excel sheet
 
@@ -1186,6 +1186,9 @@ def to_excel(self, excel_writer, sheet_name='Sheet1', na_rep='',
             ``io.excel.xlsm.writer``.
         merge_cells : boolean, default True
             Write MultiIndex and Hierarchical Rows as merged cells.
+        encoding: string, default None
+            encoding of the resulting excel file. Only necessary for xlwt,
+            other writers support unicode natively.
 
         Notes
         -----
@@ -1200,6 +1203,9 @@ def to_excel(self, excel_writer, sheet_name='Sheet1', na_rep='',
         """
         from pandas.io.excel import ExcelWriter
         need_save = False
+        if encoding == None:
+            encoding = 'ascii'
+
         if isinstance(excel_writer, compat.string_types):
             excel_writer = ExcelWriter(excel_writer, engine=engine)
             need_save = True
diff --git a/pandas/io/excel.py b/pandas/io/excel.py
@@ -597,13 +597,15 @@ class _XlwtWriter(ExcelWriter):
     engine = 'xlwt'
     supported_extensions = ('.xls',)
 
-    def __init__(self, path, engine=None, **engine_kwargs):
+    def __init__(self, path, engine=None, encoding=None, **engine_kwargs):
         # Use the xlwt module as the Excel writer.
         import xlwt
 
         super(_XlwtWriter, self).__init__(path, **engine_kwargs)
 
-        self.book = xlwt.Workbook()
+        if encoding is None:
+            encoding = 'ascii'
+        self.book = xlwt.Workbook(encoding=encoding)
         self.fm_datetime = xlwt.easyxf(num_format_str=self.datetime_format)
         self.fm_date = xlwt.easyxf(num_format_str=self.date_format)
 
@@ -787,13 +789,13 @@ def _convert_to_style(self, style_dict, num_format_str=None):
 
         # Create a XlsxWriter format object.
         xl_format = self.book.add_format()
-        
+
         if num_format_str is not None:
             xl_format.set_num_format(num_format_str)
 
         if style_dict is None:
             return xl_format
-        
+
         # Map the cell font to XlsxWriter font properties.
         if style_dict.get('font'):
             font = style_dict['font']
diff --git a/pandas/io/tests/test_excel.py b/pandas/io/tests/test_excel.py
@@ -796,6 +796,20 @@ def test_to_excel_float_format(self):
                             index=['A', 'B'], columns=['X', 'Y', 'Z'])
             tm.assert_frame_equal(rs, xp)
 
+    def test_to_excel_output_encoding(self):
+        _skip_if_no_xlrd()
+        ext = self.ext
+        filename = '__tmp_to_excel_float_format__.' + ext
+        df = DataFrame([[u('\u0192'), u('\u0193'), u('\u0194')],
+                        [u('\u0195'), u('\u0196'), u('\u0197')]],
+                        index=[u('A\u0192'), 'B'], columns=[u('X\u0193'), 'Y', 'Z'])
+
+        with ensure_clean(filename) as filename:
+            df.to_excel(filename, sheet_name = 'TestSheet', encoding='utf8')
+            result = read_excel(filename, 'TestSheet', encoding = 'utf8')
+            tm.assert_frame_equal(result,df)
+
+
     def test_to_excel_unicode_filename(self):
         _skip_if_no_xlrd()
         with ensure_clean(u('\u0192u.') + self.ext) as filename: