xlsx表格读取#

当使用pandas读取xlsx表格时，如果表格中有日期格式的数据，读取时会看到日期被读取为数字，如44000。如何才能读取到原本显示的日期格式？

openpyxl.styles.numbers.py中有一组格式

1
BUILTIN_FORMATS = {
2
    0: 'General',
3
    1: '0',
4
    2: '0.00',
5
    3: '#,##0',
6
    4: '#,##0.00',
7
    5: '"$"#,##0_);("$"#,##0)',
8
    6: '"$"#,##0_);[Red]("$"#,##0)',
9
    7: '"$"#,##0.00_);("$"#,##0.00)',
10
    8: '"$"#,##0.00_);[Red]("$"#,##0.00)',
11
    9: '0%',
12
    10: '0.00%',
13
    11: '0.00E+00',
14
    12: '# ?/?',
15
    13: '# ??/??',
16
    14: 'mm-dd-yy',
17
    15: 'd-mmm-yy',
18
    16: 'd-mmm',
19
    17: 'mmm-yy',
20
    18: 'h:mm AM/PM',
21
    19: 'h:mm:ss AM/PM',
22
    20: 'h:mm',
23
    21: 'h:mm:ss',
24
    22: 'm/d/yy h:mm',
25

26
    37: '#,##0_);(#,##0)',
27
    38: '#,##0_);[Red](#,##0)',
28
    39: '#,##0.00_);(#,##0.00)',
29
    40: '#,##0.00_);[Red](#,##0.00)',
30

31
    41: r'_(* #,##0_);_(* \(#,##0\);_(* "-"_);_(@_)',
32
    42: r'_("$"* #,##0_);_("$"* \(#,##0\);_("$"* "-"_);_(@_)',
33
    43: r'_(* #,##0.00_);_(* \(#,##0.00\);_(* "-"??_);_(@_)',
34

35
    44: r'_("$"* #,##0.00_)_("$"* \(#,##0.00\)_("$"* "-"??_)_(@_)',
36
    45: 'mm:ss',
37
    46: '[h]:mm:ss',
38
    47: 'mmss.0',
39
    48: '##0.0E+0',
40
    49: '@',
41
}

从文档中找到中文对应的格式 ID 和格式字符串的对应关系，然后采用 hook 的方式将其注入 openpyxl 模块中即可。（注意这些代码需要在导入 openpyxl 模块之前执行）

1
# 扩展openpyxl的数字格式
2
# 此处扩展的是中文格式
3
extra_formats = {
4
    27: 'yyyy"年"m"月"',
5
    28: 'm"月"d"日"',
6
    29: 'm"月"d"日"',
7
    30: "m-d-yy",
8
    31: 'yyyy"年"m"月"d"日"',
9
    32: 'h"时"mm"分"',
10
    33: 'h"时"mm"分"ss"秒"',
11
    34: '上午/下午h"时"mm"分"',
12
    35: '上午/下午h"时"mm"分"ss"秒"',
13
    36: 'yyyy"年"m"月"',
14
    #
15
    50: 'yyyy"年"m"月"',
16
    51: 'm"月"d"日"',
17
    52: 'yyyy"年"m"月"',
18
    53: 'm"月"d"日"',
19
    54: 'm"月"d"日"',
20
    55: '上午/下午h"时"mm"分"',
21
    56: '上午/下午h"时"mm"分"ss"秒"',
22
    57: 'yyyy"年"m"月"',
23
    58: 'm"月"d"日"',
24
}
25
from openpyxl.styles.numbers import BUILTIN_FORMATS
26

27
BUILTIN_FORMATS.update(extra_formats)

示例代码：

1
"""
2
使用扩展的中文数字格式读取Excel文件
3
扩展openpyxl的数字格式以支持中文日期时间格式
4
"""
5

6
from openpyxl import load_workbook
7
from openpyxl.styles.numbers import BUILTIN_FORMATS
8
import os
9

10
# 扩展openpyxl的数字格式
11
# 此处扩展的是中文格式
12
extra_formats = {
13
    27: 'yyyy"年"m"月"',
14
    28: 'm"月"d"日"',
15
    29: 'm"月"d"日"',
16
    30: "m-d-yy",
17
    31: 'yyyy"年"m"月"d"日"',
18
    32: 'h"时"mm"分"',
19
    33: 'h"时"mm"分"ss"秒"',
20
    34: '上午/下午h"时"mm"分"',
21
    35: '上午/下午h"时"mm"分"ss"秒"',
22
    36: 'yyyy"年"m"月"',
23
    #
24
    50: 'yyyy"年"m"月"',
25
    51: 'm"月"d"日"',
26
    52: 'yyyy"年"m"月"',
27
    53: 'm"月"d"日"',
28
    54: 'm"月"d"日"',
29
    55: '上午/下午h"时"mm"分"',
30
    56: '上午/下午h"时"mm"分"ss"秒"',
31
    57: 'yyyy"年"m"月"',
32
    58: 'm"月"d"日"',
33
}
34

35
# 更新内置格式
36
BUILTIN_FORMATS.update(extra_formats)
37

38

39
def read_xlsx_file(file_path):
40
    """
41
    读取Excel文件并输出详细信息
42

43
    Args:
44
        file_path: Excel文件路径
45
    """
46
    if not os.path.exists(file_path):
47
        print(f"文件不存在: {file_path}")
48
        return
49

50
    print(f"正在读取文件: {file_path}")
51
    print("=" * 60)
52

53
    try:
54
        # 加载工作簿
55
        wb = load_workbook(file_path, data_only=False)
56

57
        print(f"文件加载成功")
58
        print(f"工作表数量: {len(wb.sheetnames)}")
59
        print(f"工作表名称: {wb.sheetnames}")
60
        print("=" * 60)
61

62
        # 遍历所有工作表
63
        for sheet_name in wb.sheetnames:
64
            print(f"\n工作表: {sheet_name}")
65
            print("-" * 60)
66

67
            ws = wb[sheet_name]
68

69
            # 获取工作表维度
70
            if ws.max_row > 0 and ws.max_column > 0:
71
                print(f"数据范围: {ws.max_row} 行 × {ws.max_column} 列")
72

73
                # 读取前10行数据（或所有数据，如果少于10行）
74
                max_display_rows = min(100, ws.max_row)
75

76
                print(f"\n数据内容（前{max_display_rows}行）:")
77
                print("-" * 60)
78

79
                for row_idx, row in enumerate(ws.iter_rows(min_row=1, max_row=max_display_rows, values_only=False), start=1):
80
                    row_data = []
81
                    for cell in row:
82
                        # 获取单元格值
83
                        cell_value = cell.value
84

85
                        # 获取单元格格式信息
86
                        cell_info = {
87
                            'value': cell_value,
88
                            'coordinate': cell.coordinate,
89
                        }
90

91
                        # 如果有数字格式，获取格式信息
92
                        if cell.number_format:
93
                            cell_info['number_format'] = cell.number_format
94

95
                            # 尝试从BUILTIN_FORMATS中查找格式描述
96
                            if cell.number_format in BUILTIN_FORMATS.values():
97
                                # 查找格式ID
98
                                format_id = None
99
                                for fmt_id, fmt_str in BUILTIN_FORMATS.items():
100
                                    if fmt_str == cell.number_format:
101
                                        format_id = fmt_id
102
                                        break
103
                                if format_id:
104
                                    cell_info['format_id'] = format_id
105

106
                        # 获取数据类型
107
                        if cell_value is not None:
108
                            cell_info['data_type'] = type(cell_value).__name__
109

110
                        row_data.append(cell_info)
111

112
                    # 输出行数据
113
                    print(f"\n行 {row_idx}:")
114
                    for cell_info in row_data:
115
                        value_str = str(cell_info['value']) if cell_info['value'] is not None else '(空)'
116
                        coord = cell_info['coordinate']
117

118
                        info_parts = [f"  {coord}: {value_str}"]
119

120
                        if 'data_type' in cell_info:
121
                            info_parts.append(f"[类型: {cell_info['data_type']}]")
122

123
                        if 'number_format' in cell_info:
124
                            fmt = cell_info['number_format']
125
                            if 'format_id' in cell_info:
126
                                info_parts.append(f"[格式ID: {cell_info['format_id']}, 格式: {fmt}]")
127
                            else:
128
                                info_parts.append(f"[格式: {fmt}]")
129

130
                        print(" ".join(info_parts))
131

132
                if ws.max_row > max_display_rows:
133
                    print(f"\n... (还有 {ws.max_row - max_display_rows} 行未显示)")
134
            else:
135
                print("工作表为空")
136

137
        print("\n" + "=" * 60)
138
        print("读取完成")
139

140
        # 关闭工作簿
141
        wb.close()
142

143
    except Exception as e:
144
        print(f"读取文件时发生错误: {str(e)}")
145
        import traceback
146
        traceback.print_exc()
147

148

149
def main():
150
    """主函数"""
151
    # 默认读取example.xlsx，如果不存在则尝试其他文件
152
    test_files = [
153
        "test.xlsx"
154
    ]
155

156
    # 查找存在的文件
157
    file_to_read = None
158
    for file in test_files:
159
        if os.path.exists(file):
160
            file_to_read = file
161
            break
162

163
    if file_to_read:
164
        read_xlsx_file(file_to_read)
165
    else:
166
        print("未找到可用的Excel文件")
167
        print("请将Excel文件放在当前目录，或修改main()函数中的文件路径")
168
        print(f"\n当前目录: {os.getcwd()}")
169
        print(f"可用的xlsx文件:")
170
        for root, dirs, files in os.walk('.'):
171
            for file in files:
172
                if file.endswith('.xlsx') and not file.startswith('~$'):
173
                    print(f"  - {os.path.join(root, file)}")
174

175

176
if __name__ == "__main__":
177
    main()

达梦数据库使用python保存特殊字符时出现报错#

1
'gbk' codec can't encode character '\u2022' in position 687: illegal multibyte sequence

现象：在数据库中查询是正常的，python查询、保存时会报错。

原因：默认是gbk编码，无法解析特殊字符。

解决方案：需要指定编码格式

1
#local_code=1 表示执行客户端的本地编码是UTF-8，否则默认是GBK
2
dm_conn = dmPython.connect(user=dm_user, password=dm_password, server='localhost', port=5236, local_code=1)

参考链接

5426主基地

编程日记

xlsx表格读取#

达梦数据库使用python保存特殊字符时出现报错#

文章分享

目录