最近在我正在开发的一个数据维护工具中我经常使用 xlrd 来读取Excel文件,在转换过程中一直也没有遇到什么问题,只不过需要注意,它返回的字符串都是 Unicode 编码。不过今天在使用时发现对于日期类型,在Excel文件中看到的可能是 "2005-7-8" 这样格式,但直接使用 xlrd 来读的话却会变成 38541。很奇怪。仔细查看 Excel 后再经过试验,我明白了 Excel 保存日期其实是使用一个长整数,只不过显示时可以为标准的日期格式。本来我想将日期在 Excel 中直接转为日期格式的字符串,但没整出来,而且我更希望有一种方法可以正确地进行转换。于是我想 xlrd 有没有这样的处理呢?使用 NewEdit 的代码提示功能,查了查 xlrd 模块的属性,没找到。不过看到它有cell_type(i, j)的方法可以返回一个单元格的数据格式。于是我使用这个方法打出日期所在的单元格的格式为:3。然后又比较了 xlrd 中定义的一些常量,最后锁定在了 XL_CELL_DATE上,它的值就是 3。这样到目前为止我已经知道了如何判断一个单元格是否是日期类型,下面就是如何转换了。

我查阅了datetime 模式,在它的date类中查到一个函数叫:

fromordinal(oridnal)

它的作用是将从公元1年1月1日开始的天数转换为年月日的形式。于是我试了一下:

>>> import datetime
>>> datetime.date.fromordinal(38541)
datetime.date(106, 7, 10)

好象不对呀。于是我反向转转试试:

>>> datetime.date.toordinal(datetime.date(2005, 7, 8))
732135

怎么这么大的数。后来我想到可能fromordinal与Excel使用的起始日期可能是不同的。做个减法看一看是哪天。

>>> datetime.date.fromordinal(732135 – 38541 + 1)
datetime.date(1899, 12, 31)

原来如此,是 1899/12/31 日,这回我明白了。其实象用过的 Informix 中的日期与 Excel 的方法是一样的,都是从 1899/12/31 开始计算的。那么做个转换函数吧:

__s_date = datetime.date(1899, 12, 31).toordinal() – 1
def getdate(date):
    if isinstance(date, float):
        date = int(date)
    d = datetime.date.fromordinal(__s_date + date)
    return d.strftime("%Y-%m-%d")

上述函数就是用来将一个从 1899/12/31 开始计算的天数转成年月日的格式,并且是字符串的形式。其中如果传入的是一个浮点数,先取整再进行转换。


3条评论

  1. 上次limodou介绍了之后,我马上就派上用场了,确实速度够快,可惜只能读,不能写。

  2. 还有一个 pyExcelerator 可以写Excel文件。http://sourceforge.net/projects/pyexcelerator/

  3. 用xlrd模块读取excel,取出来的都是unicode,所以excel里面的中文汉字只能以unicode 显示,请问应该怎么样做才能以正常的中文显示,代码如下(代码是从xlrd模块的示例程序):

    if __name__==’__main__’:

    import xlrd

    book = xlrd.open_workbook("myfile.xls")

    print "The number of worksheets is", book.nsheets

    print "Worksheet name(s):", book.sheet_names()

    sh = book.sheet_by_index(0)

    print sh.name, sh.nrows, sh.ncols

    for rx in range(sh.nrows):

    print sh.row(rx)#这里应该怎么改呢?

发表评论

评论也有版权!

click to change验证码