【5.7.2】Python3读取中文文件

不同的文件格式读写的过程中容易报错:

方法1:

import codecs
with codecs.open(file, 'r', encoding='utf-16') as f:
    text = f.read()

方法2:

with open(file, 'rb') as f:
    text = f.read().decode('utf-16')

方法3:

with open(file, 'r', encoding='UTF-16') as f:
    text = f.read()

自己写的时候记得修改encoding为自己文件的相应格式,同时根据自己需要修改读写。

我的案例

4.1 报错

UnicodeDecodeError
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbc in position 46: invalid start byte

解决办法:

with codecs.open(input_html, 'r', encoding='GBK') as ff:
    input_tt = ff.read()

参考资料

个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学