【5.7.2】Python3读取中文文件
不同的文件格式读写的过程中容易报错:
方法1:
import codecs
with codecs.open(file, 'r', encoding='utf-16') as f:
text = f.read()
方法2:
with open(file, 'rb') as f:
text = f.read().decode('utf-16')
方法3:
with open(file, 'r', encoding='UTF-16') as f:
text = f.read()
自己写的时候记得修改encoding为自己文件的相应格式,同时根据自己需要修改读写。
我的案例
4.1 报错
UnicodeDecodeError
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbc in position 46: invalid start byte
解决办法:
with codecs.open(input_html, 'r', encoding='GBK') as ff:
input_tt = ff.read()
参考资料
这里是一个广告位,,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn