【5.7.2】Python3读取中文文件
不同的文件格式读写的过程中容易报错:
方法1:
import codecs
with codecs.open(file, 'r', encoding='utf-16') as f:
text = f.read()
方法2:
with open(file, 'rb') as f:
text = f.read().decode('utf-16')
方法3:
with open(file, 'r', encoding='UTF-16') as f:
text = f.read()
自己写的时候记得修改encoding为自己文件的相应格式,同时根据自己需要修改读写。
我的案例
4.1 报错
UnicodeDecodeError
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbc in position 46: invalid start byte
解决办法:
with codecs.open(input_html, 'r', encoding='GBK') as ff:
input_tt = ff.read()
参考资料
