【3】数据分析-1-数据的处理--numpy--2--数据读写

May 19, 2018 py_module 阅读量：次

方法一：csv文件

np.savetxt(frame, array, fmt='%.18e', delimiter=None)
frame : 文件、字符串或产生器，可以是.gz或.bz2的压缩文件
array : 存入文件的数组
fmt : 写入文件的格式，例如:%d %.2f %.18e
delimiter : 分割字符串，默认是任何空格

np.loadtxt(frame, dtype=np.float, delimiter=None， unpack=False)
frame : 文件、字符串或产生器，可以是.gz或.bz2的压缩文件
dtype : 数据类型，可选
delimiter : 分割字符串，默认是任何空格
unpack : 如果True，读入属性将分别写入不同变量

CSV只能有效存储一维和二维数组

np.savetxt() np.loadtxt()只能有效存取一维和二维数组

方法二：多维数据的存取

a.tofile(frame, sep='', format='%s')
frame : 文件、字符串
sep : 数据分割字符串，如果是空串，写入文件为二进制
format : 写入数据的格式

a.tofile(frame, sep=‘，‘， format='%s') 形成了一个文本文件（
a.tofile(frame, format='%s') 不指定sep，形成的一个二进制文件

np.fromfile(frame, dtype=float, count=‐1, sep='')
frame : 文件、字符串
dtype : 读取的数据类型
count : 读入元素个数，‐1表示读入整个文件
sep : 数据分割字符串，如果是空串，写入文件为二进制

维度信息会丢失，需要通过reshape来找回维度信息

该方法需要读取时知道存入文件时数组的维度和元素类型 a.tofile()和np.fromfile()需要配合使用可以通过元数据文件来存储额外信息

方法三

np.save(fname, array) 或 np.savez(fname, array)

fname : 文件名，以.npy为扩展名，压缩扩展名为.npz
array : 数组变量

np.load(fname)

fname : 文件名，以.npy为扩展名，压缩扩展名为.npz

四、从网页导入数据 np.genfromtxt

导入数据集的标准方法是使用np.genfromtxt函数。它可以从Web URL导入数据集，处理缺失值，多个分隔符，处理不规则数量的列等。

一个不太通用的版本是np.loadtxt，它假设数据集没有缺失值。

例如，让我们尝试从以下URL读取.csv文件。由于numpy数组中的所有元素应该具有相同的数据类型，因此默认情况下，作为文本的最后一列将作为“nan”导入。

通过设置filling_values参数，您可以使用其他内容替换缺少的值。

# Turn off scientific notation
np.set_printoptions(suppress=True)  

# Import data from csv file url
path = 'https://raw.githubusercontent.com/selva86/datasets/master/Auto.csv'
data = np.genfromtxt(path, delimiter=',', skip_header=1, filling_values=-999, dtype='float')
data[:3]  # see first 3 rows
#> array([[   18. ,     8. ,   307. ,   130. ,  3504. ,    12. ,    70. ,
#>             1. ,  -999. ],
#>        [   15. ,     8. ,   350. ,   165. ,  3693. ,    11.5,    70. ,
#>             1. ,  -999. ],
#>        [   18. ,     8. ,   318. ,   150. ,  3436. ,    11. ,    70. ,
#>             1. ,  -999. ]])

但是你注意到最后一列中的所有值都具有相同的值'-999’吗？那是因为，我曾经提到了。D型=” float'。文件中的最后一列包含文本值，因为numpy数组中的所有值必须与dtype相同，np.genfromtxt不知道如何将其转换为float。

那如何处理既包含文本，又包含数字的数据集呢

如果你必须按原样使用文本列而不用占位符替换它，你可以将dtype设置为’object’或None。

# data2 = np.genfromtxt(path, delimiter=',', skip_header=1, dtype='object')
data2 = np.genfromtxt(path, delimiter=',', skip_header=1, dtype=None)
data2[:3]  # see first 3 rows

#> array([( 18., 8,  307., 130, 3504,  12. , 70, 1, b'"chevrolet chevelle malibu"'),
#>        ( 15., 8,  350., 165, 3693,  11.5, 70, 1, b'"buick skylark 320"'),
#>        ( 18., 8,  318., 150, 3436,  11. , 70, 1, b'"plymouth satellite"')],
#>       dtype=[('f0', '<f8'), ('f1', '<i8'), ('f2', '<f8'), ('f3', '<i8'), ('f4', '<i8'), ('f5', '<f8'), ('f6', '<i8'), ('f7', '<i8'), ('f8', 'S38')])
Excellent!

Finally, ‘np.savetxt’ lets you export the array as a csv file.

Save the array as a csv file

np.savetxt(“out.csv”, data, delimiter=",")

这里是一个广告位，，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn