【3】数据分析-1-数据的处理--numpy--4--数据读写

方法一:csv文件

np.savetxt(frame, array, fmt='%.18e', delimiter=None)
frame : 文件、字符串或产生器,可以是.gz或.bz2的压缩文件
array : 存入文件的数组
fmt : 写入文件的格式,例如:%d %.2f %.18e
delimiter : 分割字符串,默认是任何空格

np.loadtxt(frame, dtype=np.float, delimiter=None, unpack=False)
frame : 文件、字符串或产生器,可以是.gz或.bz2的压缩文件
dtype : 数据类型,可选
delimiter : 分割字符串,默认是任何空格
unpack : 如果True,读入属性将分别写入不同变量

CSV只能有效存储一维和二维数组

np.savetxt() np.loadtxt()只能有效存取一维和二维数组

方法二:多维数据的存取

a.tofile(frame, sep='', format='%s')
frame : 文件、字符串
sep : 数据分割字符串,如果是空串,写入文件为二进制
format : 写入数据的格式

a.tofile(frame, sep=‘,‘, format='%s') 形成了一个文本文件(
a.tofile(frame, format='%s') 不指定sep,形成的一个二进制文件

np.fromfile(frame, dtype=float, count=‐1, sep='')
frame : 文件、字符串
dtype : 读取的数据类型
count : 读入元素个数,‐1表示读入整个文件
sep : 数据分割字符串,如果是空串,写入文件为二进制

维度信息会丢失,需要通过reshape来找回维度信息

该方法需要读取时知道存入文件时数组的维度和元素类型 a.tofile()和np.fromfile()需要配合使用 可以通过元数据文件来存储额外信息

方法三

np.save(fname, array) 或 np.savez(fname, array)

  • fname : 文件名,以.npy为扩展名,压缩扩展名为.npz
  • array : 数组变量

np.load(fname)

  • fname : 文件名,以.npy为扩展名,压缩扩展名为.npz

四、从网页导入数据 np.genfromtxt

导入数据集的标准方法是使用np.genfromtxt函数。 它可以从Web URL导入数据集,处理缺失值,多个分隔符,处理不规则数量的列等。

一个不太通用的版本是np.loadtxt,它假设数据集没有缺失值。

例如,让我们尝试从以下URL读取.csv文件。 由于numpy数组中的所有元素应该具有相同的数据类型,因此默认情况下,作为文本的最后一列将作为“nan”导入。

通过设置filling_values参数,您可以使用其他内容替换缺少的值。

# Turn off scientific notation
np.set_printoptions(suppress=True)  

# Import data from csv file url
path = 'https://raw.githubusercontent.com/selva86/datasets/master/Auto.csv'
data = np.genfromtxt(path, delimiter=',', skip_header=1, filling_values=-999, dtype='float')
data[:3]  # see first 3 rows
#> array([[   18. ,     8. ,   307. ,   130. ,  3504. ,    12. ,    70. ,
#>             1. ,  -999. ],
#>        [   15. ,     8. ,   350. ,   165. ,  3693. ,    11.5,    70. ,
#>             1. ,  -999. ],
#>        [   18. ,     8. ,   318. ,   150. ,  3436. ,    11. ,    70. ,
#>             1. ,  -999. ]])

但是你注意到最后一列中的所有值都具有相同的值’-999’吗?那是因为,我曾经提到了。D型=” float'。 文件中的最后一列包含文本值,因为numpy数组中的所有值必须与dtype相同,np.genfromtxt不知道如何将其转换为float。

那如何处理既包含文本,又包含数字的数据集呢

如果你必须按原样使用文本列而不用占位符替换它,你可以将dtype设置为’object’或None。

# data2 = np.genfromtxt(path, delimiter=',', skip_header=1, dtype='object')
data2 = np.genfromtxt(path, delimiter=',', skip_header=1, dtype=None)
data2[:3]  # see first 3 rows

#> array([( 18., 8,  307., 130, 3504,  12. , 70, 1, b'"chevrolet chevelle malibu"'),
#>        ( 15., 8,  350., 165, 3693,  11.5, 70, 1, b'"buick skylark 320"'),
#>        ( 18., 8,  318., 150, 3436,  11. , 70, 1, b'"plymouth satellite"')],
#>       dtype=[('f0', '<f8'), ('f1', '<i8'), ('f2', '<f8'), ('f3', '<i8'), ('f4', '<i8'), ('f5', '<f8'), ('f6', '<i8'), ('f7', '<i8'), ('f8', 'S38')])
Excellent!

Finally, ‘np.savetxt’ lets you export the array as a csv file.

Save the array as a csv file

np.savetxt(“out.csv”, data, delimiter=“,”)

个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn

Sam avatar
About Sam
专注生物信息 专注转化医学