Python pandas学习总结-白红宇

Python pandas学习总结

阅读量：462 次

发布时间：2019-03-06

本文共 2315 字，大约阅读时间需要 7 分钟。

pandas是数据分析中的重要工具，它能够简化数据处理和分析的流程。学习pandas对于处理各种数据格式的文件至关重要。本文将记录学习pandas的过程，特别是关于读取CSV文件的操作。

首先，我们需要准备一个CSV文件。例如，以下是一个包含多个数据行的CSV文件内容：

0.916,4.37,-1.372,0.102,0.041,0.069,0.0180.892,3.955,-1.277,0.015,-0.099,-0.066,0.0180.908,3.334,-1.193,0.033,-0.098,-0.059,0.0181.013,3.022,-1.082,0.151,0.015,0.035,0.0181.111,2.970,-1.103,-0.048,-0.175,-0.171,0.0191.302,3.043,-1.089,0.011,-0.085,-0.097,0.0181.552,3.017,-1.052,0.066,-0.002,-0.036,0.0191.832,2.796,-0.933,0.002,-0.028,-0.075,0.0192.127,2.521,-0.749,0.011,0.041,-0.022,0.0192.354,2.311,-0.623,-0.038,0.012,-0.056,0.0192.537,2.024,-0.452,0.039,0.089,0.031,0.0192.639,1.669,-0.277,-0.005,0.036,-0.008,0.0192.707,1.314,-0.214,0.013,0.031,-0.005,0.0192.810,0.926,-0.142,0.062,0.046,0.031,0.019

接下来，我们将这个CSV文件读取到pandas中。以下是使用`read_csv`函数读取文件的代码示例：

import pandas as pdfilename = r'Train_A/Train_A_001.csv'data = pd.read_csv(filename)

运行上述代码后，会得到以下结果：

0       0.9161       4.3702     -1.3723       0.1024       0.0415       0.0696       0.018...

默认情况下，`read_csv`会将第一行的数据作为列名，第二行及之后的行作为数据行。如果我们不希望默认列名，我们可以通过设置`header=None`来避免：

data = pd.read_csv(filename, header=None)

此时，读取到的数据将没有列名，pandas会自动为每一列生成默认的列名。例如，第一列会被命名为0，第二列为1，依此类推。如果我们希望为列指定自定义名称，我们可以使用`names`参数：

data = pd.read_csv(filename, header=None, names=['a', 'b', 'c', 'd', 'e', 'f'])

这样，读取到的数据将具有自定义的列名：

a       0.916b       4.370c     -1.372d       0.102e       0.041f       0.0690      0.018...

在处理数据时，我们可能需要指定行索引。可以通过`index_col`参数来设置行索引：

data = pd.read_csv(filename, index_col=None, header=None)

如果我们希望将某一列作为行索引，可以通过`index_col`指定该列的位置。例如，如果第一列是行索引：

data = pd.read_csv(filename, index_col=0, header=None)

如果我们希望同时指定行索引和列索引，可以通过`index_col`和`names`参数来实现：

data = pd.read_csv(filename, index_col=0, header=None, names=['row_index', 'col_index_1', 'col_index_2'])

接下来，了解如何读取指定列的数据。可以使用`usecols`参数来指定需要读取的列：

data = pd.read_csv(filename, index_col=None, header=None, usecols=[1])

上述代码会只读取第二列（索引为1）的数据：

4.3704.3704.370...

如果需要读取多列，可以通过列表的形式指定：

data = pd.read_csv(filename, index_col=None, header=None, usecols=[1, 2, 3])

这样会读取第一、二、三列的数据：

4.370  3.955  4.3704.370  3.955  4.370...

在实际操作中，我们可能需要查看数据的前几行，可以通过`head()`方法：

data.head(5)

如果需要查看某一行的所有数据，可以使用`loc`方法：

data.loc[0, :]

如果需要查看所有行的数据，可以使用`iloc`方法：

data.iloc[:, :]

此外，了解如何统计数据，可以使用`describe()`方法：

data.describe()

通过这些方法，我们可以更高效地处理和分析数据。通过实践这些操作，我们可以逐步掌握pandas的使用技巧。

转载地址：http://nbfbz.baihongyu.com/

你可能感兴趣的文章