Pandas

魂~ / 2023-05-03 / 原文

Series结构

Series结构,也称Series序列,是Pandas常用的数据结构之一,它是一种类似于一维数组的结构,由一组数据值(value)和一组标签组成,其中标签与数据值具有对应关系。

标签不必是唯一的,但必须是可哈希类型(即不可变类型,如python中的整形、字符串、数值、浮点)。该对象既支持基于整数的索引,也支持基于标签的索引,并提供许多方法来执行涉及索引的操作。ndarray(数组)的统计方法已被覆盖,并自动排除缺失的数据(目前表示为NaN)

Series可以保存任何数据类型,比如整数、字符串、浮点数、Python对象等,它的标签默认为整数,从0开始依次递增。Series的结构图如下所示:

数据结构Series创建

import pandas as pd  #导入pandas模块
pd.Series(data=None,index=None,dtype=None,name=None,copy=False)

data输入的数据,可以是列表、常量、ndarray数组等,如果是字典,则保持参数顺序

index索引值,必须是可散列的(不可变数据类型(str、bytes和数值类型)),并且与数据具有相同的长度,允许使用非唯一索引值。如果未提供,将默认为RangeIndex(0,1,2,3,...,n)

dtypr输出系列的数据类型,例如原数据为浮点型,可在这改为整型使用。如未指定,将从数据中推断

name为Series定义一个名称

copy表示对data进行拷贝,默认为False,仅影响Series和ndarray数组