一、安装 - Python idle调用anaconda包
sys.path.append(r'E:\anaconda\Lib\site-packages') 类型 Series和DataFrame s2=pd.Series([1,2,3,4],['a','b','c','d'])
s2.astype('str') 属性 df.values 返回series对象所有元素 df.shape 返回数据形状 df.dtypes 返回数据类型 df.columns 列标签 tolist() 转为列表 df.ndim 维数 df.size 对象个数 NaN 缺失值 二、语句 1.读取文件 df =pd.read_csv(".csv", encoding= , dtype={'':str},nrows,sep='') read_excel(xlsx,encoding=,sheet_name='')
df.head() 前5条内容 2.操作函数 df.T 行列颠倒 df.sort_values([''],ascending=False) 排序 df.x.rank(ascending=False,method=first,min,max) x代表列 df.x.unique() 去重 df.x.value_counts() 计数 df.describe() 统计描述 df.x.cumsum() 累加 pd.cut(df.x.bins=5) 将数字进行5等分区间显示 3.切片 order.loc[[7,10], ['name']] 取7-10行name列 order.loc[order['id']==458, ['id','name']] order.iloc[2:7,[2,3]] 按位置取2-6行 3-4列 order.[[,]] [] . isin('') 是否包含某元素 .str.contains(‘’) 包含字符串 .between(?,?,inclusive=True)] 4.增删改查 drop['', axis=()] axis 0为行,1为列 del order[''] 删除列 insert(序列,'名称',值) 插入 order.describe() 改赋值 order.rename(columns={'':''},index={ :''},inplace=True) 修改列、行标题 inplace后才能生效 pd.merge(left, right, on='key') 合并列根据key pd.concat(pieces) 直接添加合并 pd.concat(pieces),axis=1)左右合并 join 根据索引合并 groupby(by=[]).mean().avg(Series) 根据条件进行分组 position.loc[position.city== ] = np.NaN 赋予空值 df1.dropna(how='any') 删除所有带有缺省项的行 df1.fillna(value=5) 填充缺省项 pd.isnull(df1) 获得缺省项的布尔掩码 drop_duplicated() 去重 df.apply(np.cumsum) 使用函数 pd.pivot_table(df, values='D', index=['A','B'], columns=['C']) 数据透视 有相同爱好的可以进来一起讨论哦:企鹅群号:1046795523
|