||
(一)groupby
参阅:https://www.jianshu.com/p/42f1d2909bb6
(二)读取excel
df是DataFrame的缩写,这里表示读取进来的数据。比如,最简单的一个实例:
import pandas as pd
df = pd.read_excel(r'C:\Users\Shan\Desktop\x.xlsx')
print(df.head())
df.head()会将excel表格中的第一行看作列名,并默认输出之后的五行,在head后面的括号里面直接写你想要输出的行数!
(三)处理缺失值
面对缺失值三种处理方法:
option 1:去掉含有缺失值的样本(行)
option 2:将含有缺失值的列(特征向量)去掉
option 3:将缺失值用某些值填充(0,平均值,中值等)
对于dropna和fillna,dataframe和series都有,在这主要讲datafame。
用到的函数包括:dropna、drop、fillna
详细参阅:https://blog.csdn.net/dss_dssssd/article/details/82814673
(四)to_csv()使用方法
1.首先查询当前的工作路径:
import osos.getcwd() #获取当前工作路径
2.to_csv()是DataFrame类的方法,read_csv()是pandas的方法
dt.to_csv() #默认dt是DataFrame的一个实例,参数解释如下
路径 path_or_buf: A string path to the file to write or a StringIO
dt.to_csv('Result.csv') # dt.to_csv('C:/Users/think/Desktop/Result.csv') #
分隔符 sep : Field delimiter for the output file (default ”,”)
dt.to_csv('C:/Users/think/Desktop/Result.csv',sep='?')#使用?分隔需要保存的数据,如果不写,默认是,
替换空值 na_rep: A string representation of a missing value (default ‘’)
dt.to_csv('C:/Users/think/Desktop/Result1.csv',na_rep='NA') #确实值保存为NA,如果不写,默认是空
格式 float_format: Format string for floating point numbers
dt.to_csv('C:/Users/think/Desktop/Result1.csv',float_format='%.2f') #保留两位小数
是否保留某列数据 cols: Columns to write (default None)
dt.to_csv('C:/Users/think/Desktop/Result.csv',columns=['name']) #保存索引列和name列
是否保留列名 header: Whether to write out the column names (default True)
dt.to_csv('C:/Users/think/Desktop/Result.csv',header=0) #不保存列名
是否保留行索引 index: whether to write row (index) names (default True)
dt.to_csv('C:/Users/think/Desktop/Result1.csv',index=0) #不保存行索引
【参考】
https://blog.csdn.net/toshibahuai/article/details/79034829
点滴分享,福泽你我!Add oil!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-11 04:47
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社