eland.DataFrame.agg#
- DataFrame.agg(func: Union[str, List[str]], axis: int = 0, numeric_only: Optional[bool] = None, *args, **kwargs) Union[Series, DataFrame] #
使用一个或多个操作在指定的轴上聚合。
参数#
- func: 函数、字符串、列表或字典
用于聚合数据的函数。如果为函数,则必须在传递 %(klass)s 时或传递到 %(klass)s.apply 时有效。
接受的组合为
函数
字符串函数名
函数和/或函数名的列表,例如
[np.sum, 'mean']
轴标签 -> 函数、函数名或此类列表的字典。
目前,我们只支持
['count', 'mad', 'max', 'mean', 'median', 'min', 'mode', 'quantile', 'rank', 'sem', 'skew', 'sum', 'std', 'var']
- axis: int
目前,我们只支持 axis=0(索引)
- numeric_only: {True, False, None} 默认值为 None
要返回的数据类型 - True:返回所有 float64 类型的数值,忽略 NaN/NaT。 - False:返回所有 float64 类型的数值。 - None:返回所有具有默认数据类型的数值。
- *args
要传递给 func 的位置参数
- **kwargs
要传递给 func 的关键字参数
返回#
- DataFrame、Series 或标量
如果使用单个函数调用 DataFrame.agg,则返回 Series;如果使用多个函数调用 DataFrame.agg,则返回 DataFrame;如果使用单个函数调用 Series.agg,则返回标量;如果使用多个函数调用 Series.agg,则返回 Series。
另请参阅#
示例#
>>> df = ed.DataFrame('http://localhost:9200', 'flights', columns=['AvgTicketPrice', 'DistanceKilometers', 'timestamp', 'DestCountry']) >>> df.aggregate(['sum', 'min', 'std'], numeric_only=True).astype(int) AvgTicketPrice DistanceKilometers sum 8204364 92616288 min 100 0 std 266 4578
>>> df.aggregate(['sum', 'min', 'std'], numeric_only=True) AvgTicketPrice DistanceKilometers sum 8.204365e+06 9.261629e+07 min 1.000205e+02 0.000000e+00 std 2.664071e+02 4.578614e+03
>>> df.aggregate(['sum', 'min', 'std'], numeric_only=False) AvgTicketPrice DistanceKilometers timestamp DestCountry sum 8.204365e+06 9.261629e+07 NaT NaN min 1.000205e+02 0.000000e+00 2018-01-01 NaN std 2.664071e+02 4.578614e+03 NaT NaN
>>> df.aggregate(['sum', 'min', 'std'], numeric_only=None) AvgTicketPrice DistanceKilometers timestamp DestCountry sum 8.204365e+06 9.261629e+07 NaT NaN min 1.000205e+02 0.000000e+00 2018-01-01 NaN std 2.664071e+02 4.578614e+03 NaT NaN