DataFrame#

构造函数#

DataFrame([es_client, es_index_pattern, ...])

二维可变大小的、可能是异构的表格数据结构,带有标记的轴(行和列),引用存储在 Elasticsearch 索引中的数据。

属性和基础数据#

DataFrame.index

返回 eland 索引,引用 Elasticsearch 字段以索引 DataFrame/Series

DataFrame.columns

DataFrame 的列标签。

DataFrame.dtypes

返回 DataFrame 中的 pandas dtypes。

DataFrame.select_dtypes([include, exclude])

根据列 dtypes 返回 DataFrame 列的子集。

DataFrame.values

未实现。

DataFrame.empty

确定 DataFrame 是否为空。

DataFrame.shape

返回一个元组,表示 DataFrame 的维度。

DataFrame.ndim

根据 DataFrame 的定义返回 2

DataFrame.size

返回一个 int,表示此对象中的元素数量。

索引、迭代#

DataFrame.head([n])

返回前 n 行。

DataFrame.keys()

返回列

DataFrame.tail([n])

返回最后 n 行。

DataFrame.get(key[, default])

从对象中获取给定键(例如:DataFrame 列)的项目。

DataFrame.query(expr)

使用布尔表达式查询 DataFrame 的列。

DataFrame.sample([n, frac, random_state])

返回 n 个随机样本行或指定行数的指定分数

DataFrame.iterrows()

以 (index, pandas.Series) 对的形式迭代 eland.DataFrame 行。

DataFrame.itertuples([index, name])

以 namedtuples 的形式迭代 eland.DataFrame 行。

函数应用、GroupBy 和窗口#

注意

使用基数 (count) 的 Elasticsearch 聚合是使用 HyperLogLog++ 算法 的精确近似值,因此可能不完全准确。

DataFrame.agg(func[, axis, numeric_only])

在指定轴上使用一个或多个操作进行聚合。

DataFrame.aggregate(func[, axis, numeric_only])

在指定轴上使用一个或多个操作进行聚合。

DataFrame.groupby([by, dropna])

用于执行 groupby 操作

DataFrameGroupBy(by, query_compiler[, dropna])

它保存了 eland.DataFrame.groupby() 的所有 groupby 方法

DataFrameGroupBy.agg(func[, numeric_only])

用于 groupby 和聚合

DataFrameGroupBy.aggregate(func[, numeric_only])

用于 groupby 和聚合

DataFrameGroupBy.count()

计算每个组的计数值。

DataFrameGroupBy.mad([numeric_only])

计算每个组的中位数绝对偏差值。

DataFrameGroupBy.max([numeric_only])

计算每个组的最大值。

DataFrameGroupBy.mean([numeric_only])

计算每个组的平均值。

DataFrameGroupBy.median([numeric_only])

计算每个组的中位数。

DataFrameGroupBy.min([numeric_only])

计算每个组的最小值。

DataFrameGroupBy.nunique()

计算每个组的 nunique 值。

DataFrameGroupBy.std([numeric_only])

计算每个组的标准差值。

DataFrameGroupBy.sum([numeric_only])

计算每个组的总和值。

DataFrameGroupBy.var([numeric_only])

计算每个组的方差值。

DataFrameGroupBy.quantile([q])

用于 groupby 并计算给定 DataFrame 的分位数。

GroupBy(by, query_compiler[, dropna])

eland.DataFrame.groupby() 的调用的基类

计算/描述性统计#

DataFrame.count()

计算每列的非 NA 单元格数。

DataFrame.describe()

生成描述性统计信息,总结数据集分布的集中趋势、离散度和形状,排除 NaN 值。

DataFrame.info([verbose, buf, max_cols, ...])

打印 DataFrame 的简要摘要。

DataFrame.max([numeric_only])

返回每个数字列的最大值。

DataFrame.mean([numeric_only])

返回每个数字列的平均值。

DataFrame.min([numeric_only])

返回每个数字列的最小值。

DataFrame.median([numeric_only])

返回每个数字列的中位数。

DataFrame.mad([numeric_only])

返回每个数字列的标准差。

DataFrame.std([numeric_only])

返回每个数字列的标准差。

DataFrame.var([numeric_only])

返回每个数字列的方差。

DataFrame.sum([numeric_only])

返回每个数字列的总和。

DataFrame.nunique()

返回每个字段的基数。

DataFrame.mode([numeric_only, dropna, es_size])

计算 DataFrame 的众数。

DataFrame.quantile([q, numeric_only])

用于计算给定 DataFrame 的分位数。

DataFrame.idxmax([axis])

返回请求轴上最大值的第一次出现的索引。

DataFrame.idxmin([axis])

返回请求轴上最小值的第一次出现的索引。

重新索引 / 选择 / 标签操作#

DataFrame.drop([labels, axis, index, ...])

返回一个新对象,其中请求轴上的标签已删除。

DataFrame.filter([items, like, regex, axis])

根据指定的索引标签对 DataFrame 行或列进行子集化。

绘图#

DataFrame.hist([column, by, grid, ...])

制作 DataFrame 的直方图。

Elasticsearch 函数#

DataFrame.es_info()

eland DataFrame 内部结构的调试摘要。

DataFrame.es_match(text, *[, columns, ...])

使用 Elasticsearch matchmatch_phrasemulti_match 查询过滤数据,具体取决于给定的参数和列。

DataFrame.es_query(query)

将 Elasticsearch DSL 查询应用于当前 DataFrame。

DataFrame.es_dtypes

返回索引中的 Elasticsearch 数据类型。

序列化 / 输入输出 / 转换#

DataFrame.info([verbose, buf, max_cols, ...])

打印 DataFrame 的简要摘要。

DataFrame.to_numpy()

未实现。

DataFrame.to_csv([path_or_buf, sep, na_rep, ...])

将 Elasticsearch 数据写入逗号分隔值 (csv) 文件。

DataFrame.to_html([buf, columns, col_space, ...])

将 Elasticsearch 数据呈现为 HTML 表格。

DataFrame.to_json([path_or_buf, orient, ...])

将 Elasticsearch 数据写入 json 文件。

DataFrame.to_string([buf, columns, ...])

将 DataFrame 呈现为控制台友好的表格输出。

DataFrame.to_pandas([show_progress])

将 eland.Dataframe 转换为 pandas.Dataframe 的实用程序方法。