当前位置：网站首页 >> 手游 > >> 正文

来源：哔哩哔哩时间：2023-05-29 17:14:50

随机抽样，是统计学中常用的一种方法，它可以帮助我们从大量的数据中快速地构建出一组数据分析模型。在 Pandas 中，如果想要对数据集进行随机抽样，需要使用 sample() 函数。

知识点：
Pandas中的sample()函数可以从数据集中随机抽取行或列，可以用于数据集的随机采样、创建数据集的随机子集、模型评估等场景。下面我们来详细介绍一下sample()函数的用法。

(资料图)
sample() 函数的语法格式如下：

参数说明：
n: 抽取的行数或列数。
frac: 抽取的行数或列数相对于数据集的比例，范围在0到1之间。
replace: 是否允许重复抽取，默认为False。
weights: 可以为每个行或列设置权重，以便更有可能抽取它们。
random_state: 随机数种子，以确保每次抽样结果的一致性。

案例如下：

在这个例子中，我们首先使用p字典构造一个数据集。

然后，我们使用sample()函数从数据集中随机抽取一些行或列，并将结果存储在sample_df变量中。

在第一个例子中，我们抽取了2行数据；在第二个例子中，我们抽取了20%的行；在第三个例子中，我们允许重复抽取；在第四个例子中，我们为每个行设置了不同的权重；在第五个例子中，我们设置了随机数种子，以确保每次抽样结果的一致性。

代码如下：

输出结果如下：

精彩推荐

数据规约之简单随机抽样