文本数据随机抽样
最近在做KDD cup 1999的数据分析。其中有一条要求:
将标签为normal的数据记为正例,随机选取其他标为入侵数据。
那如何随机抽取呢?
这里我用的是excel来实现随机抽取。
KDD99数据集有42列数据。也就是A-AP列。为了简单,不用整个的数据集,选取40条数据来完成这个小例子。
1 从AR列插入函数rand,AR1=RAND()。下拉到AR40,其实就是有多少数据就下拉多少。

2.在第一行选取42列,来存放一会随机抽取出来的数据。即AS-CH
3.在AS1中插入函数 =index($A$1:$AP$40,rank(ar1,ar:ar),0)
A1:AP40是指整个数据集的范围。
rank函数这一堆是行,后面的0是列。把列设置为0是选取所有的列。

4.往下拖动,需要抽取多少数据就往下拉多少。