sas随机抽样
- 作者: 天堂蒜薹之歌
- 来源: 51数据库
- 2020-09-27
在构建数据挖掘模型过程中,有时我们无法对所有的整体进行全面研究,有时我们希望将整体划分为训练集、验证集、测试集三份用于不同目的的数据集,甚至在K-折交叉验证中,我们需要把样本随机的划分为K份数据子集。本文介绍SAS的SURVEYSELECT过程和RANUNI函数在随机抽样方面的应用。
0、读入数据集,并对数据集按分层变量进行排序。本文数据集采用students.txt:
* 从students.txt读入文件到数据集students;
DATA students;
INFILE ‘C:\students.txt’;
INPUT id class $ gender $ math english history chem phys literat;
RUN;
* 查看数据集内容;
PROC PRINT DATA = students;
TITLE ‘Students”s class gender & scores’;
RUN;
* 对二维列联表(班级、性别)进行频数统计;
PROC FREQ DATA = students;
TABLES class * gender /NOPERCENT NOR
0、读入数据集,并对数据集按分层变量进行排序。本文数据集采用students.txt:
* 从students.txt读入文件到数据集students;
DATA students;
INFILE ‘C:\students.txt’;
INPUT id class $ gender $ math english history chem phys literat;
RUN;
* 查看数据集内容;
PROC PRINT DATA = students;
TITLE ‘Students”s class gender & scores’;
RUN;
* 对二维列联表(班级、性别)进行频数统计;
PROC FREQ DATA = students;
TABLES class * gender /NOPERCENT NOR
推荐阅读
