使用weka的select attribute

2023-08-07 22:50:02

原文：http://blog.csdn.net/anqiang1984/article/details/4048177

package com.csdn;

import java.io.File;

import weka.attributeSelection.InfoGainAttributeEval;

import weka.attributeSelection.Ranker;

import weka.classifiers.Classifier;

import weka.core.Instances;

import weka.core.converters.ArffLoader;

public class SimpleAttributeSelection {

public static void main(String[] args) {

Instances trainIns = null;

try{

File file= new File("C://Program Files//Weka-3-6//data//segment-challenge.arff");

ArffLoader loader = new ArffLoader();

loader.setFile(file);

trainIns = loader.getDataSet();

//在使用样本之前一定要首先设置instances的classIndex，否则在使用instances对象是会抛出异常

trainIns.setClassIndex(trainIns.numAttributes()-1);

Ranker rank = new Ranker();

InfoGainAttributeEval eval = new InfoGainAttributeEval();

eval.buildEvaluator(trainIns);

//System.out.println(rank.search(eval, trainIns));

int[] attrIndex = rank.search(eval, trainIns);

StringBuffer attrIndexInfo = new StringBuffer();

StringBuffer attrInfoGainInfo = new StringBuffer();

attrIndexInfo.append("Selected attributes:");

attrInfoGainInfo.append("Ranked attributes:/n");

for(int i = 0; i < attrIndex.length; i ++){

attrIndexInfo.append(attrIndex[i]);

attrIndexInfo.append(",");

attrInfoGainInfo.append(eval.evaluateAttribute(attrIndex[i]));

attrInfoGainInfo.append("/t");

attrInfoGainInfo.append((trainIns.attribute(attrIndex[i]).name()));

attrInfoGainInfo.append("/n");

}

System.out.println(attrIndexInfo.toString());

System.out.println(attrInfoGainInfo.toString());

}catch(Exception e){

e.printStackTrace();

}

在这个实例中，我用了InfoGain的属性选择类来进行特征选择。InfoGainAttributeEval主要是计算出各个属性的InfoGain信息。同时在weka中为属性选择方法配备的有搜索算法（seacher method），在这里我们用最简单的Ranker类。它对属性进行了简单的排序。在Weka中我们还可以对搜索算法设置一些其它的属性，例如设置搜索的属性集，阈值等等，如果有需求大家可以进行详细的设置。

在最后我们打印了一些结果信息，打印了各个属性的InfoGain的信息。

使用weka的select attribute

继续阅读

weka算法系列（cluster）——Canopy（1）

简单文档分类——朴素贝叶斯算法朴素贝叶斯算法简单文档分类实例步骤总结朴素贝叶斯分类调用(sklearn)

【分类算法】什么是分类算法定义分类与聚类分类过程方法

分类算法的评价指标

K-近邻算法以及图像分类应用

weka之NB算法

weka中分类器算法

在weka中集成自己的算法

【多变量线性回归】学习记录序思路实现终

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

【趋高机器视觉】机器视觉技术原理解析及解决方案

吴恩达 coursera ML 第七课总结+作业答案前言目录正文模型表示作业答案

XGBoost Plotting API以及GBDT组合特征实践 XGBoost Plotting API以及GBDT组合特征实践

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告