在spark上做简单的文本分类(python)

æ°æ®ééçæ¯20_newsgroupsï¼ææ7ï¼3åçè®ç»éåæµè¯éã

æ»çæµç¨å¦ä¸ï¼

åå§å

# è®¾ç½®è®ç»éï¼æµè¯éè·¯å¾ã
trainPath = "hdfs:///user/yy/20_newsgroups/train/*"
testPath = "hdfs:///user/yy/20_newsgroups/test/*"

# åç±»æ¶ï¼æ°é»ä¸»é¢éè¦è½¬æ¢ææ°åï¼labelsDictå°ä¸»é¢è½¬æ¢ææ°å
labelsDict = {'alt.atheism':, 'comp.graphics':, 'comp.os.ms-windows.misc':,\
              'comp.sys.ibm.pc.hardware':, 'comp.sys.mac.hardware':, 'comp.windows.x':,\
              'misc.forsale':, 'rec.autos':, 'rec.motorcycles':, 'rec.sport.baseball':,\
              'rec.sport.hockey':, 'sci.crypt':, 'sci.electronics':, 'sci.med':,\
              'sci.space':, 'soc.religion.christian':, 'talk.politics.guns':,\
              'talk.politics.mideast':, 'talk.politics.misc':, 'talk.religion.misc':}

# keyTolabelsåå°æ°ååè½¬æ¢åä¸»é¢ï¼ä¸»è¦æ¯æ¹ä¾¿èªå·±çç
keyTolabels = {:'alt.atheism', :'comp.graphics', :'comp.os.ms-windows.misc',\
              :'comp.sys.ibm.pc.hardware', :'comp.sys.mac.hardware', :'comp.windows.x',\
              :'misc.forsale', :'rec.autos', :'rec.motorcycles', :'rec.sport.baseball',\
              :'rec.sport.hockey', :'sci.crypt', :'sci.electronics', :'sci.med',\
              :'sci.space', :'soc.religion.christian', :'talk.politics.guns',\
              :'talk.politics.mideast', :'talk.politics.misc', :'talk.religion.misc'}

é¢å¤çå½æ°

在spark上做简单的文本分类(python)

def tokenlize(doc):
    import nltk, re
    from nltk.corpus import stopwords
    from nltk.corpus import wordnet

    r = re.compile(r'[\w]+') # ä»¥éåæ¯æ°ååç¬¦æ¥è¿è¡åè¯
    my_stopwords = nltk.corpus.stopwords.words('english')
    porter = nltk.PorterStemmer()

    newdoc = []
    for word in nltk.regexp_tokenize(doc, r): # åè¯
        newWord = porter.stem(word.lower()) # è¯å¹²æå
        if newWord in my_stopwords: # å»åç¨è¯
            continue
        tokenSynsets = wordnet.synsets(newWord)
        newdoc.append(newWord if tokenSynsets == [] else tokenSynsets[].lemma_names()[]) # åä¹è¯æ¿æ¢
    return newdoc

å¯¼å¥è®ç»é

trainTokens = sc.wholeTextFiles(trainPath)\
                .map(lambda (fileName, doc): doc)\
                .map(lambda doc: tokenlize(doc))

æå»ºåè¯æ å°åå¸è¡¨ï¼tfidfæ¨¡å

from pyspark.mllib.feature import HashingTF
hasingTF = HashingTF( ** )

# å°è®ç»éæ¯ä¸ªææ¡£é½æ å°ä¸ºtfåé
trainTf = hasingTF.transform(trainTokens)
trainTf.cache()

# æå»ºIDFæ¨¡åï¼è®ç»éåæµè¯éé½ç¨å®
from pyspark.mllib.feature import IDF
idf = IDF().fit(trainTf)

# å°è®ç»éæ¯ä¸ªtfåéè½¬æ¢ä¸ºtfidfåé
trainTfidf = idf.transform(trainTf)
trainTfidf.cache()

æ æ³¨è®ç»é

# ä¸ºè®ç»éæ æ³¨ï¼æä¸ºæç»å¯ç¨çè®ç»éï¼æ¯ä¸ªæ ·æ¬é½éè¦æ¾å¨LabeledPointé
from pyspark.mllib.regression import LabeledPoint
trainLabels = sc.wholeTextFiles(trainPath)\
                .map(lambda (path, doc): path.split('/')[-])
train = trainLabels.zip(trainTfidf)\
                   .map(lambda (topic, vector): LabeledPoint(labelsDict[topic], vector))
train.cache()

å¯¼å¥æµè¯é

# å¯¼å¥æµè¯éå¹¶å®æé¢å¤ç
testTokens = sc.wholeTextFiles(testPath)\
               .map(lambda (fileName, doc): doc)\
               .map(lambda doc: tokenlize(doc))

å°æµè¯éè½¬æ¢ætfidfåé

# å°æµè¯éæ¯ä¸ªææ¡£é½æ å°ä¸ºtfåéï¼åè®ç»éç¨çæ¯åä¸ä¸ªåå¸æ å°hasingTF
from pyspark.mllib.feature import HashingTF
testTf = hasingTF.transform(testTokens)

# å°æµè¯éæ¯ä¸ªtfåéè½¬æ¢ä¸ºtfidfåéï¼åè®ç»éç¨çæ¯åä¸ä¸ªIDFæ¨¡åidf
from pyspark.mllib.feature import IDF
testTfidf = idf.transform(testTf)

æ æ³¨æµè¯é

# ä¸ºæµè¯éæ æ³¨ï¼æä¸ºæç»å¯ç¨ä¸æµè¯çæµè¯é
from pyspark.mllib.regression import LabeledPoint
testLabels = sc.wholeTextFiles(testPath)\
               .map(lambda (path, doc): path.split('/')[-])

test = testLabels.zip(testTfidf)\
                 .map(lambda (topic, vector): LabeledPoint(labelsDict[topic], vector))
testCount = test.count()

è®ç»æ´ç´ è´å¶æ¯æ¨¡åå¹¶è®¡ç®åç¡®ç

from pyspark.mllib.classification import NaiveBayes
model = NaiveBayes.train(train, )

# è®¡ç®æµè¯çåç¡®ç
predictionAndLabel = test.map(lambda p: (model.predict(p.features), p.label))
accuracy =  * predictionAndLabel.filter(lambda x: x[] == x[]).count() / testCount
print accuracy

0.803298634582

è®ç»å¤åé»è¾åå½æ¨¡åå¹¶è®¡ç®åç¡®ç

from  pyspark.mllib.classification import LogisticRegressionWithLBFGS
lrModel = LogisticRegressionWithLBFGS.train(train, iterations=, numClasses=)

# è®¡ç®æµè¯çåç¡®ç
predictionAndLabel = test.map(lambda p: (lrModel.predict(p.features), p.label))
accuracy =  * predictionAndLabel.filter(lambda x: x[] == x[]).count() / testCount
print accuracy

0.812897120454

aTestText = """
Path: cantaloupe.srv.cs.cmu.edu!rochester!udel!bogus.sura.net!howland.reston.ans.net!ira.uka.de!math.fu-berlin.de!cs.tu-berlin.de!ossip
From: [emailÂ protected] (Ossip Kaehr)
Newsgroups: comp.sys.mac.hardware
Subject: SE/30 8bit card does not work with 20mb..
Date: 21 Apr 1993 23:22:22 GMT
Organization: Technical University of Berlin, Germany
Lines: 27
Message-ID: <[emailÂ protected]>
NNTP-Posting-Host: trillian.cs.tu-berlin.de
Mime-Version: 1.0
Content-Type: text/plain; charset=iso-8859-1
Content-Transfer-Encoding: 8bit
Summary: HELP!
Keywords: SE/30 MODE32 System7 PDS

Hello!

I have a SE/30 and a Generation Systems 8bit PDS card for a 17"
screen.
It worked great until I upgraded from 5 to 20 mb ram.
Now with Sys7.1 and MODE32 or 32enabler it does not boot..

a tech support person said the card does not support these 32bit
fixes.

BUT: when pressing the shift key while booting (when the ext. monitor
goes black after having been grey) the system  SOMETIMES boots properly!!
and then works ok with the 20mb and full graphics.

WHAT's HAPPENING???

Thanks a lot for any advice!!!
please answer by mail.

Ossip Kaehr
[emailÂ protected]
voice: +49.30.6226317
-- 
 __   --------------------------------------------------------------   __
/_/\  Ossip Kaehr   Hermannstrasse 32  D-1000 Berlin 44  Germany  /\_\
\_\/  Tel. +49.30.6223910 or 6218814     EMail [emailÂ protected]  \/_/
      --------------------------------------------------------------

"""

testTf = hasingTF.transform(tokenlize(aTestText)) # é¢å¤çåè½¬æ¢ä¸ºtfåé
testTfidf = idf.transform(testTf) # åè½¬æ¢ætfidfåé
print keyTolabels[lrModel.predict(testTfidf)] # é¢æµå¹¶è¾åºç»æ

'comp.sys.mac.hardware'

æ»ç»sparkä¸å¦ä½å°ææ¡£è½¬æ¢ætfidfåé

# æå»ºåå¸è¡¨ç¨äºæ å°ææåè¯
from pyspark.mllib.feature import HashingTF
hasingTF = HashingTF( ** ) # ç»´æ°éè¦å¤§äºä¸ååè¯çæ»æ°

# å°ææ¡£æ å°ä¸ºtfåéï¼è¿éçtrainTokensä¸ºrddç±»å
trainTf = hasingTF.transform(trainTokens)
testTf = hasingTF.transform(testTokens)

# æå»ºIDFæ¨¡åï¼è®ç»éåæµè¯éé½ç¨å®
from pyspark.mllib.feature import IDF
idf = IDF().fit(trainTf)

# å°tfåéè½¬æ¢ä¸ºtfidfåé
trainTfidf = idf.transform(trainTf)
testTfidf = idf.transform(testTf)

ç¸å³éè¯»

https://en.wikipedia.org/wiki/Tf%E2%80%93idf

https://en.wikipedia.org/wiki/Natural_Language_Toolkit

在spark上做简单的文本分类(python)

åå§å

é¢å¤çå½æ°

å¯¼å¥è®ç»é

æå»ºåè¯æ å°åå¸è¡¨ï¼tfidfæ¨¡å

æ æ³¨è®ç»é

å¯¼å¥æµè¯é

å°æµè¯éè½¬æ¢ætfidfåé

æ æ³¨æµè¯é

è®ç»æ´ç´ è´å¶æ¯æ¨¡åå¹¶è®¡ç®åç¡®ç

è®ç»å¤åé»è¾åå½æ¨¡åå¹¶è®¡ç®åç¡®ç

æ»ç»sparkä¸å¦ä½å°ææ¡£è½¬æ¢ætfidfåé

ç¸å³éè¯»

继续阅读

TestLink导出用例转换工具(XML2Excel)

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Cloud Studio初体验

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入

在spark上做简单的文本分类(python)

åå§å

é¢å¤çå½æ°

å¯¼å ¥è®­ç»é

æå»ºåè¯æ å°åå¸è¡¨ï¼tfidfæ¨¡å

æ æ³¨è®­ç»é

å¯¼å ¥æµè¯é

å°æµè¯éè½¬æ¢ætfidfåé

æ æ³¨æµè¯é

è®­ç»æ´ç´ è´å¶æ¯æ¨¡åå¹¶è®¡ç®åç¡®ç

è®­ç»å¤å é»è¾åå½æ¨¡åå¹¶è®¡ç®åç¡®ç

æ»ç»sparkä¸å¦ä½å°ææ¡£è½¬æ¢ætfidfåé

ç¸å ³é è¯»

继续阅读

åå§å

é¢å¤çå½æ°

å¯¼å¥è®ç»é

æå»ºåè¯æ å°åå¸è¡¨ï¼tfidfæ¨¡å

æ æ³¨è®ç»é

å¯¼å¥æµè¯é

å°æµè¯éè½¬æ¢ætfidfåé

æ æ³¨æµè¯é

è®ç»æ´ç´ è´å¶æ¯æ¨¡åå¹¶è®¡ç®åç¡®ç

è®ç»å¤åé»è¾åå½æ¨¡åå¹¶è®¡ç®åç¡®ç

æ»ç»sparkä¸å¦ä½å°ææ¡£è½¬æ¢ætfidfåé

ç¸å³éè¯»