日志

Python机器学习与实战笔记之朴素贝叶斯分类

已有 1271 次阅读2016-7-3 06:33

1联合概率分布

p(x,y)=p(y)P(x|y) 或者p(A交B)=p(A)xp(B) p(A交B)不容易求,假设条件独立拆分成两个事件的乘积

2基本假设条件独立性

3利用贝叶斯定理 p(y|x)=P(x,y)/p(x)=p(y)P(x|y)/sum(y-i)[p(y)P(x|y)]

y=max p(y)P(x|y)

贝叶斯决策理论要求计算两个概率p1(x，y),p2(x, y):

如果p1(x，y) > p2 (x, y) , 那么属于类别1

如果p2(x, y) > pl(x, y) , 那么属于类别2

拉普拉斯估计

每一个似然函数分子+1对分母加上分子中加上1的总数

在朴素贝叶斯使用数值特征采用数值特征离散化,找见数据分布分割点切分

朴素贝叶斯分类器通常有两种实现方式：一种基于贝努利模型实现，一种基于多项式模型实现

这里采用前一种实现方式。该实现方式中并不考虑词在文档中出现的次数，只考虑出不出现，

因此在这个意义上相当于假设词是等权重的

导入指定目录下的py文件,先导入路径,后引入文件

import sys

sys.path.append("G:/python/pythonwork/ML")

import bayes

垃圾邮件分类示例

#coding:utf-8

from numpy import *

#创建了一些实验样本

#postingList,classVec=bayes.loadDataSet()

def loadDataSet():

postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],

['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],

['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],

['stop', 'posting', 'stupid', 'worthless', 'garbage'],

['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],

['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]

classVec = [0, 1, 0, 1, 0, 1]

return postingList, classVec

# 创建一个包含在所有文档中出现的不重复词的列表

#wordlist=bayes.createVocabList(postingList)

def createVocabList(dataSet):

vocabSet = set([]) # 创建一个空集

for document in dataSet:

vocabSet = vocabSet | set(document) # 创建两个集合的并集

return list(vocabSet)

# 将文档词条转换成词向量

#每个词的出现与否作为一个特征，被描述为词集模型setOfWordsmodel

#wordVec=bayes.setOfWords2Vec(wordlist,postingList[0])

def setOfWords2Vec(vocabList, inputSet):

returnVec = [0] * len(vocabList) # 创建一个其中所含元素都为0的向量

for word in inputSet:

if word in vocabList:

returnVec[vocabList.index(word)] = 1 #index函数在字符串里找到字符第一次出现的位置词集模型

#returnVec[vocabList.index(word)] += 1 # 文档的词袋模型每个单词可以出现多次

else:

print "the word: %s is not in my Vocabulary!" % word

return returnVec

#朴素贝叶斯分类器训练函数从词向量计算概率

#trainMatrix=[]

#for postinDoc in postingList:

# trainMatrix.append(bayes.setOfWords2Vec(wordlist,postinDoc))

#p0Vect, p1Vect, pAbusive=bayes.trainNB0(trainMatrix,classVec)

def trainNB0(trainMatrix, trainCategory):

numTrainDocs = len(trainMatrix) #输入的样本数

numWords = len(trainMatrix[0]) #每个样本的词的总数

pAbusive = sum(trainCategory)/float(numTrainDocs) #侮辱词条所占比例

# p0Num = zeros(numWords); p1Num = zeros(numWords)

#p0Denom = 0.0; p1Denom = 0.0

p0Num = ones(numWords); p1Num = ones(numWords) #避免一个概率值为0,最后的乘积也为0

p0Denom = 2.0; p1Denom = 2.0 #将所有词的出现数初始化为1，并将分母初始化为2

for i in range(numTrainDocs):

if trainCategory[i] == 1: #判读是否是侮辱词

p1Num += trainMatrix[i] #每个词出现的个数

p1Denom += sum(trainMatrix[i]) #词出现的总数

else:

p0Num += trainMatrix[i]

p0Denom += sum(trainMatrix[i])

# p1Vect = p1Num / p1Denom

#p0Vect = p0Num / p0Denom

p1Vect = log(p1Num / p1Denom)

p0Vect = log(p0Num / p0Denom) #避免下溢出或者浮点数舍入导致的错误下溢出是由太多很小的数相乘得到的

return p0Vect, p1Vect, pAbusive

#朴素贝叶斯分类器

def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):

p1 = sum(vec2Classify*p1Vec) + log(pClass1)

p0 = sum(vec2Classify*p0Vec) + log(1.0-pClass1)

if p1 > p0:

return 1

else: return 0

#测试朴素贝叶斯分类器

def testingNB():

listOPosts,listClasses = loadDataSet()

myVocabList = createVocabList(listOPosts)

trainMat=[]

for postinDoc in listOPosts:

trainMat.append(setOfWords2Vec(myVocabList, postinDoc))

p0V,p1V,pAb = trainNB0(array(trainMat),array(listClasses))

testEntry = ['love', 'my', 'dalmation']

thisDoc = array(setOfWords2Vec(myVocabList, testEntry))

print testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb)

testEntry = ['stupid', 'garbage']

thisDoc = array(setOfWords2Vec(myVocabList, testEntry))

print testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb)

#在词袋中，每个单词可以出现多次

def bagOfWords2VecMN(vocabList, inputSet):

returnVec = [0]*len(vocabList)

for word in inputSet:

if word in vocabList:

returnVec[vocabList.index(word)] += 1

return returnVec

#文本切分

def textParse(bigString): # input is big string, #output is word list

import re

listOfTokens = re.split(r'\W*', bigString)

return [tok.lower() for tok in listOfTokens if len(tok) > 2]

#对贝叶斯垃圾邮件分类器进行自动化处理

#bayes.spamTest()

def spamTest():

docList = [];

classList = [];

fullText = []

for i in range(1, 26):

wordList = textParse(open('G:/python/pythonwork/email/spam/%d.txt' % i).read())

docList.append(wordList)

fullText.extend(wordList)

classList.append(1)

wordList = textParse(open('G:/python/pythonwork/email/ham/%d.txt' % i).read())

docList.append(wordList)

fullText.extend(wordList)

classList.append(0)

vocabList = createVocabList(docList) # create vocabulary

trainingSet = range(50);

testSet = [] # create test set

for i in range(10):

randIndex = int(random.uniform(0, len(trainingSet)))

testSet.append(trainingSet[randIndex])

del (trainingSet[randIndex])

trainMat = [];

trainClasses = []

for docIndex in trainingSet: # train the classifier (get probs) trainNB0

trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))

trainClasses.append(classList[docIndex])

p0V, p1V, pSpam = trainNB0(array(trainMat), array(trainClasses))

errorCount = 0

for docIndex in testSet: # classify the remaining items

wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])

if classifyNB(array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:

errorCount += 1

print "classification error", docList[docIndex]

print 'the error rate is: ', float(errorCount) / len(testSet)

# return vocabList,fullText

#计算频率

def calcMostFreq(vocabList, fullText):

import operator

freqDict = {}

for token in vocabList:

freqDict[token] = fullText.count(token)

sortedFreq = sorted(freqDict.iteritems(), key=operator.itemgetter(1), reverse=True)

return sortedFreq[:30]

#calcMostFreq该函数遍历词汇表中的每个词并统计它在文本中出现的次数，然

#后根据出现次数从高到低对词典进行排序，最后返回排序最高的100个单词

def localWords(feed1, feed0):

import feedparser

docList = [];

classList = [];

fullText = []

minLen = min(len(feed1['entries']), len(feed0['entries']))

for i in range(minLen):

wordList = textParse(feed1['entries'][i]['summary'])

docList.append(wordList)

fullText.extend(wordList)

classList.append(1) # NY is class 1

wordList = textParse(feed0['entries'][i]['summary'])

docList.append(wordList)

fullText.extend(wordList)

classList.append(0)

vocabList = createVocabList(docList) # create vocabulary

top30Words = calcMostFreq(vocabList, fullText) # remove top 30 words

for pairW in top30Words:

if pairW[0] in vocabList: vocabList.remove(pairW[0])

trainingSet = range(2 * minLen);

testSet = [] # create test set

for i in range(20):

randIndex = int(random.uniform(0, len(trainingSet)))

testSet.append(trainingSet[randIndex])

del (trainingSet[randIndex])

trainMat = [];

trainClasses = []

for docIndex in trainingSet: # train the classifier (get probs) trainNB0

trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))

trainClasses.append(classList[docIndex])

p0V, p1V, pSpam = trainNB0(array(trainMat), array(trainClasses))

errorCount = 0

for docIndex in testSet: # classify the remaining items

wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])

if classifyNB(array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:

errorCount += 1

print 'the error rate is: ', float(errorCount) / len(testSet)

return vocabList, p0V, p1V

#返回排名最高的x个不同单词

def getTopWords(ny, sf):

import operator

vocabList, p0V, p1V = localWords(ny, sf)

topNY = [];

topSF = []

for i in range(len(p0V)):

if p0V[i] > -6.0: topSF.append((vocabList[i], p0V[i]))

if p1V[i] > -6.0: topNY.append((vocabList[i], p1V[i]))

sortedSF = sorted(topSF, key=lambda pair: pair[1], reverse=True)

print "SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**"

for item in sortedSF:

print item[0]

sortedNY = sorted(topNY, key=lambda pair: pair[1], reverse=True)

print "NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**"

for item in sortedNY:

print item[0]

路过

雷人

握手

鲜花

langke93的个人空间 https://www.aboutyun.com/?1415 [收藏] [复制] [分享] [RSS]

日志

Python机器学习与实战笔记之朴素贝叶斯分类

全部作者的其他最新日志

评论 (0 个评论)

langke93

推荐 /2