博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
第十二次作业——朴素贝叶斯应用:垃圾邮件分类
阅读量:5281 次
发布时间:2019-06-14

本文共 1804 字,大约阅读时间需要 6 分钟。

import csv# 读数据file_path = r'G:\PyCharm\SMSSpamCollectionjsn.txt'smsData = open(file_path,'r',encoding='utf-8')E_data = []E_target = []csv_reader = csv.reader(smsData,delimiter='\t')# 将数据分别存入数据列表和目标分类列表for line in csv_reader:    E_data.append(line[1])    E_target.append(line[0])smsData.close()#数据预处理:处理数据E_data_clear = []# 把无意符号替换成空格for line in E_data:    # 去掉无意义符号并按空格分词    for char in line:        if char.isalpha() is False:            # 不是字母,发生替换操作:            newString = line.replace(char," ")    tempList = newString.split(" ")    # 将处理好后的一行数据追加到存放干净数据的列表    E_data_clear.append(tempList)# 去掉长度不大于3的词和没有语义的词Email_data_clear2 = []for line in E_data_clear:    tempList = []    for word in line:        if word != '' and len(word) > 3 and word.isalpha():            tempList.append(word)    tempString = ' '.join(tempList)    Email_data_clear2.append(tempString)Email_data_clear = Email_data_clear2# 将数据分为训练集和测试集from sklearn.model_selection import train_test_splitx_train,x_test,y_train,y_test = train_test_split(Email_data_clear2,E_target,test_size=0.3,random_state=0,stratify=E_target)# 将其 转化为向量from sklearn.feature_extraction.text import TfidfVectorizervectorizer = TfidfVectorizer()X_train = vectorizer.fit_transform(x_train)X_test = vectorizer.transform(x_test)# 观察向量import numpy as npX_train = X_train.toarray()X_test = X_test.toarray()X_train.shape# 输出不为0的列for i in range(X_train.shape[0]):    for j in range(X_train.shape[1]):        if X_train[i][j] != 0:            print(i,j,X_train[i][j])

# 建立模型from sklearn.naive_bayes import GaussianNBclf = GaussianNB()module = clf.fit(X_train,y_train)y_predict = module.predict(X_test)# 输出模型分类from sklearn.metrics import classification_reportcr = classification_report(y_predict,y_test)print(cr)

转载于:https://www.cnblogs.com/a-zhuanger/p/10075100.html

你可能感兴趣的文章
CF461B Appleman and Tree
查看>>
CF219D Choosing Capital for Treeland
查看>>
杂七杂八的小笔记本
查看>>
51Nod1353 树
查看>>
CF1215E Marbles
查看>>
BZOJ2339 HNOI2011卡农(动态规划+组合数学)
查看>>
octave基本操作
查看>>
axure学习点
查看>>
WPF文本框只允许输入数字[转]
查看>>
dom4j 通用解析器,解析成List<Map<String,Object>>
查看>>
第一个项目--用bootstrap实现美工设计的首页
查看>>
使用XML传递数据
查看>>
TYVJ.1864.[Poetize I]守卫者的挑战(概率DP)
查看>>
0925 韩顺平java视频
查看>>
iOS-程序启动原理和UIApplication
查看>>
mysql 8.0 zip包安装
查看>>
awk 统计
查看>>
模板设计模式的应用
查看>>
实训第五天
查看>>
平台维护流程
查看>>