文本分类问题相关原理知识
2019-07-24 09:28:31来源:博客园 阅读 ()
1 词袋模型
from sklearn import feature_extraction
f = feature_extraction.text.CountVectorizer()
CountVectorizer将文本中的词转化为词频矩阵,数值为0/1,是关键字则为1。
from sklearn.feature_extraction.text import CountVectorizer corpus = [ 'This is the first document.', 'This is the second second document.', 'And the third one.', 'Is this the first document?', ] '''CountVectorizer是通过fit_transform函数将文本中的词语转换为词频矩阵 get_feature_names()可看到所有文本的关键字 vocabulary_可看到所有文本的关键字和其位置 toarray()可看到词频矩阵的结果''' vectorizer = CountVectorizer() count = vectorizer.fit_transform(corpus) print(vectorizer.get_feature_names()) print(vectorizer.vocabulary_) print(count.toarray()) print(count.toarray().shape) #词频矩阵:向量长度(横向每一行):所有关键字的数量(设为m) 数值:0/1数值==出现、未出现 纵向长度:文档数量 #需要注意关键字又有自己的位置,所以文档中的某一句有m长,该句中某个位置上是关键字的会标注为1. ['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this'] {'this': 8, 'is': 3, 'the': 6, 'first': 2, 'document': 1, 'second': 5, 'and': 0, 'third': 7, 'one': 4} [[0 1 1 1 0 0 1 0 1] [0 1 0 1 0 2 1 0 1] [1 0 0 0 1 0 1 1 0] [0 1 1 1 0 0 1 0 1]] (4, 9)
原文链接:https://www.cnblogs.com/DHuifang004/p/11224763.html
如有疑问请与原作者联系
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
- xpath+多进程爬取八零电子书百合之恋分类下所有小说。 2019-08-13
- python常见面试题15道 (附答案)你必须得会 2019-07-24
- Python进阶:程序界的垃圾分类回收 2019-07-24
- python 之网络编程(基于TCP协议Socket通信的粘包问题及解决 2019-07-24
- 20190712-01矩阵的解题思考 2019-07-24
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash