自然语言处理:经典的两个数据集和评价指标

THUCNews中文数据集

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档2.19 GB),均为UTF-8纯文本格式清华大学THUCTC项目组.在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。
alt
该数据集可在清华大学THUCTC项目组网页中下载。
在这里插入图片描述
填写完姓名、邮箱、等信息,遵守相关协议后,即可下载。
在这里插入图片描述
如果,你觉得这个数据集太大,还可以下载其数据子集:
https://pan.baidu.com/s/1hugrfRu 密码:qfud

“Github”.上也有相关的数据子集生成方法,以及基于CNN和RNN的文本分类。

IMDB英文数据集

IMDB是Internet Movie Database(互联网电影数据库)的缩写。IMDB也是美国的一个权威的电影网站,除了电影资料外,还给影片做了评分。
在这里插入图片描述
IMDB数据集,包含了25000条高极性的电影评论训练集,和25000条的测试集。是自然语言处理文本二分类问题的经典数据集。

该数据集可以从“相关网址”上直接下载,若用于科研等,请引用该作者的论文,遵守相关协议即可。
在这里插入图片描述

召回率、准确率、ROC曲线、AUC、PR曲线

对于这些概念的理解,我们首先来认识4个指标。

  1. TP(True Positive):将正类预测为正类
  2. TN(True Negative):将负类预测为负类
  3. False Positive(FP) : 将负类预测为了正类
  4. False Negative(FN) : 将正类预测为了负类
    对于上述四个指标,我们可以建立混淆度矩阵来进行表示。
    在这里插入图片描述
    对于分类模型,我们希望越准越好。对应到混淆矩阵中,TP与TN的数量越大越好,而FP与FN的数量越小越好。当我们得到了模型的混淆矩阵后,就需要去看有多少观测值在第二、四象限对应的位置,这里的数值越多越好;反之,在第一、三四象限对应位置出现的观测值越少越好。

准确率(Accuracy)
准确率指,所有判断正确的结果占总观测值的比重。
在这里插入图片描述
精确率(Precision)
精确率指,在所有预测为positive的结果中,预测正确的比重。
在这里插入图片描述
召回率(Recall)
召回率指,在所有真实值为positive的结果中,预测正确的比重。
在这里插入图片描述
F1值
F1值是精确率召回率调和平均数(各变量倒数算术平均数的倒数)
在这里插入图片描述
F1值的计算如下
在这里插入图片描述
ROC曲线、AUC、PR曲线
待续…

©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页