聪明文档网

中文文本分类语料

文本自动分类就是用电脑对文本按照一定的分类体系或标准进行自动分类标记。

文本分类问题与其它分类问题没有本质上的区别，其方法可以归结为根据待分类数据的某些特征来进行匹配，当然完全的匹配是不太可能的，因此必须（根据某种评价标准）选择最优的匹配结果，从而完成分类。现如今，统计学习方法已经成为了文本分类领域绝对的主流。

统计学习方法需要一批由人工进行了准确分类的文档作为学习的材料（称为训练集，注意由人分类一批文档比从这些文档中总结出准确的规则成本要低得多），计算机从这些文档中挖掘出一些能够有效分类的规则，这个过程被形象的称为训练，而总结出的规则集合常常被称为分类器。训练完成之后，需要对计算机从来没有见过的文档进行分类时，便使用这些分类器来进行。

下面提供一些网上能下载到的中文的好语料，供研究人员学习使用。

1.中科院自动化所的中英文新闻语料库 http://www.datatang.com/data/13484

中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。英语新闻分类语料库为Reuters-21578的ModApte版本。

2.搜狗的中文新闻语料库 http://www.sogou.com/labs/dl/c.html

包括搜狐的大量新闻语料与对应的分类信息。有不同大小的版本可以下载。

3.李荣陆老师的中文语料库 http://www.datatang.com/data/11968

压缩后有240M大小

4.谭松波老师的中文文本分类语料 http://www.datatang.com/data/11970

不仅包含大的分类，例如经济、运动等等，每个大类下面还包含具体的小类，例如运动包含篮球、足球等等。能够作为层次分类的语料库，非常实用。

5.网易分类文本数据 http://www.datatang.com/data/11965

包含运动、汽车等六大类的4000条文本数据。

6.中文文本分类语料 http://www.datatang.com/data/11963

包含Arts、Literature等类别的语料文本。

7.更全的搜狗文本分类语料 http://www.sogou.com/labs/dl/c.html

搜狗实验室发布的文本分类语料，有不同大小的数据版本供免费下载

8.2002年中文网页分类训练集 http://www.datatang.com/data/15021

2002年秋天北京大学网络与分布式实验室天网小组通过动员不同专业的几十个学生，人工选取形成了一个全新的基于层次模型的大规模中文网页样本集。它包括11678个训练网页实例和3630个测试网页实例，分布在11个大类别中。

《中文文本分类语料.doc》

将本文的Word文档下载，方便收藏和打印