中文文本挖掘

中文文本挖掘是一项综合技术,涉及数据挖掘、自然语言处理、计算语言学、信息检索及分类、知识管理等多个领域。将其用于文本数据中可以发现其隐含知识,即进行知识获取。中文文本挖掘出的数据源是文本数据,可以是Web页面、文本文件、Word和Excel文件、PDF文件等形式的电子文档。

在获取文本信息之前先对文本数据进行预处理,包括数据清洗,如去噪、去重;数据选择,即选择所需文本数据;文本切分,如中文分词、段落切分等。然后提取中文文本的特征信息,包括关键词(高频词)提取、术语(词组、短语)提取、基于模板的信息抽取、基于语义词典的概念转换、基于浅层句法分析的语法特征提取、基于浅层语义分析的语义特征提取、基于文本分类的文本类别信息获取等操作。

文本挖掘应用于以下领域:

»  客户模型分析:如自动分析客户反馈意见;
»  网上有害信息的发现、过滤与跟踪;
»  个性化信息服务:提供客户所需的信息服务和信息报告;
»  网络社区的巡检等。