项目编号m02-2007-016
项目名称TRS文本挖掘软件
完成单位北京拓尔思信息技术有限公司
完成人员肖诗斌 王洪俊 孙丽华
肖 锋 吕学强 范彦革
王弘蔚
项目简介     在当今信息爆炸式增长的态势下,国际上很多国家都抓紧对文本处理技术的研究,以期能对“堆积如山”的信息进行有效的过滤、开发和利用,提取和发现具有指导意义的知识。

    在中国,北京拓尔思信息技术有限公司(简称TRS公司)有效结合自然语言处理技术、统计分析和机器学习技术以及语言知识库,推出了国内外第一个实用化的中文文本挖掘软件产品—TRS文本挖掘软件(TRS CKM)。解决了中文文本挖掘技术一直停留在实验室阶段的境地,实现了中文文本挖掘的商业化应用。极大的推动了中文信息处理技术在实用化方面的进步。

    TRS CKM的主要功能是实现高效稳定、功能完备的文本挖掘底层算法,为上层中文文本挖掘应用提供已封装的方便易用的开发调用接口或服务。目前,TRS CKM涵盖了TRS文本挖掘十大功能选件,具体包括:文本分类;文本相似性检索;文本摘要和主题词提取;文本信息过滤;拼音检索;相关短语检索;(政治)常识校对;文本聚类;文本分词;文本信息抽取。

    在实际的推广和应用中,TRS CKM被应用到了多个领域,如:信息资源开发利用、智能搜索引擎 、情报分析和服务 、信息安全、企业知识门户、数字图书馆 、电子商务等。目前主要突出体现出如下应用价值:

    1) 为海量非结构化资源提供了智能加工工具,提高信息资源加工效率;同时,可为政务信息资源服务的使用者提供智能检索和挖掘分析的手段,放大政务信息资源增值效用。

    2) TRS CKM在国家中央政府门户搜索引擎等多个行业垂直搜索引擎服务的建设中,获得了成功应用,可以大大提高垂直搜索引擎服务的智能化、行业化和知识化水平。

    3) TRS CKM为相关机构从事内容安全管理提供了智能化的技术,可以降低监管成本,提高监管效率。

    4) TRS CKM可以作为信息资源利用和知识管理应用的基础构件,用于企业信息资源的加工、分析和服务,为企业提供先进智能的文本挖掘技术。

    5) TRS CKM能够支持智能化自动化的信息增值加工,提供实现智能检索和知识关联的文本挖掘技术,可以帮助内容提供商降低信息增值加工成本,拓展智能服务。

关 闭