专利分析工具概述(8)文本挖掘
那里有很多文本挖掘工具,其中许多是免费或开源的。 这是我们发现的一些。
Jigsaw Visual Analytics
用于探索和理解文档集合。
Weka
基于Java的文本挖掘软件。
Word Trees
词树可用于对文本(如权利要求树)进行详细调查。 前两个示例摘自WIPO专利态势报告准备指南。
Google Word Trees
Google Developers网站上的上提供了有关使用Javascript生成词树的说明。
Jason Davies 词树生成器.
KH Coder
免费软件,可进行定量内容分析/文本挖掘。
R 和 tm
包
R中的tm
软件包可访问多种文本挖掘工具。 有关软件包开发的介绍,请参见这里。 在R-bloggers上,还可以使用许多非常有用的教程进行文本挖掘。 有关分步方法的信息,请参见Graham Williams (2014) Hands-On Data Science with R Text Mining。
有关R中文本挖掘工具的最新概述,请参阅Fridolin Wild's (2014) CRAN Task View: Natural Language Processing 其中列出了各种软件包及其用途。
请注意,许多文本挖掘程序包通常将重点放在生成单词上。 对于非学术目的,这不是很有用。 专利分析通常集中在提取和分析短语(ngram)上。 因此,应该寻找可提取短语并允许对其进行深度询问的工具。
Python 和文本挖掘
使用Python进行文本挖掘有很多资源。 请注意,就文本挖掘资源而言,Python可能远远领先于R(直到我们被证明是错误的)。 但是,请注意,Python和R越来越多地结合使用以发挥其不同的优势。 这里有一些资源可以帮助您入门。
The Natural Language Toolkit (NTLK)
NTLK似乎是领先的软件包,几乎可以满足所有主要需求。 随附的书籍《使用Python进行自然语言处理》也可能值得考虑。 Python Textmining软件包。 这比巨型NTLK软件包要简单,但可能适合您的需求。
该详细教程对于希望开始使用Python的NTLK包的用户可能会有所帮助。
其他文本挖掘资源
有关更多的文本挖掘工具,请参阅20个最佳免费文本挖掘软件工具 。
对于其他免费文本挖掘工具,请尝试一些语料库语言学网站,例如The Linguist List,此列表(译者注: 此链接已失效, archive上有缓存 )或此列表。 请记住,这些工具中的大多数都是为语言学家而设计的,并且可能有很多工具可能很古老了。但是,即使是简单的一致性工具,例如AntConc ,也可以在过滤大量文档以提取有用信息方面发挥重要作用。
某些分析工具,例如VantagePoint from Search Technology Inc. 已专门开发和改编用于处理专利数据,并提供了vpinstitute。 还有许多可用于专利分析的定性数据分析软件工具,例如MAXQDA, NVivo, Atlas TI 和 QDA Miner。 但是,QDA Miner Lite(仅限Windows)除外,尽管它们提供免费试用,但它们不属于我们关注的免费或开源软件类别。