专利分析工具概述(8)文本挖掘

Golden Grape

2019-12-07 12:08

源文件

那里有很多文本挖掘工具，其中许多是免费或开源的。这是我们发现的一些。

Word Trees

词树可用于对文本（如权利要求树）进行详细调查。前两个示例摘自WIPO专利态势报告准备指南。

Google Word Trees

Google Developers网站上的上提供了有关使用Javascript生成词树的说明。

Jason Davies 词树生成器.

R 和 `tm` 包

R中的tm软件包可访问多种文本挖掘工具。有关软件包开发的介绍，请参见这里。在R-bloggers上，还可以使用许多非常有用的教程进行文本挖掘。有关分步方法的信息，请参见Graham Williams (2014) Hands-On Data Science with R Text Mining。

有关R中文本挖掘工具的最新概述，请参阅Fridolin Wild's (2014) CRAN Task View: Natural Language Processing 其中列出了各种软件包及其用途。

请注意，许多文本挖掘程序包通常将重点放在生成单词上。对于非学术目的，这不是很有用。专利分析通常集中在提取和分析短语（ngram）上。因此，应该寻找可提取短语并允许对其进行深度询问的工具。

Python 和文本挖掘

使用Python进行文本挖掘有很多资源。请注意，就文本挖掘资源而言，Python可能远远领先于R（直到我们被证明是错误的）。但是，请注意，Python和R越来越多地结合使用以发挥其不同的优势。这里有一些资源可以帮助您入门。

The Natural Language Toolkit (NTLK)

NTLK似乎是领先的软件包，几乎可以满足所有主要需求。随附的书籍《使用Python进行自然语言处理》也可能值得考虑。 Python Textmining软件包。这比巨型NTLK软件包要简单，但可能适合您的需求。

该详细教程对于希望开始使用Python的NTLK包的用户可能会有所帮助。

其他文本挖掘资源

有关更多的文本挖掘工具，请参阅20个最佳免费文本挖掘软件工具。

对于其他免费文本挖掘工具，请尝试一些语料库语言学网站，例如The Linguist List，此列表(译者注: 此链接已失效, archive上有缓存 )或此列表。请记住，这些工具中的大多数都是为语言学家而设计的，并且可能有很多工具可能很古老了。但是，即使是简单的一致性工具，例如AntConc ，也可以在过滤大量文档以提取有用信息方面发挥重要作用。

某些分析工具，例如VantagePoint from Search Technology Inc. 已专门开发和改编用于处理专利数据，并提供了vpinstitute。还有许多可用于专利分析的定性数据分析软件工具，例如MAXQDA, NVivo, Atlas TI 和 QDA Miner。但是，QDA Miner Lite（仅限Windows）除外，尽管它们提供免费试用，但它们不属于我们关注的免费或开源软件类别。

专利分析工具概述(8)文本挖掘

Jigsaw Visual Analytics

Weka

Word Trees

Google Word Trees

KH Coder

R 和 `tm` 包

Python 和文本挖掘

The Natural Language Toolkit (NTLK)

其他文本挖掘资源

Jigsaw Visual Analytics

Weka

Word Trees

Google Word Trees

KH Coder

R 和 tm 包

Python 和文本挖掘

The Natural Language Toolkit (NTLK)

其他文本挖掘资源

R 和 `tm` 包