Skip to content
This repository has been archived by the owner on Oct 11, 2023. It is now read-only.

Commit

Permalink
2021-01-04 15:09:20
Browse files Browse the repository at this point in the history
  • Loading branch information
wizardforcel committed Jan 4, 2021
1 parent 6b42809 commit 6250aea
Show file tree
Hide file tree
Showing 8 changed files with 62 additions and 62 deletions.
56 changes: 28 additions & 28 deletions docs/1.md

Large diffs are not rendered by default.

14 changes: 7 additions & 7 deletions docs/2.md
Original file line number Diff line number Diff line change
Expand Up @@ -36,7 +36,7 @@

![Tweet](img/3529b4f55a52c83aaf242bd51bf5ca3a.jpg)

分词 tweets 涉及到保存话题标签和`@handle`,将表情符号(如:-)和 urls 分割为一个单元。`#MakeAMovieCold`标签应该是 1 个标记还是 4 个?虽然大多数研究论文对这一问题并没有给予太多的关注,而且事实上,许多分词决策往往是任意的,但是这些决策在实践中对准确性的影响要比公认的要大得多。通常被认为是预处理的繁琐工作,大多数开放源码 NLP 包为分词提供了合理的支持。示例 2-1 展示了来自 NLTK 和 SpaCy 的示例,这是两个用于文本处理的常用包。
分词 tweets 涉及到保存话题标签和`@handle`,将表情符号(如`:-)`)和 urls 分割为一个单元。`#MakeAMovieCold`标签应该是 1 个标记还是 4 个?虽然大多数研究论文对这一问题并没有给予太多的关注,而且事实上,许多分词决策往往是任意的,但是这些决策在实践中对准确性的影响要比公认的要大得多。通常被认为是预处理的繁琐工作,大多数开放源码 NLP 包为分词提供了合理的支持。示例 2-1 展示了来自 NLTK 和 SpaCy 的示例,这是两个用于文本处理的常用包。

Example 2-1\. Tokenizing text

Expand All @@ -63,13 +63,13 @@ Output[1]:

* * *

ASIDE 这种理解语言的语言学并将其应用于解决自然语言处理问题的过程称为特征工程。为了模型在不同语言之间的方便和可移植性,我们将这一点保持在最低限度。但是在构建和部署真实的生产系统时,特性工程是必不可少的,尽管最近的说法与此相反。对于特征工程的介绍,一般来说,可以阅读 Zheng(2016)的书。
注:这种理解语言的语言学并将其应用于解决自然语言处理问题的过程称为特征工程。为了模型在不同语言之间的方便和可移植性,我们将这一点保持在最低限度。但是在构建和部署真实的生产系统时,特性工程是必不可少的,尽管最近的说法与此相反。对于特征工程的介绍,一般来说,可以阅读 Zheng2016)的书。

* * *

## 一元组,二元组,三元组,...,N 元组

N 元组是文本中出现的固定长度(`n`)的连续标记序列。bigram 有两个标记,unigram 只有一个标记。从文本生成 N 元组非常简单,如示例 2-2 所示,但是 SpaCy 和 NLTK 等包提供了方便的方法。
N 元组是文本中出现的固定长度(`n`)的连续标记序列。二元组有两个标记,一元组只有一个标记。从文本生成 N 元组非常简单,如示例 2-2 所示,但是 SpaCy 和 NLTK 等包提供了方便的方法。

Example 2-2\. Generating ngrams

Expand All @@ -94,9 +94,9 @@ Output[0]:

对于子词(subword)信息本身携带有用信息的某些情况,可能需要生成字符 N 元组。例如,`methanol`中的后缀`-ol`表示它是一种醇;如果您的任务涉及到对有机化合物名称进行分类,那么您可以看到 N 元组捕获的子单词(subword)信息是如何有用的。在这种情况下,您可以重用相同的代码,除了将每个字符 N 元组视为标记。(这里的子单词应该是值类似前缀后缀这种完整单词中的一部分)

## Lemmas and Stems
## 词形和词干

Lemmas 是单词的词根形式。考虑动词`fly`。它可以被屈折成许多不同的单词——`flow``fly``flies``flying``flow`等等——而`fly`是所有这些看似不同的单词的 Lemmas。有时,为了保持向量表示的维数较低,将标记减少到它们的 Lemmas 可能是有用的。这种简化称为词形还原(lemmatization),您可以在示例 2-3 中看到它的作用。
词形是单词的词根形式。考虑动词`fly`。它可以被屈折成许多不同的单词——`flow``fly``flies``flying``flow`等等——而`fly`是所有这些看似不同的单词的词形。有时,为了保持向量表示的维数较低,将标记减少到它们的词形可能是有用的。这种简化称为词形还原(lemmatization),您可以在示例 2-3 中看到它的作用。

Example 2-3\. Lemmatization

Expand All @@ -115,7 +115,7 @@ late --> late

```

例如,SpaCy 使用一个预定义的字典 WordNet 来提取 Lemmas,但是词形还原可以构建为一个机器学习问题,需要理解语言的形态学。
例如,SpaCy 使用一个预定义的字典 WordNet 来提取词形,但是词形还原可以构建为一个机器学习问题,需要理解语言的形态学。

词干是最普通的词形还原。它涉及到使用手工制定的规则来去掉单词的结尾,从而将它们简化为一种叫做词干的常见形式。通常在开源包中实现的流行的词干分析器是 Porter 词干提取器和 Snowball 词干提取器。我们留给您去寻找合适的 SpaCy/NLTK api 来执行词干提取。

Expand Down Expand Up @@ -191,7 +191,7 @@ the green witch - NP

![Plane](img/f756e802f10adc3bacf2e61e4b5f160e.jpg)

") 在 WordNet 这样的项目中数十年的努力是值得的,即使是在有现代方法的情况下。本书后面的章节给出了在神经网络和深度学习方法的背景下使用现有语言资源的例子。词的意义也可以从上下文中归纳出来。从文本中自动发现词义实际上是半监督学习在自然语言处理中的第一个应用。尽管我们在本书中没有涉及到这一点,但我们鼓励您阅读 Jurasky and Martin(2014),第 17 章,Manning and Schutze(1999),第 7 章。
在 WordNet 这样的项目中数十年的努力是值得的,即使是在有现代方法的情况下。本书后面的章节给出了在神经网络和深度学习方法的背景下使用现有语言资源的例子。词的意义也可以从上下文中归纳出来。从文本中自动发现词义实际上是半监督学习在自然语言处理中的第一个应用。尽管我们在本书中没有涉及到这一点,但我们鼓励您阅读 Jurasky and Martin2014),第 17 章,Manning and Schutze1999),第 7 章。

## 总结

Expand Down
Loading

0 comments on commit 6250aea

Please sign in to comment.