Update ch12.md

2026-06-25 19:06:55 +08:00 · 2022-01-01 09:42:19 +08:00 · 2022-01-01 09:42:19 +08:00 · ee220e28e2
commit ee220e28e2
parent 9e68549a46
1 changed files with 1 additions and 1 deletions
--- a/ch12.md
+++ b/ch12.md
@ -256,7 +256,7 @@ Unix和关系数据库以非常不同的哲学来处理信息管理问题。Unix

 * 次级索引是由一种直白的转换函数生成的衍生数据集：对于基础表中的每行或每个文档，它挑选被索引的列或字段中的值，并按这些值排序（假设使用B树或SSTable索引，按键排序，如[第三章](ch3.md)所述）。
 * 全文搜索索引是通过应用各种自然语言处理函数而创建的，诸如语言检测、分词、词干或词汇化、拼写纠正和同义词识别，然后构建用于高效查找的数据结构（例如倒排索引）。
-* 在机器学习系统中，我们可以将模型视作从训练数据通过应用各种特征提取、统计分析函数衍生的数据，当模型应用于新的输入数据时，模型的输出是从输入和模型（因此间接地从训练数据）中衍生的。
+* 在机器学习系统中，我们可以通过应用各种特征提取和统计分析功能，将模型视为从训练数据中导出的。 当模型应用于新的输入数据时，模型的输出来自输入和模型（因此间接来自训练数据）。
 * 缓存通常包含将以用户界面（UI）显示的形式的数据聚合。因此填充缓存需要知道UI中引用的字段；UI中的变更可能需要更新缓存填充方式的定义，并重建缓存。

 用于次级索引的衍生函数是如此常用的需求，以致于它作为核心功能被内建至许多数据库中，你可以简单地通过`CREATE INDEX`来调用它。对于全文索引，常见语言的基本语言特征可能内置到数据库中，但更复杂的特征通常需要领域特定的调整。在机器学习中，特征工程是众所周知的特定于应用的特征，通常需要包含很多关于用户交互与应用部署的详细知识【35】。