2
0
Fork 0
mirror of https://github.com/Vonng/ddia.git synced 2026-06-25 19:06:55 +08:00

Update ch12.md

This commit is contained in:
Zhaoyang 2022-01-01 09:42:19 +08:00 committed by GitHub
parent 9e68549a46
commit ee220e28e2
No known key found for this signature in database
GPG key ID: 4AEE18F83AFDEB23

View file

@ -256,7 +256,7 @@ Unix和关系数据库以非常不同的哲学来处理信息管理问题。Unix
* 次级索引是由一种直白的转换函数生成的衍生数据集对于基础表中的每行或每个文档它挑选被索引的列或字段中的值并按这些值排序假设使用B树或SSTable索引按键排序如[第三章](ch3.md)所述)。
* 全文搜索索引是通过应用各种自然语言处理函数而创建的,诸如语言检测、分词、词干或词汇化、拼写纠正和同义词识别,然后构建用于高效查找的数据结构(例如倒排索引)。
* 在机器学习系统中,我们可以将模型视作从训练数据通过应用各种特征提取、统计分析函数衍生的数据,当模型应用于新的输入数据时,模型的输出是从输入和模型(因此间接地从训练数据)中衍生的
* 在机器学习系统中,我们可以通过应用各种特征提取和统计分析功能,将模型视为从训练数据中导出的。 当模型应用于新的输入数据时,模型的输出来自输入和模型(因此间接来自训练数据)
* 缓存通常包含将以用户界面UI显示的形式的数据聚合。因此填充缓存需要知道UI中引用的字段UI中的变更可能需要更新缓存填充方式的定义并重建缓存。
用于次级索引的衍生函数是如此常用的需求,以致于它作为核心功能被内建至许多数据库中,你可以简单地通过`CREATE INDEX`来调用它。对于全文索引常见语言的基本语言特征可能内置到数据库中但更复杂的特征通常需要领域特定的调整。在机器学习中特征工程是众所周知的特定于应用的特征通常需要包含很多关于用户交互与应用部署的详细知识【35】。