|
Post by akash60 on Apr 17, 2024 9:46:26 GMT
自然语言处理 (NLP) 和自然语言理解 (NLU) 是两种经常被混淆的技术,它们使搜索变得更加智能,并确保人们可以搜索和找到他们想要的东西。 这种智能是语义搜索的核心组成部分。 NLP 和 NLU 就是为什么你可以输入“dresss”并找到人们期待已久的“NYE Party Dress”,也是为什么你可以输入先生回来。 通过这两种技术,搜索者可以找到他们想要的内容,而不必像在页面或产品中找到的那样准确地键入查询。 NLP 是具有如此重大意义的事物之一,以至于人们很容易忽视它确切地告诉你它是什么的事实:NLP 处理自然语言,特别是处理成计算机可以理解的格式。 这些类型的处理可以包括标准化、拼写更正或词干等任务,我们将更详细地介绍每一项任务。 另一方面,NLU 的目标是“理解”自然语言块正在交流的内容。 例如,它执行的任务可以识别句子中的动词和名词或文本中的重要项目。然后,人们或程序可以使用此信息来完成其他任务。 计算机看起来很先进,因为它们可以在短时间内完成许多操作。 然而,在很多方面,计算机都是相当愚蠢的。 他们需要以特定 美国数据 的方式构建信息并以此为基础。对于自然语言数据,这就是 NLP 的用武之地。 为什么 NLP 在搜索中很重要 它需要混乱的数据(自然语言可能非常混乱)并将其处理成计算机可以使用的东西。 文本规范化 当搜索者在搜索栏中输入文本时,他们试图找到一个好的匹配项,而不是玩“猜测格式”的游戏。 例如,要求用户以与记录中匹配单词完全相同的格式键入查询是不公平且低效的。 我们使用文本规范化来消除此要求,以便文本无论来自何处都将采用标准格式。 当我们执行不同的标准化步骤时,我们会发现没有一种方法是每个人都遵循的。每个标准化步骤通常会增加召回率并降低精确度。 顺便说一句:“召回”意味着搜索引擎找到已知良好的结果。 精度意味着搜索引擎只找到好的结果。 通过返回索引中的每个文档,搜索结果可以具有 100% 的召回率,但精度会很差。 相反,搜索引擎可以通过仅返回它知道完美匹配的文档来实现 100% 的召回率,但可能会错过一些好的结果。 同样,标准化通常会增加召回率并降低精确度。 这种向召回精度范围的一端移动是否有价值取决于用例和搜索技术。这不是应用所有标准化技术的问题,而是决定哪些技术可以提供精确度和召回率的最佳平衡。 字母标准化 您可以想象的最简单的标准化是字母大小写的处理。 至少在英语中,单词通常在句子开头大写,偶尔在标题中以及当它们是专有名词时大写。 (还有其他规则,这取决于你问的是谁。) 但在德语中,所有名词都是大写的。其他语言有自己的规则。 这些规则很有用。不然我们也不会跟着他们。 例如,将句子的第一个单词大写可以帮助我们快速了解句子的开头。 然而,这种有用性在信息检索环境中会减弱。 单词的含义不会仅仅因为它们位于标题中且首字母大写而改变。 更棘手的是,有规则,然后就是人们实际的写作方式。
|
|