搜索引擎语义分析对内容生产的指导意义研究

作者: Ginson 分类: SEO 发布时间: 2016-09-05 13:17

语义分析是什么

简单地说语义分析是指:通过某种算法用机器对文本进行处理,从而让机器理解文本深层次的含义。

语义分析一直是许多计算机从业者研究的重要课题,也是自然语言理解领域需要解决的根本性问题和追求的目标。

语义分析是指在分析句子的句法结构和每个词词义的基础上,推出能够反映该句子意义的形式化表示。通过语义分析,可以理解人类自然语言,并进行探人的知识获取推理,从而抽取出自然语言语句背后的语义信息,使计算机与人类能无障碍地沟通。

当然,让计算机能够理解人类的自然语言是很困难的,人们已经进行了多年的努力,虽然获得了一些成果,但总体效果并不理想。

*以上引用部分摘自《基于浅层语义分析技术的语义检索》

语义分析的在搜索引擎中的应用

现阶段,通过语义分析从现代汉语语句中提取浅层语义信息,并以此作为语义检索的数据源的研究并不多见。语义分析技术大部分用于文本信息的过滤、文本主题信息提取向等应用中。

如上文所说,目前一些相对成熟的语义分析应用多为语音助手(Siri,微软小冰)、分词标注、实体抽取、情感分析、文本分类等。搜索引擎方面,语义分析技术使用得较少。

以百度为例,根据目前可以搜索到的资料,百度产品中使用了语义分析技术的有:

  • 百度舆情
  • 百度考霸
  • 度秘

其中百度舆情是需要收费的,百度考霸和度秘则都是APP。
在2014年6月28日百度主办的第51期百度技术沙龙上,百度自然语言处理部高级研究员赵世奇发表了演讲《自然语言对话式搜索——打开智能生活的钥匙》,里面提到百度考霸使用语义分析技术的实例。

  • 例子1:当用户在APP搜索“去年北大分数线”时,程序会自动判断去年是具体哪一年,并返回相关结果。

    去年
  • 例子2:当用户在APP中分别搜索“北京大学排名”和“北京的大学排名”时,返回的是不同的结果。

    北京的大学VS北京大学

但是当我以同样的搜索词在百度网页搜索时,却并没有类似APP中的结果,还是以关键词匹配为主,说明百度还未在网页搜索上深入使用语义分析技术。
另外从百度已使用语义分析的产品中可以看出,百度对语义分析的应用主要集中在自然语言搜索,且多以APP和付费方式呈现。

百度已经有能力在APP中使用比较成熟的语义分析,为什么不在其最主要的网页搜索上使用呢?
原因有二:

1. 自然语言搜索是搜索引擎发展的必然方向。

搜索引擎的根本作用是帮助用户找到需要的信息,然而用户使用搜索引擎之前必须要了解自己的搜索目的,否则可能无法从搜索引擎得到结果。比如某人从未见过苹果,只知道这是一种绿色或者红色,又甜又酸的外观多为圆形的水果,如果去搜索“绿色或红色又甜又酸圆形的水果”,搜索引擎能准确返回他想要的结果吗?并不能。这就是使用搜索引擎的门槛。

无论是对搜索引擎技术来说还是搜索服务公司来说,降低使用门槛都是有利的、符合历史发展趋势的,因此自然语言搜索是搜索引擎发展然方向,也是语义分析在搜索引擎的第一应用方向。

2. 成本太高。

语义分析需要对海量的数据进行深入的数据处理,因此目前百度只能针对部分领域的搜索query进行语义分析,比如百度考霸中的高考相关query。度秘中也只有部分query进行了较好的语义处理。

在选餐厅外,度秘在其他事情上并不能让我满意。让它买张《烈日灼心》的电影票,结果返回一个百度搜索的链接。……度秘对语义的理解还不是很智能,基本是通过关键词来分析的。比如,我说“我不想看电影”,它会分析出“电影”这个关键词,依旧反馈电影相关的信息,而不能很好地理解整句话。——ifran对度秘的评测文章,地址:http://www.ifanr.com/560223

而百度网页搜索每天产生上亿的query,涉及数据的量级难以想象,百度目前可能还没有能力与时间去完全处理这些数据,因此也就没法将语义分析技术完全覆盖到网页搜索上。

语义分析对内容生产的指导意义

语义分析在搜索引擎上的应用主要是自然语言query的处理,这种应用对网站内容生产来说,我觉得没有什么指导意义。

因为从搜索引擎工作原理看,语义分析只可能会用在页面分析这一环节,即网页数据预处理部分。

那么我们假设有两篇文章,其核心内容相同,一篇文章以传统的方式围绕关键词写作,一篇则只字不提关键词,同时以口语化的方式描述关键词内容。对于传统文章,搜索引擎用传统的算法可以快速提取出核心内容,对于另一篇文章则需要进行深度的数据处理才能理解。搜索引擎只会倾向于使用效率更高的那种方式,所以对于内容生产者来说,不需要对文章写作方式做特殊处理。

语义分析能让更多文章被搜索引擎理解,会有更多内容被搜索引擎抓取收录,但是其判断内容价值的核心标准不会与之前有多大差别。以关键词本身为核心的文章,甚至能在更多query上得到收益。

发表评论

电子邮件地址不会被公开。 必填项已用*标注