Ginson 的博客

SEO、Python、ACG 及日常

搜索引擎与读图时代

从几年前起,互联网上就高呼已经进入了“读图时代“。确实,目前互联网的内容越来越丰富,主流的内容形式中,图片一直是受众比较喜欢的类型,“一图胜千言”这句话想必大家都不陌生,不过在我看来,虽然用户喜欢图片,互联网上的图片内容也越来越多,但是搜索引擎却从未走进“读图时代”

理由:图片的收录仍极度依赖文字
根据百度官方发布的《百度图片搜索收录展现基础要求》中对图片收录的说明:

图片周边有可信的、精准的、针对图片的相关描述,包括上下文描述、图片说明、alt属性、图片title,以及图片anchor

5 点都是文字类型,足以证明目前搜索引擎在常规抓取中对图片内容的判断,仍是以图片周边文字为基础。通过平常的观察也可以发现,不带文字信息的图片很难被收录。

另外在百度图片中任意搜索关键词,并观察位置比较靠后的图片时,我们可以发现图片的内容往往不是我们搜索的关键词,而是『图片所在的页面有我们搜索的关键词』,哪怕这个关键词的位置跟图片相距很远。产生这种现象的原因就是,搜索引擎是通过图片周围的文字来确定图片内容,而不是图片本身。

假设一下,如果有一张餐厅的图片。它的 alt 是“卫生间”,他的 title 也是“卫生间”,很多指向它的锚文字也是“卫生间”,那么在你搜索”卫生间“的时候,这张图片一定会出现,哪怕这张图片本身是一张餐厅的图片。

百度虽然已经具备识图功能,但是目前可以说技术水平不高(对比 G)。最重要的是,每一次识图需要消耗的资源,注定了搜索引擎不会在抓取图片时进行识图,只会选择通过文字去判断图片内容。

当然,现在我们也可以看到搜索引擎在图片内容方面的努力,比如百度在网页搜索结果左侧引入的小图。虽然因为算法坑爹,经常看到图不对文的情况,但也足以证明搜索引擎在图片内容上是有发展愿望的,只是因为多方面的原因,还没有真正走进”读图时代“而已。

 

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注