为什么标签系统和全文检索还不够好用?

Web 2.0 概念红火的时候,Delicious、Flickr 等服务如日中天,其使用标签(tag)管理和检索内容的方式也颇受追捧,网站和应用程序纷纷学习。但这么些年用下来,除了 Delicious 之外,并没有觉得标签有多好用,特别是像 Evernote 和为知这样需要保存内容的笔记工具。

一个原因是,不支持组合标签的标签系统就是残废。

第二个原因是,增加标签的人工成本太高,而得到的回报不够。
一篇内容颇丰富的笔记要保证日后能够通过标签分类筛出来,可能要增加5个以上的标签,然而还是有一定几率要靠全文搜索才能定位,甚至可能找不到。

为什么?
因为标签要求精确匹配,如果我增加“米塞斯”、“实在论”的标签,而检索的时候用“米瑟斯”、“唯实论”,必然抓瞎。
于是,一方面,增加标签时要尽量多写,这样操作成本必然越来越高;
另一方面,就是在检索时反复尝试,这样就完全体现不出标签系统的好处,特别是还有组合标签功能时,你根本不知道到底是哪个标签的筛选落空了。这样,标签还不如全文检索来得方便。

但全文检索也解决不了上述同义、近义词的问题,要是文章内容中只出现“喜大普奔”,你轮换着搜“头顶青天”、“狂喜乱舞”那也白搭。
更进一步,同义、近义词也有覆盖不到的时候,比如涉及“李森科”的文章通篇都没有出现“伪科学”一词,但我们在搜索这篇文章时,不记得涉及的人名,只关心主题,很可能会输入“伪科学”而不是“李森科”,于是一无所获。

所以,大概只有等到程序能够理解自然语言的含义,才能以符合预期的方式检索信息吧。

posted: 2013/10/12
under: 人品界面, 软硬挨踢
tags: , , , , , ,

  • http://capbone.com/ Captain

    向来把标签当分类用。个人笔记管理的话标签数量控制在50个以内检索起来效率还是挺高的

  • http://calon.weblogs.us/ Calon

    标签太少确实和分类没什么区别了。
    Delicious 上我使用的标签有1319个,用起来还算顺手,不过都是英文标签。

  • http://capbone.com/ Captain

    1319个…那跟全文检索有什么区别…

  • http://calon.weblogs.us/ Calon

    有啊,因为一个条目用到的标签也就4、5个,多不过8、9个。
    因为是收集网址而不是内容,所以这么多标签也够用了,稍微组合一下就能够过滤出来,不用搜索。