对于断物识人,我们可以将它理解为打标签的过程。标签是对高维事物的降维理解,抽象出了事物更具有表意性、更为显著的特点。在不同的业务场景下,我们会选择不同的标签进行使用,来对内容和用户进行标注。
在内容画像层面,以音乐为例,典型的有两种标签产出的方式:
专家系统:潘多拉(Pandora)的音乐基因工程(MusicGenomeProject)。在这项工程中,歌曲体系被抽离出450个标签,细化到如主唱性别、电吉他失真程度、背景和声类型等等。每一首歌曲都会被经由工作人员耗时30分钟左右,有选择性标注一些标签,并以从0到5的分值代表这一标签的表征程度。
UGC产出:在豆瓣,给音乐打标签的活则从专家产出,转为了普通网友贡献。群体的力量为豆瓣积累了大量具有语义表意性的标签。当然,由于用户的多样性和编辑的开放性,用户标签系统需要经过特定的清洗和归一化才能投入使用。