bitm“显微镜”式营销洞察背后的黑科技( 三 )


事实上,广告主每发出一次查询请求,系统都要在海量数据库中进行查询、计算、分析等一系列复杂的操作,最终才将目标数据呈现在广告主眼前。但在广告主看来,这一切仅发生在眨眼之间。
如此高效的处理速度主要源于对数据存储方式的优化。对机器而言,不同类型的数据存储方式很大程度上决定了查询速度的快慢。就像从一个拥有10万本藏书的图书馆里找到四大名著一样,如果能将书籍按照内容以及首字母进行分类和排序,很快就能找全四大名著。
因此,在数据存储方式上,团队请了一个“外援”——ClickHouse,一种高性能的开源数据库管理系统,专门擅长处理云图这种数据量大、经常承接各种灵活查询需求的场景。凭借列式存储结构(一列一个文件)和按列计算的特性,结合业务侧数据分片处理,ClickHouse能够高效读取与计算出广告主需要的数据。
例如广告主想对一二线城市爱吃巧克力的女性进行内容分析,传统的数据库则需要读取所有数据才能依次筛选出一二线城市、女性、爱吃巧克力三个标签,最后三个条件都符合的才是广告主的目标人群。但如果使用ClickHouse这个“外援”,系统无需读取全部数据,只需查询这三个标签所在的“列”,再对这三组数据在用户分片上进行“交并差”并行处理就可以了,大大节省了查询时间。

bitm“显微镜”式营销洞察背后的黑科技
文章插图
在此基础上,再通过“BitMap”技术缩小数据的存储空间。Bit是计算机数据系统中的最小单位,一个bit值可以为1或0,我们经常听到的“byte”(字节)可以换算为8个bit。而 “BitMap”正是采用bit数组的数据结构,将原始数据与bit数组里的位置建立映射关系。由于Bit的存储单位很小,因此往往能够节省大量存储空间。
高度抽象一点说,“BitMap”的原理就像英语的缩略词一样。例如把雅思写成全称的形式“International English Language Testing System”需要占用45个字符,而如果直接简写成“IELTS”只需要5个字符就够了,这样机器读取的时间就会大大缩短。
https://v.qq.com/x/page/x3311gxvr72.html
「秒级查询技术科普视频:秒出结果的商业分析是如何做到的?」
根据业务测试反馈,凭借ClickHouse和“BitMap”组合,巨量云图的查询速度提升了10-50倍,查询时间已控制在3-5秒间,真正实现了商业分析的“所需即所得”。
结语
内容理解从底层解决了标签的精准问题,标签平台从上层让精准的洞察发挥出更多价值,查询技术让一切信息秒速进入人们的视线,正是通过一次次技术上的突破,才成就了如今洞悉更多商业细节的能力。
【 bitm“显微镜”式营销洞察背后的黑科技】从创意生产到洞察分析,现在巨量引擎团队又有了更多新思考,例如让情感分析更加细腻、系统更加智能、生产更高效... 营销的科学性也正是在无数次思考中走向普罗大众。相信,这些细微的思考也会在未来带来更先进的技术,解决更多难题。

推荐阅读