事实上,广告主每发出一次查询请求,系统都要在海量数据库中进行查询、计算、分析等一系列复杂的操作,最终才将目标数据呈现在广告主眼前。但在广告主看来,这一切仅发生在眨眼之间。
如此高效的处理速度主要源于对数据存储方式的优化。对机器而言,不同类型的数据存储方式很大程度上决定了查询速度的快慢。就像从一个拥有10万本藏书的图书馆里找到四大名著一样,如果能将书籍按照内容以及首字母进行分类和排序,很快就能找全四大名著。
因此,在数据存储方式上,团队请了一个“外援”——ClickHouse,一种高性能的开源数据库管理系统,专门擅长处理云图这种数据量大、经常承接各种灵活查询需求的场景。凭借列式存储结构(一列一个文件)和按列计算的特性,结合业务侧数据分片处理,ClickHouse能够高效读取与计算出广告主需要的数据。
例如广告主想对一二线城市爱吃巧克力的女性进行内容分析,传统的数据库则需要读取所有数据才能依次筛选出一二线城市、女性、爱吃巧克力三个标签,最后三个条件都符合的才是广告主的目标人群。但如果使用ClickHouse这个“外援”,系统无需读取全部数据,只需查询这三个标签所在的“列”,再对这三组数据在用户分片上进行“交并差”并行处理就可以了,大大节省了查询时间。
文章插图
在此基础上,再通过“BitMap”技术缩小数据的存储空间。Bit是计算机数据系统中的最小单位,一个bit值可以为1或0,我们经常听到的“byte”(字节)可以换算为8个bit。而 “BitMap”正是采用bit数组的数据结构,将原始数据与bit数组里的位置建立映射关系。由于Bit的存储单位很小,因此往往能够节省大量存储空间。
高度抽象一点说,“BitMap”的原理就像英语的缩略词一样。例如把雅思写成全称的形式“International English Language Testing System”需要占用45个字符,而如果直接简写成“IELTS”只需要5个字符就够了,这样机器读取的时间就会大大缩短。
https://v.qq.com/x/page/x3311gxvr72.html
「秒级查询技术科普视频:秒出结果的商业分析是如何做到的?」
根据业务测试反馈,凭借ClickHouse和“BitMap”组合,巨量云图的查询速度提升了10-50倍,查询时间已控制在3-5秒间,真正实现了商业分析的“所需即所得”。
结语
内容理解从底层解决了标签的精准问题,标签平台从上层让精准的洞察发挥出更多价值,查询技术让一切信息秒速进入人们的视线,正是通过一次次技术上的突破,才成就了如今洞悉更多商业细节的能力。
【 bitm“显微镜”式营销洞察背后的黑科技】从创意生产到洞察分析,现在巨量引擎团队又有了更多新思考,例如让情感分析更加细腻、系统更加智能、生产更高效... 营销的科学性也正是在无数次思考中走向普罗大众。相信,这些细微的思考也会在未来带来更先进的技术,解决更多难题。
推荐阅读
- 阿里巴巴|马云“接班人”是啥来头第一天上任,阿里巴巴损失517亿!
- 电商|俞敏洪或要“转型”?在电商平台做起直播带货,是有何打算?
- 亚马逊|告别“好评返现”,商家侧的“晒单有礼”还有意义吗
- 上门|快递上门的“蜀道难”
- 低俗词汇|B站发布“低俗词汇谐音梗”治理公告,多次违规将被封号
- 工地|“小马云”已不火,如今“工地马云”火了,网友:确定不是本人?
- 景气度|2022,七“贱”下天山
- 劳动者|这些工作将实行“职称制”!官方发通知,新的“香饽饽”行业来了
- 网易养不起“考拉”,阿里拼多多急剁手,网友丁磊全职养猪
- 阿里巴巴|曾是阿里高管,遭马云“忽视”创办410亿公司,却进腾讯口袋