例如 , 通过对训练数据集的统计 , 得到下表(R表示账号真实性 , H表示头像真实性):
文章图片
纵向表头表示条件变量 , 横向表头表示随机变量 。 上表为真实账号和非真实账号的概率 , 而下表为头像真实性对于账号真实性的概率 。 这两张表分别为“账号是否真实”和“头像是否真实”的条件概率表 。 有了这些数据 , 不但能顺向推断 , 还能通过贝叶斯定理进行逆向推断 。 例如 , 现随机抽取一个账户 , 已知其头像为假 , 求其账号也为假的概率:
文章图片
也就是说 , 在仅知道头像为假的情况下 , 有大约35.7%的概率此账户也为假 。 如果觉得阅读上述推导有困难 , 请复习概率论中的条件概率、贝叶斯定理及全概率公式 。 如果给出所有节点的条件概率表 , 则可以在观察值不完备的情况下对任意随机变量进行统计推断 。 上述方法就是使用了贝叶斯网络 。
SNS社区中不真实账号检测模型中存在四个随机变量:账号真实性R , 头像真实性H , 日志密度L , 好友密度F 。 其中H , L , F是可以观察到的值 , 而我们最关心的R是无法直接观察的 。 这个问题就划归为通过H , L , F的观察值对R进行概率推理 。 推理过程可以如下表示:
- 使用观察值实例化H,L和F , 把随机值赋给R 。
- 计算 P(R|H,L,F)=P(H|R)P(L|R)P(F|R,H)。 其中相应概率值可以查条件概率表 。
- 对所有可观察随机变量节点用观察值实例化;对不可观察节点实例化为随机值 。P(y|wi)=αP(y|Parents(y))∏jP(sj|Parents(sj))
- 对DAG进行遍历 , 对每一个不可观察节点y , 计算 , 其中 wi 表示除 y 以外的其它所有节点 ,α 为正规化因子 ,sj 表示 y 的第 j 个子节点 。
- 使用第三步计算出的各个y作为未知节点的新值进行实例化 , 重复第二步 , 直到结果充分收敛 。
- 将收敛结果作为推断值 。以上只是贝叶斯网络推理的算法之一 , 另外还有其它算法 , 这里不再详述 。
1、确定随机变量间的拓扑关系 , 形成DAG 。 这一步通常需要领域专家完成 , 而想要建立一个好的拓扑结构 , 通常需要不断迭代和改进才可以 , 需要用到机器学习得到 。
2、训练贝叶斯网络 。 这一步也就是要完成条件概率表的构造 , 如果每个随机变量的值都是可以直接观察的 , 像我们上面的例子 , 那么这一步的训练是直观的 , 方法类似于朴素贝叶斯分类 。 但是通常贝叶斯网络的中存在隐藏变量节点 , 那么训练方法就是比较复杂 , 例如使用梯度下降法 。
推荐阅读
- 星链|石豪:在太空,马斯克和美国当局是如何作恶的
- 历史|科普:詹姆斯·韦布空间望远镜——探索宇宙历史的“深空巨镜”
- 空间|(科技)科普:詹姆斯·韦布空间望远镜——探索宇宙历史的“深空巨镜”
- 人物|马斯克承认输给了巴菲特:曾尝试挑战喜诗糖果,但最终放弃
- Tesla|最高涨幅21088元:特斯拉Model 3/Y入门车型价格调整
- 人物|马斯克谈特斯拉人形机器人:有性格 明年底或完成原型
- 四平|智慧城市“奥斯卡”揭晓!祝贺柯桥客户荣获2021世界智慧城市治理大奖
- Tesla|特斯拉新款Model S电池体积小能量密度高 外媒揭秘三大关键技术
- Tesla|特斯拉因两处安全缺陷召回近50万辆电动汽车 承诺免费修复
- Tesla|特斯拉在美国召回约47.5万辆汽车 接近其去年全球交付总量
