本期话题:揭开数据大算法的“面纱” 。 从“大数据杀熟”到“外卖员困在系统里” , 大数据算法愈发受到关注 。 从手机购物的“千人千面” , 到金融放贷的“用户画像” , “算法”究竟是什么?它是如何影响人的?从网络安全法 , 到个人信息保护法、数据安全法 , 法规能否有效控制算法的“滥用”?如何让算法更好地服务人 , 而不是侵犯人?未来 , 自然人和算法究竟是怎样的关系?
如今 , 大数据算法已深入每个人的生活:无论是电商平台 , 还是新闻客户端和短视频平台 , 大数据都能根据每个人的特点实现“千人千面”推送;在一些金融平台 , 科技金融公司也会用安全系统对用户进行“数字画像” , 以此确定放款额度和利息 。
但有时 , 大数据也让人有“被监视”的感觉 , 手机放在身边 , 刚和朋友说几句话 , APP就会推送相应的内容 , 让人不寒而栗 。 此外 , “大数据杀熟”也一直是备受争议和诟病的问题 。
几年来 , 从网络安全法到时下备受瞩目的个人信息保护法草案、数据安全法草案 , 关于信息安全的立法进程不断完善和推进 , 数据算法的合理使用会服务人、更懂人 , 但是滥用则会侵犯人和控制人 。 算法到底是什么?怎样平衡安全和服务的边界?个人信息保护法又将怎样保护公民?
文章图片
主持人:王思远 总台央广经济之声【远见】栏目制作人
文章图片
对话嘉宾:余弦 资深安全技术专家、白帽黑客、漫雾科技创始人
数据安全法 , 明确“数字主权” , 刹住数据越权乱象
思远:关于大数据的话题屡见不鲜 , 但很多时候是偏负面的 , 比如打车、住酒店时的“大数据杀熟”;外卖小哥被“困在系统里” 。 这些让算法变得很神秘和冰冷 , 作为从业者 , 你怎么用最通俗的理解去解释算法?
余弦:简单说 , “算法”就是用很多机器、服务器去尽可能模拟人类的思维、行为 。 大家会把算法简单理解为“人工智能” , 但跟人类的思维和行为比 , 还有非常大差距 。 在长远的未来看 , 算法会让我们有更精准的感知和更好的应用场景;但当下还是早期 , 有时算法会比较“粗暴” 。
思远:算法有时会给人两个极端的感觉 。 一面像是AlphaGo , 特定的领域和规则下 , 表现远远优于人类;另一面 , 它又缺少人类的温度和感情 。
余弦:技术的应用一定要看场景 , 比如AlphaGo下棋非常厉害 , 但只局限于此 , 下棋只是非常小的场景 。 单一场景内 , 模型的搭建是很简单的 , 在特定领域有小维度边界时 , 算法还能做到速度、储存量、运算能力上超过人类 , 但真的能够像人类似的万事俱通 , 在不同的领域都有自己的一套智慧和解决问题的方式 , 算法还差得非常远 。
思远:2020年10月21日开始 , 个人信息保护法草案正式进入审议——千呼万唤始出来 , 无论是行业还是用户 , 都很需要 。 从业者需要知道数据使用和隐私保护的边界 , 用户希望技术服务人而不是侵犯人 。 个人信息保护法 , 整体从哪些方面保护人的权利?
余弦:作为从业者 , 我非常关注这个法律的进展 , 因为未来从业者会有据可循 。 特别是关于“数据主权”的话题 , 你上述提到边界 , 很多行为准则需要去探讨研究和遵守 。 数据主权 , 话题可大可小——作为用户 , 拥有数据使用的知情权 , 知道拿他的数据去做什么——这是个人主权问题;往大了说 , 数据主权可以涵盖到企业、行业 , 甚至国家 。
现在的大数据乱象是伴随新事物而诞生 , 法律不能盲目制定 , 有一个过程 。 2017年6月1日起 , 网络安全法实施 , 其对网络个人数据已经有了一些定义;像民法总则、民法典等 , 也有关于个人信息、数据安全的规定 。 从国家层面 , 立法过程中也参考了海外 , 包括像欧盟通用的数据保护条例 。 无论是已经颁布的 , 还是探讨中的草案 , 我们都该重视它 。
作为服务者 , 也要弄清自己的责任 , 比如数据储存在服务器里 , 但如果因为服务器漏洞被入侵的“黑客”偷走了 , 怎么界定责任?互联网厂商承不承担责任?法律上关于这种界定会越来越多 , 当下不能说法律很完善 , 但至少有了这几部法律的帮助 , 是很好的促进 。
“爬虫学得好 , 牢饭吃到饱”?——论技术的价值观
思远:如果说算法是底层的逻辑和系统 , 那么大数据就是养料和细胞 。 从PC时代 , 到移动时代 , 再到物联网时代 , 算法都离不开“爬虫技术” , 简单说就是通过网络勾连 , 实现数据的收集、分析和再组合 , 实现特定的目的 。 但“爬虫”经常会爬到隐私 , 听说圈里有一句话叫“爬虫学得好 , 牢饭吃到饱”?
余弦:在安全行业 , 尤其是前两年做“爬虫”生意的一些企业 , 都因此而触碰了法律被制裁 。 “爬虫”技术本身没有好与坏的说法 , 就像菜刀可以做菜 , 也可以犯罪 。
思远:技术是中立的 , 但取决于人的价值观 。
余弦:“爬虫”分为两种场景 。 第一种是专门做“爬虫” , 故意去爬服务器的敏感数据 , 就是主观作恶 。 另一种是不小心把数据拿了回来 。 比如把个人的社保医疗隐私不小心爬回来了 , 但看到这个信息还挺有价值的 , 可能会二次利用 。 同时 , 这些社保医疗机构网站有漏洞 , 有没有责任呢?这就像是主动入室盗窃和主人没锁好门导致误闯民宅 。 不同情况 , 有不同的认定和处理 , 这是法律需要界定的 。
场景1:金融风控 , 哪些“大数据画像”侵犯隐私?
思远:我们来聊聊算法的应用场景 。 生活中最常见的是金融风控——金融数据中的算法是怎样的逻辑?
余弦:核心是通过各类用户数据采集 , 进行用户画像 。 让业务决策者更好地理解目标群体 , 数据越准确、丰满 , 就越有利于特定的场景去做针对性的事情 。
思远:比如给金融借贷 , 根据征信和消费行为等数据 , 判断优质客户 , 给出更好的还款周期和价格 , 用更低的价格、更高的额度做长线生意;对风险大的客户 , 拒绝放款 。
以前有个FINTECH公司的CEO给我介绍了一个案例:拿到了客户A的所有行动轨迹 , 发现每天的活动线路两点一线 , 时间相对固定 , 消费能力、还款记录良好 , 就定义为“白领上班族优质客户”;客户B每天的活动轨迹和时间非常不规律 , 就认为是自由职业者 , 谨慎放款 。 类似例子还有很多 , 比如借了消费贷还不上的人 , 催收公司会一夜之间将其通讯录中的电话打个遍 。 问题是 , 这些数据都使用 , 是不是非法和侵犯隐私呢?
余弦:这个现象确实非常普遍 。 很多时候 , 普通人高估了算法 , 在我们看来 , 很多技术真的非常粗暴 , 就如用户借贷的钱还不上 , 暴力催收公司通过非法采集用户数据 , 用灰色方式催债 。
所以 , 围绕相关法律 , 比如个人信息保护法、数据安全法等 , 未来这些会得到比较好的净化 。 因为这个产业从业人员太多了 , 而且不同于实体的物理世界 。
思远:很多信息的获取就是一瞬间 , 交易速度非常快 , 这对发现违法行为、固定证据会有很大麻烦 。 真正执法 , 要靠企业自律或相互监督、举报等 , 还是什么?
余弦:从操作角度来讲 , 这些法律是绝对可行的 。 这里面可能会涉及到具体敏感的话题 , 这里暂时不展开谈 。 但首先我们都得有法 , 才能去操作 。 未来的执法过程 , 一方面 , 数据的滥用 , 行业内确实有不少的外露特征 , 明面上能看到;执法肯定由公安进行——比如网安、网络警察 。
场景2:大数据营销愈发精准 , 我们是否被“监视偷听”?
思远:另一个典型场景是“营销” 。 现在大家经常在网上“买买买” 。 打开手机 , 发现系统给每个人推送的情况都不一样;打开新闻客户端 , 总会推你想看的内容 , 甚至有时刚跟朋友聊到什么 , 商品信息和广告就来了 。 这种技术怎么做到的?人真的被“监视”了么?
余弦:如果单方面来看 , 感觉会很惊悚 , 当然 , 实际上这是“幸存者偏差” , 并不是非常普遍的事件 , 跟算法也没什么特别的关系——它可能是一种概率 , 碰巧遇到了 , 会放大这个事情 。 营销数据专门有做营销产业链的 , 通过各方面去采集数据 , 包括可能有非法的一些交易 , 能够尽量做到精准推广 。
无论是个人信息保护法草案 , 还是数据安全法、网络安全法、民法典等 , 多少都有围绕隐私的关于数据的定义或说法 。 数据活动指的是 , 数据在收集、存储、加工、使用、提供、交易、公开等行为;数据安全是指通过采取必要的措施 , 保障数据得到有效保护和合法利用 , 并持续处于安全状态的能力 。
思远:你说了两点 。 第一 , 有时大家过于敏感 , 陷入了“幸存者偏差”;第二 , 算法、大数据的合法性 , 包括大数据应该去脱敏的信息点 , 需要法律规范 。 回到算法本身 , 有句话说 , “未来世界 , 只有两种人 , 一种是控制和决定算法的人 , 一种是被算法控制的人” 。 好像很有道理 , 以往人会自己去探索信息 , 有更多发展的可能性;现在算法会困住人 , 越来越懂你的同时 , 推荐的信息就越来越局限 , 会围绕着现有的水平、认知和圈层 。 你怎么看这个问题?
余弦:我赞同行业内这个说法 。 算法是机器输出来的 , 通过人类反应的信息 , 按照概率计算 , 反向给出推荐信息和服务 , 又让人形成新的依赖感 , 手机成了人的器官 , 人掉入了数据的舒适区 , 沉浸在这种数字体验中 。 我也会这样 。
但另一方面 , 我懂技术 , 某些层面上我也控制算法 , 尽量让算法能为周边的人提供价值 。 所以我们才会讨论关于算法的法律红线 , 否则算法肯定会失控 , 要更规范 , 肯定要有法可依 。 某种程度上 , 算法和人是相互依存的关系 , 没有人的行为就没有数据 , 没有数据就没有了算法 。
但同时我们也看到说 , 算法本身以技术的形式去存在 , 技术上 , 其实张一鸣曾在几年前抛出一个言论 , 大家也讨论得非常热烈 , 就是说 , 技术其实本来是工具 , 工具只分好用和不好用之分 , 技术高和技术低 , 我觉得这句话本身没有错 。
【爬虫|【远见】个人信息保护法将出台 揭开数据算法的神秘“面纱”】因此 , 综合到算法上来说 , 无论是这个产业环境还是我们的生活 , 算法上有没有价值观 , 其实先放在一边 , 但是研究算法的人、使用算法的人必须有价值观 , 必须有法可依 , 算法才能更加值得人去信赖 。
推荐阅读
- 于本|豆瓣 App 安卓新版本 7.20.0 测试
- 苏宁|可循环包装规模化应用 苏宁易购绿色物流再上新台阶
- 产品|泰晶科技与紫光展锐联合实验室揭牌
- 相关|科思科技:无人机地面控制站相关设备产品开始逐步发力
- 生活|数字文旅的精彩生活
- 解决方案|【干货】反渗透设备结垢原因及解决方案
- 手机|【直播纪要】VR/MR会吹响消费电子反攻的号角吗?| 见智研究
- 技术|聚光科技旗下临床质谱仪获批医疗器械注册证
- 智能化|龙净环保:智能型物料气力输送系统的研究及应用成果通过鉴定
- 爆发|中信证券:自动驾驶渐行渐近,惯性导航刚需爆发