脉冲星 优图“撞”上脉冲星( 三 )


记者:优图加入后 , 脉冲星新的发现是不是比以前更快了?
李菂:整个的效率更高 , 识别的速度是明显加快的 , 但对信息的最终认证还是要回到FAST团队的专业人员身上 。
其实我们拿到的原始观测数据 , 实际上像是一个视频素材 。 两个观测的维度一个是时间 , 一个是频率 。 但这个素材人脑人眼是无法处理的 , 实际上机器视觉在近几年内也无法处理 , 能处理的素材只到照片的程度 。 所以原来的办法是一段段截出来分析 , 把周期简化 , 把色散剪掉 , 当成一个个特征图 。 但现在有了优图的视觉AI技术加持后 , 我们可以通过AI视觉来直接分析原始的视频素材 。
黄飞跃:其实我们跟李老师合作的时候 , 最开始李老师他们团队也有非常好的框架基础的 , 不仅仅是说场景、数据、业务 , 也有成熟的机器学习的算法模型 。 我们在这个基础上 , 合作的这几个月取得了新的一些进展 , 比如最原始的一天采集到的数据大约有500T , 一个礼拜有3000万张的信号图片 , 数据量是巨大的 , 首先500T怎样转换成更有效的数据 , 实际上要做一系列的原始信号处理 , 我们把这个过程做了大幅的加速 。
另外对信号我们会用机器学习的方式来寻找疑似样本 , 再交给FAST团队的专业人员看是不是我们真正发现了脉冲星信号 。 这时候就要面对准确率的问题 。 我们后面新的算法在准确率上是会有比较大的提升 , 命中率会比原来高 , 这也降低了后期专业人士的人为筛选的工作量 , 这是最近两个月取得的一些成果 。
记者:目前AI探星上存在的难点在哪里?
黄飞跃:有两个难点 , 一个是做深度学习最核心的要有海量的已经有标注的数据作为训练数据 , 拿训练数据调整优化我们的模型 。 但脉冲星观测甚至天文领域里 , 有标注的训练数据仍然相对偏少 , 这时候我们用来训练可能会存在一些困难;第二个难点是 , 同样的天体信号用不同的望远镜、设备观测 , 得到的数据、展现形式不完全一样 。
记者:如何解决呢?
黄飞跃:针对这两个困难 , 我们基于优图原来做人脸识别、人体检测、工业检测等等的技术积累 , 针对海量缺少标注的数据我们是有一个自监督的学习方法的 , 这样对于有标注数据的依赖会大大减少 。 另外对不同场景 , 不同的设备拍出来的数据我们有一个跨域学习的概念 , 不同设备的数据会通过整合进入训练过程 。
这是个方法论层面的东西 , 上面这些方法跟我们现在做的工业检测 , 车辆检测等 , 里面的很多方法是通的 。 我们之前用机动车和非机动车的检查 , 这种数据的差异性、多样性也是非常大的 。
记者:这次的合作中优图除了提供了技术之外 , 还会应用到腾讯内部哪些的业务能力和资源的支持?
【脉冲星|优图“撞”上脉冲星】黄飞跃:这次合作也会用到腾讯云的计算资源 。 现在大量的数据也是通过云存储的方法存储在腾讯云上 , 另外数据处理方面也会用到腾讯云GPU云服务器的算力 。

推荐阅读