学者|如何做好邮件推送渠道的学术内容传播？( 二 )_机器|朱鹏|吴涛|郭鑫|公司|技术

这就像PGC音乐图书类产品中总要不断扩大版权库、UGC类总在激励创作者生产更多的优质内容。客户在选择邮件推送服务时，学者储备量是他们考虑的重要因素，学者覆盖范围广才更有可能带来高质量的传播效果。
学者行为数据是学者收到推送邮件后的一系列阅读、操作等行为数据。这些数据和学者基本信息一起，来丰富学者画像，以为下次推送时提供决策支持。
行为数据有很多，如关于阅读文章行为，我们记录了历史推送以来，每个学者阅读过的文献的领域/主题，以此作为衡量学者关注/兴趣领域的因素之一，下次再做推送时，若某个学者的关注/兴趣领域与本次文献的领域/主题相似，该学者则是我们考虑推送的重点目标对象。
举个例子，某次推送的文献主题是“医学免疫学”，若某个学者阅读过的文章的关键词包含“医学免疫学”，那么该学者则是本次推送要考虑的目标对象。因为文献的关键词通常概括说明了文献主题，学者在众多文献列表中曾经阅读过某篇文献，一定程度说明了学者对该主题的兴趣，因此后续再推送相关主题，该学者有很大可能性关注。
这些学者数据丰富了学者画像，在推送时就是根据学者和内容的匹配度，来决定每次推送内容的学者群。因此，学者信息的多少和推送效果的好坏是强关联的，学者信息数据是产品服务的竞争力之一。
数据复用以快速提供服务。
作为SaaS服务提供商，面向的客户很多，推送的任务也会很多。推送时需要为每个任务准备学者，而准备学者是需要一定周期的。
在没有学者库（即学者储备）的情况下，推送的学者都需要采集。采集之前，要对本次内容进行分析，以发现一些采集学者的线索。例如，会分析本期文献作者的机构，以及这些作者发表文献的其他期刊，再以这些机构和期刊为线索去采集该机构下的学者或该期刊的其他作者。文献、作者、期刊、机构之间错综复杂的关联使得分析后的线索源（也就是地址）常常都是千位数，这些都需要一个个列出来后安排采集。
当期刊变多，多线索源的采集，就会导致服务进程很慢。
但若有自己的学者库，就能快速提供服务了。
快速提供服务是指对后续推送提供快速支持。为某个期刊客户提供推送服务后，后续可能会有相同研究领域的期刊客户要推送邮件给该学者。因此我们把每次推送过的学者及其行为都存储进入学者库，这些都是后续相同领域文献推送时的可复用数据，而非等到有新的推送任务时再临时采集学者。
从另一个角度来说，快速服务也是指对其他产线能提供快速支持。推送只是完整产品线的一个环节，其他环节，例如编辑部对学者征稿的邀约、对审稿专家的邀请等，这些也会用到学者资源。如果在推送时，就把已有的数据建立成学者库，就更能体现数据的资产化及价值。
(2) 如何进行学者库的数据积累？
在第一次推送时，没有任何学者数据，也没有学者库，学者库的数据是如何积累起来的呢？
初始数据来源于我们为客户提供的产品价值。
学者库最原始的学者数据以我们为客户提供的邮件传播产品服务为线索获得。邮件传播作为一种文献传播服务产品提供给客户时，我们为客户带来的价值是通过对该刊物/文献的画像分析并采集相关学者，再发送邮件来吸引学者阅读、引用等一系列关注。
从分析文献到匹配学者，这期间获得的数据，包括期刊之间引用引证关系数据、期刊发文机构信息、引用引证机构信息、关键词/共现词信息、学者基本信息尤其是学者邮箱等数据都是我们提供给客户的产品价值，其中学者相关信息则是学者库最初始的数据来源。