慕尼黑大学:双语任务中两种领域适应方法:简单易行、广泛适用( 八 )
作为可比较的非Twitter数据 , 我们使用OpenSubtitles , 其中分别包含4920万个英语和西班牙语副标题句子(Subtitle) 。 实验使用两个单语推特数据集:22M_tweets和BACKGROUND 。
对于情绪分类 , 我们使用RepLab 2013共享任务的数据 。 这些数据用正面、中性和负面标签标注 , 并包含英语和西班牙语的tweets 。 我们在资源贫乏的环境中使用了官方英语训练(26.6K tweets)和西班牙语测试(14.9K) 。 以便于比较我们使用7.2K西班牙语标记的训练数据 。
下表给出了两个分类器的结果 。 在所有情况下 , 基于subtitle的BWEs与twitter(22M_tweets和BACKGROUND)数据的适应明显优于基线 。 目标感知系统在基线BWES中表现不佳 , 并且可以从适应方法中显著受益 。 与仅基于twitter数据集的BWEs相比 , 尽管背景数据集与RepLab训练和测试集来自同一个主题 , 但22M_tweets的性能还是更好 。 我们的推测是后者太小 , 无法产生好的BWE 。 结合subtitle , 22M_tweets也比结合BACKGROUND产生更好的效果 。
总的来说 , 为twitter CLSC任务使用适应的BWEs可提高现成分类器的性能 。
推荐阅读
- 西凉|三国志战略版:出生州选择也有大学问,开局选好霸业即成
- 桌游|48小时里,游戏开发能给这群大学生带来什么?
- edg战队|如何看待那些彻夜疯狂庆祝edg夺冠的高校大学生?
- edg战队|这一代大学生们怎么了:EDG夺冠而已,能不能不要本末倒置?
- 超级萨米卷|校园版鱿鱼游戏,实力拯救欠下72学分的咸鱼大学生
- 雕刻|第五人格IVL采访,Xawm回应雕刻家顶级玩法,我的雕像上过大学!
- 郑州轻工业大学|英雄联盟高校行|英雄联盟全球总决赛郑州轻工业大学观赛完美收官
- 斗鱼|泡吧、蹦迪、夜不归宿!「斗鱼一姐」自曝大学期间的“放纵”生活
- 赛尔号|赛尔号:我大学的时候,玩小游戏被嘲笑!最后结局并没有反转!
- icon|大学生网恋一个半月被骗318万