乂学教育-松鼠AI亮相人机交互国际会议(HCII)( 七 )

处理这种数据往往很难,尤其是互联网上的学习数据。学习者答题过程中会出现各种诸如拼写错误、语法错误;不完整的句子,模糊的句子,完整的固定句子;严重的语境化等等。

研究者需要做的是将非结构化数据映射为结构化数据进行分析、交换和对齐/融合。Rus博士建议有两种方法可以实现:一种是即时映射 - 如果要求学生模型不断更新,建议使用;另一种是离线 - 记录学习者和系统之间交互,然后从日志文件中提取知识组件、行为元素等等。

离线方法的关键在于如何标准化日志和言语行为。日志标准化中,研究者要尽可能记录,因为每个细节都很重要,并且考虑实际因素,例如隐私和安全问题。研究需要使用机器可读格式(XML或类似XML),这将使数据提取、融合和交换更容易。同时,使用适当的ID /链接到任务,配置文件和对话策略,以便在需要时所有内容都可以相互链接(数据来源要求);最后,研究者应该可以提取一些日志的部分并以用户友好的格式(如html)呈现给学习者本人。

言语行为有助于理解学习者和导师(系统)之间的互动,对它们进行标准化将允许数据交换和有意义的跨平台分析和比较。标准化言语行为信息的一个挑战是各种研究和开发小组使用不同的分类法。

推荐阅读