Command Palette
Search for a command to run...
Xingwei Tan Mahathi Parvatham Chiara Gambi Gabriele Pergola

摘要
参与度与动机对第二语言习得至关重要,然而在教育对话中持续激发学习者兴趣仍是一项挑战。尽管以往研究已探讨了使教育文本具有吸引力的因素,但对于驱动对话中参与感的语言特征,目前仍知之甚少。为填补这一空白,我们提出了IntrEx——首个针对师生互动中“有趣性”与“预期有趣性”进行标注的大规模数据集。IntrEx基于教师-学生聊天室语料库(Teacher-Student Chatroom Corpus, TSCC)构建,通过引入序列级标注,拓展了以往研究的范畴,使我们能够超越孤立话语回合的分析,深入探究兴趣在长期对话过程中的动态演变。我们采用严格的标注流程,邀请超过100名第二语言学习者参与,借鉴人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF)的比较式评分机制,以提升标注者间的一致性。我们进一步探究大型语言模型(Large Language Models, LLMs)是否能够预测人类对“有趣性”的判断。研究发现,经过有趣性评分数据微调的中等规模模型(7B/8B参数量)在表现上优于更大规模的专有模型(如GPT-4o),表明针对教育场景定制的专用数据集在建模学习参与度方面具有巨大潜力。最后,我们分析了语言与认知因素(如具体性、可理解性(可读性)以及话语承接度,即uptake)如何影响教育对话中的参与度。