文献评述-多媒体学习材料的配图

这是大三下学期的一次课程作业，放上来充实博客 & 图一乐。评述的文献标题：Schneider, S., Dyrna, J., Meier, L., Beege, M., & Rey, G. D. (2018). How affective charge and text–picture connectedness moderate the impact of decorative pictures on multimedia learning. Journal of Educational Psychology, 110(2), 233–249. https://doi.org/10.1037/edu0000209

研究概述

这项研究主要关注了多媒体学习材料中配图对学习效果的影响。从现有的学习理论和实证研究出发，研究者指出配图可能通过认知负荷、情感信息两方面造成影响，进而提出了具体研究问题：配图的情感负载(affective charge)和图文关联性强弱对学习表现有何影响？如果有，那么怎样的图片会促进或者干扰学习，其认知机制是什么？
全文包含三个实验，而所有实验的设计、流程、分析方法都完全相同，其区别仅在于实验材料、被试和辅助性测量工具的使用，因此这里将只讨论实验1的设计。

预实验设计

研究者在德国招收被试，选取韩国的人口、动物、饮食文化概况为学习材料，使用情绪效价不同的配图。其中，人口概况配图的效价由两名模特（一男一女）的表情控制，动物配图的效价由其威胁程度或受威胁程度控制，食物配图的效价则主要取决于食物的完好程度和对西方人的吸引力。正负效价的原始图片分别有10+10，22+21和10+14张，共87张，原文报告的动物图片数量有误。

为了确保材料效价符合预期，并挑选操纵效果最佳的图片，研究者首先进行了材料评定的预实验，向被试随机呈现全部(87)或部分(≥45)图片，要求被试在7点量表上评估图片引发的积极和消极情绪。评定过程采用被试内设计，自变量为图片效价，因变量为同类别图片的两项平均得分。研究者将年龄、性别、饮食习惯视为被试间变量，对两项得分分别进行混合因素方差分析。由图片类别主效应显著、方向正确，类别和被试间因素交互不显著，不同主题图片单独分析结果相同，研究者指出材料操纵效果的确符合预期。

总体来看，预实验的设计、数据分析和结论是能够令人信服的。由于后续实验可能存在顺序效应（考虑首个材料的影响），即便被试总会观看所有主题的材料，同一主题、不同效价的图片也会成为潜在的比较对象，而所有主题图片平均得分的类别主效应并不保证单个主题的图片效价符合预期，因此如研究者所为，区分主题进行同样的分析是相当必要的。

值得注意的地方是，研究者的比较方式似乎有些不够自然：既然被试评定的图片都能够覆盖不同主题（否则不可能实施上述分析），那为什么不将主题视为另一个被试内因素？但考虑到上述分析已经纳入4个变量，这会使得模型更加复杂，结果难以解读，所以其处理也是可取的。然而问题是，不同被试观看图片数量不同，这也会导致不同被试的平均打分可靠性存在差异，改为所有被试都应完整评分显然可以避免这一问题。此外，不同主题的图片数量较不平衡，也可能给分析带来潜在的不良影响，保证适当的匹配会更为理想。

正式实验设计

根据预实验结果，研究者从各主题中挑选积极情绪和消极情绪平均得分最高的2或3张图片作为后续实验材料，招募了108名中学生，并按照配图的情感负载（积极、消极）和图文关联性（强、弱）两因素2×2完全随机设计分配被试。由于研究问题关注了上述条件和基线水平的差异，研究者还单独设置了控制组，将被试随机分配到5个组别，结果为积极强关联组27人，消极强关联组17人，积极弱关联组19人，消极弱关联组27人，控制组19人，总数(109)与报告(108)不一致。需要注意的是，不同组别的被试量并不十分均匀，这可能是因为研究者采用了真随机分配。如果事先产生伪随机序列分配被试保持各组别平衡，后续成对比较的结果可能会更为可靠。

实验中，研究者首先测量被试对学习材料的先验知识和当前情绪状态；随后，要求被试在限定时间内阅读三个主题的图文材料，每个主题单独分配一个网页，被试可以自由选择学习不同的材料。配图内容由实验条件决定，控制组被试的材料不包含配图，强关联组被试的配图与文字所属主题相同，弱关联组被试的配图采用预先确定的分配方式，确保配图与文字所属主题不同。学习结束后，被试需要接受记忆性知识(retention knowledge)和迁移性知识(transfer knowledge)两方面的考察，题目内容直接或间接来自学习材料，并填写情绪状态量表、任务无关思维量表和操纵检验（图文关联性）量表。

在数据分析中，为了考察各类变量的影响，研究者：

首先比较5个组别的年龄、学级、性别等变量，发现除性别外的被试变量均无显著组间差异，确定将性别和先验知识纳入后续分析的协变量。然而原文并未仔细说明组间的性别比较具体如何实施，令人困惑。
其次通过ANCOVA进行操纵检验，发现被试对图文关联性的评分存在图文关联性组别主效应，情感负载主效应与交互作用不显著，符合预期。
随后计算被试情绪状态量表的前后测差异，将积极情绪得分差和消极情绪得分差共同视为因变量，通过MANCOVA比较组间差异。结果表明，情感载荷主效应显著，图文关联性主效应与交互作用不显著，进一步以情感载荷为自变量对两个得分差分别进行ANCOVA结果相同，符合预期。原文F值自由度疑似有误，两水平的MANCOVA主效应分子自由度为1，原文讹作2，后续分析的分母自由度也可能存在问题。
确保实验材料有效后，研究者使用MANCOVA同时比较了两种学习表现的差异，发现情感负载、图文关联性主效应均显著，交互作用不显著；对两种学习表现分别实施进一步的ANCOVA结果类似。研究者由此得出结论：再积极情感负载或图文关联性强的条件下，被试有更好的学习表现。
为比较各组别和基线的差异，研究者实施了以5个条件为自变量，以两种学习表现为因变量的MANCOVA，并进行成对比较。结果表明，组别效应显著，且只有积极情感、强关联组被试表现显著优于控制组，消极情感、弱关联组被试表现显著更低。这里也有一处疑似F值自由度书写错误。
最后，研究者用ANCOVA考察了两因素对任务无关思维的影响，发现情感负载主效应显著，图文关联性主效应和交互作用不显著，消极情绪条件下被试有更高程度的任务无关思维，表明配图的消极情绪信息可能干扰被试学习和作答而导致表现不佳。

除上文已经提及的问题，这里主要列出两点设计上的主要缺陷。

实验材料安排。尽管实验材料经过了预实验的评定过程，但选择材料进行后续实验的方式并不理想：不同主题的选用图片数量不统一，可能造成潜在影响；可供选择的图片极其丰富，但最后选择了固定的3+2+3张图片，导致最终观测到的处理效应可能存在泛化能力的问题，难以推广到相同条件的其他配图；图文无关条件下的配图按照事先规定的组合呈现，而实验采用的特定组合可能构成干扰因素。由于难以采用项目内设计，可以考虑压缩学习材料数量，增大被试量，图文匹配组和不匹配组被试的图片均从符合主题要求的图库中随机抽取。为了确保每张图片出现的次数尽可能接近，可以设置伪随机序列。

被试分配和控制组的设置。首先，和有配图的学习材料相比，不配图恐怕并不是理想的对照条件，因为这会带来网页内容排版上的巨大差异，引入一个不可接受的混淆变量，使得其他实验和“基线”的比较失去意义，而且难以补救；其次在分析上，研究者不得不对实验条件合而复分，分而复合，有时忽视控制组分析2×2两因素的效应，有时忽略2×2的因素结构将所有条件合并分析组间差异，相当不自然，也在一定程度上削弱了统计检验的可靠性。对此，可以考虑两种潜在的改进方案：

大体上不改变被试间设计，但是选择更合适的控制条件，即引发中性情绪的配图。在这种情况下，控制条件可以整合进原有的2×2被试间设计，变为2×3被试间设计，后续的操纵检验、学习表现和任务无关思维的组间比较都可以使用统一的模型。
维持原始研究控制组条件（无配图）的同时尽可能提高控制组的可比性，改为被试内的基线，即减少学习材料总数，每名被试分两阶段完成控制条件和所在组别的学习任务，在被试间平衡顺序和材料主题，避免引入新的无关变量。考察学习表现即最重要的因变量时，可以计算被试实验条件与控制条件的得分差异后进行方差分析。