加拿大留学英语考试揭秘托福写作机器评分潜规则
加拿大留学托福考试E-rater(electronic essay rater),或者机器写作评分,是ETS评分体系中的一大特点,且机器评分已经实行了近十年,但是不少家长和同学对于其评分机制依旧是雾里看花。
同学们关于评分的疑问:
“想要得5分可以犯多少语法错误?”;
“到底要写几个body paragraph呢?”;
“文章是写得越长越好吗?”。
为了解决大家的困惑,今天针对ETS官网关于e-rater的文献,并结合历年教学经验,撰写这篇文章,希望能够帮大家真正了解ETS机器评分的机制。(本文只针对托福写作考试中的独立部分。)
综述
托福考试中的写作文章由一个e-rater(机器评分)和一个human rater(考官评分)同时评分,最后取平均数。
机器判断文章“好坏”的方式与人工不同,这个评分更像是一个预测,它会基于数据库,结合几个维度的测评去判断一个human rater会给出多少分。绝大多数情况下,机器给出的分数都是与人工评分匹配的,即两组分数相差不会太大。在少数不匹配的情况下,会有第二位human rater介入。
e-rater不是完美的,关于e-rater是否能够公正地体现出考生的表现,有很多研究,在此就不赘述了。我们需要做的是了解e-rater具体的评分细则并在此基础上减少不必要的失分。
e-rater评分维度大致可以分成三大类
第一类:结构
Organization占比为32%,Development占比为29%,这两项加起来比重超过了60%,同学们作文分数也主要取决于在这两方面的表现。
“For the organization feature,e-rater identifies the number of elements present for each category of discourse in an essay.For the development feature,e-rater computes the average length for all the discourse elements(in words)in an essay.”[对于结构特征,e-rater识别文章中每个话语类别的元素数量。对于发展特性,e-rater计算一篇文章中所有话语元素(以单词为单位)的平均长度。]
简明来说,development判断结构是否完整,结构包括introductory material(background),thesis,main ideas,supporting ideas,and conclusion;Organization则要计算上述每个部分的单词数。
注意:
body paragraph的个数不会影响我们的得分,每个主体段有没有supporting ideas才会影响得分。加拿大托福
所以大家不必纠结到底写几个段落,而是要把更多的精力投放到段落的展开中,考虑到考试的时间限制,2-3个主体段是比较合适的。
加拿大留学英语考试揭秘托福写作机器评分潜规则
第二类:语法
Mechanics(10%)
Usage(8%)
Grammar(7%)
Style(3%)
这些分类又有小分类,以Mechanics为例,它的小分类包括:
Spelling errors拼写错误
Missing commas逗号缺失
Compound word errors复合词错误
Unnecessary commas多余的逗号
Capitalization of first word in a sentence句子中第一个单词的首字母大写
Capitalization of proper nouns专有名词的大写
Missing periods句号缺失
duplicates(accidentally repeating words in a row)重复的单词
Missing question marks问号缺失
Missing hyphens(including in number constructions)连字符缺失
Missing apostrophes单引号缺失
Fused words(missing space between words)单词之间缺少空格
“These error types are summarized for each feature as proportions of error rates relative to the essay length.”[这些错误类型总结为每个特征的错误率与文章长度的比例]
注意:
同一个大类下面的小分类所占的比重是相同的。并且e-rater会根据这些错误的总个数与文章长度的比例决定它们对分数的影响。
这就意味着:
1.无心犯的错,比如两个单词之间缺少空格,和因为“无知”犯的错,比如把合成词分成两个单词,会接受相同的惩罚。而这两种错误哪一种更容易避免,答案很明显。
2.如果追求文章长度而犯了更多的错误,会影响我们的分数。
所以,不建议考生在真实的考试中非要写500多字甚至更多,因为写多容易错多;最好是留下检查的时间,规避这些容易规避的错误。
第三类:词汇
Word length(7%)
Word frequency(7%)
“The first is computed through a word frequency index used to obtain a measure of vocabulary level.The second feature computes average word length across all words in the essay and uses this as an index of sophistication of word usage.”[第一个是通过一个词频指数来计算,这个指数用来衡量词汇水平。第二个特征计算文章中所有单词的平均单词长度,并以此作为单词使用复杂程度的指标。]
注意:
对我们词汇水平的测试体现在两个维度:常用词使用频率、词汇长度。使用频率较低,以及较复杂的词汇在这一维度评分会略高。但是并不建议大家为了迎合这一标准而去刻意使用生僻词,长词。