2005-2020考研英语真题数据分析报告
考研英语从2005年开始使用新题型,所以分析从这一年真题开始。
2005-2020年考研英语真题数据分析报告(文本处理方式不同结果可能会有出入)
处理源数据
1、首先准备真题文件,然后将其导出为TXT文件。
2、将所有中文删除,调整文本格式
3、英文题目说明一般不看一并删掉
统计结果为:
总共使用了22296次单词,平均每年为1394次单词。
统计与分析
接下来对每个单词进行统计。
15年间真题出现过8839个独立不同单词,出现次数前10为:
全是无关紧要的单词,所以我们将其去除:
useless=['the','for','and','on','of','to',
'a','an','be','as','have','has',
'in','are','is','am','can','not',
'it','by','but','so','that','b',
'c','d','e','f','g','h','i','j','k','l',
'm','l','m','n','o','p','q','r','s','t','u',
'v','w','x','y','z','from','they','them','that',
'with','their','or','at','this','which','your',
'more','you','we','one','was','its','what','about',
'his','should','all','most','will','been','he',
'than','do','who','may','when','if','there','would',
'only','our','some','such','were','these','into','iv',
'no','many','how','up','now','much','had','also','those',
'well','us','where','while','too','does']
我们将以上定词、冠词、字母等等去除。
单词8874个,top10单词为:
我们可以得到什么?
1、15年间,使用单词8874个,但是每年的考研单词列表为5500个左右,有接近3300个单词不在考研大纲中。当然,有的单词肯定是只出现过一次就再也没有出现过。
2、people表示和普通人有关,可能指大众观点或者一般情况
3、new表示新就情况/观点对比
4、social指社会,也就是说与社会文章有关。
5、paragraph表示段落大意/观点/主要意思,和段落总结归纳有关。
6、author表示我们要从文章中推测或者总结作者需要表达的意思。
与考研大纲对比
我们以2020年考研大纲单词为例(主要是考研大纲完整版PDF比较难找),总共5244个单词。我们将每一年的单词与其对比
每年接近有一半的单词是没有在大纲里面出现的,当然这个统计方法不准确。take/took是一个单词的两种形式,但是统计的时候把他们当做两个单词。
总体情况是:
文章来源
总体年份 | 文章名 | 来源 | 来源时间 | 类别 |
---|---|---|---|---|
2005 | Fair and Square | 经济学人 | 2003-9-18 | 科技 |
最后附上真题中除去定冠词等等的单词列表
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!