2005-2020考研英语真题数据分析报告

考研英语从2005年开始使用新题型,所以分析从这一年真题开始。

2005-2020年考研英语真题数据分析报告(文本处理方式不同结果可能会有出入)

处理源数据

1、首先准备真题文件,然后将其导出为TXT文件。

2、将所有中文删除,调整文本格式

3、英文题目说明一般不看一并删掉

统计结果为:

count

总共使用了22296次单词,平均每年为1394次单词。

统计与分析

接下来对每个单词进行统计。

15年间真题出现过8839个独立不同单词,出现次数前10为:

top10

全是无关紧要的单词,所以我们将其去除:

useless=['the','for','and','on','of','to',
         'a','an','be','as','have','has',
         'in','are','is','am','can','not',
         'it','by','but','so','that','b',
         'c','d','e','f','g','h','i','j','k','l',
         'm','l','m','n','o','p','q','r','s','t','u',
         'v','w','x','y','z','from','they','them','that',
         'with','their','or','at','this','which','your',
         'more','you','we','one','was','its','what','about',
         'his','should','all','most','will','been','he',
         'than','do','who','may','when','if','there','would',
         'only','our','some','such','were','these','into','iv',
         'no','many','how','up','now','much','had','also','those',
         'well','us','where','while','too','does']

我们将以上定词、冠词、字母等等去除。

单词8874个,top10单词为:

the

我们可以得到什么?

1、15年间,使用单词8874个,但是每年的考研单词列表为5500个左右,有接近3300个单词不在考研大纲中。当然,有的单词肯定是只出现过一次就再也没有出现过。

2、people表示和普通人有关,可能指大众观点或者一般情况

3、new表示新就情况/观点对比

4、social指社会,也就是说与社会文章有关。

5、paragraph表示段落大意/观点/主要意思,和段落总结归纳有关。

6、author表示我们要从文章中推测或者总结作者需要表达的意思。

与考研大纲对比

我们以2020年考研大纲单词为例(主要是考研大纲完整版PDF比较难找),总共5244个单词。我们将每一年的单词与其对比

compare

每年接近有一半的单词是没有在大纲里面出现的,当然这个统计方法不准确。take/took是一个单词的两种形式,但是统计的时候把他们当做两个单词。

总体情况是:

c

文章来源

总体年份文章名来源来源时间类别
2005Fair and Square经济学人2003-9-18科技

最后附上真题中除去定冠词等等的单词列表

单词列表


本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!