接上回说到爬虫已经基本成型,经过一些测试及debug,修改了一些地方。
首先还是编码的问题,一些人名地名出现什么德语法语拉丁语,易发生编码错误。
|
|
Python2容易出现这种问题,所以把上面这段敲上去,解决问题一劳永逸,虽然有人不太推崇这种不安全的方式,但我真的懒得再把文本一个个转换了。。
之后在抓取摘要也出现一些问题,当指向一些 IN BRIEF 的.abstract网站时会跳转到.short,再直接抓取也会抓到多段文字。
因为只想抓取研究文章,所以加上判断,段落数大于1则不进行抓取。
基本上就没有问题啦,把程序跑上,然后吃个饭去。
跑完了^_^统计一下总共有169篇文章被抓取,并把作者,机构,摘要分别归入不同的表中。
弄了一个很蠢的像.fa的文本结构,>146为页数,并把每篇文章的机构前加上了顺序。
数据到手了,先从简单的开始,看一看作者的数据。
这里的作者我只抓取了最后一位通讯作者。
|
|
首先数据清洗,把”>”页码标记给去除,只留下作者。把作者及作者出现次数储存进字典里,最后使用pandas简单排序。
结果:
结果似乎差别都不大,最多的通讯作者一年也只是发了2篇文章,发表2篇文章的作者共有5位。
可以看到有国内清华的戚益军教授,其中还包含了一篇Review。
作者的数据似乎没有太多好挖掘的,就到这里了,所有作者数据及最后的结果统计我也放在github上了,感兴趣的可以自己下载来玩。
接下来看看机构的数据。
将机构顺序进行分类:第n位的机构分别归入第n个文件。
先来看第一单位的数据,先不进行处理,直接进行统计:
发现有地名,机构,还有学院都混了进去,于是要进行一些数据清理。
观察原始数据,发现基本上倒数两个名称为城市或国家,之前的为机构,所以可以依此把机构和地区分开。
先来统计地区:
基本上还行,唯一的问题就是美国的文章是只注明州的,也许需要手工将这些数据合并,还有就是出现了多个China,包括China、P.R. China、PR China,我也懒得再改程序了,数据这么少我就人工在整理一下好了。
最后用ggplot2可视化:
论文大户依然是几个老牌发达国家及中国,米国依然是稳居第一,总体来说也没有什么令人惊讶的地方。
再把目光放到机构的数据上,之前因为数据中含有大量的学院啊、系啊、实验室等元素,我们只需要大学或研究院的数据,所以将其进行过滤:
得到:
这里有一些值得注意的地方,把INRA和CNRA在原文件中进行查找:
发现全部指向同一个学校 Université Paris-Saclay。
这个学校是什么一种存在呢?搜了一搜(来自百度):
巴黎-萨克雷大学(Université Paris-Saclay)是一所于2014年12月29日在法国巴黎南郊成立的的一所巨型大学 。
巴黎-萨克雷合并了2所大学、10所大学校(Grande Ecole)与7个研究所,其中包括巴黎综合理工学院(Ecole Polytechnique)、巴黎高等商业研究学院(HEC Paris)、巴黎中央理工-高等电力学院(Centrale-Supélec)和巴黎第十一大学(Université Paris-Sud)、凡尔赛大学(Université de Versailles-Saint-Quentin-en-Yvelines)等。校园面积达1350英亩,有约60000名学生与10500名科研人员七个研究所:
CNRS(国立中央科学研究所)
CEA(原子能研究所)
IHES(高等研究所)
INRA(国立农业研究所)
INRIA(国立计算机与自动化研究所)
ONERA(国立航空研究办公室)
INSERM(国立健康与药物研究所)
大意就是法国的学校实在是小而精,整合成这么一个共同体有利于提高世界排名。
于是把这些都合并到 Université Paris-Saclay 。
还有其他一些不好识别的名称,手动进行整合。
最后:
进行一下简单的解读,第一位是中科院系统,随后是比利时VIB研究所,美国文章虽然多,但机构较为分散。
不对此排名发表任何看法。
代码、数据、图片都上传到github上。