博士专业质量评价的创新:基于NRC第三次评价模式的分析-研究生院-西安外国语大学

博士专业质量评价的创新:基于NRC第三次评价模式的分析

2017/03/17 浏览：次

摘要: 在我国实施双一流建设战略的过程中，迫切需要加强博士专业质量评价的创新。美国研究理事会组织的博士专业质量评价，模式新颖，可资借鉴。评价的价值取向以质量为本；评价的方法论坚持利益相关者、数据、成效三位一体；评价的组织与实施，透明和科学；评价的方式方法，量化评价和声誉评价相结合；评价的对象，更加关注对学生的评价；评价的主体，实现从政府部门向高校和社会转变；评价结果的应用，从追求声誉到提升质量。

关键词: 博士专业评价美国研究理事会质量

作者简介： 王邦权，南京大学教育研究院在读博士研究生；汪霞，南京大学教育研究院教授,副院长，博士生导师。

回顾人类历史进程,大国的崛起无不与高等教育的发展紧密相连。为建设高等教育强国,我国于2015年公布《统筹推进世界一流大学和一流学科建设总体方案》,明确了师资队伍、拔尖创新人才、科学研究等五项基本任务。博士专业集学术力量、科研成果、学术影响于一身,已成为衡量一所学校办学实力与水平的重要指标。博士专业质量建设是完成五项任务的核心抓手。但是,我国博士专业质量评价起步不久,怎样分析博士专业建设的质量,如何甄别和评价博士专业的成效,仍有很多问题需要思考和研究。美国在博士专业评价方面历史悠久、模式新颖。全美研究委员会(National Research Council,NRC)对博士点的评价已有近30年的历史,每次评价报告出炉,都会引起巨大反响,尤其第三次评价甚至让一些大学校长认为:"NRC提供了史无前例的关于美国212所大学62个领域5000个博士专业关于教师科研生产力、学术机构对学生的支持、教师和学生的多样性以及其他许多方面的特征。这个大型数据将会使大学教师、行政人员以及投资者来比较、评价以及改进专业质量。潜在的生源可以用这些数据帮助识别最适合他们需要的专业。大学将会以此为基础,不断更新数据,以便使专业继续得到评价和改进。"[1]本文主要对NRC第三次评价模式进行分析,以期为我国博士专业质量评价改革提供借鉴。

一、博士专业质量及其评价

博士专业质量,又可以称为博士点质量,它测量的是作为一种机构类型的博士点或博士科系的质量。[2]由于受到吉本斯知识生产模式Ⅱ的影响,不同的利益相关者对博士专业质量的看法并不一致,学术共同体将知识的原创性作为衡量博士专业质量的标准,大学在维护知识原创性的前提下,更加关注论文数量,政府部门将就业视为博士专业质量的重要指标,企业则将工作能力作为判断博士专业质量好坏的准则。围绕博士专业质量,利益相关者展开博弈,学术共同体一直以来将知识原创性视为博士专业质量的唯一指标,但是20世纪90年代以来,形成对博士专业质量的社会问责机制,为了满足不同利益相关者的诉求,博士学位类型的多样化成为全球性趋势。在这样的背景下,学术共同体被迫妥协,放弃知识原创性的唯一指标,意识到博士专业质量包含了不同利益相关者的价值理念,是一个内涵十分宽泛的概念。

20世纪90年代以来,博士生教育规模扩张的全球性趋势日益加剧,许多国家的学者、公众、政府和企业都充分意识到博士专业质量下滑。为了进一步提高博士专业质量和整个社会的创新能力,对博士专业质量的评价逐渐形成共识,尤其美国在这方面做了许多有益的探索。

长期以来,坚持在学科内注重知识原创性的欧洲模式一直在博士专业质量领域发挥主要作用,但是进入21世纪,知识经济成为不可逆转的潮流,博士毕业生不会只在学术部门就业,社会对博士专业质量有更高期待,希望博士生在跨学科领域具备迁移能力,显然传统的产品视角的欧洲模式无法满足社会多元化的需求,其评价标准也不断遭到社会批判。因此,为了回应社会质疑,学术训练逐渐成为提高博士专业质量的核心,国际上总的趋势是,在坚持知识原创性传统的基础上,也对环境做出回应,注重学术训练和多元评价,重视质量文化以满足社会的需求。

二、我国博士专业质量评价现状分析

迄今为止,我国教育行政部门对博士专业质量评价主要采取三种模式:其一是1995年国家教委委托学位与研究生教育评估所对33所研究生院进行评价,这次评价内容包括"研究生培养及质量"、"学科建设及成果"和"研究生院机构建设"三个方面;其二是2005年建立了对博士授权点6年一次的定期评价制度,对学位授权点的评价,体现一种管理的价值理念,合格的学位授权点可以继续招生,而不合格的学位授权点则会被撤销学位授予权;其三是1995年开始的一级学科评价,从2002年高等学校与科研院所学位与研究生评估所正式开展全国一级学科评价算起,已经实施了三次学科评价,分别是2002年、2006年和2012年学科评价。2016年4月,全国第四次学科评价工作也已正式启动,它采取自愿参评的方式,评价的目的确定为四个服务:服务大局、服务高校、服务社会、服务国际。评价共在95个一级学科范围内进行,程序有材料报送、材料核实、主观评价、结果统计与发布等环节,共设三级指标,一级指标包括"师资队伍与资源"、"人才培养质量"、"科学研究水平"和"社会服务与学科声誉"。

三种评价模式均由教育行政部门主导,不同之处在于,前两种评价以绩效为中心,带有管理主义倾向,而后一种评价模式,政府部门并没有将评价结果与资源配置挂钩,体现服务高校和学科建设的理念,但是在实际操作过程中,也产生了许多弊端。比如,忽视对学生的评价,虽然第四次学科评价尝试引入在校生调查,更全面地考察学生在学质量与毕业后职业发展质量,但是在授予学位数中设置上限的做法,对授予博士和硕士学位人数较少但培养质量较高的学科点有失公平。评价的组织与实施,不够透明和科学,整个评价过程历时一年,而且许多数据无法查询,虽然第四次学科评价有意汲取前三次学科评价的教训,在2013年学位中心就委托课题开展研究,广泛调研,确立不同学科门类的指标体系,并且在学位与研究生教育信息网上公布,但是调研过程不得而知,也缺少指标质询过程和对外界批评的回应及修正指标体系的过程。

三、 NRC第三次博士专业质量评价模式研究

由美国国家科学院组建于1916年的全美研究委员会(NRC),运用科学和技术的力量,致力于学术的发展和为联邦政府提供政策咨询。[1]迄今为止,NRC已经对美国博士点实施了三次评价,1983—1984、1995—1996以及2006—2007年,并且在2010年秋天发布《美国研究型博士点定量评价》报告。[3]下面主要分析NRC第三次博士专业质量评价的模式。

(一) 使命及前期工作

由于研究生教育在美国高等教育中扮演重要角色,所以每间隔10年或者更长时间,NRC就会开展一次全国范围的博士专业质量评价,第三次评价的使命是,对培养研究者、教师和从业者的博士点进行深入研究,以期让大学、学生和政策制定者看到其优势和不足。[3]帮助美国的大学调整重点学科,提高博士专业质量,帮助学生做出重要抉择[4],对投资者负责,让他们知道应该给哪所大学投资,以及自己之前的投资是否合理,使社会公众更好地了解博士点的质量并提升美国整体的研究能力、创新能力和竞争能力[5]。

在2006年着手第三次博士点质量评价之前,NRC做了大量前期工作。2003年,委员会首先发布了一份名为《研究型博士点评价:方法研究》的报告,为此后的评价奠定了方法论基础。2005年9月,NRC主席拉尔夫·赛瑟罗恩(Ralph J. Cicerone)给具有博士点的大学写信,邀请他们参与评价,向他们解释评价目的、组织实施、研究时间,并且号召大学为第三次评价提供资金。[1]

(二) 对象及指标选取

2006年至2010年的第三次评价,在212所大学、62个领域和5000个博士点展开[3],规定参评的博士点在2000—2001至2004—2005学年至少授予5个博士学位,参评的学科至少在25所大学存在博士点,并在2000—2001至2004—2005学年至少授予500个博士学位,以前评价中包括的学科即使达不到上述定量标准,也被包括在内。第三次评价的学科专业达62个,比第一次和第二次评价分别多了30个和21个。

前两次评价收集博士点规模、大学资源、教师学术能力和学生特征等数据,第三次在前两次评价的基础上扩展了数据收集范围,包括学生财政资助、教学和学生资源的其他方面,具体指标见表 1。第三次评价,一级指标包括:教师研究活动、学生资助情况及毕业出路、学术环境的多样性。因为数据收集难度和资金不到位,NRC拟定的一些指标被排除,比如人文社科学生GRE—V的平均分,2004—2006年所有领域学生GRE-Q的平均分,2001—2006年博士毕业的完成率,学生工作岗位,学生健康保险,跨学科的比例,学生活动,学生发表论文数。

(三) 评价方法

第三次评价,NRC采用了两种不同的方法来获取各项客观指标的权重。第一种设定各项指标权重的方法是,问卷要求被调查者对3项一级指标的权重进行评分,3项权重分数的加和总分为100,分值越高说明该指标对本专业博士点的质量越为重要。[1] NRC还要求被调查者分别在每项一级指标中选择对本专业博士点质量较为重要的二级指标(最多选4项),选出的指标各计1分;如果选出的指标超过2项,被调查者需要再从中选出最重要的2项,这些二级指标则各计2分。[1]每个被调查者评定的二级指标权重就是用他所赋予的相应一级指标的权重乘以该二级指标的得分,将某一学科的被调查者所评定的相应二级指标权重计算平均值,就得到了该学科的20项指标的权重,即以调查为基础获得的指标权重(survey-based weights,S权重)。[6]

第二种设定各项指标权重的方法是,对博士点的主观评分和客观数据进行回归分析。发放的"评级问卷"上列有被调查者各自学科内的最多15个博士点,问卷还提供了这些博士点的教师名单和客观数据,要求被调查者对这些博士点进行6分制的评定。[7]"1"表示博士教育质量不高,"6"则说明相当卓越,同时保证每个项目大约有50位评级者。

将主观评定结果与对应博士点的客观数据进行回归就可以确定各项指标的权重,即以回归分析为基础获得的指标权重(regression-based weights,R权重)。[6]

用每个学科各项指标的S权重和R权重,分别与该学科内博士点的对应数据相结合,计算出这些博士点的S评级和R评级,随后将每个博士点的500个S评级和R评级按大小排序,去掉5%的最高和5%的最低评级,所得到的中间90%的评级区域决定了该博士点的R排名区间和S排名区间。[6]也就是意味着,博士点的排名不会确定一个位置,而是会在更大范围内变动。例如,NRC不会将一个博士点评为第一,另一个评为第二,取而代之的是用90%的置信区间的相对排名来替代,而不是50%的置信水平,那么一个博士点的排名就会有90%的可能性在第15名和第35名之间,这就避免了委员会宣称的"伪精确问题",即错误地提供一个精确的排名。[7]

NRC第三次对博士专业质量的评价,关注博士生就业状况,以质量为生命,削弱声誉评价的影响力,充分尊重不同学科的内在逻辑,体现学科差异。自然学科更多关注资助,人文学科则将著作视为学术卓越的标志。[7]因此,不同学科的指标权重也会不同,使其结果更令人信服。

(四) 评价工具

2005—2006年冬天,由研究生院院长和大学研究人员共同组成的一个团队对NRC开发的问卷进行详细审查,经过修正,这些问卷最终在2006年11月份定稿。问卷由委员会通过后,发布到网站上,听取各所高校的建议并接受NRC下属的大学评审董事会(Institutional Review Board,IRB)的审查。问卷共有五类,包括机构问卷、博士点问卷、教师问卷、学生问卷和评级问卷[9],由数学软件政策研究室负责管理。

通过对大学问卷、博士点问卷、教师问卷和学生问卷进行分析,发现评价工具以学生为本,注重对学生的评价,通过学生视角来审视博士专业质量,比如大学问卷中,问题涉及医疗保险和心理健康服务等等,博士点问卷中,问题涉及对学生的财政资助,研究生期间花费和学生专业发展等,教师问卷中,问题涉及教师指导的学生情况等。但是,每类问卷在以学生为本的基础上,凸显各自的特色。大学问卷,标准兼顾统一和多元,重视少数族裔学生。对博士后学者的界定,采纳美国大学协会的统一标准,对学年的划分则兼顾不同大学的标准,关注亚裔、太平洋岛民、西班牙人、非西班牙白人、非西班牙黑人、美洲原住民和阿拉斯加原住民在博士专业的分布状态和修业时间。博士点问卷,收集男女高年级博士研究生人数比例和学位完成率的相关数据,关注性别平等。教师问卷,以学术质量为核心,将教师分成全职教师、临时和兼职的教师等三类,了解教师在研究和发展、教学、管理、职业服务方面的时间分配,评价教师的学术能力。学生问卷,第一次对学生进行调查,研究学生在财政资助、职业目标、博士专业满意度、发表的学术论文和著作等方面的情况。

(五) 评价的影响

NRC对博士专业质量的评价在大学利益相关者中引起广泛讨论,并让他们意识到,需要格外重视研究生训练,以便维持美国在全球作为博士教育提供者的领导地位。美国政府部门和研究机构对大学和博士点提供巨额资金支持,促进美国博士专业的发展。例如,美国国立卫生院(National Institutes of Health,NIH)每年为大学和学生训练提供超过7亿美元的资助,对象涵盖大约20%的合格的生物医学博士研究生。[10]企业雇主看重博士研究生的工作能力和效率,第三次评价之后,企业进一步和大学合作,希望博士专业能够培养非学术部门需要的人才。

与政府部门、研究机构和企业的反应不同,虽然NRC第三次对博士专业质量的评价在大学中产生了重要影响,但是大学中依然有许多反对的声音,所以博士专业的改革、人才培养的改革仅在少数一些大学开展。例如,斯蒂芬妮·施密特(Stephanie A. Schmitt)通过调查发现只有17%的受访者表示会根据NRC的研究改变行动[3]。他们主要在以下几个方面实施改革:(1)大学安排专人负责数据收集和分析,通过与其他高校的比较,了解自己的优势和劣势,加大预算投入,重新进行资源分配,提升弱势专业的竞争力;(2)修订课程,对排名靠后的博士点,大学继续审查并且启动问责程序;(3)召开各种会议,讨论并修改全校博士专业政策,向联邦政府和州政府寻求资金支持和政策调整;(4)严格筛选教师,提高对学生入学申请的考核难度,提升研究生选拔和教师聘用的竞争力;(5)加强对博士研究生论文写作能力的训练,重组博士生财政资助机制,加大对学生的研究资助力度,对博士学位论文严格评审,提高博士专业质量[11]。

四、对我国博士专业质量评价改革的思考

(一) 评价的价值取向:以质量为本

以质量为本的价值取向,充分反映了市场对高质量人才的迫切需求,反映了国家在日益激烈的全球化竞争中的利益诉求,也反映了大学在剧烈的时代变革中,主动适应社会发展和提高竞争力的价值主张。NRC第三轮评价以质量为本,对于提高美国博士专业质量有极其重要的意义。

从我国一级学科的评价来看,价值取向也正在由规模向质量转变,尤其是第四轮评价,可以看出,教育行政部门更加关注质量,但是指标体系依然受教师权威、规模和比例影响,如教师数、优秀在校生比例、人文社会科学论文引用率和期刊档次、教师学术头衔等等。教育行政部门具有以质量为本的价值理念,但是指标体系却无法摆脱规模思维,对青年教师的学术成长不利,对博士专业规模小或者博士专业质量高但是大学声誉差的学校显然有失公平,不利于他们吸引外部资源,不利于形成以学术卓越为核心的竞争环境,不利于国内整体学术水平的提高和创新体系的构建。评价的价值取向以质量为本,应该清楚界定"质量"的概念,排除教师权威、规模和比例对指标体系的影响,避免晕轮效应,才能使评价结果更好地为大学和学科服务,推动"双一流"建设,提升博士专业质量。

(二) 评价的方法论:坚持利益相关者、数据、成效三位一体

评价的方法论坚持大学、教师和学生等利益相关者的视角,从数据出发,要求每所被调查的大学任命一名协调员负责数据收集工作,然后NRC三次对数据进行核查并要求大学提供遗漏的数据,成效显著,政府、研究机构、企业和大学根据评价结果,提高博士专业质量。

我国第四次学科评价,总体坚持利益相关者的方法论,但是缺少修正环节,指标仍然有许多缺陷,对数据进行一轮核查,难以保证报送材料的真实性,其成效大打折扣。坚持利益相关者、数据、成效三位一体的评价方法论,就要从大学、教师和学生等利益相关者的视角出发,对指标体系进行深入研究,并及时将指标指南在网上公布,听取他们的建议,在此基础上进行反复修改,只有这样才可能体现他们眼中的质量观,满足其利益诉求。收集的数据十分庞杂,必须对数据进行多次核查,尽量保障数据的真实性,否则结果的客观性和科学性就值得怀疑。在数据核查的前提下,发布评价报告,这样才可能为政府、研究机构、企业和大学的决策提供客观依据,提高博士专业质量。

(三) 评价的组织与实施,透明和科学

NRC第三次对博士专业的评价,从2002年召开第一次会议到结果发布,历时8年,它总是能及时向外界公布评价的整个过程,2008年9月份,又在网上建立数据库,方便公众查询和质疑,并且在此基础上进行反思和改进,对评价的发展起了巨大的促进作用。

我国1995年至2012年的学科评价,总体而言,评价时间比较短,从数据采集、数据核实、信息公示、专家问卷调查到统计和发布结果,一般历时1年,而且过程不透明。虽然第四次学科评价汲取前几次评价的教训,用三年的时间研究各学科的指标,具有一定的科学性,但是仍然有许多不足,如研究的时间仓促、仅在参评单位范围内公示部分数据、无法完全了解评价所运用的方法论。相比NRC对博士专业的评价,中国学科评价时间仓促,缺少更加严密的论证和过程的透明,需要在以后的评价中引起足够重视,做到在评价组织和实施上,投入更多时间来研究方法论和完成数据采集工作,建立公开的数据库,做到整个过程的透明,积极回应社会各界的质疑,不断完善方法论,从而通过科学的评价真正推动一流学科的建设与发展。

(四) 评价的方式方法:量化评价和声誉评价相结合

NRC第三次评价,注重量化评价,同时辅之以声誉评价。量化评价和声誉评价各有利弊。量化评价运用回归分析,建立模型,将学科评价数字化、图表化,以便决策者改进,推进学科建设;但是量化评价又有其致命弱点。研究者的理性设计,会将许多有价值的东西排斥掉,得到许多不可能再是客观的真实。对声誉评价而言,其劣势在于,依靠主观评价,反映同行的主观意见,难免会失真,当然它的优势在于可以弥补量化评价技术的不足,发挥三个方面的功能:(1)确保科学家对他们受到的公共资助负有责任;(2)保护科学共同体的职业自治;(3)证明科学和技术领域新成果的正确性。[12]

当前,我国着力推动一流大学和一流学科建设,希冀在本世纪中叶,成为高等教育强国。在博士专业质量评价改革中,应注意用每个学科各项指标的权重,分别与该学科内博士点的对应数据相结合,同时考虑不同学科之间存在的显著差异,慎用量化指标,关注利益博弈下的学科同行选择,减少因人为原因造成的操作失误,提高学科评价的科学性、准确性和人文性。

(五) 评价的对象:更加关注对学生的评价

NRC意识到前两次博士专业评价对学生的忽视,于是2001年就在《教育评价的科学和设计》中提出"既关注对学生学习的评价,也关注对学校成就的评价"[13]。关注学生学习和学校成就的宣言,为第三次评价在方法论上做了很好的指引。从第三次评价的指标设定来看,对学生的评价涵盖入学评价、过程评价以及结果评价三个方面,体现以学生为本的人文情怀和价值理念。

我国第四轮学科评价,对学生的评价主要体现在一级指标"人才培养质量"方面,又将它划分为三个二级指标:培养过程质量、在校生质量、毕业生质量。它引入在校生调查,考察学生在学质量与毕业后职业发展质量,然而存在的问题是忽视入学评价,而且不关注研究生的学业完成率、修业年限以及获得奖学金的情况。因此,评价的对象,应更加关注对学生的评价,不仅从理念上高度重视,而且在指标体系设计上,应将指标进一步细化,包括对学生的入学评价、过程评价和结果评价,体现学生视阈下一流学科建设的问题及未来出路。

(六) 评价的主体:实现从政府部门向高校和社会转变

美国的NRC属于"民间非营利组织",不具备政府组织的特性,扮演服务的角色。我国负责开展一级学科评价的教育部学位与研究生教育发展中心属于教育部的直属事业单位,接受教育部和国务院学位委员会的领导,带有官方性质,其开展的学科评价,主要存在三个问题:第一,教育评价的专业性十分突出,行政部门对此并不擅长,如果非要将教育评价的责任揽到自己身上,其评价结果就会烙下政治安排的印记,易使结果失去公信力,无法获得舆论的支持,也无法为大学提供有效的改进策略来促进其发展。第二,政府部门组织的评价,带有评价的管理主义倾向,其结果往往作为"教育问责"或者获取资源多少的依据,会使高校无法正确对待学科评价,数据造假、寻租和利益输送等问题就会衍生出来。第三,行政力量规制下的学科评价,使大学很难形成自我评价机制,削弱高校办学自主权。鉴于此,在评价主体上,应实现从政府部门向高校和社会转变,行政部门应明确自身定位,转变职能,将裁判员的角色让给大学和社会,尊重大学办学自主权,合理引导它们培育证据文化和质量文化,开展自我评价。在建立退出机制后,教育行政部门对社会评价机构的资质进行认证,遵循市场客观规律,引导它们良性竞争,为博士专业的发展服务。

(七) 评价结果的应用:从追求声誉到提升质量

NRC第三次评价结果的应用,大学不再只是关心每个博士专业的排名,而是注意进行横向和纵向比较,分析博士专业在上一轮评价基础上,质量是否有提高,并且探寻与其他大学存在的差距,以此制定行动方案,提升质量。

我国2012年的一级学科评价,虽然学位中心主张淡化排名,提高质量,但是大学将各学科排名作为招生、吸引资源和竞争的依据,忽视内涵建设。评价结果的应用,从追求声誉到提升质量,就需要充分认识到,受统计偏差、数据错误等因素的影响,学科排名具有不确定性。排名无论靠前还是落后,都需要慎重使用评价结果,将其作为参考依据,进行横向和纵向比较,专业性地分析评价结果,研究与其他大学的差距,发布分析报告,从而调整大学战略目标,对症下药,脚踏实地提高博士专业质量。

来源：研究生教育研究 2017/03/16

网站声明：转载或引用本文,须注明本文出处,违者必究