||
第四节 循证医学、精准医学与临床医学进步
一、循证医学的起源
(一)“李建民之问”
好久以来,李建民先生造访北京中医药大学基础医学院的描述[李建民. 中国医学史における核心问题. 内经(日本),2003,151:16-36],总让人难以释怀。那是2002年夏天,他带着长久以来的一个疑惑而去:为何中医教育过程必须阅读古典?当时,他把这个问题就教该校某教授。对方反问:“谁说中医一定要念古典?读这本教科书已经够了。”然后递过印会河的《中医基础理论》来。然而,当他把相同问题请教另一位教授时,回答是:经典教育当然是中医的根本;现代人所编的教材质量越来越差,不值一读。接着,这位教授送给他几篇近年“救救中医吧”的论战文章。
李先生说:“这些论战的内容相当具有震撼力。报导中引用大陆代表性的老中医、研究者,对中医的现况、教育方式做了极为激烈的攻击。这些文章如‘一百年后,还会有中医吗?’、‘病入膏肓的中医,病根在哪里?’、‘中医还有药可医吗?’。从这些标题来看,不难想见中医的危机感;相对过去中医来自政治力的压制,这一波批评来自中医内部本身。而论战最后提出自救的政策之一竟是:‘强化中医经典的地位和作用’。”
笔者身在中医界,自知有很多问题一时半会说不清楚。但“中医为什么一定要读经典?”这似乎可以说清楚,姑且作为答“李建民之问”。
实际上,“李建民之问”涉及中医重大问题——如何提高中医药疗效。“老中医经验传承”一直是中医药“守正创新”的重要环节,虽然各位老中医的经验言人人殊,但有一点是共同的,那就是“多读书,勤临证”。这似乎是历代中医不可颠簸的成才之道:所谓“多读书”,就是谋求开阔的知识面,以便触类旁通;所谓“勤临证”就是“实践出真知”,在临床过程中体悟万事万物的道理,练就 “庖丁解牛”之功,熟能生巧。最终目标是做到临证丝丝入扣,效若桴鼓。
但为什么一定要读经典?就古代而言,与“经学传统”有关。中医书籍汗牛充栋,但绝大多数是“解经”“悟经”的产物。读别人的体悟,虽然也有参考作用,特别能显示自己读书多,但还是不如自己去体悟。故对于经典,不光是“读”,而且要“背”,还要“悟”,以至于出神入化,随证拈来。
中医传承千百年,莫过于此。但李先生的疑惑来自于何?他在文中已经指出中医界内部的矛盾,一是参照传统认识,强调“读古典”(即经典著作);一是读教科书。显然,作为医学史的研究者,他肯定熟知西方医学已经走过了希波克拉底和盖伦的时代,而中医学却仍然徘徊在两个时代的交界处。在前一个时代,人们的脑子被希波克拉底和盖伦的学说绑得死死的,离开了“医圣”的教导,就不知道怎么办才好。后一个时代,人们采用实证的方法,面向实际而不是书本和权威,医学知识的增长日新月异,从此躺着“医圣”怀里“吸奶汁”的日子一去不复返了。医学成了“医学家共同体”的“集体智慧”,医学教育的版本也成了集体智慧的体现——“教科书”。人们从教科书里学习理论知识,然后应用于临床实践;这些理论来自于经过检验的客观实际,而不是局限于一家一派的哲学冥想。从读“经典”到学“教科书”,临床医学悄无声息地跨越了一个时代,从轴心时代迈进到科学时代。
也许,对于中医教育来说,当今正处在两个时代的夹缝之中。一方面,人们已经走入科学时代,悄无声息地采用科学时代的行为方式对待传统的医学模式;另一方面,中医学仍然是轴心时代的产物,那个时代不曾褪掉的躯壳正紧紧地压抑着它那期望脱胎换骨的身体。因此,从行业内到行业外,显现了两种完全不同的声音:一种要走向未来,赋予中医以新的时代面貌;一种要回到过去,保持纯正的道统。而本质上是选择哪一种话语体系更有利于临床医学的进步和诊疗效果的提升。显然,回到过去并无可能,那只是复古心理的一厢情愿;走向未来是历史必然,但以什么样的形式和路径去走却并不清楚,尤其在“翻译”式的中西医结合遭遇“滑铁卢”之后。
当人们还纠结在这种两难境地之时,循证医学(Evidence Based Medicine,EBM)时代却不期而遇。
什么是循证医学?它与经验医学(此处指现代医学内部与基础医学相对应的传统的临床医学模式)相比,主要有以下区别:
1. 从证据来源看,经验医学的证据主要来自动物实验、实验室研究、零散的临床研究和教科书,而循证医学更强调临床的人体试验结果。
2. 从证据收集看,经验医学限于时间和条件,证据的收集不够系统全面,而循证医学要求系统全面地收集证据。
3. 从证据评价看,经验医学不重视证据的质量评价,而循证医学非常强调证据的质量,将其分为数个等级。
4. 从疗效判断指标看,经验医学关注中间指标的改变如实验室或影像学结果;循证医学强调终点指标即患者的生存质量和最终结局。
5. 从治疗依据看,经验医学注重基础研究或动物实验的推论和个人临床经验,循证医学则强调当前能够得到的最好临床证据。
6. 从医疗模式看,经验医学强调以疾病和医生为中心,循证医学则强调以患者为中心。
如果我们把轴心时代创造的古典医学教育模式看成提高临床疗效的1.0版,科学时代早期的经验医学看成为2.0版,则循证医学可认为是3.0版。个人认为,这个比喻还是比较形象的。因为从临床证据的角度看,最高级的Ⅰ级证据是随机对照临床试验的系统论述;Ⅱ级证据是样本量足够大的随机对照试验研究;Ⅲ级证据是有对照的试验性研究,如非随机分组的对照研究;Ⅳ级证据是非试验性研究,即观察性研究;而仅仅基于临床经验的个人意见(相当于经典著作)属于最低级的Ⅴ级证据。这就是变化了的时代与不变化的思想之间的矛盾,刻舟求剑式的固步自封永远不能把我们带向高处。
(二)从临床流行病学到循证医学
图6-20可见,循证医学是建立在以下各部分基础上的一种临床医学模式,其基本知识和方法学来自于临床流行病学。
图6-20 循证医学得以形成和实施的各组成部分
所谓临床流行病学(Clinical epidemiology),就是将流行病学及统计学等原理和理论引入临床医学研究和实践的一门临床方法学,采用群体观点和相关定量化指标,将科学严谨的设计、定量化的测量和严格客观的评价贯穿于临床研究,探索疾病的病因、诊断、治疗和预后的系统性规律,力求避免各种偏倚因素的干扰,确保研究结果的真实性。它重在创造最佳的研究成果,促进临床医学水平的提高。
一般认为,临床流行病学是20世纪70年代后期发展起来的一门新的临床医学基础学科,但实际上在19世纪初,人们采用病例观察来质疑放血疗法疗效的研究,就是最早的临床流行病学实践。
那时候,放血不仅被当成包治百病的疗法,而且还成为保健的方法,许多健康人也定期放血。苏格兰军医亚历山大·汉密尔顿(Alexander Hamilton)对放血疗法的疗效产生了怀疑,他观察了366名患病的士兵,将其分成3组,各组病人所患疾病的严重程度类似,所接受的治疗也一样,唯一不同就是两组病人不放血,一组病人接受传统的放血疗法,结果是不放血的两组分别有2和4个病人死亡,而接受放血疗法的组竟然死了35人。遗憾的是,这一重要的发现没能发表,直到1987年人们才从故纸堆里找到当时的记录。
又过了10年,被称之为临床流行病学之父的法国医生皮埃尔·路易斯(Pierre Charles Alexandre Louis,1787-1872)[钱柳玉,吴俊,叶冬青. 临床流行病学之父:皮埃尔·路易斯. 中华疾病控制杂志,2018,22(1):94-96],选择同质并有典型肺炎症状的 77 例病例分析放血疗法,记录每个病人发病的时间、分析疾病周期和第一次放血疗法的死亡频率,根据首次放血时间分为为早(自疾病开始后1~4天)或晚(自疾病开始后5~9天)两组分层分析,最终发现肺炎早放血的死亡率(44%)高于晚放血的死亡率(25%)。这是医学史上的一个重要转折点。它极大地动摇了医学界对放血疗法的信心,敲响了放血疗法的丧钟。此后,越来越多的医生通过严谨的观察和对照,不断证实放血疗法对患者的伤害远大于可能的帮助。
为什么路易斯要研究放血疗法?因为19世纪初,法国医师弗朗索瓦-约瑟夫-维克多·布鲁塞(Franois-Joseph- Victor Broussais)提出了一个有影响力的理论,发热是器官发炎的结果,放血是治疗任何发热的有效方法。该理论受到同时期法国医生的高度认可,但引起了路易斯的质疑,事实证明放血对肺炎的治疗是无用的(他1822 年发表了论文“Re-search on the effects of bloodletting in some inflammato-ry disease,并于1835年编于著作Rerches surles effets de la saignée dans quelques maladies inflam-matoires,et sur l’ action de l’émétique et desvésicatoires dans la pneumonie,1836 年在美国翻译为英文出版)。此外,路易斯还率先运用单纯的观察法和统计分析研究肺结核、伤寒和肺炎等疾病,将“数值计算法”应用于医学,开创了临床流行病学的先河。
紧随其后的英国爱丁堡皇家医院的医生休斯·本尼特,他在18年间,观察了105位没接受放血疗法患的肺炎病人,全部都活了下来;对比同期医院里随即抽取的相同数量的、接受放血疗法的肺炎病人,结果发现死亡率为30%。从而加速了早已苟延残喘的体液学说寿终正寝,也被视作现代临床流行病学的开端。
到1938年,耶鲁John Pall 首先提出临床流行病学是为临床医生和临床研究者服务的重要方法学。20世纪80年代初,D.L Sackett,A.R Feinstein,R.H Fletcher将流行病学与统计学的原理和方法有机地与临床医学相结合,发展和丰富了临床研究方法学,并正式创建了临床流行病学。1982年,美国Rockefeller Foundation发起建立International Clinical Epidemiology Network,INCLEN,建立5个培训中心;22个流行病学单位(CEU);组织召开年会;网络通讯;出版杂志。从此,临床流行病学作为一种方法学,成为临床科研的设计、测量与评价的工具。其特征为:①从患病个体的诊治扩大到患病群体的研究;②以临床医学为基础,并与流行病学、卫生统计学、卫生经济学及社会医学互相渗透;③掌握临床流行病学,用以提高临床科研的选题能力、设计能力、误差控制能力和对研究结论的评价能力。为了增强临床医学科研成果的准确性及可应用性奠定良好的基础,同时有利于指导临床诊治的决策,实践循证医学,并促进临床医学从经验医学向临床医学科学化的方向发展。
循证医学是临床流行病学从临床科研方法学过渡为临床实践方法学的一个飞跃。在临床实践中,如果我们能够不断地循证,不断地吸取科学和有效的外部证据,并与自身的经验和患者的需求结合起来,进行临床决策,患者将会获得最佳的诊治效果,我们自身的临床知识和经验也同时会获得最大程度的扩充。临床流行病学是循证医学的基础,掌握临床流行病学的知识,将有助于判断临床流行病学临床流行病学是临床医生将流行病学的原理和方法,运用于临床研究的一门应用学科。它以统计学为研究工具,应用流行病学的研究策略,同时根据临床研究的需要,也包含药物流行病学、健康社会医学、临床经济和临床决策分析的研究等。因此,掌握临床流行病学的知识,有利于提高临床医生的临床思维和科研素质。
临床流行病学强调科学的研究设计,针对研究的问题提出假说,应用流行病学的研究策略进行资料的收集,依靠统计学的方法进行资料的测量和分析,验证假说,最后以临床流行病学的观点进行评价。因此在临床流行病学指导下的科学研究,可以为循证医学提供更佳的临床决策证据。
(三)证据质量及其分级
循证医学是基于证据的医学,它提倡将医生的临床实践经验与当前可获得的最佳证据相结合,综合考虑患者的意愿及价值观和当时当地的医疗条件,为诊治患者做出最佳决策。但全球每年有无数医学文献发表,其中有高质量的研究,也有很多是未经同行评价或带有商业目的的文献,很多发表在医学杂志上的临床研究论文在研究设计、实验、结果分析和文章撰写方面都有缺陷。那么怎样知道哪些是“最佳证据”呢?这就涉及到证据质量及其分级研究,其发展脉络如下:
20世纪60年代,美国两位社会科学家Campbell和Stanley首次提出了研究证据分级的思想,并引入了“内部真实性”和“外部真实性”的概念。内部真实性包括:你研究的结果针对你研究的样本符合得好不好;试验设计和实施消除偏倚的程度;评价研究的误差大小。外部真实性包括:你的研究结果能否推广到研究样本以外的人;结果在目标人群及实践中,能够重复再现的程度;高内部真实性的研究,是探讨外部真实性的前提。
1972年,英国医生Archie Cochrane的经典著作《疗效与效益:健康服务中的随机反映》唤起了人们对医学决策科学性的深刻反思。1979年,加拿大定期体检特别工作组(CTFPHE)首次对研究证据进行了分级,并给出了推荐意见(表6-5)。
表6-5 1979年CTFPHE推荐的证据分级
证据级别 | 定义 |
Ⅰ | 至少一项设计良好的随机对照试验 |
Ⅱ-1 | 设计良好的队列或病例对照研究,尤其来自多个中心或研究组 |
Ⅱ-2 | 比较不同时期、地点的研究证据,无论有无干预措施;或重大结果的非对照研究(如1940年代青霉素的应用) |
Ⅲ | 基于临床研究、描述性研究或专家委员会的报告,或权威专家的意见 |
此后20多年中,世界多个机构组织对证据质量与推荐强度进行了规范,由于标准不一,方法各异,甚至彼此之间存在一些矛盾(表6-6)。
表6-6 20多年来世界多个机构组织对证据质量的推荐意见
时间 | 制定者 | 分级 | 特点 | 适用于 |
1979 | 加拿大,CTFPHE | 三级 | 首次基于临床试验设计 | 预防体检 |
1986 | 加拿大,Sackett | 五级 | 考虑证据质量 | 临床用药 |
1992 | 美国,AHCQ | 四级 | 纳入Meta分析 | 临床指南 |
1996 | 英国,NEEBGDP | 三级 | 纳入系统评价 | 临床指南 |
2001 | 英国,SIGN | 八级 | 同时将系统评价、Meta分析与RCT作为最高证据 | 临床指南 |
2001 | 美国,SUNY Down state Medical Center | 九级 | 纳入动物实验和体外研究 | 临床指南 |
2001 | 英国,CEBM | 五级 | 引入分类概念 | 卫生保健 |
2004 | 国际,GRADE | 四级 | 考虑研究的设计、质量、结果一致性和证据直接性 | 卫生保健 |
2004 | 中国,CEBMC* | 五级 | 非医药领域分级 | 科学研究 |
2005 | 美国,Aragon | 四级 | 针对动物研究分级 | 基础研究 |
2006 | 中国,CEBMC* | 五级 | 决策和管理领域分级 | 政府决策 |
*CEBMC:中国循证医学中心
在诸多系统中,CTFPHE与ACCP标准有着奠基者的地位。两系统均产生于20世纪70-80年代,当时正是国际流行病学和卫生技术评估方兴未艾、医学继续教育空前繁荣的时代。加拿大研究者首次明确提出,研究证据优于专家意见,这成为后来诞生的循证医学的基本理念之一。
1992年AHRQ制定的标准中,将随机对照试验的Meta分析作为最高级别证据,并向全国推广。1996年,NEEBGDP发布了证据分级标准与推荐强度,将RCT、Meta分析和系统评价共同作为最高级别证据。
2001年,SIGN发布了更详细的证据分级和推荐强度。随后几年里,荷兰、新西兰、澳大利亚等过也先后在临床指南中引入或修订了各自的证据分级与推荐标准。
循证医学问世近20多年来,其证据质量先后经历了“老五级”、“新五级”、“新九级”和“GRADE”四个阶段(表6-7~6-9,图6-21)。前三者关注设计质量,对过程质量监控和转化的需求重视不够;而“GRADE”关注转化质量,从证据分级出发,整合了分类、分级和转化标准,它代表了当前对研究证据进行分类分级的国际最高水平,意义和影响重大。目前,包括WHO和Cochrane 协作网等在内的28个国际组织、协会已采纳GRADE标准,GRADE同样适用于制作系统评价、卫生技术评估及指南。
表6-7 老五级证据(1986年加拿大Sackett制定?)
证据级别 | 定义 |
Ⅰ级 | 收集所有质量可靠的RCT后作出的系统评价/Meta分析结果,大样本多中心随机对照试验 |
Ⅱ级 | 单个大样本的RCT结果 |
Ⅲ级 | 设有对照组但未采取随机方法分组的研究,病例对照研究和队列研究 |
Ⅳ级 | 无对照的系列病例观察 |
Ⅴ级 | 专家意见、描述性研究、病例报告 |
表6-8 新五级证据(2001年英国CEBM制定?)
证据级别 | 定义 |
1a | 同质RCTs的系统评价 |
1b | 单个RCT(置信区间窄) |
1c | 全或无病案系列 |
2a | 同质对列研究的系统评价 |
2b | 单个对列研究(包括低质量RCT,如随访率<80%) |
2c | 结果研究,生态学研究 |
3a | 同质病例对照研究的系统评价 |
3b | 单个病例对照 |
4 | 病例系列研究(包括低质量对列和病例对照研究) |
5 | 基于经验未经严格论证的专家意见 |
图6-21 新九级证据金字塔(2001年美国,李幼平《循证医学》第3版)
表6-9 GRADE标准(2004年)
证据水平 | 具体描述 | 推荐级别 | 具体描述 |
高 | 未来研究几乎不可能改变现有疗效评价结果的可信度 | 强 | 明确显示干预措施利大于弊 |
中 | 未来研究可能对现有疗效评价有重要影响,可能改变评估结果的可信性 | 弱 | 利弊不确定或利弊相当 |
低 | 未来研究很有可能对现有疗效评价有重要影响,改变评估结果可信度的可能性大 | ||
极低 | 任何疗效的评估都很不确定 |
GRADE标准的优势:权威——由具有广泛代表性的国际指南定制小组制定;明晰——明确界定了证据质量与推荐强度,清楚评价了治疗方案的结局;合理——对不同级别证据的升降级有明确、综合的标准;透明——从证据到推荐全程透明;人性——承认价值观与意愿;全面——就推荐意见强弱,分别从医生、患者、政策制定者角度做出诠释;灵活——适用于系统评价、卫生技术评估、指南制定。
证据分级与推荐强度的发展,是历史的必然。从定性到定量(单个RCT到多个RCT的Meta分析),从局部到整体(只考虑试验设计到考虑研究质量、内外部真实性等),从个别到一般(临床、预防到基础、管理),从分散到统一(各自为政到全球统一),证据分级标准的车轮从未停歇,也仍将继续在实践中不断修正、超越。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-5-15 12:08
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社