病人健康问卷(PHQ-9)和PHQ-2筛选器的僧伽罗语翻译的效度和信度

抽象的

患者健康调查问卷（PHQ-9）适应并转化为Sinhala。样品由75名参与者组成，根据DSM-IV标准和75项性别匹配对照组成诊断有MDD。通过将PHQ-9的总分与流行病学研究中心的总分与流行病学研究中心（CESD）相关来评估并发有效性。由精神科医生进行的DSM-IV（SCID-II）的结构化临床面试是黄金标准。样本的平均年龄为33.0岁。有91名女性（60.7％）。病例组PHQ-9平均评分为14.71分，对照组PHQ-9平均评分为2.55分，差异有统计学意义(）.分类算法的特异性为0.97;灵敏度为0.58。接收器操作特性（ROC）分析发现，截止得分≥10的敏感性为0.75，特异性为0.97。曲线下的区域（AOC）为0.93。两项筛选剂（PHQ-2）的敏感性为0.80，特异性为0.97。Cronbach’s alpha为0.90。PHQ-9是一种用于诊断非西方人群MDD的有效可靠的仪器。建议筛选阈值算法，用于筛选而不是分类算法。PHQ-2筛选器具有良好的灵敏度和特异性，建议作为快速筛选仪器。

1.介绍

《2010年全球疾病负担研究》指出，精神和行为障碍是导致残疾年的主要因素[1］．有抑郁症状的患者前往初级护理机构、专门护理单位和精神病学治疗服务机构[2，3.］．世界卫生组织的一项多国研究报告称，初级保健中抑郁症的患病率为14% [4］．抑郁症是在初级保健和专业治疗环境中获得的，并且只有大约一半的抑郁患者被一般从业者准确诊断出来[5，6］．

患者健康调查问卷（PHQ-9）是在Prime-MD的发展期间作为抑郁症的筛选者而发展[7，8］．这是一种基于DSM-IV诊断抑郁症标准的自我管理工具。它可以通过对每种症状的频率进行0-3级的评分来监测抑郁症的严重程度。它也可用于诊断重度抑郁症(MDD)。

PHQ-9已用于各种设置。在许多国家，它已被翻译并在文化上用于诊断抑郁症[9- - - - - -11］．一项荟萃分析报告，PHQ-9的汇总敏感性为0.77(0.71-0.84)，特异性为0.94 (0.90-0.97)[12］．PHQ-2用作初级保健抑郁症的筛查工具，筛选阳性的患者进行进一步评估[8，13］．

这项研究有两个主要目的。首先是建立PHQ-9在斯里兰卡人群中的效度和信度。斯里兰卡缺乏精神病医生，许多抑郁症患者在非精神病治疗环境中接受治疗[14］．因此，有效可靠的抑郁症筛查工具在这些情况下是无价的。第二个目的是比较PHQ-9不同诊断算法的敏感性和特异性，从而确定诊断MDD的最佳算法。

2.材料和方法

2.1。样本

假设敏感性和特异性为0.85的样品大小。样品组成75例，诊断患有主要抑郁症和75项性别匹配对照。案件是从科伦坡，斯里兰卡科伦坡的第三级护理医院的门诊精神病学诊所中选择。患者从医院的其他单位中提到了这本诊所。患者还直接从该诊所寻求治疗。因此，患者群体与初级保健人群相当。在筛选评估后从社区中选择对照，以排除抑郁症。双相抑郁症患者被排除在研究之外。

２.２.研究过程

研究方法已在以前的出版物中描述[15］．组合的定性和定量方法用于PHQ-9的翻译[16］．一个由六名双语专家组成的小组将量表分别翻译成僧伽罗语。僧伽罗语是大约75%的斯里兰卡人使用的语言。然后由六名专家组成的小组对翻译进行了讨论。评价表中每个项目的最佳翻译由小组协商一致决定。最终翻译出来的量表由一位双语专家翻译回英文，而这位专家并不知道原始量表。将翻译后的量表与原始量表进行比较。翻译后的量表在社区中对20人进行了预测试。

基于DSM-IV障碍的结构化临床访谈（SCID-1）的结构化临床访谈，诊断了主要抑郁症[17］．案件和控制完成了PHQ-9问卷的Sinhala版本，流行病学研究中心抑郁症（CESD）[15］．CESD用于评估并发有效性。

书面知情同意是从所有参与者获得的，并从科伦坡大学医学院伦理审查委员会获得道德批准。

2.3。措施

患者健康问卷是一个九个项目仪器，评估DSM-IV中列出的抑郁症状。九个项目中的每一个都被评为0（根本不）到3（几乎每天）。总分比范围为0（无抑郁症状）至27（每日发生的所有症状）。PHQ-9使用两个诊断算法来诊断MDD。分类算法需要“超过一半的日子”或“几乎每天”回应至少五个问题，该问题应该包括问题或1b或两者。问题如果思想在几天内呈现[18］．第二种算法使用阈值分数进行诊断。总分还表明抑郁症的严重程度;评分为0至4代表最小的抑郁症;5至9，温和;10至14，中等;15至19，中度严重;20至27日，严重。此外，PHQ-9的前两个问题可用作抑郁症的筛选剂（PHQ-2）[13］．

2.4。统计分析

使用SPSS统计版本18.0进行统计分析[19］．使用Cronbach’s alpha测量内部一致性。采用受试者工作特征(ROC)分析评价标准的有效性，该分析给出了PHQ-9在不同分界点的敏感性和特异性。由一名精神病学家进行的DSM-IV (SCID-I)结构化临床访谈被用作黄金标准[17］．通过关联CESD和PHQ-9的总分数来评估并发有效性。评估PHQ-9的两种算法和诊断MDD的两个算子（PHQ-2）的敏感性和特异性。

3.结果

样品组成75例和75例。样本的平均年龄为33.0岁。有91名女性（60.7％）。对照组（28.33岁）比案件大大比较年轻（37.51岁）（，，和）.病例与对照组的性别分布差异无统计学意义(χ²= 1.45,，和）.

样品PHQ-9总得分均值为8.67 (SD为8.22)。病例组PHQ-9平均评分为14.71分，对照组PHQ-9平均评分为2.55分，差异有统计学意义(，，和）.根据抑郁症的严重程度分类情况下基于phq - 9总分显示,7例(9.2%)有最小的抑郁症(得分1 - 4),12(15.8%)轻度抑郁得分(5 - 9),15(19.7%),中度抑郁得分(10 - 14),20例(26.3%)比较严重的抑郁症(得分15 - 19),22(28.9%)严重的抑郁症(分数20-27)。在对照组中，61人(81.3%)患有轻度抑郁症，12人(16%)患有轻度抑郁症，1人患有中度抑郁症，另1人患有中度至重度抑郁症，没有人患有重度抑郁症。

３.１.有效性

采用DSM-IV疾病结构化临床访谈(SCID-1)作为“金标准”[17］．当使用分类算法诊断重大抑郁症时，敏感性为0.58，特异性为0.97（表1）.


	案件	控制

PHQ-9积极	44	2
phq - 9 -	32	73.

接收器操作特征（ROC）分析确定了使用总分对诊断算法的不同截止点处的敏感性和特异性（图1）.曲线下的区域（AOC）为0.93。截止≥10的截止得分给出了0.75的灵敏度，比0.97的特异性（表格2）.


截止分数	灵敏度	特异性

≥5	0.91	0.81
≥6	0.88	0.84
≥7	0.84	0.89
≥8	0.82	0.92
≥9	0.79	0.96
≥10	0.75	0.97
≥11	0.68	0.97
≥12	0.67	0.99
≥13	0.58	0.99
≥14	0.57	0.99
≥15	0.55	0.99
≥16	0.50	0.99

通过将PHQ-9总分与流行病学研究中心抑郁量表(CESD)的总分相关联，评估同期效度。Pearson相关系数为0.87。

在两项分类算法中，如果存在两个抑郁症状标准中的一个或多个，抑郁筛查是阳性的。两项筛查的敏感性为0.80，特异性为0.973.）.


	案件	控制

PHQ-2积极	61	2
PHQ-2负	15	73.

３．２．可靠性

Cronbach’s alpha为0.90。表中给出了项目得分的平均值和修正后的项目-总相关值4．这些项目的平均得分在0.57到1.36之间。项目6的项均值最低(0.57)，项与总项的相关性最低(0.44)对自己感到不好或你是一个失败．Cronbach的Alpha，如果删除物品，则为所有项目减少。


	意思	标准偏差	纠正项目合计相关性	Cronbach 's alpha if item被移除

第1项做事的兴趣或乐趣	0.92	1.28	0.73	0.88
第2项感到沮丧，沮丧或绝望	1.36	1.30.	0.74	0.88
第3项难以入睡或保持睡眠或睡眠过多	1.25	1.32	0.71	0.88
第4项感到疲倦或没有精力	1.30.	1.32	0.76	0.88
第5项食欲不佳或暴饮暴食	0.97	1.25	0.60	0.89
第6项对自己感到不好或你是一个失败	0.57	1．01	0.44	0.90
第7项难以集中注意力	0.82	1.26	0.62	0.89
第8项慢慢地移动或说话其他人可能已经注意到	0.83	1.27	0.70	0.88
第9项思想，你会更好地死亡或伤害自己	0.64	1.05	0.64	0.89

4。讨论

本研究检测了PHQ-9的两种算法和双问题筛选剂（PHQ-2）的有效性和可靠性在诊断主要抑郁症方面。使用分类算法时，敏感性为0.58，特异性为0.97。使用阈值算法时，≥10的截止得分使灵敏度为0.75，特异性为0.97。Cronbach的alpha为0.90，其可能表明规模的单向性。两项筛选剂（PHQ-2）的敏感性为0.80，特异性为0.97。

当使用分类算法时，PHQ-9具有非常高的特异性，但灵敏度低。有报道，分类算法导致低灵敏度（0.42-0.53）但高特异性[11，20.，21］．诊断测试的敏感性和特异性取决于测试的特点和使用该测试的人群[22］．当样品由更多患有严重疾病的患者组成时，敏感性更高。在我们的样本中，虽然平均pPQ-9得分高于其他几项研究（8.67），但这并未导致高灵敏度。

在某些文化中，情绪问题可能有不同的表达方式，这可能会影响量表项目的解释。而分类算法的灵敏度较低，而阈值算法的灵敏度较低。因此，分类算法的低灵敏度可能反映了诊断标准的严格程度，而不是项目解释的问题。类似的发现也促使其他研究人员推荐使用阈值算法而不是分类算法[11，20.］．

据认为，来自非西方文化的患者不太可能承认情绪低落的存在。来自西方和非西方文化的抑郁症患者最初表现为躯体症状，如肌肉骨骼疼痛和疲劳[23］．我们样本中PHQ-9的均值的平均分数表明，睡眠不良和缺乏能量的体细胞症状普遍存在，但样品最常报告的物品情绪低落。因此，在我们的样本中，无论提出的投诉如何，抑郁症的患者确实承认经历了低情。泰国的一项研究报告了这一发现[11］．

PHQ-2筛选器具有较高的敏感性和特异性。两项筛选法的敏感性(0.80)高于分类算法(0.58)和阈值算法(0.75)。特异性与其他两种算法相同。

美国预防性服务任务关系建议在过去的两周内使用PHQ-9中的前两个问题，您感到沮丧，郁闷或无望吗？““在过去的两周里，你有没有对做事感兴趣或乐趣？”在筛选成年人的抑郁症中，因为它可能与使用更多正式仪器一样有效[24，25］．我们的研究结果表明，PHQ-2在筛查抑郁症方面有效，因为它具有良好的敏感性和特异性，并且可以轻松地在繁忙的门诊环境中进行。但是，不建议诊断重大抑郁症。

我们的研究有一些局限性。我们使用了案例控制设计，该设计是可以提高仪器的灵敏度和特异性[22］．然而，患者样本包括适当的轻度和重度疾病以及治疗和未治疗的个体。这项研究的一个主要限制是我们从三级精神病学护理单位招募患者。虽然这个门诊所治疗的患者直接与初级保健机构类似，但患者人口的组成将不同于初级保健中心。

接受初级保健服务的患者可能被诊断为特定的临床症状，这些症状的持续时间和严重程度随时间而变化，还包括与当前的精神诊断系统不匹配的躯体和心理症状的混合[26］．对于抑郁症状尤其如此。例如，疼痛可能是初级保健中抑郁症的表现症状。因此，在初级保健中可能需要调整工具和诊断标准。

5.结论

我们建议使用阈值算法而不是用于筛选抑郁症的分类算法，因为前者的敏感性更好。我们还建议在所有临床环境中使用PHQ-2筛选器，因为它具有高灵敏度和特异性，并且可以轻松施用。

利益冲突

提交人声明没有关于本文的出版物的利益冲突。

参考

T. Vos, a . D. Flaxman, M. Naghavi等，“1990-2010年289种疾病和伤害的1160例后遗症的残疾生活年(YLDs): 2010年全球疾病负担研究的系统分析”，柳叶瓶，卷。380，没有。9859，pp。2163-2196,2012。查看在：谷歌学术
R. Hanwella和V. de Silva，“物理生病的抑郁症”锡兰医学杂志，卷。53，没有。2，pp。63-65,2008。查看在：谷歌学术
R. Hanwella和V. de Silva，“抑郁症的诊断和管理”锡兰医学杂志，卷。53，没有。2，pp。60-62,2008。查看在：谷歌学术
T. B. Ustun和M. Von Korff，“主要心理健康服务”一般保健中的精神疾病:一项国际研究T. B. Ustun和N. Sartorius主编。，pp. 347–360, John Wiley & Sons, Chichester, UK, 1995.查看在：谷歌学术
A. J. Mitchell，A.望远和S.RAO，“初级保健抑郁症的临床诊断：META分析”柳叶瓶，卷。374，没有。9690，pp。609-619,2009。查看在：出版商的网站|谷歌学术
M.Cepoiu，J.Mccusker，M.G.Cole，M. Sewitch，E.Belzile和A. Ciampi，“顾虑非精神病医生的抑郁症 - 一个系统的文献综述和荟萃分析”普通内科杂志，卷。23，不。1，pp。25-36,2008。查看在：出版商的网站|谷歌学术
R.L.Spitzzer，J.B.B.W. W. Williams，K.Kroenke等，“纯粹诊断精神障碍的新程序的效用：Prime-MD 1000研究，”美国医学协会杂志第272期22，页1749-1756,1994。查看在：出版商的网站|谷歌学术
R. L. Spitzer, K. Kroenke和J. B. W. Williams，“PRIME-MD自我报告版本的验证和效用:PHQ初级保健研究”，美国医学协会杂志第282期18，页1737-1744,1999。查看在：出版商的网站|谷歌学术
C. Diez-Quevedo，T.Rangil，L. Sanchez-Planell，K.Croenke和R. L.Spitter，“患者健康问卷的验证和效用在1003次综合医院住院患者诊断精神障碍”中，“身心医学，卷。63，否。4，pp。679-686，2001。查看在：谷歌学术
S. Becker，K. Al Zaid和E. Al Faris，“沙特阿拉伯的躯体化和抑郁症筛查：初级保健中PHQ的验证研究，”国际精神病学医学杂志，卷。32，不。3，pp。271-283,2002。查看在：出版商的网站|谷歌学术
M. Lotrakul，S. Sumrithe和R. Saipanish，“泰国版PPQ-9的可靠性和有效性”，BMC精神病学， 2008年第8卷第46条。查看在：出版商的网站|谷歌学术
K.A.Wittkampf，L.Naeije，A.H. Schene，J. Huyser，H.C.Can Weert，“患者健康问卷的情绪模块的诊断准确性：系统评价”综合医院精神病学，卷。29，不。5，pp。388-395,2007。查看在：出版商的网站|谷歌学术
K. Kroenke，R.L.L.Spitzzer和J. B. W. Wiliams，“患者健康问卷-2：双重抑郁症筛选的有效性”，“医疗保健号，第41卷。11，第1284-1292页，2003。查看在：出版商的网站|谷歌学术
V. de Silva和R. Hanwella，“斯里兰卡的心理健康”，柳叶瓶，卷。376，没有。9735，pp。88-89,2010。查看在：谷歌学术
V. A. de Silva, S. Ekanayake，和R. Hanwella，“流行病学研究中心抑郁症量表(cesd)在门诊病人中的僧伽罗版本的验证”，锡兰医学杂志，卷。59，没有。1，pp。8-12,2014。查看在：谷歌学术
a . Sumathipala和J. Murray，“跨文化研究翻译工具的新方法:翻译和共识生成的定性和定量结合方法”，国际精神病学研究方法杂志，第9卷，第5期。2，页87 - 95,2000。查看在：谷歌学术
M. B. First，R.L.L.Spitzer，M. Gibbon和J. B. W. Wiliams，DSM-IV轴I障碍的结构化临床访谈，生物识别研究部，纽约州精神病学院，纽约，纽约，1998年。
PHQ安检员,http://www.phqscreeners.com/overview.aspx．
IBM Corp，IBM SPSS Windows的统计信息，版本20.0， IBM公司，阿蒙克，美国，纽约，2011。
M. Inagaki，T. Ohtsuki，N. Yonemoto等，“患者健康调查问卷（PHQ）-9和PHQ-2的有效性在日本农村医院的一般内科初级保健：横断面研究”综合医院精神病学第35期6，第592-597页，2013。查看在：谷歌学术
Y. Carballeira，P. Dumont，S. Borgacci等，“法国版患者健康问卷（PHQ）内科医院患者健康问卷（PHQ）的标准有效性”心理和心理治疗：理论，研究与实践，第80卷，第2期。1，第69-77页，2007。查看在：出版商的网站|谷歌学术
A. W. S. Rutjes, J. B. Reitsma, J. P. Vandenbroucke, A. S. Glas，和P. M. M. Bossuyt，“诊断准确性研究中的病例对照和双门设计”，临床化学第51卷第1期8，页1335-1341,2005。查看在：出版商的网站|谷歌学术
L. J. Kirmayer，J. M. Robbins，M. dworkind和M. J. Yaffe，“躯体化和初级保健中抑郁和焦虑的识别”美国精神病学杂志，卷。150，没有。5，PP。734-741,1993。查看在：谷歌学术
美国预防工作小组，http://www.uspreventiveServicestaskForce.org/uspstf09/ adultdepression/addeprrs.htm.．
M. A. Whooley, A. L. Avins, J. Miranda，和W. S. Browner，“抑郁症的病例发现工具:两个问题一样好，”普通内科杂志，第12卷，第2期7，第439-445页，1997。查看在：出版商的网站|谷歌学术
I. M. Bakker, B. Terluin, H. W. J. van Marwijk, W. van Mechelen，和W. A. B. Stalman，“PRIME-MD的测试-重测信度:初级保健中诊断精神障碍的局限性”，欧洲公共卫生杂志，卷。19，没有。3，pp。303-307，2009。查看在：出版商的网站|谷歌学术

抑郁症研究与治疗

抽象的