摘要:
目的对数据类型多样的电子病历数据开展基于半监督学习的患者相似性度量研究,评估其可行性和有效性,并为后续个性化研究提供相似患者队列。方法对来自真实世界的电子病历数据,首先特异性计算特征相似性(年龄、性别、疾病、实验室检查),结合专家标注的部分监督信息构成标签集,在标签集中有监督地学习出最优距离度量。然后计算标签集与无标签集数据间的马氏距离,对无标签集中的每个样本,找出与其距离最近的标签集样本,并将其相似性分值作为该无标签样本的患者相似性预测值。最后将学习出的患者相似性作为聚类时评估患者亲疏程度的指标,并与基于传统欧氏距离和余弦距离的聚类结果进行比较。结果较欧氏距离和余弦距离,基于半监督学习出的患者相似性的聚类结果中,患者相似程度更高,聚类效果更好。结论对电子病历数据开展基于半监督学习的患者相似性度量研究是有效的。