一、数据准备与标准化
数据标准化治理
统一数据格式:确保电子病历遵循国际/国内标准(如HL7 FHIR、CDA、ICD-10、SNOMED CT等),结构化与非结构化数据需明确字段定义。
术语标准化:采用医学标准术语库(如ICD、LOINC、RxNorm)统一诊断、用药、检查等描述,减少自然语言歧义。
数据标签体系:构建病历质量评价标签(如必填字段、逻辑关系、时间轴一致性),为AI模型提供训练依据。
数据清洗与标注
历史数据清洗:去除重复、缺失、格式错误的数据,修复逻辑矛盾(如“患者死亡”后出现治疗记录)。
标注关键字段:对非结构化文本(如主诉、病程记录)进行实体识别标注(疾病、症状、药物等),构建高质量训练数据集。