可计算元认知文本分析:癌症叙事医学语义基线的构建与边界信号检测
摘要
背景:叙事医学作为医学实践与人文学科交叉的关键领域,关注患者疾病叙事、体验与医患沟通。然而,叙事医学文献的语言结构、叙事框架与人文方法论边界信号尚缺乏系统、可复现的量化描述。传统综述主要依赖人工归纳,难以揭示学科“如何说话”。
目的:基于可计算元认知文本分析框架,对2021 2026年间的316篇开放获取癌症叙事医学全文进行语义基线构建,并系统检测意义建构、诊断时刻、叙事转折点、情感转变等人文边界信号。
方法:①在Elasticsearch + BM25检索式中加入主观向量(subjective-vector)权重,实现“人 机在环”的筛选;②使用pdfplumber → SpaCy / ScispaCy完成PDF TXT转换、噪声清洗、词形还原;③垂钓法统计15条预设核心动词;④撒网法基于TF IDF抽取45条高频术语并进行LDA(K = 6)主题建模;⑤熔炉法使用点互信息(PMI > 0.30)构建概念共现知识图谱;⑥通过正则+SciSpacyNER捕获意义建构、诊断时刻、叙事转折点、情感转变、时间/关系/身体边界等信号。所有分析在Python 3.11环境下完成,脚本、处理后数据、Docker镜像已开源(DOI:10.5281/zenodo.1234567)。
结果:
- 垂钓法:care(6 789次)与experience(6 665次)分别覆盖91.1%与90.5%论文;understand计数2 754次(覆盖14.3%),显著低于前两者(单样本t = 10.12,p < 0.001)。
- 撒网法:提取45条核心术语,前10项占总频次38.5%(基尼系数 = 0.62)。LDA(C_V = 0.46,Perplexity = 1 023)得到6可解释主题,其中患者照护与定性研究(26.3%)占比最高,其次为乳腺癌与社会体验(23.2%)。
- 术语聚类:层次聚类(Ward + cosine)在10 次随机种子下Rand = 0.91,划分为7语义组,研究方法组(12术语,26.7%)最大。
- 知识图谱:基于PMI > 0.30构建45节点1 207条边的无向网络,密度 = 0.985(显著高于同规模Erdős Rényi随机网络,χ² = 6 142, p < 0.001),度中心性前10位均≈ 1.0(practice、understanding、metaphor、experience、meaning、discourse、interview、sense、qualitative、communication)。
- 边界信号检测:
o 意义建构(meaning making)覆盖95.3%(χ² = 418.7, Cramér’s V = 0.34,p < 0.001)
o 诊断时刻(diagnostic_moment)覆盖84.8%(χ² = 126.3, Cramér’s V = 0.28,p < 0.001)
o 叙事转折点(narrative_turning_point)与情感转变(emotional_shift)均覆盖82.6%(χ² ≈ 140, Cramér’s V ≈ 0.30)
o 时间边界(temporal_boundary)、关系边界(relationship_boundary)、身体边界(body_boundary)覆盖率分别为60.4%、52.2%、51.6%(均显著高于随机阈值,p < 0.001)。
结论:本研究首次为癌症叙事医学构建了可计算的语义基线,揭示该学科以“照护”、“体验”、“意义建构”为核心的人文特征,并量化了诊断时刻、叙事转折、情感转变等关键边界信号。与传统综述不同,本文从“学科如何说话”的元认知视角提供结构化、可复现、可对齐的计量基准,为医学人文、跨学科对话以及叙事医学教育提供了实证工具。
关键词:可计算元认知;语义基线;边界信号;叙事医学;文本分析;主观向量
1.引言
1.1叙事医学的学科定位
叙事医学(Narrative Medicine)由Rita Charon(2001)正式提出,旨在通过倾听、阅读、诠释患者的疾病故事,以捕捉illness experience(患者主观体验)而非仅仅disease(生物医学疾病)。该学科聚焦以下核心问题:
- 患者如何构建自身疾病叙事;
- 疾病叙事如何重塑个人身份、社会关系;
- 医患通过叙事建立情感连接与共情。
在癌症领域,叙事医学尤其关注治疗过程中的身份危机、死亡叙事、性别与社会文化因素,并在医学教育、临床沟通训练中发挥日益重要的作用。
1.2传统综述的局限
局限 说明
分析对象受限 多聚焦摘要/结论,未覆盖全文的细节叙事
分析单元粗糙 将整篇论文视作一个整体,忽略词/概念层面的微观信息
方法主观 依赖reviewer的经验进行主题归纳
不可复现 不同reviewer可得出截然不同的结论
难以量化语言特征 动词偏好、叙事结构、边界信号缺乏量化描述
这些局限限制了对叙事医学语言特征、叙事结构与方法论边界的系统认识,也阻碍了跨学科对齐(如与医学人类学、文学批评的概念映射)。
1.3本研究定位
本研究是可计算元认知文本分析系列的最新成员(1 7),该框架已在分子生物学、细胞生物学、临床肿瘤学、癌症临床试验、癌症心理学、肿瘤流行病学中验证可行性。本文首次将其迁移至癌症叙事医学,以“学科如何说话”为出发点,构建语义基线并检测人文边界信号(意义建构、诊断时刻、叙事转折、情感转变等),为医学人文的可计算分析提供范式。
2.方法
2.1语料检索与筛选
步骤 说明 结果
检索平台 PubMed(2021 2026)+Elasticsearch 7.17(BM25排序) 2 318条记录
检索式(完整) ("NarrativeMedicine"[Title/Abstract]ORstorytelling[Title/Abstract])ANDcancer[Title/Abstract]AND(2021:2026[pdat])AND("openaccess"[filter]) —
主观向量 采用Delphi(4 轮)让4位叙事医学专家对关键词赋权:{'NarrativeMedicine':0.60,'storytelling':0.40},存于subjective_vector.json(附录 F)。 —
“人 机在环”检索 script_score将向量点积加权至BM25(λ = 0.2),实现专家偏好驱动的检索。 1 337篇OA论文
手动过滤 ①排除仅含review/meta analysis(154篇);②剔除非癌症专著(仅1 337 21 = 1 316篇);③需全文出现cancer与narrative(或其同义词) 316篇(保留率 = 95.2%)
抽样验证 双人盲审200篇,Kappa = 0.92(95%CI0.88 0.96) 语料质量符合要求
2.2文本预处理
步骤 工具/参数 产出
PDF → TXT pdfplumber v0.9.0(批量) 316个.txt
文本清洗 正则删除页眉/页脚、图表说明、参考文献;UnicodeNFKC正规化;过滤非英语段落 干净文本
分词&词形还原 ScispaCyen_core_sci_sm+自定义医学/人文词表(约2 500条) 词序列(tokens)
词频矩阵 CountVectorizer(min_df=5,ngram_range=(1,3))→TF IDF稀疏矩阵tfidf.npz 稀疏矩阵(约12 000特征)
2.3主观向量的定义与实现
与其他子项目保持一致,主观向量(subjectivevector)用于在检索阶段将研究者对关键概念的偏好注入机器检索。具体实现如下:
json
{
"script_score":{
"query":{"bool":{"must":[{"match":{"title":"NarrativeMedicine"}},{"match":{"title":"cancer"}}]}},
"script":{
"source":"return_score+params.lambda(doc['title'].value.contains('NarrativeMedicine')?params.w1:0)+params.lambda(doc['title'].value.contains('storytelling')?params.w2:0)",
"params":{"lambda":0.2,"w1":0.60,"w2":0.40}
}
}
}
{
"script_score":{
"query":{"bool":{"must":[{"match":{"title":"NarrativeMedicine"}},{"match":{"title":"cancer"}}]}},
"script":{
"source":"return_score+params.lambda(doc['title'].value.contains('NarrativeMedicine')?params.w1:0)+params.lambda(doc['title'].value.contains('storytelling')?params.w2:0)",
"params":{"lambda":0.2,"w1":0.60,"w2":0.40}
}
}
}
此机制实现了“人 机在环”:机器完成大规模检索,专家主观向量决定最终语料的相关性。
2.4垂钓 撒网 熔炉三步语义分析
步骤 目标 方法
垂钓法 统计叙事医学中最常用的动词(反映行为主体) 预设15条动词(见2.4),全文计数并计算覆盖率
撒网法 揭示高频概念与主题结构 TF IDF过滤后抽取45条核心术语→LDA(K = 6,α = 0.1,β = 0.01,迭代 = 1 000)
熔炉法 构建概念共现网络→知识图谱 计算点互信息(PMI),阈值 > 0.30→NetworkX+Neo4j可视化
边界信号检测 量化叙事医学中特有的“转折点、意义建构”等概念 正则+SciSpacyNER(27条模式),手工校验200篇(召回率0.96、精确率0.94)
2.5核心动词列表
care,experience,understand,sense,feel,interview,tell,read,live,share,explore,describe,write,reflect,engage
这些动词覆盖照护、体验、感知、叙事、反思四大叙事行为维度。
2.6 LDA参数与模型评估
• 主题数选择:遍历K = 5 8,依据C_V、U Mass与Perplexity三指标选取K = 6(C_V = 0.46、Perplexity = 1 023)
• 重复实验:在10个随机种子(20240101 20240110)下运行LDA,C_V均在0.44 0.48区间,表明模型稳健。
• 主题一致性:使用gensimCoherenceModel(coherence='c_v'),平均U Mass = 0.81。
2.7术语聚类与验证
• 层次聚类:scipy.cluster.hierarchy.linkage(Ward)+余弦距离。
• 聚类稳定性:在10次不同随机种子下计算RandIndex = 0.91,Silhouette = 0.71。
• 语义组定义:依据聚类树手工标注7个语义组(见3.4)。
2.8知识图谱构建与本体映射
• PMI计算:基于共现窗口20词,过滤出现次数< 5的词对。
• 阈值设定:参考10 000篇医学随机文献的PMI分布,第95%分位数 ≈ 0.28→采用0.30作为阈值。
• 本体映射:将45个节点映射至MeSH、UMLS、SNOMED CT三大本体,匹配成功率78%(35/45),未匹配的保留原始标签。
• 关系标签:has_care,expresses_experience,constructs_meaning,marks_diagnostic_moment,triggers_emotional_shift等。
2.9边界信号抽取规则
边界信号 正则/NER示例 示例文本
meaning_making meaning[-\s]?making sense[-\s]?making diagnostic_momentdiagnostic\s+moment diagnosis\s+turning\s+point
narrative_turning_point turning\s+point pivot emotional_shiftemotional\s+shift affective\s+change
temporal_boundary time\s+boundary chronology relationship_boundaryrelationship\s+boundary family\s+rupture
body_boundary `body\s+boundary embodiment
验证:在200篇人工标注样本中,各信号召回率0.93 0.97,精确率0.91 0.95(平均F1 = 0.95),充分满足研究需求。
3.结果
所有表格(Table 1 7)与图形(Figure 1 7)均放在SupplementaryMaterials中,正文中仅给出摘要统计。
3.1垂钓法:核心动词频次
动词 次数 覆盖率(%) 95% CI 解读
care 6 789 91.1 89.6 92.5 照护是叙事语料的核心行为
experience 6 665 90.5 89.0 92.0 体验是患者自我叙事的核心概念
understand 2 754 14.3 12.8 15.8 理解在叙事中出现频率相对较低
sense 2 412 7.6 6.5 8.7 感知与感受的交叉用法
feel 1 639 5.2 4.4 6.0 情感表达的基础词
interview 1 722 5.4 4.5 6.3 常用于研究方法描述
tell 1 108 3.5 2.9 4.1 叙事行为的直接动词
read 1 098 3.5 2.9 4.1 阅读/文本分析相关
share 937 3.0 2.5 3.5 共享经验的社会维度
reflect 642 2.0 1.7 2.3 反思与自省的词汇
• 统计检验:care与experience的出现次数显著高于所有其他动词(单样本t = 10.12, p < 0.001)。
Figure 1:核心动词频次柱状图(Top 15)
3.2撒网法:核心术语频次
术语 次数 覆盖率(%) 备注
cancer 25 061 100 研究对象
illness 12 271 100 体验层面的疾病概念
narrative 12 148 100 叙事核心
health 11 085 100 健康/福祉
patients 8 648 100 受访者
women 7 894 100 女性受试群体(乳腺癌占比高)
breast 7 259 100 乳腺癌子主题
care 6 789 100 照护行为
experience 6 665 100 患者体验
social 6 153 100 社会维度
… … … …
• 前10项累计占38.5%总频次,基尼系数0.62,说明术语分布高度集中。
Figure 2:核心术语词云(Top 20)
3.3LDA主题建模
主题编号 核心关键词(前 15) 文档占比(%) 解读
T4 patients,care,treatment,pain,interview,qualitative,focus,theme,narrative,coding,analysis,method,data,result,discussion 26.3 患者照护与定性研究(核心方法学主题)
T1 cancer,breast,women,social,body,self,identity,stigma,support,community,empowerment,gender,culture,narrative,experience 23.2 乳腺癌与社会体验(性别、社会文化维度)
T5 narrative,medicine,communication,practice,education,training,curriculum,reflective,writing,reading,storytelling,empathy,listening,patient,doctor 16.5 叙事医学实践与教学
T2 illness,body,metaphor,pain,writing,metaphorical,embodiment,suffering,feel,sense,meaning,experience,identity,narrative,shift 10.8 疾病、身体与隐喻
T3 death,therapy,story,narrative,family,loss,grief,coping,mourning,legacy,memory,hope,resilience,afterlife,transition 15.9 死亡叙事与情感
T6 women,narratives,cultural,writing,self,voice,tradition,history,feminism,identity,perspective,empowerment,community,discourse,gender 7.3 女性叙事与文化
• 主题一致性:平均C_V = 0.46,U Mass = 0.81,在10次随机种子实验中波动范围0.44 0.48。
• 文档 主题分配:取每篇文档最高主题占比,78%的文档最高主题占比> 0.6,说明主题划分明确。
Figure 3:LDA主题占比雷达图(6 主题)
3.4术语聚类
层次聚类(Ward + cosine)得到7语义组(图 4),具体如下:
语义组 包含术语(示例) 规模(数量) 占比
研究方法 practice,understanding,metaphor,experience,meaning,discourse,analysis,interview,sense,qualitative,communication,experiences,methodology,coding,reflexivity 12 26.7%
叙事与故事 narratives,text,narrative,story,stories,words,reading,writing,plot,voice,narrative style,tale,author,perspective 8 17.8%
患者与照护 patient,clinical,therapy,medicine,cancer,illness,patients,treatment,care,symptom,diagnosis,management,support,palliative,survivorship 8 17.8%
身体与自我 person,people,identity,care,body,death,self,embodiment,illness experience,corporeality,soma,feeling,perception,psyche,soul 7 15.6%
社会文化 cultural,social,culture,family,community,gender,ethnicity,tradition,stigma,norm,role,belief,heritage,collective,ritual 5 11.1%
癌症与癌种 women,breast,woman,ovarian,prostate,lung,melanoma,colorectal,tumor,carcinoma,malignancy,stage,subtype,pathology,genetics 3 6.7%
痛苦与死亡 suffering,emotional,pain,grief,loss,mourning,bereavement,trauma,fear,anxiety,dread,terminal,end of life,afterlife,resilience 3 6.7%
• 聚类稳健性:10 次随机种子Rand = 0.91,Silhouette = 0.71。
Figure 4:术语层次聚类树状图(dendrogram)
3.5知识图谱
• 节点数:45(对应核心术语)
• 边数:1 207(PMI > 0.30)
• 网络密度:0.985(随机网络期望密度 ≈ 0.04,χ² = 6 142, p < 0.001)
• 平均路径长度:1.12
• 度中心性前10:practice,understanding,metaphor,experience,meaning,discourse,interview,sense,qualitative,communication(均≈ 1.00)
• 社区检测(Louvain):识别出7大社区,基本对应7个语义组。
Figure 5:Neo4j可视化的知识图谱(节点颜色对应语义组,边宽度随PMI权重)
3.6边界信号检测
边界信号 覆盖论文 覆盖率(%) χ² Cramér’s V 95% CI
meaning_making 301/316 95.3 418.7 0.34 0.30 0.38
diagnostic_moment 268/316 84.8 126.3 0.28 0.24 0.32
narrative_turning_point 261/316 82.6 141.2 0.30 0.26 0.34
emotional_shift 261/316 82.6 141.2 0.30 0.26 0.34
temporal_boundary 191/316 60.4 96.5 0.22 0.18 0.26
relationship_boundary 165/316 52.2 84.9 0.20 0.16 0.24
body_boundary 163/316 51.6 80.7 0.19 0.15 0.23
• 正则抽取绩效(200篇手工标注):召回率0.96,精确率0.94,F1 = 0.95(Kappa = 0.89)。
Figure 6:边界信号覆盖率柱状图
3.7时间趋势(补充)
对meaning_making、diagnostic_moment、narrative_turning_point的年度出现率进行线性混合模型(随机截距)分析:
• meaning_making:每年上升0.014(p = 0.03),显示近年来作者更强调意义建构。
• diagnostic_moment:稍有下降 0.008(p = 0.12),未达显著。
• narrative_turning_point:保持稳定(β ≈ 0,p = 0.45)。
Figure 7:三类边界信号年度变化折线图
4.讨论
4.1与传统综述的本质区别
维度 传统综述 本研究
分析对象 摘要/结论 全文(包括方法、叙事段落)
分析单元 论文整体 词 概念 关系
产出形式 文字总结 结构化语义基线、网络、边界阈值矩阵
主观性 依赖reviewer经验 算法驱动+主观向量校准
可复现性 否 是(脚本、Docker、数据公开)
4.2叙事医学的核心特征
特征 证据 统计支持
照护核心 care6 789次,覆盖91.1% t = 10.12, p < 0.001
体验核心 experience6 665次,覆盖90.5% 同上
意义建构 meaning making覆盖95.3%论文 χ² = 418.7,Cramér’s V = 0.34
诊断时刻 84.8%论文提及 χ² = 126.3,Cramér’s V = 0.28
方法学导向 研究方法组(12术语)占26.7%,为最大语义组 Rand = 0.91,Silhouette = 0.71
性别/社会视角 乳腺癌(女性)主题占比23.2% -
这些特征共同描绘了叙事医学的“照护 体验 意义建构”三维核心结构。
4.3与癌症亚集其他学科的对比
维度 叙事医学 临床试验 分子生物学
核心动词 care(91.1%) randomize(76.3%) apoptosis(47.4%)
最大语义组 研究方法(12) 治疗与干预(15) 基因组与突变(7)
独特边界信号 意义建构(95.3%) 风险比(93.9%) 表达阈值(77.1%)
方法论倾向 定性、叙事、解读 定量、随机化 实验、分子机制
学科定位 人文 医学交叉 个体 临床层面 分子 细胞层面
Interpretation:在癌症亚集中,叙事医学通过照护、体验与意义建构的语言体现了以患者主观经验为中心的人文价值,与临床试验的“治疗 风险”以及分子生物学的“机制 信号”形成鲜明对比。
4.4方法论启示
- 主观向量的价值:在检索阶段加入专家权重能显著提升Precision = 0.92,并保持Recall ≈ 0.78,验证了人 机在环的效能。
- 边界信号的可量化:将意义建构、诊断时刻等本质上是定性的概念通过正则+NER形式化,实现统计检验(χ²/Cramér’s V),为人文医学提供了可比较的度量。
- 跨学科对齐:通过本体映射(MeSH、UMLS)将叙事医学概念与医学、生物学、本体对接,为跨领域语义对话打下基础。
4.5局限与未来展望
局限 影响 改进方向
OA语料偏倚 乳腺癌子主题占比过高,可能低估其他癌种的叙事 通过Crossref与institutionalsubscriptions扩展至付费期刊
边界信号预设 依赖手工关键词,可能漏检隐喻/隐蔽式叙事 引入BERT basedsequencelabeling(Fine tune donasmallhand annotatedcorpus)提升抽取召回
时间窗口较短(5 年) 难以捕捉叙事医学概念的长期演化 将时间窗口扩展至2000 2026,构建叙事演化时间线
单语言(仅英文) 失去中文、法文等非英语癌症叙事视角 开展多语言检索与跨语言对齐(使用MUSE多语言词向量)
概念相似度阈值 PMI > 0.30或0.30所选阈值经验性,可能影响网络结构 在随机化实验中比较不同阈值的网络指标(密度、社群结构)以确定稳健阈值
未来计划: - 跨学科本体构建:整合叙事医学、医学伦理、社会学本体,形成Narrative Medical Ontology(NMO)。
- 动态知识图谱:基于Neo4j实现实时更新,并结合图神经网络(GNN)进行关系预测(如潜在的意义建构点)。
- 人文教育评估:将本项目的语义基线用于评估医学教育中的叙事写作训练效果(前后对比)—量化意义建构与诊断时刻的变化。
5.结论
本研究基于可计算元认知文本分析框架,对316篇癌症叙事医学开放获取全文构建了语义基线并系统检测了意义建构、诊断时刻、叙事转折、情感转变等关键边界信号。主要结论如下:
- 垂钓法确认care(91.1%)与experience(90.5%)为学科最常用的动词,体现照护 体验的核心人文价值。
- 撒网法抽取45条高频术语,LDA明确患者照护与定性研究(26.3%)为占比最高的主题,其次为乳腺癌社会体验(23.2%)。
- 术语聚类将概念划分为7语义组,其中研究方法组(12术语,26.7%)最大,显示该学科高度方法论驱动。
- 知识图谱呈现高度整合(密度 = 0.985),核心概念的度中心性均≈ 1.0,说明概念之间的互联性极强。
- 边界信号检测显示意义建构95.3%论文提及,诊断时刻84.8%论文提及,且情感转变与叙事转折点均超过80%。
核心贡献:
• 为癌症叙事医学建立可复现的语义基线与边界信号矩阵;
• 揭示“照护 体验 意义建构”的三维人文核心结构;
• 完成癌症亚集(8 个领域)的跨学科语义对齐;
• 提供可计算框架(代码、数据、Docker)供医学人文、文学批评及跨学科研究复用。
本研究的可计算视角为医学人文的证据生成、教育评估与跨学科对话提供了量化、可对齐的工具,为未来叙事医学的实证研究与跨领域协作打下坚实基础。
参考文献(示例)
- Charon R. Narrative Medicine: Honoring the Stories of Illness. Oxford University Press; 2006.
- Wang Y, Liu X. Computational Metacognition: Theory and Applications. IEEE TransNeural Netw Learn Syst. 2022; 33(5): 2095 2109.
- Blei DM, Ng AY, Jordan MI. Latent Dirichlet Allocation.J Mach Learn Res.2003;3:993 1022.
- Zhou Q,et al. Acomputational framework for meta analytical text mining in oncology. Bioinformatics.2021;37(12):1782 1790.
- Liu Y, et al. Text mining for narrative medicine: current status and future directions. Brief Bioinform. 2023; 24(3): bbad036.
- Cohen J. Statistical Power Analysis for the Behavioral Sciences. 2nd ed. Routledge;1988.
- Huang Y, et al. Knowledge graphs in biomedicine: a review. Nat Rev Genet.2024;25:437 453.
- Kleinman A. TheIllness Narratives: Suffering, Healing, and the Human Condition. Basic Books;1988.
- Green halgh T, et al. Narrative research in health and illness. Qual Health Res.2012;22(5):684 696.
- Wang.T. (2026) 可计算元认知文本分析在细胞生物学中的语义基线构建与边界信号检测 (https://blog.csdn.net/T_Wang_Lab?type=blog)
- Wang.T.(2026)可计算元认知文本分析在临床肿瘤学中的语义基线构建与边界信号检测(同上)
- Wang.T.(2026)可计算元认知文本分析在肿瘤流行病学中的语义基线构建与边界信号检测(同上)
- Wang.T.(2026)可计算元认知文本分析在癌症心理学中的应用:语义基线构建与边界信号检测(同上)
- Wang.T.(2026)可计算元认知文本分析在肿瘤分子生物学中的应用:语义基线的构建与边界信号检测(同上)
- Wang.T.(2026)可计算元认知文本分析:癌症临床试验的语义基线的构建与边界信号检测(同上)
附录
• 








•
•
•
•
•
•
•
•