一文速览-江西开放数据大赛VET风险预测诊断单特征思路分享

简介: 一文速览-江西开放数据大赛VET风险预测诊断单特征思路分享

前言


经过了差不多一个月的不断实验数据工程又跑模型,最终还是发现诊断文本单特征最靠谱了。其他特征与flag关联都挺一般的,官方是根据评分来划分flag的:>5为1,<5为0.由此锁定Caprini模型评估表格中高分重点指标即可预测评分指数从而预测风险。本文提供做标签化文本预测和做文本分析预测思路,但仅提供处理思路,后续比赛结束代码开源,可参考。


5a25ad0629284e56844a31c09325e986.png


提示:以下是本篇文章正文内容,下面案例可供参考


一、诊断文本标签化预测


诊断
结缔组织病
高血压肾损害
脊椎源性痛综合征
结肠恶性肿瘤
开角型青光眼
肺恶性肿瘤
胃炎
肺恶性肿瘤
胃恶性肿瘤
肺继发恶性肿瘤
脑梗死
躯干三度烧伤
特发性肾积水
肝硬化伴食管静脉曲张破裂出血
冠状动脉粥样硬化
胃炎
腹痛
头位顺产
为肿瘤化学治疗疗程


等这些单文本特征,由于这些特征符合Caprini模型表格:


2dc6342c7da24950859f8dc0baaa3b4c.png


8ae7093aaaab41aaa201da94b9cf643e.png

进行评分等级风险的。而对于其他数据特征如D二聚体或凝血酶时间等特征来说关联性太小,和其他flag为0的数据拉不开太大差距(这就是人工标签和算法标签的差距,如果不能让人工标签做到尽可能精确,那只能让算法更趋近于人工的算法) 。

对这些特征进行标签化:


诊断
0
1
2
3
4
5
6
5
7
8
9
10
11
12
13
6
14



如上述对整个文本诊断特征进行处理(得和预测文本一起进行标签化)。当然预测文本也是一样进行标签化处理。


随后进行你们想使用的机器学习模型或是深度学习模型进行预测即可。


二、词袋模型文本特征预测


此方法和上文思路仅是多了一个参考Caprini模型表格进行文本词向量划分。这里提供python处理方法:


首先利用jieba库进行词性划分:

d82f2adffb3640e090d558066980441d.png

例如这个效果进行词向量分类从而构建词袋模型分类。

#创建一个空集
def createVocabList(dataSet):
    vocabSet = set([])
    for document in dataSet:
        vocabSet = vocabSet | set(document) #创建两个集合的并集 划掉重复出现的单词
    return list(vocabSet)
#处理样本输出为向量形式
def setOfWords2Vec(vocaList , inputSet):
    returnVec = [0]*len(vocaList)#创建一个其中所含元素全为0的向量代替文本
    for word in inputSet:
        if word in vocaList:
            returnVec[vocaList.index(word)] += 1
        else:
            print("the word:%s is not in my Vocabulary!"" % word")
    return returnVec

如果对文本词向量处理不是很了解的话可以看我另一篇文章:

image.png


之后构建完词袋模型对不同词向量根据其标签打上即可完成,随后进行预测调参数即可。


三、总结


总之我觉得挺遗憾的,最后卷的居然是单特征,而其他给的二十多个维度的特征数据全部浪费了没用用上去。当然第二总方法肯定会比第一种方法得分更高但是第一种更快出结果。

目录
相关文章
|
1月前
|
人工智能 测试技术
VideoPhy:UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具,衡量模型生成的视频是否遵循现实世界的物理规则
VideoPhy 是 UCLA 和谷歌联合推出的首个评估视频生成模型物理常识能力的基准测试,旨在衡量模型生成的视频是否遵循现实世界的物理规则。
49 9
VideoPhy:UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具,衡量模型生成的视频是否遵循现实世界的物理规则
|
6月前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
本文总结了2023年第十一届泰迪杯数据挖掘挑战赛A题的新冠疫情防控数据分析,提供了32页和40页的论文以及实现代码,涉及密接者追踪、疫苗接种影响分析、重点场所管控以及疫情趋势研判等多个方面,运用了机器学习算法和SEIR传染病模型等方法。
104 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
|
6月前
|
数据采集 机器学习/深度学习 人工智能
【2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】1 初赛Rank12的总结与分析
关于2021年第五届“达观杯”基于大规模预训练模型的风险事件标签识别竞赛的初赛Rank12团队的总结与分析,详细介绍了赛题分析、传统深度学习方案、预训练方案、提分技巧、加速训练方法以及团队的总结和反思。
61 0
|
9月前
|
机器学习/深度学习 算法 数据可视化
数据报告分享|WEKA贝叶斯网络挖掘学校在校人数影响因素数据分类模型
数据报告分享|WEKA贝叶斯网络挖掘学校在校人数影响因素数据分类模型
|
机器学习/深度学习 JSON 自然语言处理
全国大数据与计算智能挑战赛:面向低资源的命名实体识别基线方案,排名13/64
全国大数据与计算智能挑战赛:面向低资源的命名实体识别baseline,排名13/64。第一名:0.68962791,基线:0.67902593 ,感兴趣小伙伴可以刷刷榜。 国防科技大学系统工程学院(大数据与决策实验室)
全国大数据与计算智能挑战赛:面向低资源的命名实体识别基线方案,排名13/64
|
机器学习/深度学习 传感器 算法
北大&北航团队揭示电子转移规律,深度学习定量预测96种元素在任意压力下的电负性
北大&北航团队揭示电子转移规律,深度学习定量预测96种元素在任意压力下的电负性
181 0
|
人工智能 自然语言处理 算法
阿里云获中国健康信息处理顶会“临床诊断编码任务”第一名
阿里云在第八届中国健康信息处理大会(CHIP2022)“算法竞赛”环节中荣获“任务五-临床诊断编码”任务第一名。
阿里云获中国健康信息处理顶会“临床诊断编码任务”第一名
|
机器学习/深度学习 编解码 人工智能
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果(1)
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果
200 0
|
机器学习/深度学习
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果(2)
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果
192 0
|
机器学习/深度学习 编解码 算法
国科大和温医大团队通过拉曼光谱结合深度学习,用于快速、无标签肝癌组织病理诊断
国科大和温医大团队通过拉曼光谱结合深度学习,用于快速、无标签肝癌组织病理诊断
238 0