Dataset之HiggsBoson:Higgs Boson(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略

简介: Dataset之HiggsBoson:Higgs Boson(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略

Higgs Boson比赛简介


      希格斯玻色子(英语:Higgs boson),是标准模型里的一种基本粒子,是一种玻色子,自旋为零,宇称为正值,不带电荷、色荷,极不稳定,生成后会立刻衰变。希格斯玻色子是希格斯场的量子激发。希格斯粒子的衰变能动会生成耦合实粒子。根据希格斯机制,基本粒子因与希格斯场耦合而获得质量。假若希格斯玻色子被证实存在,则希格斯场应该也存在,而希格斯机制也可被确认为基本无误。


      希格斯玻色子(英语:Higgs boson)是标准模型里的一种基本粒子,是因物理学者彼得·希格斯而命名。 2012年7月4日,欧洲核子研究组织(CERN)宣布,LHC的紧凑渺子线圈(CMS)探测到质量为125.3±0.6GeV的新玻色子(超过背景期望值4.9个标准差),超环面仪器(ATLAS)测量到质量为126.5GeV的新玻色子(5个标准差),这两种粒子极像希格斯玻色子。 2013年3月14日,欧洲核子研究组织发表新闻稿正式宣布,先前探测到的新粒子暂时被确认是希格斯玻色子,具有零自旋与偶宇称,这是希格斯玻色子应该具有的两种基本性质,但有一部分实验结果不尽符合理论预测,更多数据仍在等待处理与分析。 2013年10月8日,因为“次原子粒子质量的生成机制理论,促进了人类对这方面的理解,并且最近由欧洲核子研究组织属下大型强子对撞机的超环面仪器及紧凑μ子线圈探测器发现的基本粒子证实”,弗朗索瓦·恩格勒、彼得·希格斯荣获2013年诺贝尔物理学奖。


      一个粒子的重要特点是它在其他粒子之后延迟多少。CERN用ATLAS进行物理实验来寻找新粒子。实验最近发现一个 Higgs boson延迟在两个tau粒子出现,但是该延迟只是淹没在背景噪声中的小信号。


竞赛官网: https://www.kaggle.com/c/higgs-boson/

相关介绍:Higgs boson machine-learning challenge


      该竞赛的目的是利用机器学习方法,提高ATLAS实验发现粒子的显著性。竞赛无需粒子物理的背景知识(解决实际问题时背景知识在很大程度上还是有用的)。竞赛数据是根据ATLAS检测到的事件的特征合成的数据,竞赛任务是将事件分类为"tau tau decay of a Higgs boson" 或 "background"

     这是一个两类分类任务:将事件分类为"tau tau decay of a Higgs boson" 或 "background"。希格斯玻色子机器学习挑战的目标是探索先进机器学习方法的潜力,提高实验发现的意义。不需要粒子物理学知识。使用ATLAS检测到的具有表征事件特征的模拟数据,您的任务是将事件分类为"tau tau decay of a Higgs boson" 或 "background"。


每个事件有一个ID,30个特征,权重,和标签

用交叉验证选择迭代次数

与sklearn中的GBM速度与性能比较


1、数据集介绍


image.png


File descriptions


training.csv - Training set of 250000 events, with an ID column, 30 feature columns, a weight column and a label column.

test.csv - Test set of 550000 events with an ID column and 30 feature columns.

random_submission - Sample submission file in the correct format. File format is described on the Evaluation page.

HiggsBosonCompetition_AMSMetric - Python script to calculate the competition evaluation metric.

For detailed information on the semantics of the features, labels, and weights, see the technical documentation from the LAL website on the task.


Some details to get started:


all variables are floating point, except PRI_jet_num which is integer

variables prefixed with PRI (for PRImitives) are “raw” quantities about the bunch collision as measured by the detector.

variables prefixed with DER (for DERived) are quantities computed from the primitive features, which were selected by  the physicists of ATLAS

it can happen that for some entries some variables are meaningless or cannot be computed; in this case, their value is −999.0, which is outside the normal range of all variables

training.csv:训练集包含250000个事件,每个事件有一个ID,30个特征,权重,和标签。

test.csv:测试数据包含550000事件,每个事件包含一个ID和30个特征。

(1)、所有变量都是floating point类型,除了PRI_jet_num 为integer 以PRI (PRImitives) 为的前缀特征为检测器测量得到的关于bunch collision“原始” 数据。 以DER ( DERived)为ATLAS的物理学家选择的根据原始特征计算得到的数据。 缺失数据记为 −999.0, 与所有特征的正常值不同。

(2)、特征、权重和标签的具体语意可以查看CERN的技术文档。



2、比赛排行榜


image.png




Higgs Boson数据集的下载

本数据集,如有需要,可留言向博主索取





Higgs Boson数据集的案例应用


ML之xgboost:基于xgboost(5f-CrVa)算法对Higgs Boson数据集(Kaggle竞赛)训练(模型保存+可视化)实现二分类任务



相关文章
|
5月前
|
机器学习/深度学习 资源调度 PyTorch
【从零开始学习深度学习】15. Pytorch实战Kaggle比赛:房价预测案例【含数据集与源码】
【从零开始学习深度学习】15. Pytorch实战Kaggle比赛:房价预测案例【含数据集与源码】
|
6月前
|
机器学习/深度学习
Coursera 吴恩达Machine Learning(机器学习)课程 |第五周测验答案(仅供参考)
Coursera 吴恩达Machine Learning(机器学习)课程 |第五周测验答案(仅供参考)
|
机器学习/深度学习 并行计算 数据可视化
cs224w(图机器学习)2021冬季课程学习笔记13 Colab 3
本colab主要实现: 实现GraphSAGE和GAT模型,应用在Cora数据集上。 使用DeepSNAP包切分图数据集、实现数据集转换,完成边属性预测(链接预测)任务。
cs224w(图机器学习)2021冬季课程学习笔记13 Colab 3
|
机器学习/深度学习 数据采集 数据可视化
【DSW Gallery】数据分析经典案例:Kaggle竞赛之房价预测
Python是目前当之无愧的数据分析第一语言,大量的数据科学家使用Python来完成各种各样的数据科学任务。本文以Kaggle竞赛中的房价预测为例,结合JupyterLab Notebook,完成数据加载、数据探索、数据可视化、数据清洗、特征分析、特征处理、机器学习、回归预测等步骤,主要Python工具是Pandas和SKLearn。本文中仅仅使用了线性回归这一最基本的机器学习模型,读者可以自行尝试其他更加复杂模型,比如随机森林、支持向量机、XGBoost等。
【DSW Gallery】数据分析经典案例:Kaggle竞赛之房价预测
Dataset之IMDB影评数据集:IMDB影评数据集的简介、下载、使用方法之详细攻略
Dataset之IMDB影评数据集:IMDB影评数据集的简介、下载、使用方法之详细攻略
|
机器学习/深度学习 人工智能 自然语言处理
全球名校AI课程库(20)| Stanford斯坦福 · 图机器学习课程『Machine Learning with Graphs』
课程对于graph方向的数据挖掘、机器学习(神经网络)有全面的知识覆盖。如果想学习非结构化的图数据上的各类算法,这是最权威的课程之一。
2311 1
全球名校AI课程库(20)| Stanford斯坦福 · 图机器学习课程『Machine Learning with Graphs』
|
机器学习/深度学习 自然语言处理 并行计算
cs224w(图机器学习)2021冬季课程学习笔记8 Colab 2
cs224w(图机器学习)2021冬季课程学习笔记8 Colab 2
cs224w(图机器学习)2021冬季课程学习笔记8 Colab 2
|
机器学习/深度学习 资源调度 并行计算
李宏毅2021春季机器学习课程视频笔记1:Introduction, Colab & PyTorch Tutorials, HW1
李宏毅2021春季机器学习课程视频笔记1:Introduction, Colab & PyTorch Tutorials, HW1
李宏毅2021春季机器学习课程视频笔记1:Introduction, Colab & PyTorch Tutorials, HW1
|
机器学习/深度学习 人工智能 运维
【Kaggle/天池/DF/biendata】比赛信息汇总(NLP、CV,ML)
【Kaggle/天池/DF/biendata】比赛信息汇总(NLP、CV,ML)
750 0
【Kaggle/天池/DF/biendata】比赛信息汇总(NLP、CV,ML)
|
传感器 机器学习/深度学习 编解码
Kaggle新赛一览
Kaggle新赛一览
278 0
Kaggle新赛一览
下一篇
无影云桌面