2023-10-11
台站信息:中国地震台网固定台站,共计使用1177个
数据来源:人工拾取,人工复核
事件信息:研究区域内的地方震,震级大于0, 包含264,298个地方震信息
震相名称:Pn,Pg,Sn,Sg
说明:
面对未来海量的地震监测数据,智能化的数据处理、分析和解释,离不开高质量、规范化的专业数据集,谛听地震学数据集在1.0版本基础上,进一步升级和迭代完成了2.0版本的研发, 服务地震学人工智能和大数据研究分析。
谛听数据集2.0收集了中国地震台网2020.3~2023.2年间的震相观测报告和国家测震台网数据备份中心的事件波形,包括来自264,298个中国大陆及邻区天然地震事件的1,089,920条三分量波形,以及958076个Pg、780603个Sg、152752个Pn、25956个Sn震相到时标签,此外还有249,477个Pg波、41610个Pn初动极性标签。数据集中,地震事件的震级范围为0~8.2级,震中距范围为0~1000 km, 台站方位角分布为0~360度,均与波形对应进行了标注。
本次谛听数据集2.0增加了非天然地震数据类型,一共收录了2009年至2023年2月1496个事件共计15375条波形,主要事件类型为爆破(ep)、疑爆(sp)、塌陷(ss)、其他(ot)等,其占比如图X所示。
此外,本次谛听数据集2.0还专门制作了单独的噪声数据集,旨在提升人工智能模型在实际应用中的抗噪能力。噪声数据取自使用人工智能算法对全国台网2021.6-2023.2期间连续波形记录进行检测所产生的误识别波形数据,总共~13万,共由四个小组分工复核完成,分工情况如表1所示,主要噪声种类包括:(1)实时流数据传输故障引起的波形间断或畸变;(2)仪器故障产生的异常波形;(3)工业活动等非天然地震事件;(4)存在振幅和频率特征变化的噪声等。
谛听数据集2.0的发布,有望促进各类人工智能算法泛化性能得到进一步提升,进一步推动人工智能算法在地震学中的发展乃至落地应用。同时相比谛听数据集1.0,谛听2.0数据集区分了天然与非天然地震以及对震相类别进一步细分,此外有针对性的噪声集的加入有助于提升算法在实际应用中压制误报的能力。
完成团队:
数据集制作: 中国地震局地球物理研究所 赵明,陈石,张博
中国科学院地质与地球物理研究所 肖卓伟
地震大模型创新应用联合实验室
北京白家疃国家野外科学观测研究站
中国科学院大学计算地球动力学实验室
人工震相识别: 安徽省地震局 汪小厉;
四川省地震局 唐淋
中国地震台网中心 郭凯;
辽宁省地震局 马莉,杨红艳
数据集发布:地震科学国际数据中心
数据集引用 DOI: 10.11998/IESDC.SEIS.D03MOD20230002
文章引用:
图1.地震事件分布图
图2.台站分布图
图3.天然地震事件标注震相(Pg,Pn,Sg,Sn)的震中距、方位角、震级分布图