危害公共安全事件的关联关系挖掘及预测.ppt

上传人:本田雅阁 文档编号:3564894 上传时间:2019-09-12 格式:PPT 页数:30 大小:7.24MB
返回 下载 相关 举报
危害公共安全事件的关联关系挖掘及预测.ppt_第1页
第1页 / 共30页
危害公共安全事件的关联关系挖掘及预测.ppt_第2页
第2页 / 共30页
危害公共安全事件的关联关系挖掘及预测.ppt_第3页
第3页 / 共30页
危害公共安全事件的关联关系挖掘及预测.ppt_第4页
第4页 / 共30页
危害公共安全事件的关联关系挖掘及预测.ppt_第5页
第5页 / 共30页
点击查看更多>>
资源描述

《危害公共安全事件的关联关系挖掘及预测.ppt》由会员分享,可在线阅读,更多相关《危害公共安全事件的关联关系挖掘及预测.ppt(30页珍藏版)》请在三一文库上搜索。

1、危害公共安全事件的关联 关系挖掘及预测 OmniEye , 上海交通大学 团队:陈夏明(队长),强思维,王海洋,孙莹,石开元 指导老师:上海交通大学网络信息中心金耀辉 教授 赛题 概况 数据 介绍 方案 设计 结果 输出 2 赛题 概况 数据 介绍 方案 设计 结果 输出 l 赛题背景 l 竞赛任务 3 赛题背景 2014年7月17日至24日,北京于7天内发生6起 危害公共安全事件。 媒体大规模报道、网民舆论负面信息传 播泛滥的温床。 了解危害公共安全事件在互联网上的触发、传 播机理,找到相关事件间的影响关系和共性, 是意义重大的研究课题。 4 竞赛任务 基本任务 1.数据清洗,剔除杂质 2

2、.自定义标签,事件提取 核心任务(可选) 3.同系列事件间相互触发关 系研究 4.不同系列事件间共性分析 5.事件预测 5 原始数据集 HDFS 事件集 CKAN 特征集 CKAN 预测模型 建立 新闻/微博数据 数据预处理 Processing 新闻分类 Spark 事件聚类 Spark 特征 提取 关联分析 可视分析 异常点 剔除 特征降维 模型训练 模型预测 预处理 (任务1) 事件提取 (任务2) 关联分析 (任务3、4) 事件预测 (任务5) 6 赛题 概况 数据 介绍 方案 设计 结果 输出 l 数据集 l 数据预处理 7 数据集及预处理 8 GDP 民族节日 城市坐标 新闻/微博

3、数据(54万条) 媒体/用户数据(24万条) 数据清洗:去重和纠错 数据扩充(Data Enrichment) l 新闻分类 l 事件聚类 l 关联分析 l 事件预测 赛题 概况 数据 介绍 方案 设计 结果 输出 9 新闻分类 公交车 爆炸事件 暴恐 事件 校园砍 杀事件 10 媒体名称发发布时间时间新闻标题闻标题 新华网2013-12-14河南光山县发生校园伤害案 22名学生被砍伤 新浪微博2013-12-15目前,22名被砍伤的学生中,有7名学生因伤势严重转院治疗。 此外,还有1名群众及1名小学生因伤势严重,仍在光山县人民医 院的重症监护室进行治疗。愿平安! 新闻分类 挑战一:不同媒介(

4、体)的报道方式不同 公交车 爆炸事件 暴恐 事件 校园砍 杀事件 11 新闻分类 挑战一:不同媒介(体)的报道方式不同 挑战二:新闻媒体报道角度不同 媒体名称发发布时间时间新闻标题闻标题 网易新闻2013-07-28新疆莎车县发 生暴恐案件,造成37人死亡,13人受伤 人民网2013-07-28新疆莎车:暴恐分子袭击军警击毙暴徒59人 四川在线2013-07-28新疆莎车暴恐袭击案件告破 公交车 爆炸事件 暴恐 事件 校园砍 杀事件 12 媒体名称发发布时间时间新闻标题闻标题 第一金融网2013-04-26新疆巴楚15名警察社区工作人员遭暴徒袭杀 人民网2013-04-26习近平批示新疆巴楚县

5、暴力事件 对案件善后作指示 人民网2013-04-27习近平:要使暴力恐怖分子成为“过街老鼠 人人喊打“ 新闻分类 挑战一:不同媒介(体)的报道方式不同 挑战二:新闻媒体报道角度不同 挑战三:新闻事件和衍生事件的关联 公交车 爆炸事件 暴恐 事件 校园砍 杀事件 13 语境过滤的新闻分类算法 News Classification with Context Filtering 已分类新闻 语境过滤 (相似度Sd) 事件分类器 扩充语料库 置信度 =CI 置信度p max(c)p 14 语境过滤 事件描述的语境特征 以无监督的方式自主学习(基于Google word2vec) 从传统词频统计到词

6、语语境关联 * word2vec : https:/ 15 事件聚类算法 独立事件聚类及Spark并行处理 多角度新闻要素提取 采用并行和事件树结构进行优化 新闻当 事人 新闻发 生地 特征向量 新闻关 键词 相似度计算 新闻标 注类别 提取的独立事件 0.3 0.2 0.7 0.7 P 0.5 10.9 0.8 0.80.6 校园事件C C 0.6 未知新闻 事件1 事件2 新闻要素提取 16 事件聚类结果可视化 17 特征提取 季节 民族节日 工作日、休息 日 时间 省、市地理划分 城市GDP 人口、民族组成 空间 新闻报道 微博舆论 正负情感 媒体 18 关联分析 同系列事件触发关系 时

7、间触发关系事件频次自相关分析 空间触发关系最大信息量相关系数(MIC) 新闻媒体传播 95%置信水平 暴力恐怖事件每隔5天复发概率最高 校园砍杀事件发生次数 在临近区域相似度较高 * MIC: Reshef et al. “Detecting Novel Associations in Large Data Sets“. Science 334 (6062) 19 关联分析 不同系列事件共性分析 时间特征 媒体特征 空间特征 元旦,除夕,建党节等是三类事件的多发时段 三类事件在周末发生频次低于工作日 妇女节 20 校园砍杀事件公交车爆炸事件 暴恐事件 大事件报道会触发 同类型小事件的发生 集中

8、性的 空间分布 21 事件预测 预测目标 未来时间段内事 件是否发生(0/1) 未来时间段内事 件发生的次数 时间 空间 季节 民族节日 工作日、休息 时间特征 空间特征 媒体特征 省、市地理划分 城市GDP 人口、民族组成 新闻报道 微博舆论 正负情感 时间相关性 空间相关性 22 事件预测 预测模型建立 多维度特征分类建模 时间特征具有最好的 预测效果 Decision Tree, Random Forest, Kernel SVM, Gradient Tree Boosting Random Forest Regression, Regression Tree 时间特征 子预测器 空间特

9、征 子预测器 媒体特征 子预测器 二级综合预测器 预测发生概率预测发生频次 模型选择 23 赛题 概况 数据 介绍 方案 设计 结果 输出 l 算法评估 l 可视化 l 开放数据与众包 l 未来 24 算法评估 事件类型误报率漏报率 公交车爆炸事件14.28%12.09% 暴恐事件12.39%14.05% 校园砍杀事件14.10%11.54% 事件聚类算法评估 评估方法准确率预测频次误差 测试集验证64.50%0.8956 留一验证82.34%0.5250 K-Fold82.34%0.5234 滑动窗口75.27%0.5525 新闻分类 算法评估 事件预测算法评估 准确度95% 媒体名称发布时

10、间新闻标题事件类型 搜狐新闻2013-12-16河南砍学生男子患20年癫痫病暴恐事件 新华网2013-01-23面包车自燃 公交司机徒手拔断 着火线路帮助灭火 公交车爆炸 天津在线2014-03-19乌鲁木齐发生持械袭警案 嫌犯 被民警当场击毙 暴恐事件 校园砍杀 无 暴恐事件 25 众包标注 26 开放数据 http:/ 27 未来 CT D CHINA TERRORISM DATABASE 基于开放数据平台 自动爬取网络新闻报道、微博媒介传播 语境过滤 & 事件聚类 & 众包标注 中国地区数据稀缺 ! 马里兰大学 (UMD) http:/www.start.umd.edu/gtd/ 28 致谢 海量 HYLANDA 大数据情报服务平台的 数据支持; 暨南大学应急管理学院 陈玉梅老师的 指导建议; 南风窗杂志社 戴玉老师提供的 新闻背景; 上海交通大学网络信息中心 金耀辉老师的 悉心指导; OMNILab 团队的所有成员。 陈夏明 博士生 王海洋 博士生 孙莹 硕士生 石开元 硕士生 强思维 博士生 29 请批评指正! 谢谢! 30

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1