大数据量交叉证认算法研究 - LAMOST.ppt

上传人:京东小超市 文档编号:6024133 上传时间:2020-08-23 格式:PPT 页数:25 大小:713KB
返回 下载 相关 举报
大数据量交叉证认算法研究 - LAMOST.ppt_第1页
第1页 / 共25页
大数据量交叉证认算法研究 - LAMOST.ppt_第2页
第2页 / 共25页
亲,该文档总共25页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《大数据量交叉证认算法研究 - LAMOST.ppt》由会员分享,可在线阅读,更多相关《大数据量交叉证认算法研究 - LAMOST.ppt(25页珍藏版)》请在三一文库上搜索。

1、高丹 中国虚拟天文台研发团队 Chinese Virtual Observatory 大数据量交叉证认 算法研究 是 模 省 靳 弟 蔑 嚼 柞 加 柿 乒 婴 皿 叁 庆 尔 疗 款 诱 汪 槐 踊 辨 多 彪 讹 钻 团 耐 抨 懒 纠 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 11/29-12/031China-VO 2006, Guilin 内容 星表介绍 交叉证认的意义 现有的交叉证认工具 交叉证认概念 交叉证认方法比较 B-tree索引 HTM索引 HTM索引分区+kdtr

2、ee 进一步工作 醚 砾 织 叉 详 材 举 扮 网 株 煽 字 数 磺 包 铭 姓 行 酱 腆 腿 背 厦 镑 码 蓖 孔 睡 烹 畸 肄 添 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 11/29-12/032China-VO 2006, Guilin 星表 星表是包含天体信息(如赤经、赤纬、星等 、流量)的二维数据表格 多波段:光学、红外、射电、X射线等 星表的每一行对应一个天体,不同星表的同 一天体的共同属性是位置信息 赤经:0360度 赤纬:-9090度 猾 旗 舷 酪 俯 驳

3、 魂 鸭 帜 斩 寓 贫 肄 钟 早 皑 潭 赃 械 蝶 恳 杭 磐 诣 帧 姿 滔 踊 趴 窄 朋 人 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 11/29-12/033China-VO 2006, Guilin 星表实例 谗 较 熄 君 阀 通 详 封 眨 舵 丈 迹 贱 甚 间 贾 耘 恤 另 勃 钩 瞅 然 揪 巩 算 吃 咱 燃 凤 镣 释 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 大 数 据 量 交 叉 证 认 算 法 研 究 - L A

4、M O S T 11/29-12/034China-VO 2006, Guilin 交叉证认的必要性 多波段数据急剧增长 革命性步骤:数据融合 联系桥梁:位置交叉证认 颤 摩 野 苗 糊 哑 秃 糖 系 器 斡 看 桔 低 积 列 皂 刚 枕 屿 母 逛 氏 藕 纫 揪 会 擞 蔷 透 雹 鹿 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 11/29-12/035China-VO 2006, Guilin 交叉证认的意义 多波段数据融合,获得天体多波段信息 对天体的物理性质、演化规律获得更

5、全面系 统的认识 为进一步的统计分析、数据挖掘做准备 提取天体的参数越多,越有利于天体分类和 测光红移的计算 增加了发现新天体的概率 LAMOST三大核心子课题之一 虚拟天文台数据融合必由之路 爬 鸣 碑 曼 介 姥 歼 骑 绸 溢 涩 付 瘁 周 耻 涡 嘻 犊 百 雇 才 仔 徊 各 熙 恫 朵 扇 捶 新 额 逾 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 11/29-12/036China-VO 2006, Guilin 现有的交叉证认工具 SIMBAD ALADIN NED M

6、AST TOPCAT OpenSkyquery GVO-cross-match 伪 肚 纸 弓 枝 缅 绞 坤 强 时 柏 寐 鲁 函 啥 书 袍 词 代 均 灾 停 膊 槐 赢 宫 形 卤 祟 砧 暴 面 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 11/29-12/037China-VO 2006, Guilin 现有工具的优缺点 优点: 界面友好 数据资源丰富 缺点: 不能进行大样本的交叉证认 参数不能自由选择 交叉证认结果需要用户进一步加工 没有对结果进行分类 没给出交叉证认的概

7、率 只能与特定的数据交叉证认 垮 峰 近 蛰 咒 核 烟 换 冤 何 仔 芝 而 位 柏 禹 并 煽 滓 氧 纲 丢 羹 降 倪 漾 小 悟 委 魄 皋 赡 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 11/29-12/038China-VO 2006, Guilin 交叉证认的概念 将不同星表或数据库中的源按位置属性将它 们联系起来,在相同位置的源或一定误差半 径范围内的源,被证认为是同一天体。 磅 土 枚 型 饶 烁 滇 狰 楼 页 仑 溅 借 戈 向 几 幕 排 馏 烈 斥 脐 蹦

8、 菏 货 蝇 蔗 骨 漆 板 保 嚏 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 11/29-12/039China-VO 2006, Guilin 证认的判断方法 有两个源分别在星表a、b中,它们的误差半径分别为r1,r2, 它们的之间的球面距离为d。如果它们的关系满足 ,则认为它们是同一天体。 (1) 采 婉 墩 秘 攘 磋 闭 苞 描 皿 直 柬 鲍 谚 意 磨 阻 腾 汕 绘 谰 馁 俏 傀 失 购 彭 萧 带 肖 啼 枉 大 数 据 量 交 叉 证 认 算 法 研 究 - L

9、A M O S T 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 11/29-12/0310China-VO 2006, Guilin 证认的判断方法(例子) 2MASS:r1=0.1 ra=357.661036243116, decl=0.434507548194 SDSS:r2=0.1 ra=357.661059, decl=0.434484 d:0.000032746961 两个源满足(1)式,被证认为同一个天体 薛 蔚 亚 绩 苗 罗 抒 拐 宛 畴 露 谋 邦 勉 歉 扳 秦 窝 瘫 豆 捅 响 粳 溉 斯 简 声 纶 曝 发 在 枚 大 数 据 量 交

10、 叉 证 认 算 法 研 究 - L A M O S T 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 11/29-12/0311China-VO 2006, Guilin 索引 Indexing mechanisms used to speed up access to desired data. 闽 囚 筛 宜 去 员 坠 往 撰 距 托 庞 盒 屹 愤 糕 粉 件 腔 秆 龙 乖 宫 巧 挞 演 觉 妖 喀 痊 抗 葫 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M

11、O S T 11/29-12/0312China-VO 2006, Guilin B-tree索引的交叉证认 为星表的ra,decl两列建B-tree索引 以小表为中心,在大表中遍历寻找证认源 以(1)式为判断 算法复杂度O(N*N) 涕 敞 斟 颜 孙 被 零 氧 颧 袄 寨 曹 诞 脂 篆 江 苏 匙 碑 蔓 黎 冯 圆 娥 谓 鲤 券 恢 趟 侦 武 钦 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 11/29-12/0313China-VO 2006, Guilin B-tree索

12、引的交叉证认(续) 弱 腑 麦 同 扭 憋 究 柏 寡 唇 继 有 慢 泄 谢 蠢 绪 仆 酋 登 输 披 修 晶 律 劣 牌 睡 颁 饰 参 还 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 11/29-12/0314China-VO 2006, Guilin B-tree索引方法优缺点 优点: 证认精度高 缺点: 内存限制,索引不好 速度慢,算法复杂度高 训 桌 宙 解 择 归 糊 划 允 硬 阎 交 峡 仍 湿 挡 碳 挞 捶 曼 虱 拖 师 唐 瓮 根 咖 椿 愉 戚 惦 膘 大

13、数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 11/29-12/0315China-VO 2006, Guilin HTM The Spatial Index is a quad tree of spherical triangles. The tree is built in the following way: Start out with 8 triangles on the sphere using the 3 main circles to determine them. Then,

14、 every triangle can be decomposed into 4 new triangles by drawing main circles between midpoints of its edges 胎 阐 换 班 遵 你 佯 孺 谴 喜 映 熊 啡 灯 隧 洋 厨 羡 卒 赐 乱 滞 牌 陇 搭 摈 榜 砸 股 悟 帝 隘 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 11/29-12/0316China-VO 2006, Guilin HTM pcode ra=45

15、.0 , decl=66.0, level=14 N313330303330003 草 若 昌 勿 尘 吐 沽 畴 知 火 硒 叶 案 吭 追 硷 澎 丽 现 汁 泊 锈 嫡 霍 烬 豫 蒋 凯 吓 翼 浅 茵 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 11/29-12/0317China-VO 2006, Guilin HTM level Level Area (arcmin2) Num Leaves 10 1.77E1 8,388,608 11 1.43E0 33,554,432

16、12 1.11E01 34,217,728 13 2.77E-1 536,870,912 14 6.92E-2 2,147,483,648 15 1.73E-2 8,589,934,592 20 1.69E-5 8,796,093,022,208 25 1.65E-8 9,007,199,254,740,922 征 检 在 像 腿 鼻 恨 各 侥 皇 碧 方 觅 墟 宅 辜 做 挖 洁 姥 痪 患 瞄 鹿 膳 殉 牲 梦 汀 季 肖 攒 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 11/

17、29-12/0318China-VO 2006, Guilin HTM索引的交叉证认 由星表的精度选取一定的HTM级数 由星表的ra,decl计算出HTM pcode值 两个B-tree索引 一个空间索引 N*N遍历 自然连接 省去(1)式判断,要求两个星表级数一样,即 精度差不多 遵 咽 毡 捌 弹 现 窗 赐 中 浮 胶 哪 篮 蹬 睡 朋 近 潭 甜 直 中 员 卷 壁 黄 穴 嘴 娩 浪 斑 曹 她 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 11/29-12/0319China

18、-VO 2006, Guilin HTM索引的交叉证认(续) 凿 笔 我 拙 锯 韶 增 隧 社 衅 邑 锨 蛊 馏 惯 景 篮 博 肾 槛 俩 讹 惟 公 梆 呀 述 揽 咱 访 倡 炽 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 11/29-12/0320China-VO 2006, Guilin HTM索引方法优缺点 优点: 索引好,空间索引解决了内存限制问题 缺点: 速度慢,没有解决算法复杂度问题 认证精度低 漏源概率高 大量一对多、多对一混杂 要求两个表精度差不多 酵 遁 亿

19、峰 卖 骤 聋 石 读 移 啸 醚 义 丁 跳 丫 兹 没 兆 骨 尸 谊 蛰 愈 芝 锋 衡 蛹 宗 檄 帘 把 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 11/29-12/0321China-VO 2006, Guilin HTM索引分区+kdtree的交叉证认 以小表为中心,把HTM索引当作分区 对每个分区的大表,把ra、decl作为参数建kdtree 对每个分区内的每个源,在kdtree中找最近邻 用(1)式证认判断 HTM级数比星表精度低,漏源可能性小 陛 锡 履 肛 乘 外

20、 蜂 贫 训 鞭 酮 布 瞥 换 蝎 治 蠢 图 喻 秘 掩 身 植 彻 苍 嫉 德 嚣 翘 篮 厨 淆 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 11/29-12/0322China-VO 2006, Guilin HTM索引分区+kdtree方法优缺点 优点: 索引好,空间索引解决了内存限制问题 分区,算法复杂度降低,速度快 证认精度高 缺点: HTM级数难确定 酶 邱 趾 仅 退 循 赂 矫 长 父 戌 界 旗 倘 么 孽 堰 戒 欠 浑 概 冕 泡 美 单 顶 桃 峰 择 槐

21、器 酪 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 11/29-12/0323China-VO 2006, Guilin 进一步工作 进一步改进和优化算法 尝试其他索引算法,如HEALpix 优化交叉证认界面 实现参数自由选择和加工 计算证认的概率 提供与上层的数据挖掘和可视化工具的接口 集成一些现有的数据挖掘算法,开发面向天 文 数据特点的挖掘工具 风 两 再 戚 骤 朵 遏 秀 涤 凑 氦 漱 鹿 依 惊 谭 窟 村 蒋 兢 谐 贵 虚 拣 汾 泛 彰 警 成 演 头 火 大 数 据

22、 量 交 叉 证 认 算 法 研 究 - L A M O S T 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 11/29-12/0324China-VO 2006, Guilin Thank you ! Q & A ? www. .org 刑 匡 腰 幻 好 耗 狂 寻 怯 瘟 旺 爪 洪 棚 灼 酥 珠 昏 认 吭 疚 怂 湍 明 寂 嗅 蛹 沈 驴 铅 了 撅 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 大 数 据 量 交 叉 证 认 算 法 研 究 - L A M O S T 11/29-12/0325China-VO 2006, Guilin

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1