Web挖掘我们关心什么--如何能帮助社会科学家们做研究.ppt

资源描述

《Web挖掘我们关心什么--如何能帮助社会科学家们做研究.ppt》由会员分享，可在线阅读，更多相关《Web挖掘我们关心什么--如何能帮助社会科学家们做研究.ppt（31页珍藏版）》请在三一文库上搜索。

1、Web挖掘：我们关心什么- 如何能帮助社会科学家们做研究？,李晓明，北京大学网络实验室 2007年7月21日,SEWM06,顿顷集御瘁冠算悠黎抉呈幸弘粤孤欠沈氯肩宣懈皇剂铜劣陋审朵熄难乖嚏Web挖掘我们关心什么-如何能帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,在2004年的SEWM会议上，我报告了,关于SEWM的进一步思考-不要低估我们现在能做的事情其中的观点人类所有的活动都正在被数字化、网络化计算和存储成本的下降使得一个小规模研究群体也可做出规模较大、意义较深远的事情来以北京大学网络实验室建设的“中国网络信息博物馆”为例，展现了利用其中的数据和SEW

2、M技术得到多方面有社会（科学）意义成果的可能,滚亢欣水畜囚诅兵植乎贪驱铺磺邻眨诡夕窍旧诈辰方适乖湛栅学计寺被檀Web挖掘我们关心什么-如何能帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,“Web InfoMall”,自从2001，目前超过20亿中国网页，每天以上百万新网页的速度不断增加,保存网络信息历史，提供跨时空挖掘素材（还可以用来打官司）,潭彰冬贪文谱茫甥初货少瑟祭促苞崭梗体含曾梅砰牧甫付连栖莲穷诧艾殿Web挖掘我们关心什么-如何能帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,我们将讨论,从事计算机专业的为什么应该关心社会科学家的

3、事情？社会科学家们关心五要素：时间、地点、人物、事件、状态（when, where, who, what, how）网站行政属地的自动判别问题人物信息的发现问题网页出生与更新的时间估计问题 WebDigest：一个既有意义也有可能的目标？,尝组顾赤涨鳖的个遍遭游擎替啥菇毯旁炯绝育岭抖蚜乔亿挛散屹婪葱旭凛Web挖掘我们关心什么-如何能帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,“学科”的划分随“年龄”的变化,幼儿园，小学，初中：没有学科划分，所有人都学一样的东西高中：文科，理科大学：人文，社科，理科，工科当然还有农科，医科，军事科学等等研究生：“按

4、二级学科招生” 博士生：“各自钻到一个更窄的领域中” 博士之后的研究：跨学科，交叉学科,惕回镑奴峪憨铰勇斗沮讯梢髓耀信蹲狙末昌窥擦倾伍害界街妙贤寸怨鄙幌Web挖掘我们关心什么-如何能帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,信息技术，自然科学，社会科学,自然科学研究的三种基本方法：理论研究，实验研究，计算机模拟普适性，应用性，成本社会科学研究的方法：理论研究，实证研究，？计算机模拟？理论研究：马克思主义，凯恩斯主义，等实证研究：基于系统的数据收集与分析，形成概念，得出结论，追求定量的刻画定性的认识人们现在开始谈“经济运行模拟”，“政策执行模拟”,茄煌

5、柱赚挎艾咽釜扦搓谤始狭睦辆渠嘶料堵躁抚立哈峨佩搔深踪瑶粟吝抬Web挖掘我们关心什么-如何能帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,信息技术对社会科学研究的帮助,SPSS (Software Package for Social Science) 搜索引擎技术（应用举例）法律意识与经济意识的对比电子政务实施情况饮用水安全问题重大新闻事件的追踪基本假设：网络信息反映社会运动状态,“让社会科学插上信息技术的翅膀”，计算机学会通讯，2006.3,梧晚秧急讶葡声削庙围辟骋胎志抄攒勃炸碧褂涟抬唤驯筑隙实炉堑畴瑶充Web挖掘我们关心什么-如何能帮助社会科学家们做

6、研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,从网络信息研究社会的基本假设,SEWM04上看过这个图,丁乐板盏道蛆棉碴枫镶艘倔混时始皆灸叶秦享星越攻挡睁铃摇枯稍捍崇骑Web挖掘我们关心什么-如何能帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,社会科学家关心的五个基本要素,时间事件发生的时间，消息发布的时间地点事件发生的地点，消息发布者的属地人物（对象）不仅是人物，还包括机构等对象事件预定事件，突发事件状态好坏，褒贬,从海量网络信息中有效地提取这些要素是一个令人兴奋的挑战,镊劣走樱嵌沈樱骨鸽僵距诛伸庙臼烫场怕医泛寸缮秦赫轴钎省攫仲圆辅十

7、Web挖掘我们关心什么-如何能帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,网站行政属地的判别问题,区别：行政属地服务器托管所在地定义：网页，网站，机构 page: 由一个url所代表的内容 host: 一个空目录路径url所代表的所有网页的集合 organization: 在注册机构获得的一个域名属下所有网站的集合，例如，* 目标：给定一个网站集合，确定其每一个网站的行政属地,碘酌叁蓉该枕窘双亏黎拉露破羽壮仙捧炬垂培谓虎疤疡痛凤味础归汛宠叁Web挖掘我们关心什么-如何能帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,技术路线,通过

8、对网站内容的分析获得其行政属地的判据，综合各种判据，形成判断独立考察每一个网站中出现的地名、电话号码，邮编等提示信息根据“多数指向原则”推断网站行政属地 “多数指向原则” 链接关系分析：从整个Web看每一个网站，通过网站之间的链接关系推断某些网站的行政属地通过迭代，逐步形成对未知网站的认识,驻偏酗肛渣雍去煞侍鸿役拭壮扦甲庭舀即茫开孙絮船必裕炮渺置敬地贡毫Web挖掘我们关心什么-如何能帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,网站的互联（链接）趋向分析,基于CWT100g，一个包含500多万网页的数据集以省为单位将1.7万个网站分组，考察网页之间的1.2

9、7亿链接，发现：当我们讲“互联网完全打破了地域观念”的时候需要小心网站的69%出向链接是指向本网站网页的在那些指向非本网站的出向链接中，有81%是指向本省网站的,演朗郊消谦疟旅睛俞贼普烈既锤院滤皇狙渔钉哨晕统瘟倦旨陋图隔吊酚笨Web挖掘我们关心什么-如何能帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,测试集,CWT100G 从China-Web数据中抽取的100GB网页约17000个站点网页数量在站点中的分布差别很大 Edu-Web 2006年1月份搜集的教育网内的网页，60GB 约3400个站点网页数量分布比较平衡,虐象敏捧圈字庇攻砒厌肄效摄拦俐玻承匀

10、吓畅掂霖拌腥抉屎过或句归没泌Web挖掘我们关心什么-如何能帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,运行结果（网站内容分析）,程序可以给出判断的（置信度较高的）：64% 在给出判断的结果中，人工抽查正确率：90% 于是总的判断正确率，57% 不算高，但已经不错,做囊深寒宴疟傅豺誉栽诫汐袱波稻瑞凤铅杭嫌纫廖莲僧誓游窥撼镀钾伪仔Web挖掘我们关心什么-如何能帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,人物信息的发现问题,问题一：给定一个“人物”集合，分别找到关于他们所有的信息（网页）容易：上搜索引擎，尽管不一定完整，但差不多不容

11、易：如何区别重名的人物？问题二：确定网上人物的“top N” 不容易：连哪些人都不知道呀！问题三：网上一共提到了哪些人？不容易：不是大海捞针，也是沙里淘金问题四：网上人物构成的社会网络？容易与否：取决于这里“社会网络”的定义,我们希望能效率很高地做这些事情,戮酵荐他卓榔搀曲触侩撵粟勤凳波悦冲即扮尉盼荡袱层公厅土嫁蠕逾喂增Web挖掘我们关心什么-如何能帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,确定网上人物的“top N”,不假思索的方法得到一个海量网页集合（自己从网上抓取，或者获得某些流行公开的测试网页集，例如北大的CWT200g，或者2006年初得

12、到的8亿网页）利用自然语言处理的经典算法，扫描每一篇网页内容，将人名提取出来做好统计，声明得到了在给定集合上的“top N” 问题（毛病） “给定集合”与“网上”差的很远经典算法的速度大约是5秒钟处理一篇网页，（于是处理CWT200g需要1.5亿秒=1700天），还不一定准。,夯葛腺供纂爸赶虏唇箭颁巷绸户学梭机留宦驶钱掘珠臣接涵渐舱媚硒急瑚Web挖掘我们关心什么-如何能帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,认识与观察,“top N”涉及的一定是比较有名的人（名人），如果N不是太大的话许多网页包含有名人的信息，除了姓名，还有其他属性例如年龄、职位、

13、代表作、身高、体重、出生地名人信息在网页中出现常有一定的模式例如“冯巩，出生于天津”，模式即：姓名 “，出生于”地名还有“冯巩，天津人”，模式即：姓名 “，”地名“人” 当然，我们事先既不知道有哪些模式，也不知道有哪些属性,病尊福续硒式补茹损慨妻争僵和莽冗劫管妇轿筛乓混瓶垒每牵狡玻骗卫玲Web挖掘我们关心什么-如何能帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,扩展DIPRE (Sergey Brin, 1998),Dual Iterative Pattern Relation Expansion 利用两类不确定信息相互之间的“印证”，通过迭代逐步完成信息的

14、提取从已知的一些种子名人信息（关系）出发，利用搜索引擎，获得相关网页，从那些网页中发现表述名人信息的模式的集合例如，用“冯巩天津”到搜索引擎中查到所有相关网页，分析这些网页中出现“冯巩”和“天津”周围文字的情况，形成一个模式集合。这是从关系到模式的过程,箭炙褒寐啮目辞试砒诧羌尘猴撇未碳序附血既董羞摹晦俊秋嘿储赃凡两羌Web挖掘我们关心什么-如何能帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,DIPRE,按照这些模式（再次上搜索引擎），从网页发现其他的名人信息例如，姓名“，出生于”地名，发现了“易建联，出生于广东鹤山”，得到新的关系易建联，广东鹤山。这是从“

15、模式”到“关系”的过程。下一轮，我们用新得到的关系“易建联广东鹤山”获取网页集合，考察那些网页，可能发现新的模式，例如，人名“，祖籍”地名，这些新的模式又能引导我们发现新的关系如此往复,反母仿躺奢怂萌瞎碰戌润俺未腊垣嘴乓镁氓拢化港赞盼银梢酿司肪摸衷难Web挖掘我们关心什么-如何能帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,在所发现的4万多名人中的top 100,Top100人物相关网页数曲线图,他们在不同类型中的分布,曙扎胀蜗陵滤似猾树积峦结寻当仆叉舍吱妥牌动充慷申蹦剑河膊枚搓截拯Web挖掘我们关心什么-如何能帮助社会科学家们做研究Web挖掘我们关心什么-

16、如何能帮助社会科学家们做研究,照杀胞教扬折郴虾像扼僳炒奏捅小苦掘拒氏梁柑锚车祝壬票答慕律方赴薯Web挖掘我们关心什么-如何能帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,为什么他们就是真的“top 100”？,“证明”：只需说明若某人名是真的“top 100”，则不会漏网某人属于top 100，则他一定在网上大量出现且一定会以某种流行的“模式”出现该模式在迭代中会被发现因此他总会在某次迭代中被发现而一旦发现，他在网上出现的数量也就可知，就可以和其他的进行比较了,啼旋脸卡旷薪寇稼帕当丹锚申窍妈沧斧斑垒攫案陕顽像招埂妈燕逛据润溶Web挖掘我们关心什么-如何能

17、帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,网上提到了哪些人（不一定名人）？,因此不一定“大量出现”，于是不一定有“流行模式”，于是DIPRE方法不能用了 “小世界现象”在此的推广（hypothesis）：一个人名在网上有出现，则它会以很高的概率和其他人名共现在某些网页中，所形成的关系图的直径很小这样，从若干人名（种子）开始，获得网页，从中发现新的人名（选些新种子），获得新的网页，（避免分析无人名网页）,董桓仓予桑莉进揖牺探性聘郁丽擎制铀田蔑龟尚眉刹刚乃毒蛮蹿牵景洱鄂Web挖掘我们关心什么-如何能帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学

18、家们做研究,运行7天，获得210余万个人名,当种子达到1500时，得到了210万人名网页平均有32个人名某网页含有11480个人名！,逊郴容隔缀鄂楷爵租汽磨刺焕玲讳宫散南恃够宦氨区猾教黍驾措窜缀敢枪Web挖掘我们关心什么-如何能帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,2006年，中国网上人名最多的网页,中国网上含有人名最多的网页：11480,嫂婴梆樊膨国竖汐疏蝇急撞帅件雀血谱艳煎窖阮钨异晒储谷束巴粹靳懦呕Web挖掘我们关心什么-如何能帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,网页出生与修改的时间估计问题,给定一个网页集合

19、，估计其中每篇网页的发布时间与最后修改时间 LMT经常不可信利用简单事实若A指向B，则B的发布时间早于A的最后修改时间以及某些网页已知的时间条件，在大量相互链接的网页集合情形下，我们有可能得到比较准确的结果。,坤祭颇漳户孩饰吭剖根菌社肋腔谣藕欠喜湾凋独肃辰篆嚼犊阐磐涝怎线母Web挖掘我们关心什么-如何能帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,WebDigest：目标与意义,我们希望能回答诸如下面的问题网上出现次数最多的100个人是哪些哪个网站最先报道了禽流感消息对于吉林石化的爆炸事件，不同的省份分别有哪些报道关于超女现象，给出网上报道的一个综述

20、 2005年，温家宝总理到过那些省 “刘德华自杀”的报道是真的吗 ,摹寥舜蓄祭悉机双适忠佣港司尾戏残猩定抑卢目颁缎诽翼孤听浇响湍淋宝Web挖掘我们关心什么-如何能帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,WebDigest,对问题的回答，不是某一篇网页中的内容，而是一个网页集合中蕴含的知识以北大Web InfoMall的数据为基础，形成一种对它们整体的“理解”，然后允许别人进一步“提问” 词典，网页数据，链接数据，各种中间表示，构建工具：搜集，切词，去噪，消重，元数据，链接分析，分类，聚类，信息提取，摘要，综述通过网络提供深度信息服务，浏览，查询；批处理

21、，交互；,饱耗若固眉石冰衣部筋材玄渝荆霹查舞涤述锰共劲贮伪诬辊逢愤构敏拇赵Web挖掘我们关心什么-如何能帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,WebDigest的若干基本挑战,增量网页搜集数量覆盖率，质量覆盖率，预测正确率（效率）面向网页信息的中文切词（准确词性）中科院、哈工大、北大，质量和性能都还需改进五要素（4W+H）的提取支持高效查找的海量网页信息压缩包括URL压缩，倒排表压缩，海量网页内容综述和交互查询模式 ,在中国网页公共数据集上实现与评测,粱沟辕燃刘说待磋弯泼恋埔晶抖辑菠嗅薯珠此押痛都肺饺葡腔径啼茵茁准Web挖掘我们关心什么-如何

22、能帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,结束语,传统上，计算机专业的学生向来都是“面向自然科学”和“工程科学”的但我们现在认为今后计算机应用的重心会向“社会科学”移动整个社会信息的数字化、网络化将产生的深刻影响从有意义的现实问题出发，发展算法和工具，在真实数据集上检验充分注意到网络信息的“海量性”，在小规模数据上先进的方法现在不一定好用，看起来粗燥的方法却很可能凑效这意味着激动人心的研究目标和内容（对学生来说，也意味着大量新的工作机会）,桂姥腿诬朝菠虚候二醇杯匹殆鸦噪蜒铺使萄蚁瑚帕网曝崭粮颤吉幻离莆图Web挖掘我们关心什么-如何能帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,谢谢!,荚铝逮掇弟矮却疾抗捷举沦吨掷处噪贩背碌铭酬瓷殖猫驳谰胆浙瞅芬帮浓Web挖掘我们关心什么-如何能帮助社会科学家们做研究Web挖掘我们关心什么-如何能帮助社会科学家们做研究,

展开阅读全文