元数据编码.ppt

上传人:少林足球 文档编号:4225115 上传时间:2019-10-28 格式:PPT 页数:126 大小:3.01MB
返回 下载 相关 举报
元数据编码.ppt_第1页
第1页 / 共126页
元数据编码.ppt_第2页
第2页 / 共126页
元数据编码.ppt_第3页
第3页 / 共126页
元数据编码.ppt_第4页
第4页 / 共126页
元数据编码.ppt_第5页
第5页 / 共126页
点击查看更多>>
资源描述

《元数据编码.ppt》由会员分享,可在线阅读,更多相关《元数据编码.ppt(126页珍藏版)》请在三一文库上搜索。

1、,元数据编码,元数据体系架构,语义 结构 句法,元数据编码语言,From 张晓林,元数据编码语言(Metadata Encoding Languages)指对元数据元素和结构进行定义和描述的具体语法和语义规则,常称为定义描述语言(DDL)。 在元数据发展初期人们常使用自定义的记录语言(例如MARC)或数据库记录结构(如ROADS等),但随着元数据格式的增多和互操作的要求,人们开始采用一些标准化的DDL来描述元数据,例如SGML和XML,其中以XML最有潜力。,元数据编码的作用,形式化表述 结构化,如标记语言 例:ISO 2709, 元数据管理 组织与存储 元数据表现 元数据互操作 长期保存,利

2、用置标语言(例如HTML/XML/RDF/XMLs/RDFs/OWL等)将元数据方案形式化,提供机器处理的规范表达,就是元数据置标。 - 刘老师,元数据编码形式在元数据生命周期中的作用,基于生命周期的元数据开发应用框架,From 张晓林,元数据编码相关问题,字符集编码 结构描述机制 语义管理与注册机制 结构化与非结构化 平台独立与应用相关 机器可读与人工可读 逻辑层面与表现层面,用什么进行元数据编码?,普通文本 私有结构(WORD) 数据库 非人工可读计算机编码 机器语言 ISO 2709 标记语言 ,元数据由谁来编码,编目人员手工编码 专用的编辑器或客户端 由机器编码 自动生成描述性元数据

3、自动生成技术性元数据 由共享平台生成 由系统根据协议生成,SGML家族标记语言,标记语言,标记语言:标记通常是让软件识别如何来处理文本,包括: 对文本进行索引 用于屏幕显示或打印标记 转换至其他输出设备 标记语言的标记通常对最终用户是不可见的 标记语言的实例:SGML/HTML/XML 一个老的实例:WPS 一种嵌入文档中、表示文档结构和/或格式的代码。 -刘老师,SGML 家族,TEI EAD,RDF OWL,ONIX METS MODS MARC-XML,SGML(标准通用标记语言:Standard Generalized Markup Language),ISO 8879: 信息处理-文

4、本与办公系统-标准通用标记语言 (SGML), (日内瓦: ISO, 1986) 主要是为了定义通用的文件格式: 优点: 开放的ISO规范 可以描述复杂的文本,适用性强 适合支持对大信息容量及复杂的文本印刷的处理 缺点: 复杂的体系对效率与便携性是个挑战 成本很高,需要昂贵、复杂的软件支持 不能通过浏览器这种简单客户端来解析,HTML,ONIX METS MODS MARC-XML,TEI EAD,RDF,HTML(超文本链接标记语言: HyperText Markup Language),最新规范HTML 4.01 (W3C 推荐稿 (1999-12-04) 是由Tim Berners-Le

5、e在1990年代为万维网应用开发的: 一个SGML DTD (实际上是SGML的一个应用) 小型实用的固定的标记集 史上最成功的文档格式 维护机构: W3C 超文本标记语言(Hyper Text Markup Language)一种简单的文本置标和排版语言,带有指向其他对象的链接,用于万维网。 -刘老师,HTML的优缺点,优点: 相对易学易用 适用面广,有很多应用工具 非常适合用作信息展现 缺点: “非标准”的各种实现 将信息展现与信息本身混合在一起 预定义的标记集发展的空间受限 链接能力受限,Early Days in Richmond Hill: A History of the Comm

6、unity to 1930 : electronic edition. by Stamp, Robert M. Appendices compiled by Janet E Fayle Co-ordinated by Mary-Lou Griffin Richmond Hill Public Library Board 1991 based on the original document: Early Days in Richmond Hill: A History of the Community to 1930 by Robert M. Stamp,HTML实例,From:edrh.rh

7、pl.richmondhill.on.ca/,HTML语言实例,HTML实例: 张三 系统网络中心 上海图书馆 ,结果显示: 张三 系统网络中心 上海图书馆,XML,ONIX METS MODS MARC-XML,TEI EAD,RDF,XML(可扩展标记语言: eXtensible Markup Language),最新规范XML 1.0(第三版) (W3C 推荐稿 (2004-2-4) 最新规范XML 1.1 (W3C 推荐稿 (2004-2-4) “专用于网络世界的SGML” 支持SGML DTD - 实际上是SGML的一个子集,但避免了SGML的复杂与高代价 也是一种支持自定义标记集的

8、“元语言” (利用XML的命名域机制) 能够描述元数据与内容,但是没有格式与展现部分的内容 缺省支持UNICODE 有一个完整的规范系列予以支持 维护机构: W3C,XML (续),XML 是一种较基本的表示结构化数据的语法体系 XML可以被用作: 标记一篇文档的结构与内容 表述结构化的元数据 作为一个容器表述非XML的内容 以上各种用途的综合 XML的一些原则: 可扩展: 每一个个人、机构或团体都可以定义自己的标记体系以满足各自的需求 清晰明确: XML文档可以自我表述定义 构造能力: 通过严格遵守的简单规则 可阅读: 基本上是,XML实例: 张三 系统网络中心 上海图书馆 ,XML实例,又

9、一个XML实例, 陈伯钧 陈国懋 523173918.jpg 1910年11月26日 1974年2月6日 四川省达县河市乡 北京高等军事学院院长 上将 1955年 1955年一级解放勋章 陈 伯 钧 (1910-1974) 陈伯钧,原名陈国懋,字少达。中国人民解放军高级将领。1955年被授予上将军衔,荣获一级八一勋章、一级独立自由勋章、一级解放勋章。 ,应用XML的优势在哪儿?,数据处理能力更强: 索引 系统可以既快又聪明地索引XML文档 智能代理 XML能让计算机读懂哪一部分的文档内容是哪一类型的数据 数据交换 可以在不同的领域交换数据,各种数据中介将会更简单、便宜与可靠 应用 与应用无关的

10、数据共享能力 可移植性: 一次构建文档,可以按需要多次以各种格式发布 (HTML、PDF或其他各种格式,包括在手机与PDA上的应用等等) XML似乎要比其他文档格式寿命更长 信息展示: 采用XSL/XSLT语言可以使文档内容可以很方便的以各种形式被剪裁、翻译以及格式化,XML 家族,XPointer,XQuery,XLink,XML Schema,XML Infoset,XML Namespaces,XInclude,XPath,XSL/XSLT,XHTML,ONIX METS MODS MARC-XML,TEI EAD,RDF,格式良好性与有效性(Well-Formedness and Va

11、lidity),每一个标记都有始和终 空标记以“ / ”结尾 根标记只有一个 标记嵌套要正确 属性值要加双引号,匹配或遵循 DTD文件的定义与约束,格式良好的XML文档 well-formed:,XML 文档的有效性 Validated:,RDF,ONIX METS MODS MARC-XML,TEI EAD,RDF,RDF(资源描述框架: Resource Description Framework),最新规范RDF (修订版) (W3C 推荐稿 (2004-2-10) 基于XML的描述语言 提供一种标准的描述模型 提供语义、结构、句法三个层次的互操作能力 模块化的互操作能力 有些数据化信息

12、需要不同的元数据描述,RDF对集成这些元数据非常有用 应用前景广阔(如Semantic Web) 维护机构: W3C,RDF基本概念,RDF是一个与任何特定语法无关的抽象的资源表达模式,用来反映资源(Resource)、属性(Property)与属性值(Value),资源 resource,属性 property,属性值 value,语句 statement,换言之 “张三是由以下网址所标识的资源的作者:http:/ ”,http:/ 99-3/p22.htm,作者 author,张三,什么是RDF?,http:/ 99-3/p22.htm,作者 author,张三, 张三 ,RDF描述实例,

13、http:/ 99-3/p22.htm,作者 author,张三,为什么需要RDF?,为什么要使用 RDF?,RDF提供共享元数据的模型(model) 共享语义(meaning) 元数据可以在相互了解不多或根本不了解的应用之间共享 例如一个基于RDF的书目应用能够吸收基于RDF的地理空间应用的元数据并对其意义有所理解。,RDF:三位一体的描述体系, Value-C ,value of property-B,RDF 的设计就是将你的XML文档结构化成资源、属性与值三位一体的描述方法。,value of property-A,元数据标记语言 DC描述实例,命名域(Namespace),Conten

14、t Content Content,命名域 A,命名域 C,命名域 B,XML Namespace Schema,XML Document Instance,XML Application Profile Schema,命名域概念实例, A nifty picture image/tiff,METS Schema,NISO MIX Extension Schema,MODS Extension Schema,XML Namespace Schema,XML Document Instance,XML METS Application Profile Schema,DC实体概念,元素 (elem

15、ent) 修饰词 (qualifier) 元素限定(element refinement) 编码体系 (encoding scheme) 字符串值 (value string),编码体系Encoding Scheme : 元数据修饰的一种方式,用来规定元素取值范围或取值意义的受控词表或规范名称。 -刘老师,基础,DC描述将嵌入到(X)HTML文档的 部分 DC元数据描述放在这里 ,DCMES的元素,使用XHTML中的元素的属性 name 和 content 来对DC15个元素和字符串值进行置标,使用如下形式: 例如: 15个MCMES元素的名称首字母一般小写,字符串值(Value string

16、s),字符串值(value strings)在XHML的 元素的content 属性中 content 属性中的字符串定义为CDATA, 即来自文档字符集中的一连串可能包括字符实体(character entities)的字符 如果需要,长的字符串值可以打包成多行 需要忽略某些特殊字符,如 , etc,字符串值(Value string)的语种,在说明字符串值(value string)语种的地方 ,应该用XHTML 元素的 xml:lang 属性,如: ,置标时如何重复元素,多个属性值应通过重复 XHTML 元素来为这些属性置标, 例如: ,其他的DC元素,DC还有元素不属于原来的DCMES

17、15个元素中,如Audience 使用相同的形式置标,但改用 DCTERMS 前缀: 例如: 元素名称可以大小写混合,但首字母要小写,元素限定(element refinements)的置标,对元素修饰词使用相同的形式置标: 例如: ,编码体系(encoding schemes )的置标,编码体系使用XHTML 元素中的 scheme 属性置标,使用如下形式: 举例: ,命名域的处理,DC. 和 DCTERMS.两个前缀用来指明属性来自的命名域 把命名域的URI放在XHTML的元素中: 当然所有的字串都可以做为前缀的名称,现在使用的是 DC. 和DCTERMS.,值的URIs,当一个属性的值是

18、另一资源的URI时 (如 DC.relation属性),推荐使用另一种供选择的置标方式 ,采用XHTML的 元素,使用如下形式: 例如: ,DC元素和非DC元素混合时的置标,在XHTML 元素中,DC元数据可以与非DC元数据混合 下面的例子在同一个XHTML网页中内嵌了DC, AGLS和非标准的元 数据: ,HTML 文件头的实例, Early Days in Richmond Hill: A History of the Community to 1930 : electronic edition. ,From:edrh.rhpl.richmondhill.on.ca/,用XML对DC进行置

19、标,在说明值(value)语种的地方 ,应该用 xml:lang 属性,如: seafood fruits de mer ,元素限定的XML置标,元素限定(element refinements)置标方式与其他属性相同 比如: 2002-06 请不要使用下面置标方式的任一种: 2002-06 2002-06 2002-06 ,编码体系(Encoding schemes),编码体系(encoding schemes) 应该使用XML元素的xsi:type 属性来置标 编码体系的名称应该作为一个属性值,采用XML限定名(QName)的形式: http:/www.ukoln.ac.uk/ ,作为容器

20、的元素,注意,记录(records)应该在一个或多个某种类型的XML容器元素中置标; 不推荐任何容器元素的名称,也不推荐容器元素来源的命名域名称 下面的容器元素名称做为侯选:, , , and ,名称的大小写问题,元素、元素限定、编码体系(elements, element refinements and encoding schemes) 应使用列入如下文档中的名称: DCMI Metadata Terms http:/dublincore.org/documents/dcmi-terms/ 注意:15个DCMES中的元素首字母必须小写,Element,Value,Resource,Valu

21、e,Property Type,Dublin Core,RDF Model,Date,2000-11-27,Created,ISO8601,www.page.html,2000-11-27,Date,RDF Model,Dublin Core,DC的RDF描述实例,http:/ 99-3/p22.htm,DC:Creator,张三, 张三 ,更多RDF描述实例, Dublin Core Metadata Initiative (DCMI) Home Page The Dublin Core Metadata Initiative is an open forum engaged in the

22、development of interoperable online metadata standards that support a broad range of purposes and business models. DCMIs activities include consensus-driven working groups, global workshops, conferences, standards liaison, and educational efforts to promote widespread acceptance of metadata standard

23、s and practices. 2001-01-16 text/html en Dublin Core Metadata Initiative ,dublincore.org/index.shtml.rdf,更多DC在RDF中的描述实例, D08.586.682.075.400 Formate Dehydrogenase ,http:/dublincore.org/documents/2002/05/15/dcq-rdf-xml/,xmlns:bib=“http:/www.na.org/persons#”, Metastructures 98 Talk , Eric Miller emill

24、eroclc.org OCLC Metastructures 98 Talk ,混合元数据(命名域)应用实例,Metadata and XML,XML = syntax,Metadata and RDF/XML,Metadata = semantics,RDF = structure,XML = syntax,模式(schema)定义,元数据规范(schema)定义语言,DTD (Document Type Definition) 文档类型定义,XML Schema XML 模式 (XMLs) XMLS指XML Schema,即XML模式,用于定义XML词表和结构用于机器识别和共享信息的定义语

25、言。 -刘老师,Address Example: DTD实例和树 (1),Document Type Definition (DTD):,Address Example: DTD实例和树 (1),Address Example: DTD实例和树 (2),Document Type Tree:,Document Type Definition (DTD):,address,PCDATA,PCDATA,PCDATA,name,street,town,place,Address Example: DTD实例和树 (2),Document Type Tree:,address,PCDATA,PCDAT

26、A,PCDATA,name,street,town,place, Xaver M. Linde Wikingerufer 7 10555 Berlin ,XML Markup 2:,DTD的一些语法符号,Document Type Tree:,| 或 ? 0 或 1,address,PCDATA,PCDATA,PCDATA,name,street,town,PCDATA,box,+ 1 N * 0 N,DTD的一些语法符号,Document Type Tree:,Document Type Definition (DTD):,address,PCDATA,PCDATA,PCDATA,name,

27、street,town,PCDATA,phone,PCDATA,fax,XML 实例,address,Xaver M. Linde,Wikingerufer 7,10555 Berlin,name,street,town,030/1234567,030/1234569,030/1234568,phone,phone,fax,XML Schema实例, Gustav Sielmann Arnold Rummer Johann Neumeier ,XML Schema实例,元数据词表定义与本体,RDFS (RDF Schema) RDF Vocabulary Description Languag

28、e RDFS即RDF Schema,用于定义元数据属性元素(例如“创建者”),以描述资源的一种定义语言。 -刘老师,OWL Web Ontology Language 万维网本体语言(Web Ontology Language)是描述互联网上信息内容及其相互关系的一种人工语言,是对RDF模式语言的进一步扩充,从本质上是为了计算机处理而设计,而不是为了人理解用的。 -刘老师,RDF Schema 词汇定义语言,定义类 (Class) rdf:Resource rdfs:Class rdfs:Datatype rdf:Property 定义属性 (Property) rdfs:subPropert

29、yOf rdfs:domain rdfs:range rdfs:subClassOf,RDF Schema 举例,来自科技部项目的规范,RDF Schema 的属性关系与简单推理,subClassOf: Carole 是类( class) 的成员 是 的子类(subclass) 因此 Carole 在大学(university)工作. subPropertityOf: Marlon 有兄弟姐妹(hasSibling) Susan 有兄弟姐妹(hasSibling)属性是有亲戚关系(hasRelative)属性的子类(subclass ) 因此Marlon与Susan有亲戚关系 Domain a

30、nd Range: 有兄弟姐妹(hasSibling)这一属性只能应用于动物主题与对象,因此 Marlon是动物这一个类的成员。,OWL 万维网本体语言,分为三个版本,Full,DL,Lite,三个语言层次版本: OWL Lite OWL的一个子集,对于描述分类及简单的关系很有用 OWL DL (描述逻辑) 包括OWL的所有构词,不过也有一些相关的约束以保证維持計算機使用的完備性(computational completeness,即所有的結論都能夠確保是可以被計算出來的)與可判定性(decidability,即所有的計算都能在有限的時間內完成)的用戶使用。 OWL Full 包括所有的OW

31、L构词并且没有限制与约束,但是不保证可处理能力。 语义层次 不同层次的OWL必须在语义上有如下的一致关系: All legal Lite ontologies are legal DL ontologies. All legal DL ontologies are legal Full ontologies,An OWL Example,An Example Ontology: Climate Data,The example shows how to construct a really simple ontology and instance. We dont use it to enco

32、de all data but rather to encode metadata about data files. Where is the data file (URI) that has the temperature associated with this dataset? Two classes: dataset Parameter One property: hasParameter Several parameters: cloud_medium, bounds_latitude, temperature Line Pouchard (ORNL) created this f

33、or ESG using Protg and OilEd.,Lets Begin,Front matters: OWL ontologies begin with the header. A useful place to put metadata about the document. Line uses the Dublin Core to establish authorship. Next, define two classes: dataset and parameter. Class definitions are almost trivial. We really state w

34、hat something is by its properties. Deep philosophical arguments here, Im sure. Most of the work will go into defining the property, hasParameter. Begins on bottom of next slide But the full extent of the definition requires a separate slide.,Class Definitions,Ontology header With Dublin Core Parame

35、ters.,hasParameter Definition,Defining hasParameter,hasParameter domain: it applies to the dataset class. hasParameter range: it applies to a list of 3 OWL Things Cloud_medium, bounds_latitude, and temperature. This is done using the awkward RDF list structure. “Give me the first of the rest recursi

36、vely until I get to nil” These three OWL Things are then defined. They are each of type “parameter” That is, members of the parameter class. Each may also be further defined by additional properties and classes. Temperature has units, for example, bounds_latitude needs starting and stopping values i

37、n decimal degrees,etc. Or it may be out of scope. I may just need to know that the bounds_latitude for particular dataset is located in some resource with a specific URI.,Parameter: Cloud_medium,Parameter: temperature,Parameter: Bounds_latitude,Finally, Apply It to Something,What is the file PCM.B06

38、.10.dataset1? Its a member of the dataset class, which we have defined. What properties does it have? bounds_latitude and cloud_medium, as all such members do. Where can I get the bounds_latitude for this data set? Its in the file indicated by the rdf:resource.,OWL Enriched RDF Metadata about PCM.B0

39、6.10.dataset1,OWL 属性的性质,owl:TransitiveProperty owl:SymmetricProperty owl:FunctionalProperty owl:InverseFunctionalProperty rdfs:domain rdfs:range,owl:TransitiveProperty,P(x,y) and P(y,z) = P(x,z),owl:SymmetricProperty,P(x,y) iff P(y,x),RDFS与OWL的区别,同RDFS,OWL可声明类和属性,并由类包含(subClass)和属性包含(subProperty)公理来

40、划分各自的等级层次。但OWL的类是能通过逻辑组合算子(合取,析取,补)在其他类的基础上得以描述,也能视为多个对象的枚举类;同时OWL还可声明某个属性具有传递性、对称性、函数性,或是某个属性的逆属性。显然这些都超越了RDF(S)的能力。更为重要的是,OWL允许通过属性限定词(restriction) ,并结合对属性的描述和对类的归属从而自定义新的类。,元数据与数字资源管理:METS,METS(元数据编码与交换标准:Metadata Encoding & Transmission Standard),提供描述规范构造“集成器”(hub)文档来管理数字对象 基于XML规范 “集成器”文档可以联接分散

41、但相关的数字文件及内容 METS利用XML提供一种词汇及语法来标识数字对象文件,描述其间的关系,从而组合这些相关的数字实体 来源于MOA2项目 维护机构: LOC,METS的作用,标识出组成一个数字实体对象的文件或文件中的章节,并且表示出相关这些内容的结构 链接描述元数据与相关数字内容 链接管理元数据与相关数字内容 链接动作定义及程序代码与相关数字内容及描述和管理元数据 将数字内容与相关的描述及管理元数据打包成二进制数据包,我们可以利用METS:,用于交换的语法规则 作为转换及交换数字对象的标准 SIP (OAIS模型) 用于功能描述的语法规则 可以作为最终用户浏览或阅读数字内容及相关元数据的

42、基础 DIP 用于存档的语法规则 可以作为用于数字对象保存的标准 AIP,METS可以用作SIP/AIP/DIP,Producer,Consumer,Management,OAIS,SIP,DIP,AIP,Administration,Preservation planning,Ingest,Access,AIP,Data management,Archival storage,Descriptive info,Descriptive info,METS文档的结构, Header Descriptive Metadata Administrative Metadata File list St

43、ructural Map Structural Link Behavior Section ,METS文档的结构, 头标区(可选) 描述元数据(可选) 管理元数据(可选) 文件节(有则必备) 结构描述(必备) 结构链接(可选) 行为描述(可选) ,METS 结构, , ,METS 结构(头标区), ,METS 结构(描述元数据), Alices Adventures in Wonderland text ,METS 结构(描述元数据实例),METS 结构(描述元数据),外部描述 元数据, ,METS 结构(管理元数据),METS 结构(管理元数据),amdSec,sourceMD,digipr

44、ovMD,rightsMD,外部 管理元数据,techMD,mdRef,mdWrap, ,METS 结构(文件节),METS 结构(文件节),外部 文件内容,fileSec,fileGrp,file,Flocat,FContent,file,file,链接文件与管理元数据,fileSec,fileGrp,file,amdSec,sourceMD,digiprovMD,rightsMD,文件节,管理元数据,外部 管理元数据,techMD,mdRef,mdWrap, ,METS 结构(结构描述),链接结构与内容,structMap,外部内容,文件节,fileSec,fileGrp,file,Flo

45、cat,div,area,fptr,mptr,seq,area,area,par,area,area,FContent,file,file,file,结构描述,链接结构与描述元数据,结构描述,structMap,div,描述元数据,外部 描述元数据,div,div,链接管理元数据与结构和内容,结构描述,管理元数据,structMap,div,fileSec,fileGrp,file,amdSec,sourceMD,digiprovMD,rightsMD,外部 管理元数据,techMD,mdRef,mdWrap,文件节, ,METS 结构(结构链接), ,METS 结构(行为描述), BNI3165 Cambridge Mass. Reports of the president and treasurer for. Radcliffe College University Press ,METS官方网址: http:/www.loc.gov/standards/mets/,http:/mapageweb.umontreal.ca/turner/meta/english/,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1