汉字编码.ppt

上传人:少林足球 文档编号:5287390 上传时间:2020-03-20 格式:PPT 页数:36 大小:147.11KB
返回 下载 相关 举报
汉字编码.ppt_第1页
第1页 / 共36页
汉字编码.ppt_第2页
第2页 / 共36页
汉字编码.ppt_第3页
第3页 / 共36页
汉字编码.ppt_第4页
第4页 / 共36页
汉字编码.ppt_第5页
第5页 / 共36页
点击查看更多>>
资源描述

《汉字编码.ppt》由会员分享,可在线阅读,更多相关《汉字编码.ppt(36页珍藏版)》请在三一文库上搜索。

1、汉字编码 汉字编码1 汉字编码现状及其根源 n多种编码方案共存,不利于交流和共享 n新旧标准同台使用,需相互转换 n统一标准正在形成 n中、日、韩、新等多国同时使用汉字 n简繁体汉字并存 n地区、国家间的文化、政治差异增加了 汉字统一编码的难度 汉字编码2 主要汉字(文字)编码标准与规范 nASCII(英文) nGB2312 nGBK nGB13000 nGB18030 nBIG5 nShift_JIS nISO/IEC 10646 nUnicode 汉字编码3 汉字的几种通行名称 nHanzi,Hantsu,汉字 nIdeographic character,表意字符,中文 字符 nKanj

2、i-日文中的叫法 nHanja-朝鲜文中的叫法 nCJK-中日韩通用字符集 nUnihan 汉字编码4 ASCII码 n美国信息交换标准编码(“美标”) n用从0到127的128个数字来代表信息的规 范编码 n包括33个控制码,一个空格码,和94个 形象码 n形象码中包括了英文大小写字母,阿拉 伯数字,标点符号等 n国际上大部分电脑的通用编码 汉字编码5 文本文件与二进制文件 n字符大都是用一个八位二进制数字表示,美标 只规定了128个编码,剩下的另外128个数码没 有规范,美标中的33个控制码,各厂家用法也 不尽一致 n文本文件(ASCII Text Files) :美标形象码或空 格码组成

3、,通常可在不同电脑系统间直接交换 n二进制文件(Binary Files) :含有控制码或非美 标码的文件,通常不能在不同电脑系统间直接 交换 汉字编码6 国标、区位、“准国标” 、机内 码 n国标:中华人民共和国国家标准信息交换用汉 字编码 n国标(GB2312-80)表(基本表)把七千余汉字 、以及标点符号、外文字母等,排成一个94行 、94列的方阵 n每一横行叫一个“区”,每个区有九十四个“ 位” n一个汉字在方阵中的坐标,称为该字的“区位 码” n例如“中”字在方阵中处于第区第位 ,它的区位码就是5448 汉字编码7 区位码表 n区位码来源于信息交换用汉字编码字符集(基本集)国家标准

4、(GB2312-80),该标准收汉字6763个,第一级3755个,位于16至55 区,55区的最后5个字符没有定义;第二级3008个,位于56至87区 n第一级汉字按照汉语拼音字母顺序排列,同音字以笔形顺序横( 一)、直(丨)、撇(丿)、点(丶)、折(乙)为序。起笔相 同按第二笔,依次类推。 n第二级汉字按部首排序,本标准采用的部首与一般字典用的部首 基本相同,略有改变。部首次序及同部首字按笔划数排列,同笔 划数的字以笔形顺序横(一)、直(丨)、撇(丿)、点(丶) 、折(乙)为序。起笔相同按第二笔,依次类推。 n查表时先查区号,再查行、列,例如:“、”是0102,“蔼”是 1610。 汉字编码

5、8 例 汉字编码9 例 汉字编码10 例 汉字编码11 例 汉字编码12 例 汉字编码13 例 汉字编码14 国标、区位、“准国标”、机内 码 n94:美标中形象码的总数,33-126 n汉字区、位码各加上32,就会与美标形象码的 范围重合,称为该字的“国标码”,与其相对应 的两个美标符号,为该字的“国标符” n如何区分国标符与美标符:国标码的两个数字 各加上128,称“准国标”或“机内码” n机内码=(区位码)H + 8080H +2020H 汉字编码15 BIG5码 n针对繁体汉字的编码,在台湾、香港的 电脑系统中得到普遍应用 汉字编码16 ISO/IEC 10646 n一个国际标 准编号

6、,国际标 准化组织 ( ISO)1993年正式颁布 n英文全称:Information technology - Universal Multiple - Octet Coded Character Set,简称UCS n中文全称:信息技术-通用多八位编码 字符集,亦称大字符集 n宗旨:全球所有文种统一编码 汉字编码17 Unicode n英文Universal Code的缩略语 n统一编码 n是对国际标准ISO/IEC 10646编码的一种称谓 n是一个企业联盟集团的名称,由美国的HP、 Microsoft、IBM、Apple等几家知名的大型计 算机企业所组成,成立该集团的宗旨就是要推 进多

7、文种的统一编码 n就内容而言,Unicode和ISO/IEC 10646是一致 的,并行的 汉字编码18 CJK-中日韩统一汉字 n把中国、日本与韩国的英文称谓的首字 母用于ISO/IEC 10646中的中、日、韩统 一编码汉字的简称 nUnihan nCJKV或许更准确,V代表越南 汉字编码19 ISO/IEC 10646 的体系结构 n四维的编码空间 n总体上分为128个三维组(group), group的 值范围是从00到7F n每一组包含256个平面(plane),每一个平面包 含256行(row),每一行包含256个字位(cell) ,又称为“列”,plane、row、cell的值范

8、围 都是从00到FF全编码 n整个编码字符集的每个字符都是由4个八位序 列表示,(按照组八位、面八位、行八位、列八 位的顺序) n可编码空间为:128X256X256X256=32KX64K 汉字编码20 ISO/IEC 10646体系结构图 汉字编码21 基本多文种平面 n第一个平面(00组中的00平面)称作 Basic Multilingual Plane(基本多文种 平面),简称BMP,并在其上规定了双八 位形式,它可以作为双八位编码 字符集 使用,即在此平面上仅用行、列两个八位 就可以表示一个编码 字符 汉字编码22 BMP的最新概貌 nA-Zone(00至4D行) :拼音文字编码区,

9、拉丁文、阿拉伯 文、日文的平假名及片假名、数学符号等都在此区域 编码 nCJK Unified Ideographs,Extension A(3400-4DB5)(6000 多码位 ) nCJK Unified Ideographs(4E00-9FA5)(20902个编码汉 字 ) n韩文 (AC至D7这44行(44X256=11264)) nS-ZONE (D8至DF行)for UTF-16 nR-Zone(E0至FF行):限制使用区,一些兼容字符、字符 的变形显现形式、特殊字符等均放在此区 汉字编码23 ISO/IEC 10646空间分配现状 n00平面:BMP,被用于全球现已规范语种 的

10、基本文字编码 ,编码 空间已基本饱和 n01平面:作为拼音文字辅助平面 n02平面:作为汉 字辅助平面,CJK Extension B即将放入该平面 nE0至FF平面:作为该标 准的专用平面来 使用 n其它空间尚未分配 汉字编码24 ISO/IEC 10646中CJK汉字组成 nCJK统一编码汉 字(20902) nCJK扩充集A(6585) nCJK扩充集B(4万-) 汉字编码25 什么是UTF? nUnicode transformation format nUCS transformation format n从Unicode码点到唯一字节序列的映射算 法,一一映射,保证无损转换 汉字编

11、码26 UTF-16 nUnicode标准的16位编码形式 n为每个字符指定一个16位的值 n编码形式与ISO/IEC 10646中的定义形式 相同 n以一个16位的值来编码映射到不大于 65535数值的字符,映射到大于65535的 数值的字符则被编码成一组16位的值( 代用对) 汉字编码27 UTF-8 n为满足面向字节、基于ASCII码系统的需要而 制定(主要用于数据传输、互联网) n用最多达4个字节的序列来表示每个字符,为 有效分析字符串,用第一个字节指明某个多字 节序列中的字节数 n通常用于数据交换 汉字编码28 UTF-32 n每个字符都表示成一个32位的整数 n码长相等,便于某些特

12、殊情况的处理 nUnix系统使用 汉字编码29 字节顺序标记(BOM) n指示处理器怎样把连续的文本放到一个字节序 列中 n权值最低的字节位于开头叫做“little-endian”,权 值最高的字节位于开头叫做“big-endian” n可用作识别文本文件编码形式的依据 汉字编码30 Windows对Unicode的支持 nWindows 3.1, Windows NT 4, Windows 2000, Windows XP支持Unicode.如果在这些操作系统 上运行非Unicode编码程序,在处理之前,操 作系统在其内部将应用程序的文本转化为 Unicode编码的文本,在把信息传回应用程序

13、 之前,操作系统把Unicode编码的文本转化回 所希望的代码页编码形式。 nWindows 95, Windows 98, Windows Me不是 基于Unicode的,它们只提供了基于Windows NT的Windows版本所提供的Unicode支持的一 个子集 汉字编码31 GBK n汉字内码扩展规范,Rules/Specifications defining the extensions of internal codes for Chinese ideograms n为了推进Unicode的实施,同时也是为了向下 兼容,由电子部与国家技术监督局联合颁布 n在保持GB2312原貌的基

14、础上,将其字汇扩充与 ISO 10646中的CJK等量,同时也包容了台湾的 工业标准Big5码汉字,此外还为用户留了1894 个码位的自定义区 汉字编码32 GB18030-2000 n信息技术-信息交换用汉字编码字符集-基 本集的扩充,Information technology- Chinese ideograms coded character set for information interchange-Extension for the basic set nGBK的替代、超集 汉字编码33 GB18030-2000 n完全包含CJK(Unihan) Extension A n与G

15、BK完全兼容(code- and character- compatible)的同时,为所有其它Unicode 码点提供了空间 n定义了4字节编码机制 汉字编码34 GB18030-2000码位范围分配表 n2字节编码共23940个码位 n4字节编码共超过150万个码位 汉字编码35 ISO 10646/Unicode的实现及其重要意义 n在全球范围内建立起实时、无障碍的信息交换 模式 n推动了汉字典籍的数字化 n为数字化图书馆的建立铺平了道路 n为弘扬汉字文化提供了舞台 nSingle Binary技术的诞生:同一套基本程序 用于多个语言环境的技术 n使汉字关联活起来:正-异关联、中-日关联、 繁-简关联,正-讹关联以及古今、新旧字形 关联 汉字编码36

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1