地理信息系统笔记

第一章 绪论§1-1 GIS概念一、信息与数据1、信息1)定义:信息是现实世界在人们头脑中的反映。它以文字、数据、符号、声音、图象等形式记录下来,进行传递和处理,为人们的生产,建设,管理等提供依据。2)信息的特性:A、客观性:任何信息都是与客观事实相联系的,这是信息的正确性和精确度的保证。B、适用性:问题不同,影响因素不同,需要的信息种类是不同的。信息系统将地理空间的巨大数据流收集,组织和管理起来,经过处理、转换和分析变为对生产、管理和决策具有重要意义的有用信息,这是由建立信息系统的明确目的性所决定的。如股市信息,对于不会炒股的人来说,毫无用处,而股民们会根据它进行股票的购进或抛出,以达到股票增值的目的。C、传输性:信息可在信息发送者和接受者之间进行传输信息的传输网络,被形象地称为信息高速公路。D、共享性:信息与实物不同,信息可传输给多个用户,为用户共享,而其本身并无损失,这为信息的并发应用提供可能性。2、数据指输入到计算机并能被计算机进行处理的数字、文字、\符号、声音、图象等符号。数据是对客观现象的表示,数据本身并没有意义。数据的格式往往和具体的计算机系统有关,随载荷它的物理设备的形式而改变。3、两者关系(有人认为,输入的都叫数据,输出的都叫信息,其实不然)。数据是信息的表达、载体,信息是数据的内涵,是形与质的关系。只有数据对实体行为产生影响才成为信息,数据只有经过解释才有意义,成为信息。例如1、0独立的1、0均无意义。

当它表示某实体在某个地域内存在与否,它就提供了有无信息,当用它来标识某种实体的类别时,它就提供了特征码信息。

二、地理信息与地学信息

1、地理信息

1)定义: 指与研究对象的空间地理分布有关的信息。它表示地理系统诸要素的数量、质量、分布特征,相互联系和变化规律的图、文、声、像等的总称。

2)特点:

A、地域性:(是地理信息区别于其它类型信息的最显著标志)。

地理信息属于空间信息,位置的识别与数据相联系,它的这种定位特征是通过公共的地理基础来体现的。

B、多维结构:

指在同一位置上可有多种专题的信息结构。如某一位置上的地理信息包括(例图)

C、时序特征:

时空的动态变化引起地理信息的属性数据或空间数据的变化。因此,一实时的GIS系统要求能及时采集和更新地理信息,使得地理信息具有现势性。以免过时的信息造成决策的失误或因为缺少可靠的动态数据,不能对变化中的地理事件或现象作出合理的预测预报和科学论证。例如98年龙王庙特大洪水险情正是武汉勘测设计院利用先进的摇感、GPS技术测得实时数据为抗洪决策提供可靠依据。显然,如果用过时数据,这将造成多大的损失,这就是地理信息的时序特征。

2、地学信息

与人类居住的地球有关的信息都是地学信息。

3、两者信息源不同

地理信息的信息源是地球表面的岩石圈、水圈、大气圈和人类活动等;

地学信息所表示的信息范围更广泛,不仅来自地表,还包括地下、大气层甚至宇宙空间。它是人们深入认识地球系统、适度开发资源、保护环境的前提和保证。

四、信息系统和地理信息系统

1、信息系统( Information System ,IS )

1)系统:

由相互作用和相互依赖的若干组成部分结合而成,能完成特定功能的有机整体。

2)信息系统:

能对数据和信息进行采集、存储、加工和再现,并能回答用户一系列问题的系统。具有采集、管理、分析和表达数据的能力。

3)类型:从适用于不同管理层次角度出发、信息系统分为下列不同类型。

事务处理系统、管理信息系统:主要支持操作层人员的日常事务处理,图书管理,借还书。

决策支持系统:从MIS中获取信息,进行推测,以辅助决策。

人工智能、专家系统:用计算机模仿人类思维过程进行推理,在医学上应用较成功。

为有效地对信息流进行控制,组织、管理、充分利用,就需要建立某种信息系统,那么对地理信息进行管理、利用就需要建立地理信息系统。

2、地理信息系统( Geographic Information System ,GIS)

1)定义:不同领域、不同专业对GIS的理解不同,目前没有完全统一的被普遍接受的

A、GIS是对地理环境有关问题进行分析和研究的一门学科,它将地理环境的各种要素,包括它们的空间位置形状及分布特征和与之有关的社会、经济等专题信息以及这些信息之间的联系等进行获取、组织、存储、检索、分析,并在管理、规划与决策中应用。

B、 为了获取、存储、检索、分析和显示空间定位数据而建立的计算机化的数据库管理系统。---美国国家地理信息与分析中心

C、 是在计算机软硬件支持下,以采集、存储、管理、检索、分析和描述空间物体的定位分布及与之相关的属性数据,并回答用户问题为主要任务的计算机系统。

D、GIS是一种获取、存储、检索、操作、分析和显示地球空间数据的计算机系统。--英国教育部

2)理解

a GIS是一计算机系统,既然是系统,就要具有系统的基本功能,数据采集、管理、分析和表达,所以每个GIS系统都是由若干具有一定功能的模块组成。

b GIS的处理对象是有关的地理分布数据,也就是空间数据,为了能对这些空间数据进行定位,定性和定量的描述,决定了GIS要对空间数据按统一地理坐标进行编码,这是GIS与

其他信息系统不同的根本所在。

3、GIS与其它IS之间的关系和区别

1)GIS与其它IS之间的关系(信息系统分类)

2)GIS与其它IS的区别

A、GIS与一般MIS:

GIS离不开数据库技术。数据库中的一些基本技术,如数据模型、数据存储、数据检索等都是GIS广泛使用的核心技术。

GIS对空间数据和属性数据共同管理、分析和应用,而一般MIS(数据库系统)侧重于非图形数据(属性数据)的优化存储与查询,即使存储了图形,也是以文件的形式存储,不能对空间数据进行查询、检索、分析,没有拓扑关系,其图形显示功能也很有限。

如电话查号台是一个一般MIS,只能回答用户询问的电话号码,而通信信息系统除了可查询电话号码外,还提供用户的地理分布、空间密度、最近的邮局等空间关系信息。

B、GIS与CAD/CAM

GIS与CAD共同点

GIS与CAD 不同点

都有空间坐标系统;

都能将目标和参考系联系起来;

都能描述图形数据的拓扑关系;

都能处理属性和空间数据

CAD研究对象为人造对象—规则几何图形及组合;

图形功能特别是三维图形功能强,属性库功能相对较弱;

CAD中的拓扑关系较为简单;

一般采用几何坐标系 。

GIS处理的数据大多来自于现实世界,较之人造对象更复杂,数据量更大;数据采集的方式多样化;

GIS的属性库结构复杂,功能强大;

强调对空间数据的分析,图形属性交互使用频繁;

GIS采用地理坐标系 。

GIS与CAM

GIS与CAM共同点

GIS与CAM 不同点

都有地图输出、空间查询、分析和检索功能

CAM侧重于数据查询、分类及自动符号化,具有地图辅助设计和产生高质量矢量地图的输出机制;

它强调数据显示而不是数据分析,地理数据往往缺乏拓扑关系;

它与数据库的联系通常是一些简单的查询。

CAM是GIS的重要组成部分;

综合图形和属性数据进行深层次的空间分析,提供辅助决策信息。

§1-2 GIS发展

GIS起源于人口普查,土地调查和自动制图,1960年,加拿大测量学家R.F.Tomlinson 提出了把地图变成数字形式的地图,1963年,又提出GIS这一本术语,并建立了第一个GIS_加拿大GIS,随后GIS以燎原之势在全世界迅速发展起来。

一、国际GIS的发展状况

1、60年代,探索时期(GIS思想和技术方法的探索)人们关注什么是GIS,GIS能干什么。

2、70年代,巩固时期,(这时由于计算机技术及其在自然资源和环境数据处理的应用,促进 GIS迅速发展)。这期间,发展研究的重点是空间数据处理的算法,数据结构和数据库管理这三个方面。

3、80年代,实破阶段,也是GIS普遍发展和推广应用阶段,人们把GIS与RS解决全球性问题,如全球沙漠化,全球可居住地评价,核扩散问题等。

4、90年代,全面应用,产业化阶段,对GIS进一步研究,研究的内容集中在:空间信息分析的新模式和新方法,空间关系和数据模型,人工智能引入等。

二、我国GIS发展

我国GIS起步较晚,但发展较快,分为以下几个阶段:

1、 70年代,准备阶段:

一些知名人士GIS先驱看到GIS的广阔前景和GIS的重要性,进行极积呼吁,为GIS在我国的发展奠定了与论准备基础并做了一些可行性实验。

2、 80年代,试验起步阶段:

这期间,我国在GIS理论探索,规范探讨,软件开发,系统建立等方面取得了突破和进展,进行了一些典型,试验专题试验软件开发工作。

3、 90年代,我国GIS发展阶段:

我国改革开放以来,沿海,治江经济开发区的发展土地的有偿使用和外资的引进,急需GIS为之服务,这也推动GIS在我国的全面发展。

4、 96年以来,是我国GIS产业化阶段。

近几年来,我国经济信息化的基础设施和重大信息工程已纳入国家计划,一批国家级和地方级的GIS相继建立并投入运行,一批专业遥感基地已建立,并进入了产业化运行,一批综合运用3S技术的重点项目已实施,并在自然灾害监测和图土资源调查中发挥效益,一批高等院校开设了与GIS相关的新专业,培养了一大批从事GIS研究与开发的高层次人才,具有我国自主版权的GIS基础软件的研制逐步进入了产业化轨道,等等这些都标志我国GIS产业已进入新的发展阶段。

§1-3 GIS 构成

一、GIS组成

从计算机的角度看,GIS是由软件、硬件、数据和用户组成。

用户(GIS服务的对象,分为一般用户和从事建立、维护、管理和更新的高级用户)

软件(支持数据采集、存储、加工、回答用户问题的计算机程序系统)

硬件(各种设备-物质基础)

数据(系统分析与处理的对象、构成系统的应用基础)

由于计算机的飞速发展和地理信息的时序特征,硬件寿命3-5年,软件(5-15年),数据(1-2年,5-70年不等)GIS需要不断维护、更新,所以用户要不断进行知识更新。

二、硬件配置

前面说过,GIS作为技术系统必须具备数据的采集、管理、分析、表达和显示功能,一定功能必须由一定的软件、硬件实现,所以GIS的硬件配置为:

输入数字化、解析测图仪、扫描仪遥感处理设备等存贮 处理计算机硬盘光盘 等存储设备 输出打印机绘图仪显示终端 等

网络服务器、网络适配器、传输介质、调制解调器等网络设备。 随着网络普及,信息共享成为时代要求,GIS要有网络功能

三、软件配置

1、GIS软件层次

有了计算机硬件之后,首先需要OS,DOS,WINDOWS,UNIIX等。裸机,没装任何OS的机子,是不能工作的。GIS应用软件在GIS软件层次的外层,外层以内层软件为基础,共同完成用户指定的任务。

2、GIS基础软件主要模块 空间数据输入与转换 图形及属性编辑 空间数据管理系统 制图与输出 空间查询与空间分析

§1-4 GIS 功能和应用

一、GIS 功能

空间查询 叠加分析 缓冲区分析 网络分析 地形分析

数据显示与输出

二、GIS 主要应用领域

资源管理 区域和城乡规划 灾害监测 环境评估 作战指挥 交通运输 宏观决策

第二章 空间数据结构

§2-1空间实体及其描述

一、地理实体(空间实体)---GIS处理对象

1、定义:指自然界现象和社会经济事件中不能再分割的单元,它是一个具体有概括性,复杂性,相对意义的概念。

2、理解:地理实体类别及实体内容的确定是从具体需要出发的,例如,在全国地图上由于比例尺很小,武汉就是一个点,这个点不能再分割,可以把武汉定为一个空间实体,而在大比例尺的武汉市地图上,武汉的许多房屋,街道都要表达出来,所以武汉必须再分割,不能作为一个空间实体,应将房屋,街道等作为研究的地理实体,由此可见,GIS中的空间实体是一个概括,复杂,相对的概念。

二、地理实体的描述——空间数据

1、描述的内容

空间特征:地理位置和空间关系属性特征—名称、等级、类别等 时间特征:

2、空间数据基本特征

3、空间数据类型

1)依据数据来源的不同分为:

地图数据地形数据 属性数据 元数据 影象数据

三、实体的空间特征

(一)空间维数:有0,1,2,3 维之分,点、线、面、体。

(二)空间特征类型

1、点状实体

点或节点、点状实体。点:有特定位置,维数为0的物体。

1)实体点:用来代表一个实体。

2)注记点:用于定位注记。

3)内点:用于负载多边形的属性,存在于多边形内。

4)角点、节点Vertex:

表示线段和弧段上的连接点。

2、线状实体

具有相同属性的点的轨迹,线或折线,由一系列的有序坐标表示,并有如下特性:

1)实体长度:

从起点到终点的总长

2)弯曲度:

用于表示像道路拐弯时弯曲的程度。

3)方向性:

如:水流方向,上游—下游, 公路,单、双向之分。 线状实体包括: 线段,边界、链、弧段、网络等。3、面状实体(多边形)是对湖泊、岛屿、地块等一类现象的描述。

面状实体的如下特征:

1)面积范围 2)周长 3)独立性或与其它地物相邻 如中国及其周边国家 4)内岛屿或锯齿状外形: 如岛屿的海岸线封闭所围成的区域。

5)重叠性与非重叠性: 如学校的分区,菜市场的服务范围等都有可能出现交叉重叠现象,而一个城市的各个城区一般说来不会出现重叠。

4、体、立体状实体 立体状实体用于描述三维空间中的现象与物体,它具有长度、宽度及高度等属性,立体状实体一般具有以下一些空间特征:

·体积,如工程开控和填充的土方量。 ·每个二维平面的面积。 ·周长。 ·内岛。 ·含有弧立块或相邻块。 断面图与剖面图。

(三)实体类型组合

现实世界的各种现象比较复杂,往往由不同的空间单元组合而成,例如根据某些空间单元或几种空间单元的组合将空间问题表达出来,复杂实体由简单实体组合表达。

点、线、面两两之间组合表达复杂的空间问题: 如:线—面面--面

可见,用各要素之间的空间关系,可描述诸多空间问题。空间关系是GIS数据描述和表达的重要内容,一方面它为GIS数据库的有效建立,空间查询,空间分析,辅助决策等提供了最基本的关系,另一方面有助于形成标准的SQL空间查询语言,便于空间特征的存储,提取,查询,更新等。

线—面

1、区域包含线:计算区域内线的密度,某省的水系分布情况。

2、线通过区域:公路上否通过某县。

3、线环绕区域:区域边界,搜索左右区域名称,中国与哪些国家接壤。

4、线与区域分离:距离。

面—面

1、 包含:岛,某省的湖泊分布。

2、 相合:重叠,学校服务范围与菜场服务范围重叠区。

3、 相交:划分子区。

4、 相邻:计算相邻边界性质和长度,公共连接边界。 分离:计算距离。

四、实体间空间关系

(一)空间关系类型

1、拓扑空间关系:

2、顺序空间关系: (方向空间关系)

用上下左右、前后、东南西北等方向性名称来描述空间实体的顺序关系,算法复杂,至今没有很好的解决方法。

3、度量空间关系,主要指实体间的距离关系,远近。

1)在地理空间中两点间的距离有两种度量方法。

a、沿真实的地球表面进行,除与两点的地理坐标有关外,还与所通过路径的地形起伏有关,复杂,引入第二种。 b、沿地球旋转椭球体的距离量算。

2) 距离类别:

欧氏距离(笛卡尔坐标系)、曼哈顿(出租车)距离、时间距离(纬度差)、大地测量距离(大地线)(沿地球大圆经过两个城市中心的距离)。

(二)拓扑关系

1、定义 2、种类 3、拓扑关系的表达 4、意义

1、定义: 指图形保持连续状态下变形,但图形关系不变的性质。 将橡皮任意拉伸,压缩,但不能扭转或折叠。非拓扑属性(几何)拓扑属性(没发生变化的属性)

两点间距离 一点指向另一点的方向

弧段长度、区域周长、面积 等

一个点在一条弧段的端点

一条弧是一简单弧段(自身不相交)

一个点在一个区域的边界上

一个点在一个区域的内部/外部

一个点在一个环的内/外部

一个面是一个简单面

一个面的连通性面内任两点从一点

可在面的内部走向另一点

2、种类

1)关联性: (不同类要素之间)结点与弧段:如V9与L5,L6,L3

多边形与弧段:P2与L3,L5,L2

2)邻接性: (同类元素之间)

多边形之间、结点之间。 邻接矩阵重叠:-- 邻接:1 不邻接:0

3)连通性:与邻接性相类似,指对弧段连接的判别,如用于网络分析中确定路径、街道是否相通。

4)方向性

一条弧段的起点、终点确定了弧段的方向。用于表达现实中的有向弧段,如城市道路单向,河流的流向等。5)包含性:指面状实体包含了哪些线、点或面状实体。

6)区域定义:多边形由一组封闭的线来定义。

7)层次关系:相同元素之间的等级关系,武汉市有各个区组成。

主要的拓扑关系:拓扑邻接、拓扑关联、拓扑包含。

3、拓扑关系的表达

拓扑关系具体可由4个关系表来表示:

(1)面--链关系:构成面的弧段

(2)链--结点关系:链两端的结点

(3)结点--链关系:结点通过该结点的链\

(4)链—面关系:左面右面

4、拓扑关系的意义:

对于数据处理和GIS空间分析具有重要的意义,因为:

1)拓扑关系能清楚地反映实体之间的逻辑结构关系,它比几何关系具有更大的稳定性,不随地图投影而变化。

2)有助于空间要素的查询,利用拓扑关系可以解决许多实际问题。如某县的邻接县,--面面相邻问题。又如供水管网系统中某段水管破裂找关闭它的阀门,就需要查询该线(管道)与哪些点(阀门)关联。

3)根据拓扑关系可重建地理实体。

§2-3 栅格数据结构

一、图形表示

栅格结构用密集正方形(或三角形,多边形)将地理区域划分为网格阵列。位置由行,列号定义,属性为栅格单元的值。

点:由单个栅格表达。

线:由沿线走向有相同属性取值的一组相邻栅格表达。

面:由沿线走向有相同属性取值的一片栅格表达。

栅格数据表示的是二维表面上的地理数据的离散化数值。在栅格数据中,地表被分割为相互邻接、规则排列的地块,每个地块与一个象元相对应。因此,栅格数据的比例尺就是栅格(象元)的大小与地表相应单元的大小之比,当象元所表示的面积较大时,对长度、面积等的量测有较大影响。每个象元的属性是地表相应区域内地理数据的近似值,因而有可能产生属性方面的偏差。

二、栅格数据组织

——针对一个栅格单元对应多个属性值的多层栅格文件。

组织方法

方法a:以象元为记录序列,不同层上同一象元位置上的各属性值表示为一个列数组。N层中只记录一层的象元位置,节约大量存储空间,栅格个数很多。

方法b:每层每个象元的位置、属性一一记录,结构最简单,但浪费存储

方法c:以层为基础,每层内以多边形为序记录多边形的属性值和多边形内各象元的坐标。节约用于存储属性的空间。将同一属性的制图单元的n个象元的属性只记录一次,便于地图分析和制图处理。

三、栅格结构的建立

(一)建立途径

1、手工获取,专题图上划分均匀网格,逐个决定其网格代码。

2、扫描仪扫描专题图的图像数据{行、列、颜色(灰度)},定义颜色与属性对应表,用相应属性代替相应颜色,得到(行、列、属性)再进行栅格编码、存贮,即得该专题图的栅格数据。

3、由矢量数据转换而来。

4、遥感影像数据,对地面景象的辐射和反射能量的扫描抽样,并按不同的光谱段量化后,以数字形式记录下来的象素值序列。

5、格网DEM数据,当属性值为地面高程,则为格网DEM,通过DEM内插得到。

二)栅格系统的确定

1、栅格坐标系的确定

表示具有空间分布特征的地理要素,不论采用什么编码系统,什么数据结构(矢、栅)都应在统一的坐标系统下,而坐标系的确定实质是坐标系原点和坐标轴的确定。

由于栅格编码一般用于区域性GIS,原点的选择常具有局部性质,但为了便于区域的拼接,栅格系统的起始坐标应与国家基本比例尺地形图公里网的交点相一致,并分别采用公里网的纵横坐标轴作为栅格系统的坐标轴。

2、栅格单元的尺寸

1)原则:应能有效地逼近空间对象的分布特征,又减少数据的冗余度。

格网太大,忽略较小图斑,信息丢失。

一般讲实体特征愈复杂,栅格尺寸越小,分辨率愈高,然而栅格数据量愈大(按分辨率的平方指数增加)计算机成本就越高,处理速度越慢。

2)方法:用保证最小多边形的精度标准来确定尺寸经验公式: h为栅格单元边长 Ai为区域所有多边形的面积。

(三)栅格代码(属性值)的确定

当一个栅格单元内有多个可选属性值时,按一定方法来确定栅格属性值。

1、中心点法:取位于栅格中心的属性值为该栅格的属性值。

2、面积占优法:栅格单元属性值为面积最大者,常用于分类较细,地理类别图斑较小时。

3、 重要性法:定义属性类型的重要级别,取重要的属性值为栅格属性值,常用于有重要意义而面积较小的要素,特别是点、线地理要素。

4、长度占优法——每个栅格单元的值由该栅格中线段最长的实体的属性来确定。

四、栅格数据编码方法

1、直接栅格编码:

将栅格数据看作一个数据矩阵,逐行记录代码数据。

1)每行都从左到右记录; AAAAABBBAABBAABB

2)奇数行从左到右,偶数行从右到左;

特点:最直观、最基本的网格存贮结构,没有进行任何压缩数据处理。

栅格数据量大,格网数多,由于地理数据往往有较强的相关性,即相邻象元的值往往是相同的。所以,出现了各种栅格数据压缩方法。

数据压缩是将数据表示成更紧凑的格式以减少存储空间的一项技术。分为:

无损压缩:在编码过程中信息没有丢失,经过解码可恢复原有的信息---信息 保持编码。

有损压缩:为最大限度压缩数据,在编码中损失一些认为不太重要的信息,解码后,这部分信息无法恢复。--信息不保持编码。

2、行程编码(变长编码):

将原图表示的数据矩阵变为数据对:

1)属性码,长度,行号(可不要) 长度:连续相同码值的栅格个数。

2)属性码,点位

特点: 对于游程长度编码,区域越大,数据的相关性越强,则压缩越大,适用于类型区域面积较大的专题图,而不适合于类型连续变化或类别区域分散的分类图(压缩比与图的复杂程度成反比)。

这种编码在栅格加密时,数据量不会明显增加,压缩率高,并最大限度地保留原始栅格结构,编码解码运算简单,且易于检索,叠加,合并等操作,这种编码应用广泛。

3、块码 ---- 游程编码向二维扩展

采用方形区域作为记录单元,每个记录单元包括相邻的若干栅格。

数据对组成:(初始行、列,半径,属性值)特点:

具有可变分辨率,即当属性变化小时图块大,对于大块图斑记录单元大,分辨率低,压缩比高。小块图斑记录单元小,分辨率高,压缩比低 所以,与行程编码类似,随图形复杂程度的提高而降低分辩率。

4、链式编码、Freeman 链码、边界链码

将栅格数据(线状地物面域边界)表示为矢量链的记录

1)首先定义一个3x3窗口,中间栅格的走向有8种可能,并将这8种可能0~7进行编码。

2)记下地物属性码和起点行、列后,进行追踪,得到矢量链.

链式编码表属性码 起点行 起点列链码

a 1 4 556656 b 3 7 576654323…

优点:链码可有效地存贮压缩栅格数据,便于面积、长度、转折方向和边界、线段凹凸度的计算。

缺点:不易做边界合并,插入操作、编辑较困难(对局部修改将改变整体结构)。区域空间分析困难,相邻区域边界被重复存储。

5、四叉树编码

五、四叉树编码

(一)四叉树概述: 一种可变分率的非均匀网格系统。是最有效的栅格数据压缩编码方法之一

1、基本思想: 将2n×2n象元组成的图像(不足的用背景补上) 按四个象限进行递归分割,

并判断属性是否单一,单一:不分。 不单一:递归分割。最后得到一颗四分叉的倒向树。

2、四叉树的树形表示:

用一倒立树表示这种分割和分割结果。

根:整个区域高:深度、分几级,几次分割叶:不能再分割的块树叉:还需分割的块 每个树叉均有4个分叉,叫四叉树。

3、 编码方法

1)常规四叉树

记录这棵树的叶结点外,中间结点,结点之间的联系用指针联系, 每个结点需要6个变量: 父结点指针、四个子结点的指针和本结点的属性值。 指针不仅增加了数据的存储量,还增加了操作的复杂性:如层次数(分割次数)由从父结点移到根结点的次数来确定,结点所代表的图像块的位置需要从根节点开始逐步推算下来。所以,常规四叉树并不广泛用于存储数据,其价值在于建立索引文件,进行数据检索。

2)线性四叉树

记录叶结点的位置,深度(几次分割)和属性。 地址码(定位码、Morton码)四进制、十进制

优点:

·存贮量小,只对叶结点编码,节省了大量中间结点的存储,地址码隐含着结点的分割路径和分割次数。

·线性四叉树可直接寻址,通过其坐标值直接计算其Morton码,而不用建立四叉树。

·定位码容易存储和执行实现集合相加等组合操作。

(二)四进制的Morton码

1、方法1:

四叉树从上而下(形成)(从整体开始) 由叶结点找Morton码。

A、分割一次,增加一位数字,大分割在前,小分割在后。所以,码的位数表示分割的次数。

B、每一个位均是不大于3的四进制数,表达位置。 由Morton找出四叉树叶结点的具体位置。

2、方法2:四叉树自下而上合并的方法

1)计算每个栅格对应的MQMQ=2*Ib+Jb I,J化为二进制Ib,Jb 看最大的I,J,不足在前补零。其始行列号从0计。

2) 按码的升序排成线性表,放在连续的内存块中。

3)依次检查每四个相邻的MQ对应的属性值,相同合并(不同码位去掉),不同则存盘,直到没有能够合并的子块为止。

(三)十进制的Morton码---MD

四进制Morton码直观上切合四叉树分割,但许多语言不支持四进制变量,需用十进制表示Morton码.

1、一种按位操作的方法:

如行为2、列为3的栅格的MD

步骤:

(1)行、列号为二进制 Ib= 1 0 Jb= 1 1

(2)I行J列交叉 1 1 0 1 = 13

(3)再化为十进制. 实质上是按左上、右上、左下、右下的顺序,从零开始对每个栅格进行自然编码。

2、把一幅2n×2n的图像压缩成线性四叉树的过程

1°、按Morton码把图象读入一维数组。

2°、相邻的四个象元比较,一致的合并,只记录第一个象元的Morton码。循环比较所形成的大块,相同的再合并,直到不能合并为止。

3°、进一步用游程长度编码压缩。压缩时只记录第一个象元的Morton码。

右图的压缩处理过程为:(书上)(次题2005年考了,原题没变)

1°、按Morton码读入一维数组。

Morton码:0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

象 元 值: A A A B A B B B A A A A B B B B

2°、四相邻象元合并,只记录第一个象元的Morton码。

0 1 2 3 4 5 6 7 8 12

A A A B A A B B A B

3°、由于不能进一步合并,则用游程长度编码压缩。

0 3 4 6 8 12

A B A B A B

(四)四叉树优缺点

优点:

1)对于团块图像,四叉树表示法占用空间比网络法要少得多,四叉树表示法基本上是一种非冗余表示法。2)四叉树具有可变率或多重分辩率的特点使得它有很好的应用前景,适用于处理凝聚性或呈块状分布的空间数据,特别适用于处理分布不均匀的块状空间数据,但不适用于连续表面(如地形)或线状地物。

此外,目前应用四叉树还存下列问题:

1) 矢/栅正反变换还不理想。

2) 建立四叉树耗费机时很多。

3) 四叉树虽可修改,但很费事(具体的数据结构中会提到)

4) 四叉树未能直接表示物体间的拓扑关系。

5) 与非树表示法比较,四叉树表示法的缺点在于转换的不稳定性或叫滑动变异

例如,两个图像的差异仅由于平移,就会构成极为不同的四叉树,因而很难根据四叉树来判断这两个图像是否全同,故不利于做形状分析和模式识别

6) 一个物体的图像在构成四叉树时会被分割到若干个象限中,使它失去了内在的相关性。

§2-2 矢量数据结构

二、矢量数据的获取方式

1) 由外业测量获得

可利用测量仪器自动记录测量成果(常称为电子手薄),然后转到地理数据库中。

2)由栅格数据转换获得 利用栅格数据矢量化技术,把栅格数据转换为矢量数据。

3)跟踪数字化 用跟踪数字化的方法,把地图变成离散的矢量数据。

三、矢量数据组织

矢量数据表示时应考虑以下问题:

·矢量数据自身的存贮和处理。

·与属性数据的联系。

·矢量数据之间的空间关系(拓扑关系)。

四、矢量数据编码方式

(一)实体式(spaghetti)-- 面条模型:以实体为单位记录其坐标

优点:结构简单、直观、易实现以实体为单位的运算和显示。

缺点: 1、相邻多边形的公共边界被数字化并存储两次,造成数据冗余和碎屑多边形—数据不一致,浪费空间,导致双重边界不能精确匹配。

2、自成体系,缺少多边形的邻接信息,无拓扑关系,难以进行邻域处理,如消除多边形公共边界,合并多边形。

3、岛作为一个单个图形,没有与外界多边形联系。不易检查拓扑错误。

所以,这种结构只用于简单的制图系统中,显示图形。

(二)索引式(树状)

对所有点的坐标按顺序建坐标文件,再建点与边(线)、线与多边形的索引文件。

与实体式相比:

优点:用建索引的方法消除多边形数据的冗余和不一致,邻接信息、岛信息可在多边形文件中通过是否公共弧段号的方式查询。

缺点:表达拓扑关系较繁琐,给相邻运算、消除无用边、处理岛信息、检索拓扑关系等带来困难,以人工方式建立编码表,工作量大,易出错。

三)双重独立式编码

简称DIME(Dual Independent Map Encoding),是美国人口统计系统采用的一种编码方式,是一种拓扑编码结构。

四)链状双重独立式编码--拓扑数据结构

1、弧段坐标文件弧段号坐标系列(串)

A x2,y2,X10,y10…

2、弧段文件:链—面,链—结点关系

弧段号 左多边形 右多边形 起点终点

A P1 P2 2 5

3、面文件 面号弧段号

P1 A,B,-C

4、点拓扑文件: 结点—链关系

点号 弧段号

2 A,B,D

在拓扑结构中,多边形(面)的边界被分割成一系列的线(弧、链、边)和点(结点)等拓扑要素,点、线、面之间的拓扑关系在属性表中定义,多边形边界不重复。

链状双重独立式编码 特点

拓扑关系明确,也能表达岛信息,而且以弧段为记录单位,满足实际应用需要。因为一般数字化一条街道时,必然有许多中间点,但我们在做空间分析是却没有必要以这些中间点所组成的折线为研究对象,而应以整条弧段(某条街道)为研究对象.

被一些成熟的商品化软件采用,如ARC/INFO软件。

例:ARC文件:二进制文件: 弧段号点数坐标串

在GIS数据输入中,建拓扑是指给图形数据(点、线、面)增加拓扑结构,如ARC/INFO中,在ARCEDIT中输入图形后,需用BUILD 建图形拓扑,具体生成许多文件,如AAT,PAT等.

INFO:属性表

如AAT(Arc Attribute Table)

弧段号USER_IDLPOLYRPOLYFROM_NODETO_NODE

其它属性:(名称)用户标识码,表明地物类型

当图形数据修改、删除、增加点、线、面要素后,其拓扑关系也发生改变,所以,需重新建拓扑。

§2-4 矢栅一体化数据结构

一、矢、栅优缺点

优点

缺点

矢量

1、便于面向现象(土壤类,土地利用单元等)

2、结构紧凑,冗余度低,便于描述线或边界。

3、利于网络、检索分析,提供有效的拓扑编码,对需要拓扑信息的操作更有效。

4、 图形显示质量好,精度高。

1 1、数据结构复杂,各自定义,不便于数据标准化和规范化,数据交换困难。

2、多边形叠置分析困难,没有栅格有效,表达空间变化性能力差。

3、不能像数字图像那样做增强处理 4、软硬件技术要求高,显示与绘图成本较高。

栅 格

1、 结构简单,易数据交换。

2、叠置分析和地理(能有效表达空可变性)现象模拟较易。

3、利于与感遥数据的匹配应用和分析,便于图像处理。

4、 输出快速,成本低廉。

1、现象识别效果不如矢量方法,难以表达拓扑。

2、图形数据量大,数据结构不严密不紧凑,需用压缩技术解决该问题。

3、投影转换困难。

4 4、图形质量转低,图形输出不美观,线条有锯齿,需用增加栅格数量来克服,但会增加数据文件。

矢量、栅格数据结构的选择

在GIS建立过程中,应根据应用目的和应用特点、可能获得的数据精度以及地理信息系统软件和硬件配置情况,选择合适的数据结构。

栅格结构:大范围小比例尺的自然资源、环境、农林业等区域问题的研究。

矢量结构:城市分区或详细规划、土地管理、公用事业管理等方面的应用。

二、矢栅一体化概念

将矢量面对目标的方法和栅格元子充填的方法结合起来,具体采用填满线状目标路径和充填面状目标空间的方法作为一体化数据结构的基础。

线状地物:除记录原始取样点外,还记录路径所通过的栅格。

面状地物:除记录它的多边形周边以外,还包括中间的面域栅格。

一方面,它保留了矢量的全部性质,以目标为单元直接聚集所有的位置信息,并能建立拓扑关系;

另一方面,它建立了栅格与地物的关系,即路径上的任一点都直接与目标建立了联系。

从原理上说,这是一种以矢量的方式来组织栅格数据的数据结构。

三、三个约定和细分格网法

为便于组织数据,首先作如下约定:

a. 地面上的点状地物是地球表面上的点,它仅有空间位置,没有形状和面积,在计算机内部仅有一个位置数据。

b. 地面上的线状地物是地球表面的空间曲线,它有形状但没有面积,它在平面上的投影是一连续不间断的直线或曲线,在计算机内部需要用一组元子填满整个路径。

c. 地面上的面状地物是地球表面的空间曲面,并具有形状和面积,它在平面上的投影是由边界包围的紧致空间和一组填满路径的元子表达的边界组成。

为提高栅格表示精度,采用细分格网法:

将一对X,Y坐标用两个Morton码代替:

前一M1表示该点(采样点或附加的交叉点)所在基本格网的地址码,后者M2 表示该点对应的细分格网的Morton码,既顾全整体定位,又保证精度。

四、一体化数据结构设计

线性四叉树(Morton)是基本数据格式,三个约定设计点、线、面数据结构的基本依据,细分格网法保证足够精度。

1、点状地物和结点的数据结构

约定1,点仅有位置、没有形状和面积,只要将点的坐标转化为地址码M1 和M2 ,结构简单灵活,便于点的插入和删除,还能处理一个栅格内包含多个点状目标的情况。

2、线状地物的数据结构

约定(2),线状地物有形状但没有面积,没有面积意味着只要用一串数据表达每个线状地物的路径即可,将该线状地物经过的所有栅格的地址全部记录下来。仿照矢量数据组织的链状双重独立式编码,以弧段为记录单位。

弧段的数据结构:

3、面状地物的数据结构

3)面文件

这种数据结构是面向地物的,具有矢量的特点。通过面状地物的标识号可以找到它的边界弧段并顺着指针提取所有的中间面块。同时它又具有栅格的全部特性,二维行程本身就是面向位置的结构,带指针的二维行程码中的Morton码表达了位置的相互关系,前后M码之差隐含了该子块的大小。给出任意一点的位置都可顺着指针找到面状地物的标识号确定是哪一个地物。

4、复杂地物的数据结构

由几个或几种点、线、面状简单地物组成的地物称为复杂地物。例如将一条公路上的中心线、交通灯、立交桥等组合为一个复杂地物,用一个标识号表示。复杂地物的数据结构如表7所示。

§2-5 三维数据结构

一、概述

目前GIS主要还停留在处理地球表面的数据,若数据是地表以下或以上,则先将它投影到地表,再进行处理,其实质是以二维的形式来模拟、处理任何数据,在有些领域可行,但涉及到三维问题的处理时,往往力不从心。

二维V=f(x,y),在不同的层V的含义不同,当V表示的是高程时,就是DEM。由于地形三维视图的原因,人们常把DEM误认为是三维模型。但从本质上讲,DEM是二维的,因为它只能表示地表的信息,不能对地表内部进行有效的表示。目前,人们常把DEM称为2.5维的数据模型。

真三维模型V=f(x,y,z),z是一自变量,不受x,y的影响。三维GIS的要求与二维GIS相似,但在数据采集,系统维护和界面设计等方面比二维GIS复杂得多,如三维数据的组织与重建,三维变换、查询、运算、分析、维护等方面。下面主要介绍三维数据结构。同样,三维结构存在栅格和矢量两种形式。

栅格:将地理实体的三维空间分成细小单元---体元。普遍用八叉树

矢量:x,y,z,抽象为点、线、面、体,面构成体。方法多种,常用三维边界表示法。

二、八叉树结构

1、思想:

四叉树在三维空间的推广。

将要表示的形体V放在一个充分大的正方体C内,C的边长为2n,不断用两个与XOY、XOZ的平面均分C为8个子体,并判断属性单一性。

当子体部分为V---灰结点需再1分为8。

子体中无V---白结点停止分割,叶结点。

子体全为V—黑结点

2、存贮结构

1)规则八叉树

与常规四叉树类似,用10项字段来记录每个结点(8个子结点指针, 1个父结点指针,1个结点属性)。最普遍的形式,方式自然,易掌握。但指针占总存储量的94%,空间使用率低。

2)线性八叉树— Motorn码

用某一预先确定的次序将八叉树转换成一个线性表,表中的每个元素与一个结点相对应。每个结点用固定的字节描述,其中某些位专门用来说明它是否为叶结点。

特点:节省存贮空间,便于某些运算,但丧失一定的灵活性,不便于其它遍历方式对树的结点进行存取,应用效果不佳。

3)一对八式的八叉树

每个结点均1分为8,并标记为 0,1,2,3,4,5,6,7。隐含地假定了这些子结点记录存放的次序 –---便于检索

浪费存储,除非完全八叉树,即所有叶结点均在同一层次出现,上层均为非叶结点。

三、三维边界表示法

1、顶点表:用来表示多面体各顶点的坐标

2、边表:指出构成多面体某边的两个顶点;

3、面表:给出围成多面体某个面的各条边。

可避免重复表示某些点、边、面,节约存储,便于图形显示,如公共边不重复。

4、当有若干个多面体时,还必须有一个对象表。

5、扩充后的边表

为表达拓扑还可将其它一些有关的内容结合到所使用的表中,如将边所属的多边形信息结合进边表中以后的形式:

6、拓扑检查

数据存储后,必须检查数据的一致性、完全性,即进行拓扑检查。具体可检查下列几项:

(1) 顶点表中的每个顶点至少是两条边的端点;

(2) 每条边至少是一个多边形的边;

(3) 每个多边形是封闭的;

(4) 每个多边形至少有一条边是和另一个多边形共用的;

(5) 若边表中包含了指向它所属多边形的指针,那么指向该边的指针必在相应的多边形中出现。

7、应用

三维边界法一般用于表示规则形体,如建筑物,对于自然界中的复杂形体如岩石的外表,理论上可找到一在误差范围内逼近的适合平面多面体,但这种逼近受多因素的制约。

对于不规则形体,可在形体的外表面s,可测一组点p1,p2…pn坐标,再建这些点的关系,即结构图,决定顶点连接的不同方式。同样数据点,由于连接方式不同,构成的平面多面体也不同。其中最重要的一种方法就是每个面均是三角形的平面多面体,类似TIN结构。但即使这样,同一组点仍可得到不同的平面多面体。因此,需要研究拥有了哪些特征之后,才能更确切地逼近原来的三维形体?

这种逼近有两种形式:

表面S0的逼近:以确定后的平面多面体的表面作为对原三维形体的表面S0的逼近,着眼于形体的边界表示。

三维形体的逼近:给出一系列的四面体,这些四面体的集合就是对原三维形体的逼近。着眼于形体的分解表示。

第三章 空间数据库

§3-1 空间数据库的概念

空间数据库是空间数据库系统的简称。

一、空间数据库

1、定义:

是地理信息系统在计算机物理存储介质上存储和应用的相关的地理空间数据的总合。

书刊

数据

逻辑划分词 句 段 目 节 章

数据项、记录、文件和数据库

物理划分字 行 页 期 卷

比特、字节、字、块、桶和卷

2、空间数据特征:

1)空间特征:一般需要建立空间索引。

2)非结构化特征:

结构化的,即满足第一范式:每条记录定长,且数据项是原子数据.而空间数据数据项变长,对象包含一个或多个对象,需要嵌套记录。

3)空间关系特征: 拓扑数据给空间数据的一致性和完整性维护增加了复杂性。

4)分类编码特征:

一种地物类型对应一个属性数据表文件。多种地物类型共用一个属性数据表文件。

5)海量数据特征。

3、空间数据库的特点

1)数据量特别大;

2)数据种类多,复杂;

3)数据应用面相当广。

在建立地理空间数据库时,一方面应遵循和应用通用的数据库的原理和方法;另一方面又必须采取一些特殊的技术和方法来解决其他数据库所没有的问题。

二、空间数据库管理系统

是指能够对物理介质上存储的地理空间数据进行语义和逻辑上的定义;

提供必须的空间数据查询、检索和存取功能;

能够空间数据进行有效的维护和更新的一套软件系统。

三、空间数据库应用系统

提供给用户访问和操作空间数据库的用户界面,是应用户数据处理需求而建立的具有数据库访问功能的应用软件。 一般需要进行二次开发。

§3-2 空间数据模型

数据结构:是指数据的组织形式,在计算机存储、管理和处理的数据逻辑结构。

数据模型:是描述实体及其相互关系的数学描述,是空间数据库建立的逻辑模型。

两者之间的关系:混合的交叉关系,并不一一对应,世界多样性,确定数据模型,确保实用性,(便于模型化、存储、检查和分析),它并不基于空间数据结构。

一、传统数据模型

自学:用三种模型(层次、网络、关系)组织图:

二、传统模型存储空间数据的局限:

1、层次模型用于GIS地理数据库的局限性

层次模型反映了实体之间的层次关系,简单、直观,易于理解,并在一定程度上支持数据的重构。

用于GIS地理数据库存在的主要问题是:

1)很难描述复杂的地理实体之间的联系,描述多对多的关系时导致物理存储上的冗余;

2)对任何对象的查询都必须从层次结构的根结点开始,低层次对象的查询效率很低,很难进行反向查询;

3)数据独立性较差,数据更新涉及许多指针,插入和删除操作比较复杂,父结点的删除意味着其下层所有子结点均被删除;

4)层次命令具有过程式性质,要求用户了解数据的物理结构,并在数据操纵命令中显式地给出数据的存取路径;

5)基本不具备演绎功能和操作代数基础。

2、网状模型用于GIS地理数据库的局限性

网状模型反映地理世界中常见的多对多关系,支持数据重构,具有一定的数据独立和数据共享特性,且运行效率较高。

用于GIS地理数据库的主要问题如下:

1)由于网状结构的复杂性,增加了用户查询的定位困难,要求用户熟悉数据的逻辑结构,知道自己所处的位置;

2)网状数据操作命令具有过程式性质,存在与层次模型相同的问题;

3)不直接支持对于层次结构的表达;

4)基本不具备演绎功能和操作代数基础。

3、关系模型用于GIS地理数据库的局限性

在GIS分析中,常常需要综合运用实体之间的空间关系和属性数据,要求GIS数据库能对实体的属性数据和空间数据进行综合管理。

4)空间数据通常是变长的,而一般RDBMS只允许记录的长度设定为固定长度,此外,通

用DBMS难于存储和维护空间数据的拓扑关系。

5)一般RDBMS都难以实现对空间数据的关联、连通、包含、叠加等基本操作。

6)一般DBMS不能支持GIS需要的一些复杂图形功能。

7)一般RDBMS难以支持复杂的地理信息,因为单个地理实体的表达需要多个文件、多条记录,包括大地网、特征坐标、拓扑关系、属性数据和非空间专题属性等方面信息。

8)GIS管理的是具有高度内部联系的数据,为了保证地理数据库的完整性,需要复杂的安全维护系统,而这些完整性约束条件必须与空间数据一起存储,由地理数据库来维护系统数据的完整性。否则,一条记录的改变会导致错误、相互矛盾的数据存在,而一般RDBMS难以实现这一功能。

三、面向对象模型

一)基本概念

1、对象:

含有数据和操作方法的独立模块,可以认为是数据和行为的统一体。如一个城市、一棵树均可作为地理对象。

·具有一个唯一的标识,以表明其存在的独立性;

·具有一组描述特征的属性,以表明其在某一时刻的状态——静态属性—数据;

·具有一组表示行为的操作方法,用以改变对象的状态。--作用、功能—函数、方法。

对象的划分:根据对象的共性,及对它的研究目的来划分,与具体的目的、性质相联系,不同的目的就会有不同划分。

划分原则:找共同点,所有具有共性的系统成份就可为一种对象。

2、类:

共享同一属性和方法集的所有对象的集合构成类。

如河流均具有共性,如名称、长度、流域面积等,以及相同的操作方法,如查询、计算长度、求流域面积等,因而可抽象为河流类。

3、实例

被抽象的对象,类的一个具体对象,称为,如长江、黄河等。真正抽象的河流不存在,只存在河流的例子。

类是抽象的对象,是实例的组合,类、实例是相对的,类和实例的关系为上下层关系。类---申请实例---成为具体对象。

4、消息:

对象之间的请求和协作。(并不独立存在)对象之间的关系,如鼠标点,就是消息,点某按纽,就是对按纽提出请求。

(二) 面向对象的特性

1、抽象:是对现实世界的简明表示。形成对象的关键是抽象,对象是抽象思维的结果。

2、封装:一般讲,包起来,将方法与数据放于一对象中,以使对数据的操作只可通过该对象本身的方法来进行。在这,指把对象的状态及其操作集成化,使之不受外界影响。

3、多态:

是指同一消息被不同对象接收时,可解释为不同的含义。同一消息,对不同对象,功能不同。

功能重载->多态,简化消息,但功能不减。

(三)四种核心技术

1、分类

分类是把一组具有相同属性结构和操作方法的对象归纳或映射为一个公共类的过程。如城镇建筑可分为行政区、商业区、住宅区、文化区等若干个类。

2、概括

将相同特征和操作的类再抽象为一个更高层次、更具一般性的超类的过程。子类是超类的一个特例。

一个类可能是超类的子类,也可是几个子类的超类。所以,概括可能有任意多层次。概括技术避免了说明和存储上的大量冗余。这需要一种能自动地从超类的属性和操作中获取子类对象的属性和操作的机制,即继承机制。

聚集是把几个不同性质类的对象组合成一个更高级的复合对象的过程。

4、联合

相似对象抽象组合为集合对象。其操作是成员对象的操作集合。

(四)面向对象数据模型的核心工具

1、继承:

一类对象可继承另一类对象的特性和能力,子类继承父类的共性,继承不仅可以把父类的特征传给中间子类,还可以向下传给中间子类的子类。 它服务于概括。继承机制减少代码冗余,减少相互间的接口和界面。

1)单重继承、多重继承;全部继承、部分继承;取代继承、包含继承

2)状态继承(数据)

子类继承父类的数据结构,子类还可定义自己新的数据结构。

子类任意使用父类的数据结构,有可能破坏封装,若只能通过发送消息来使用父类的域,又可能失去有效性,具体办法:

公有域:类可操作,实例也可操作。私有域:只有类本身使用,用户不得访问。保护域:子类可使用,继承使用,实例不能使用。

2、传播

传播与继承是一对。复杂对象的某些属性值不单独存于数据库中,而由子对象派生或提取,将子(成员)对象的属性信息强制地传播给综合复杂对象。成员对象的属性只存储一次,保证数据一致性和减少冗余。如武汉市总人口,由存储在各成员对象中的各区人口总和。

3、继承与传播(区别)

1)继承服务于概括,传播作用于联合和聚集;

2)继承是从上层到下层,应用于类,而传播是自下而上,直接作用于对象;

3)继承包括属性和操作,而传播一般仅涉及属性;

4)继承是一种信息隐含机制,只要说明子类与父类的关系,则父类的特征一般能自动传给它的子类,而传播是一种强制性工具,需要在复合对象中显式定义它的每个成员对象,并说明它需要传播哪些属性值。

四、GIS空间数据库类型

1、基于文件管理的方式

缺点:

1)程序依赖于数据文件的存储结构,数据文件修改时,应用程序也随之改变。

2)以文件形式共享,当多个程序共享一数据文件时,文件的修改,需得到所有应用的许可。不能达到真正的共享,即数据项、记录项的共享。

2、文件与关系数据库混合管理系统—双元模型

除oid作为连接关键字以外,几乎是两者独立地组织、管理和检索。

几何图形: 图形用户界面与图形文件处理是一体的,中间没有裂缝。

属性数据,则因系统和历史发展而异。

1) 图形与属性结合的各自分开处理模式--------早期系统:

图形处理的用户界面和属性的用户界面是分开的,它们只是通过一个内部码连接。通常要同时启动两个系统,甚至两个系统来回切换,不方便。

2)图形与属性结合的混合处理模式

GIS 通过DBMS提供的高级编程语言C或Fortran等接口,在C语言的环境下,直接操纵属性数据,查询属性数据库,并在GIS的用户界面下,显示查询结果。

在ODBC(Open DataBase Connectivity,开放式数据库互连)推出后,GIS软件商只需开发GIS与ODBC的接口软件,就可将属性数据与任何一个支持ODBC的RDBMS连接。这样用户可在一个界面下处理图形和属性数据。

采用文件与RDBMS的混合管理模式中文件管理系统的功能较弱,特别是在数据的安全性、一致性、完整性、并发控制以及数据损坏后的恢复方面缺少基本的功能。因而GIS软件商需要寻找能同时管理图形和属性数据的商用DBMS。

3、全关系型空间数据库管理系统—分层模型

GIS软件商在标准DBMS顶层开发一个能容纳、管理空间数据的系统功能。

用RDBMS管理图形数据有两种模式:

a、基于关系模型的方式,图形数据按关系数据模型组织。由于涉及一系列关系连接运算,费时。 例如

b、将图形数据的变长部分处理成Binary Block字段(多媒体或变长文本)。省去大量关系连接操作,但Binary Block的读写效率比定长的属性字段慢得多,特别涉及对象的嵌套时,更慢。

4、对象--关系数据库管理系统

DBMS软件商在RDBMS中进行扩展,使之能直接存储和管理非结构化的空间数据,如Informix 和Oracle等都推出了空间数据管理的专用模块,定义了操纵点、线、面、圆等空间对象的API函数。

主要解决空间数据的变长记录的管理,效率比二进制块的管理高得多,但仍没有解决对象的嵌套问题,空间数据结构不能由用户定义,用户不能根据GIS要求再定义,使用上受一定限制。

5、面向对象空间数据库管理系统

1)面向对象数据模型的含义

为了有效地描述复杂的事物或现象,需要在更高层次上综合利用和管理多种数据结构和数据模型,并用面向对象的方法进行统一的抽象。这就是面向对象数据模型的含义,其具体实现就是面向对象的数据结构。

面向对象模型最适合于空间数据的表达和管理,它不仅支持变长记录,且支持对象的嵌套,信息的继承和聚集。

允许用户定义对象和对象的数据结构及它的操作。可以将空间对象根据GIS需要,定义合适的数据结构和一组操作。这种空间数据结构可以带和不带拓扑,当带拓扑时,涉及对象的嵌套、对象的连接和对象与信息聚集。

面向对象的地理数据模型的核心是对复杂对象的模拟和操纵。

2)复杂对象及特点

指具有复杂结构和操作的对象。复杂对象可以由多种关系聚合抽象而成,或由不同类型的对象构成,或具有复杂的嵌套关系等。

复杂对象的特点可归结为:

a) 一个复杂对象由多个成员对象构成,每个成员对象又可参与其它对象的构成;

b) 具有多种数据结构,如矢量、栅格、关系表等;

c)一个复杂对象的不同部分可由不同的数据模型所支持,也就是说,可以分布于不同的数据库中。

3)面向对象的几何数据模型

从几何方面划分,GIS的各种地物对象为点、线、面状地物以及由它们混合组成的复杂地物。每一种几何地物又可能由一些更简单的几何图形元素构成。

一个面状地物是由边界弧段和中间面域组成,弧段又涉及到节点和中间点坐标。或者说,节点的坐标传播给弧段,弧段聚集成线状地物或面状地物,简单地物聚集或联合组成复杂地物。

4)拓扑关系与面向对象模型

将每条弧段的两个端点(通过它们与另外的弧段公用)抽象出来,建立单独的节点对象类型,而在弧段的数据文件中,设立两个节点子对象标识号,即用传播的工具提取节点文件的信息。

节点标识

X

Y

Z

面标识

弧段标识

弧段标识

起节点

终节点

中间点串

这一模型既解决了数据共享问题,又建立了弧段与节点的拓扑关系。同样,面状地物对弧段的聚集方式与数据共享和几何拓扑关系的建立也达到一致。

5)面向对象的属性数据模型

面向对象数据模型是在包含RDBMS的功能基础上,增加面向对象数据模型的封装、继承和信息传播等功能。

6) 面向对象地理数据模型的特点

a) 具有可扩充性。由于对象是相对独立的,因此可以很自然和容易地增加新的对象,并且对不同类型的对象具有统一的管理机制。

b) 可充分利用现有数据模型的优点。

c) 可以模拟和操纵复杂对象。传统的数据模型是面向简单对象的,无法直接模拟和操纵复杂实体,而面向对象的数据模型具备对复杂对象进行模拟和操纵的能力。

在GIS中建立面向对象的数据模型时,对象的确定还没有统一的标准,但是,对象的建立应符合人们对客观世界的理解,并且要完整地表达各种地理对象,及它们之间的相互关系。

7)面向对象数据库系统的基本概念

动态联编:为了实现多态,系统不能在编译时就把操作名联编到程序上,而要等到运行时才进行解释。

8)面向对象数据库系统所具有的优势

1)缩小了语义差距

(2)减轻了阻抗失配问题

传统数据库应用往往表现为把数据库语句嵌入某种具有计算完备性的程序设计语言中,由于数据库语言和程序设计语言的类型系统和计算模型往往不同,所以这种结合是不自然的,这个现象被称为阻抗失配。在OODB中,把需要程序设计语言编写的操作都封装在对象的内部,从本质上讲,OODB的问题求解过程只需要表现为一个消息表达式的集合。

(3)适应非传统应用的需要

这种适应性主要表现在能够定义和操纵复杂对象,具备引用共享和并发共享机制以及灵活的事务模型,支持大量对象的存储和获取等等。

§3-3 空间数据库的设计

空间数据库的设计是指在现在数据库管理系统的基础上建立空间数据库的整个过程。

一、需求分析

需求分析是整个空间数据库设计与建立的基础,主要进行以下工作:

1、调查用户需求:了解用户特点和要求,取得设计者与用户对需求的一致看法。

2、需求数据的收集和分析:包括信息需求(信息内容、特征、需要存储的数据)、信息加工处理要求(如响应时间)、完整性与安全性要求等。

3、编制用户需求说明书:包括需求分析的目标、任务、具体需求说明、系统功能与性能、运行环境等,是需求分析的最终成果。

在需求分析阶段完成:

数据源的选择和对各种数据集的评价(一般、空间、属性评价)。

二、结构设计

指空间数据结构设计,结果是得到一个合理的空间数据模型,是空间数据库设计的关键。

空间数据库设计的实质是将地理空间实体以一定的组织形式在数据库系统中加以表达的过程,也就是地理信息系统中空间实体的模型化问题。

1、概念模型

是通过对错综复杂的现实世界的认识与抽象,最终形成空间数据库系统及其应用系统所需的模型。

表示概念模型最有力的工具是E—R模型,即实体—联系模型,包括实体、联系和属性三个基本成分。用它来描述现实地理世界,不必考虑信息的存储结构、存取路径及存取效率等与计算机有关的问题,比一般的数据模型更接近于现实地理世界,具有直观、自然、语义较丰富等特点,在地理数据库设计中得到了广泛应用。

2、逻辑模型

逻辑模型的设计是将概念模型结构转换转换为具体DBMS可处理的地理数据库的逻辑结构(或外模式),包括确定数据项、记录及记录间的联系、安全性、完整性和一致性约束等。

从E—R模型向关系模型转换的主要过程为:

① 确定各实体的主关键字;

② 确定并写出实体内部属性之间的数据关系表达式(函数依赖关系),即某一数据项决定另外的数据项;

③把经过消冗处理(规范化处理)的数据关系表达式中的实体作为相应的主关键字;

④根据②、③形成新的关系。

⑤完成转换后,进行分析、评价和优化。

3、物理设计

是指有效地将空间数据库的逻辑结构在物理存储器上实现,确定数据在介质上的物理存储结构,其结果是导出地理数据库的存储模式(内模式)。

主要内容包括确定记录存储格式,选择文件存储结构,决定存取路径,分配存储空间。

物理设计的好坏将对地理数据库的性能影响很大,一个好的物理存储结构必须满足两个条件:

一是地理数据占有较小的存储空间;

二是对数据库的操作具有尽可能高的处理速度。

在完成物理设计后,要进行性能分析和测试。

物理设计在很大程度上与选用的数据库管理系统有关。设计中应根据需要,选用系统所提供的功能。

三、数据层设计

GIS的数据可以按照空间数据的逻辑关系或专业属性分为各种逻辑数据层或专业数据层,原理上类似于图片的叠置。

例如,地形图数据可分为地貌、水系、道路、植被、控制点、居民地等诸层分别存贮。将各层叠加起来就合成了地形图的数据。在进行空间分析、数据处理、图形显示时,往往只需要若干相应图层的数据。

数据层的设计一般是按照数据的专业内容和类型进行的。数据的专业内容的类型通常是数据分层的主要依据,同时也要考虑数据之间的关系。如需考虑两类物体共享边界(道路与行政边界重合、河流与地块边界的重合)等,这些数据间的关系在数据分层设计时应体现出来。

不同类型的数据由于其应用功能相同,在分析和应用时往往会同时用到,因此在设计时应反映出这样的需求,即可将这些数据作为一层。(如道路、加油站、停车场—交通层)

最后得出各层数据的表现形式,各层数据的属性内容和属性表之间的关系等。

四、数据字典设计

数据字典用于描述数据库的整体结构、数据内容和定义等。一个好的数据字典可以说是一个数据的标准规范,它可使数据库的开发者依此来实施数据库的建立、维护和更新。

数据字典的内容包括:

数据库的总体组织结构、数据库总体设计的框架、

各数据层详细内容的定义及结构、数据命名的定义

元数据(有关数据的数据,是对一个数据集的内容、质量条件及操作过程等的描述)等内容。

一、空间数据库的建立

1、建立空间数据库结构

利用DBMS提供的数据描述语言描述逻辑设计和物理设计的结果,得到概念模式和外模式,编写功能软件,经编译、运行后形成目标模式,建立起实际的空间数据库结构。

2、数据装入

一般由编写的数据装入程序或DBMS提供的应用程序来完成。在装入数据之前要做许多准备工作,如对数据进行整理、分类、编码及格式转换(如专题数据库装入数据时,采用多关系异构数据库的模式转换、查询转换和数据转换)等。

装入的数据要确保其准确性和一致性。

3、调试运行

装入数据后,要对地理数据库的实际应用程序进行运行,执行各功能模块的操作,对地理数据库系统的功能和性能进行全面测试,

二、空间数据库的维护

1、空间数据库的重组织

指在不改变空间数据库原来的逻辑结构和物理结构的前提下,改变数据的存储位置,将数据予以重新组织和存放。

2、空间数据库的重构造

指局部改变空间数据库的逻辑结构和物理结构。数据库重构通过改写其概念模式(逻辑模式)的内模式(存储模式)进行。

3、空间数据库的完整性、安全性控制

完整性是指数据的正确性、有效性和一致性,主要由后映象日志来完成,它是一个备份程序,当发生系统或介质故障时,利用它对数据库进行恢复。

安全性指对数据的保护,主要通过权限授予、审计跟踪,以及数据的卸出和装入来实现。

第四章 空间数据的采集和质量控制

§4-1 概述

一、GIS的数据源:

地图数据 ,遥感数据, 文本数据,统计数据

实测数据,多媒体数据,已有系统的数据

二、空间数据采集的任务

将现有的上述类型数据转换成GIS可以处理与接收的数字形式,通常要经过验证、修改、编辑等处理。

三、研究GIS数据质量的目的和意义

GIS的数据质量是指GIS中空间数据(几何数据和属性数据)的可靠性,通常用空间

数据的误差来度量。

误差是指数据与真值的偏离。

研究GIS数据质量对于评定GIS的算法、减少GIS设计与开发的盲目性都具有重要意

义。精度越高,代价越大。GIS数据质量对保证GIS产品的可靠性有重要意义。

§4-2 空间数据的地理参照系和控制基础

指物质、能量、信息的存在形式在形态、结构过程、功能关系上的分布方式和格局及其在时间上的延续,具体包括地球上大气圈、水圈、生物圈、岩石圈和土壤圈交互作用的区域。

地理空间具体被描述为:

1)绝对空间,具有属性描述的空间位置的集合,一系列坐标值组成。

2)相对空间,是具有空间属性特征的实体的集合,由不同实体之间的空间关系组成。

二、地理空间的数学建构---如何建立地球表面的几何模型

1、最自然的面:

包括海洋底部、高山、高原在内的固体地球表面,起伏不定,难以用一个简洁的数学式描述。

2、相对抽象的面,即大地水准面

地球表面72%被海水覆盖,假设一个当海水处于完全静止的平衡状态时从海平面延伸到所有大陆下部,而与地球重力方向处处正交的一个连续、闭合的水准面。

可用水准仪完成地球自然表面上任一点的高程测量。但地球的重力方向处处不同,处处与重力方向垂直的大地水准面显然不可能是一个十分规则的表面,且不能用简单的数学公式来表达,因此,大地水准面不能作为测量成果的计算面。

3、椭球体模型

为了测量成果计算的需要,选用一个同大地体相近的、可以用数学方法来表达的旋转椭球来代替地球---三轴椭球体。

三、地理参照系

1、经纬度坐标系(地理坐标)

对空间定位有利,但难以进行距离、方向、面积量算。

2、笛卡儿平面坐标系

便于量算和进一步的空间数据处理和分析。

3、高程系统

描述空间点在垂直高度上的特性--高程——由高程基准面起算的地面点的高度。

四、GIS的地理基础--控制基础

各种GIS的数据源、服务目的和各自特征可以不同,但均有自身统一的地理基础。

1、地理基础的内容

地理基础是地理信息数据表示格式与规范的重要组成部分

2、投影与坐标系:

每一种投影都与一个坐标系统相联系。坐标系统是一套说明某一物体地理坐标的参数,参数之一为投影。投影关系着如何将图形物体显示于平面上,而坐标系统则显示出地形地物所在的相对位置。

3、统一的地图投影系统的意义:

为地理信息系统选择和设计一种或几种适用的地图投影系统和网格坐标系统,为各种地理信息的输入、输出及匹配处理提供一个统一的定位框架,使各种来源的地理信息和数据能够具有共同的地理基础,并在这个基础上反映出它们的地理位置和地理关系特征。

五、地图投影

1、GIS与地图投影关系

2、GIS中地图投影设计与配置的一般原则

1)所配置的投影系统应与相应比例尺的国家基本图(基本比例尺地形图,基本省区图或国家大地图集)投影系统一致。

2)系统一般只考虑至多采用两种投影系统,一种应用于大比例尺的数据处理与输出、输入,另一种服务于小比例尺。

3)所用投影以等角投影为宜。

4)所用投影应能与网格坐标系统相适应,即所采用的网格系统(特别是一级网格)在投影带中应保持完整。

3、我国GIS常用的地图投影配置

采用与我国基本图系列一致的地图投影系统:

我国常用的地图投影的情况为:

1)、我国基本比例尺地形图(1:100万、1:50万、1:25万、1:10万、1:5万、1:2.5、1:1万、1:5000),除1:100万外均采用高斯—克吕格投影为地理基础;

2)、我国1:100万地形图采用了Lambert投影,其分幅原则与国际地理学会规定的全球统一使用的国际百万分之一地图投影保持一致。

3)、我国大部分省区图以及大多数这一比例尺的地图也多采用Lambert投影和属于同一投影系统的Albers投影(正轴等面积割圆锥投影);

4)、Lambert投影中,地球表面上两点间的最短距离(即大圆航线)表现为近于直线,这有利于地理信息系统中空间分析量度的正确实施。 。

2、GIS中地图投影设计与配置的一般原则

§4-3 空间数据的分类和编码

一、空间数据的组织

二、地理数据的分层

空间数据可按某种属性特征形成一个数据层,通常称为图层(Coverage)。

1、空间数据分层方法:

1)专题分层

每个图层对应一个专题,包含某一种或某一类数据。如地貌层、水系层、道路层、居民地层等。

2)时间序列分层

即把不同时间或不同时期的数据作为一个数据层。

3)地面垂直高度分层

把不同时间或不同时期的数据作为一个数据层。

2、空间数据分层的目的

便于空间数据的管理、查询、显示、分析等。

1)空间数据分为若干数据层后,对所有空间数据的管理就简化为对各数据层的管理,而一个数据层的数据结构往往比较单一,数据量也相对较小,管理起来就相对简单;

2)对分层的空间数据进行查询时,不需要对所有空间数据进行查询,只需要对某一层空间数据进行查询即可,因而可加快查询速度;

3)分层后的空间数据,由于便于任意选择需要显示的图层,因而增加了图形显示的灵活性;

4)对不同数据层进行叠加,可进行各种目的的空间分析。

三、空间数据的分类与编码

1、属性数据编码

在属性数据中,有一部分是与几何数据的表示密切有关的。

例如,道路的等级、类型等,决定着道路符号的形状、色彩、尺寸等。

在GIS中,通常把这部分属性数据用编码的形式表示,并与几何数据一起管理起来。

编码:是指确定属性数据的代码的方法和过程。

代码:是一个或一组有序的易于被计算机或人识别与处理的符号,是计

算机鉴别和查找信息的主要依据和手段。

编码的直接产物就是代码,而分类分级则是编码的基础。

2、分类编码的原则

分类是将具有共同的属性或特征的事物或现象归并在一起,而把不同属

性或特征的事物或现象分开的过程。

分类是人类思维所固有的一种活动,是认识事物的一种方法。

分类的基本原则是:

科学性、系统性、可扩性、实用性、兼容性、

稳定性、不受比例尺限制、灵活性

3、分类码和标识码

§4.4 空间数据的采集

一、输入前准备

1、资料准备,区域标定

1)基础原始数据的确定

2)数据分类项目的确定

3)数据标准的准确性的确定

2、进行三个统一: (地理基础统一,即确定投影、比例尺、分类分级编码)

3、所用软件的检查、试用菜单准备及其它辅助工作。

4、硬件检查。

5、精度试验。

6、试验,样区、单项试验。

二、几何图形数据的采集

一)手工数字化

1、手工矢量数字化

(二)数字化仪数字化

§4.4 空间数据的采集

2、用数字化软件进行数字化

2、手工栅格数字化

(以上资料4。4节来源于张超主编的《地理信息系统实习教程》所配光盘)

1、扫描矢量化处理流程:

三)扫描矢量化

2、屏幕跟踪矢量化流程

三、属性数据采集

1、键盘,人机对话方式

2、程序批量输入。

四、属性和几何数据的连接

1、可手工输入

2、由系统自动生成(如用顺序号代表标识符)

五、空间数据的编辑和检核

1、空间数据输入的误差

1)几何数据的不完整或重复。

2)几何数据的位置不正确。

3)比例尺不正确。

4)变形。

5)几何数据与属性数据的连接有误。

6)属性数据错误、不完整。

键盘输入错误,漏输数据或属性错误分类、编码等。

2、空间数据的检查

1)通过图形实体与其属性的联合显示,发现数字化中的遗漏、重复、不匹配等错误;

2)在屏幕上用地图要素对应的符号显示数字化的结果,对照原图检查错误;

3)把数字化的结果绘图输出在透明材料上,然后与原图叠加以发现错漏;

4)对等高线,通过确定最低和最高等高线的高程及等高距,编制软件来检查高程

的赋值是否正确;

5)对于面状要素,可在建立拓扑关系时,根据多边形是否闭合来检查,或根据多

边形与多边形内点的匹配来检查等;

6)对于属性数据,通常是在屏幕上逐表、逐行检查,也可打印出来检查;

7)对于属性数据还可编写检核程序,如有无字符代替了数字,数字是否超出了范围,等等;

8)对于图纸变形引起的误差,应使用几何纠正来进行处理。

§4.5 GIS的数据质量

一、GIS的数据质量的内容(类型)

1、GIS数据质量的基本内容

1)位置(几何)精度:如数学基础、平面精度、高程精度等,用以描述

几何数据的误差。

2) 属性精度:如要素分类的正确性、属性编码的正确性、注记的正确性

等,用以反映属性数据的质量。

3) 逻辑一致性:如多边形的闭合精度、结点匹配精度、拓扑关系的正确

性等,由几何或属性误差也会引起逻辑误差。

4) 完备性:如数据分类的完备性、实体类型的完备性、属性数据的完备

性、注记的完整性,数据层完整性,检验完整性等。

5) 现势性:如数据的采集时间、数据的更新时间等。

误差的具体来源

阶段

误差来源

数据采集

实测误差,地图制图误差(制作地图的每一过程都有误差),航测遥感数据分析误差(获取、判读、转换、人工判读(识别要素)误差)

数据输入

数字化过程中操作员和设备造成的误差,某些地理属性没有明显边界引起的误差(地类界)

数据存贮

数字存贮有效位不能满足(由计算机字长引起,单精度、双精度类型)

空间精度不能满足

数据操作

类别间的不明确、边界误差(不规则数据分类方法引起)

多层数据叠加误差

多边形叠加产生的裂缝(无意义多边形)

各种内插引起的误差

数据输出

比例尺误差、输出设备误差、媒质不稳定(如图纸伸缩)

成果使用

用户错误理解信息、不正确使用信息4、误差传播

误差传播可分为三类:

1)代数(算术)关系

如差、倍数、线性关系,有一套成熟的经典测量误差理论处理。

2)逻辑关系

a、布尔逻辑关系:GIS中存在大量的逻辑运算,如 叠置分析。

b、不精确推理关系:

如专家系统中的不精确推理。

逻辑关系下的误差传播正处于研究中,需要借用信息论,模糊数学、人工智能、专家系统等学科有望解决。

二、 GIS数据质量的评价方法

1、直接评价法

1)用计算机程序自动检测

某些类型的错误可以用计算机软件自动发现,数据中不符合要求的数据项的百分率或平均质量等级也可由计算机软件算出。此外,还可检测文件格式是否符合规范、编码是否正确、数据是否超出范围等。

2)随机抽样检测

在确定抽样方案时,应考虑数据的空间相关性。

2、间接评价法-----(地理相关法和元数据法)

指通过外部知识或信息进行推理来确定空间数据的质量的方法。用于推理的外部知识或信息如用途、数据历史记录、数据源的质量、数据生产的方法、误差传递模型等。

3、非定量描述法

通过对数据质量的各组成部分的评价结果进行的综合分析来确定数据的总体质量的方法。

三、数字化的误差评价和质量控制

1、评价数字化误差的方法

1)自动回归法

由于跟踪数字化不仅是一个随机序列,而且是一个时间序列,因此可用数理统计中的时间序列分析法来确定数字化的误差。

2)ε-Band法

该方法适用于任何类型的GIS数据,关键是如何给出合理的ε值。

3)对比法

把数字化后的数据,用绘图机绘出,与原图叠合,选择明显地物点进行量测,以确定误差。除了几何精度外,属性精度、完整性、逻辑一致性等也可用对比法进行对照检查。

2、数字化过程中的质量控制

1)数字化预处理工作

包括对原始地图、表格等的整理、清绘。

2)数字化设备的选用

根据手扶数字化仪、扫描仪等设备的分辨率和精度等有关参数的进行挑选,这些参数不应低于设计的数据精度要求。

3)数字化对点精度(准确性)

数字化时数据采集点与原始点的重合程度,一般要求对点误差小于0.1mm。

4)数字化限差

包括:采点密度(0.2mm)、接边误差(0.02mm)、接合距离(0.02mm)、悬挂距离(0.007mm)等。

5)数据的精度检查

输出图与原始图之间的点位误差,一般要求对直线地物和独立地物,误差小于0.2mm,对曲线地物和水系,误差小于0.3mm,对边界模糊的要素应小于0.5mm。

四、数据处理中数据质量的评价

1、数字高程模型(DEM)的精度

主要受原始资料的精度(采样密度、测量误差、地形类别、控制点等)和内插的精度(内插方法、地形类型、原始数据的密度等)的影响。

DEM的内插精度主要受原始采样点的采样密度的影响,与不同的插值方法的关系不很大。但在DEM精度评定的标准方面、地貌逼真度方面、DEM的粗差探测等方面仍没有得到圆满的解决。

目前,对DEM精度的评价常采用原始等高线与再生等高线叠合评价的方法。

2、矢量数据栅格化的误差

包括属性误差和几何误差两种。

在矢量数据转换为栅格数据后,栅格数据中的每个象元只含有一个属性数据值,它是象元内多种属性的一种概括。象元越大,属性误差越大。

几何误差是指在矢量数据转换成栅格数据后所引起的位置的误差,以及由位置误差引起的长度、面积、拓扑匹配等的误差。几何误差的大小与象元的大小成正比。

其中矢量数据表示的多边形网用象元逼近时会产生较严重的拓扑匹配问题。

误差分析的一种方法:假设存在一幅理想的矢量地图,图上不同属性的制图单元由很细的线分开;对理想地图进行观测采样得到一幅具有规则格网的栅格地图,把这两幅图进行叠置比较。

3、多边形叠置产生的误差

多边形叠置误差计算的思路是,先计算单层图的误差,再计算叠置图的误差。会产生拓扑匹配误差、几何误差和属性误差。

1)拓扑匹配误差

多边形叠置往往是不同类型的地图、不同的图层,甚至是不同比例尺的地图进行叠置,因此,同一条边界线往往是不同的数据,这样在叠置时必然会出现一系列无意义的多边形。所叠置的多边形的边界越精确,越容易产生无意义的多边形。这就是拓扑匹配误差。

多边形叠置所形成的多边形的数量与原多边形边界的复杂程度有关。如果多边形之间具有统计独立性时,产生中等数量的多边形;如果是高度相关的,则产生大量无意义的多边形。-----需要合并无意义的多边形

合并无意义的多边形的方法:

A、用人机交互的方法把无意义的多边形合并到大多边形中;

B、根据无意义多边形的临界值,自动合并到大多边形中;

C、用拟合后的新边界进行合并。

2)几何误差:

新边界可能会偏离已制图的边界位置(或真实位置)。为了保证人们习惯上认为重要的边界线的精度,如境界、河流、主要道路等,处理时应对这些边界上的点加权使他们能尽可能地不被移动。

3)属性误差:

实际上每个进行叠置的多边形本身的属性就是有误差的,因为属性值是分类的结果(如把植被分为不同的类别),而分类就会产生误差。多幅图的叠置会使误差急剧增加,以至使叠置出的结果不可信。

§4.6 空间数据标准--数据共享

一、概述

1、目前影响数据共享的因素

体制上:行业数据保密政策。

技术上:不同系统对空间数据采用的数据结构和数据格式不同。

网络化程度:资源共享是网络主要功能之一,用户可共享网络分散在不同地点的各种软硬件。

2、空间数据标准:

是指空间数据的名称、代码、分类编码、数据类型、精度、单位、格式等的标准形式。每个地理信息系统都必须具有相应的空间数据标准。

3、空间数据标准的状况:

如果只针对某一地理信息系统设计空间数据标准,并不困难;如果所建立的空间数据标准能为大家所承认,为大多数系统所接受和使用,就比较复杂和困难。

目前,我国已有一些与GIS有关的国家标准,内容涉及数据编码、数据格式、地理格网、数据采集技术规范、数据记录格式等。

二、空间数据分类标准

1、原则:

1)遵循已有的国家标准,以利于全国范围内的数据共享。

2)遵循国务院有关部委以及军队正在使用的数据标准。

3)遵循各领域中普遍使用和认同的数据标准。

4)当各种数据标准相互矛盾时,应遵循由上而下的原则进行处理。

5)制定新的数据标准时,应尽可能参考同类标准。

2、目前我国已有的与GIS有关的关于空间数据分类的国家标准:

GB2260-95 《中华人民共和国行政区划代码》

GB13923-92 《国土基础信息数据分类与代码》

GB11708-89 《公路桥梁命名和编码规则》

GB14804-93 《1:500、1:1000、1:2000地形要素分类与代码》

等等。

三、空间数据交换标准

1、外部数据交换标准

特点:自动化程度不高,速度较慢等,但它可解决不同GIS之间的数据转换问题。它仍然是实现数据共享的主流方式。

2、空间数据互操作协议

特点:比外部数据交换标准方便,但由于各种软件存储和处理空间数据的方式不同,空间数据的互操作函数又不可能很庞大,因此往往不能解决所有问题。

3、空间数据共享平台

服务器存放空间数据采用客户机/服务器体系结构,各种GIS通过一个公共的平台在服务器存取所有数据,以避免数据的不一致性。

特点:思路较好,但现有的GIS软件各有自己的底层,要统一平台目前难以实现。

4、统一数据库接口

在对空间数据模型有共同理解的基础上,各系统开发专门的双向转换程序,将本系统的内部数据结构转换成统一数据库的接口。

特点:这种方式的前提,首先要求对现实世界进行统一的面向对象的数据理解,这不易实现的。

目前:外部数据交换标准仍是实现数据共享的主流方式。

四、我国空间数据交换格式

我国已发布了GIS的外部数据交换格式,包括矢量数据交换格式、栅格数据交换格式和数字高程模型交换格式标准。

五、GIS空间元数据( Geospatial Metadata

1、空间元数据的定义和作用

1)定义:

地理的数据和信息资源的描述性信息。它通过对地理空间数据的内容、质量、条件和其他特征进行描述与说明,以便人们有效地定位、评价、比较、获取和使用与地理相关的数据。

2)作用:

(a)用来组织和管理空间信息,并挖掘空间信息资源。

(b)帮助数据使用者查询所需空间信息。

(c)组织和维护一个机构对数据的投资。

(d)用来建立空间信息的数据目录和数据交换中心。

(e)提供数据转换方面的信息。

2、空间元数据的分类

1)高层元数据(数据集系列Metadata),描述整个数据集的元数据,包括数据集区域采样原则,数据库的有效期,数据的时间跨度、分辨率以及方法等。是用户用于概括性查询数据集的主要内容。

2)中层元数据(数据集Metadata),既可以作为数据集系列Metadata的组成部分,也可以作为后面数据集属性以及要素等内容的父Metadata数据集系列。全面反映数据集的内容 。

3)底层元数据(要素、属性的类型和实例Metadata),包括最近更新日期,位置纲量,存在问题标识(如数据的丢失原因),数据处理过程等。是元数据体系中详细描述现实世界的重要部分。

3、空间元数据的内容

对空间元数据所要描述的一般内容进行层次化和范式化,指定出可供参考与遵循的空间元数据标准的内容框架。

第一层是目录层,主要用于对数据集信息进行宏观描述,适合在数字地球的国家级空间信息交换中心或区域以及全球范围内管理和查询空间信息时使用。

第二层是空间元数据标准的主体,由八个基本内容部分和四个引用部分组成。

4、元数据的获取

数据收集前,得到的是根据要建设的数据库的内容而设计的元数据,包括数据类型、数据覆盖范围、使用仪器说明、数据变量表示、数据收集方法、数据时间、数据潜在利用等。

数据收集中,随数据的形成同步产生的元数据,例如在测量海洋要素数据时,测点的水平和垂直位置、深度、温度等是同时得到的。

数据收集后,根据需要产生的,包括数据处理过程描述、数据的利用情况、数据质量评估、数据集大小、数据存放路径等 。

六、空间数据的互操作

1、互操作含义

指异构环境下两个或两个以上的实体,尽管它们实现的语言、执行的环境和基于的模型不

同,但它们可以互相通信和协作,以完成某一特定任务,这些实体包括程序、对象、系统运行环境等。

互操作地理信息处理,是指数字系统的这些能力:

1)自由地交换所有关于地球的信息,即所有关于地表上的、空中的、地球表面以下的对象的信息。

2)通过网络协作运行能够操作这些信息的软件。

概括为自由交换地理空间信息及协作运行空间信息处理的软件。

2、GIS互操作类型

1)软件的互操作,强调软件功能块间的相互调用;

2)数据的互操作,强调数据集之间相互透明的访问;

3)语义湖操作,强调信息的共享,在一定语义约束下(对地理现象共同的理解下)的互操作。

3、GIS 互操作问题

目前,所建立的GIS均被认为是信息孤岛,不同系统之间存在互操作问题,因为:

1)没有统一的标准,各自采用不同的数据格式、数据存储和数据处理方法;

2)系统的开发均建立在具体、相互独立和封闭的平台,且不同应用部门对地理现象有不同的理解,导致对地理信息有不同的定义,使得不同应用系统之间在共同协作时无法进行信息交流和数据共享。

4、急需实现异构GIS间的互操作

1)解决基础数据的共享问题的需要;

2)GIS应用趋向多学科综合和集成化;

3)GIS走向社会化的需要;

4)也是Internet GIS发展的需要。

5、GIS互操作现状

目前,主要有两种方法初步实现互操作:

1)OPEN GIS规范,通过规定统一的系统设计和开发软件工具的框架,OGC(Open GIS Consortium)OPEN GIS 协会为实现GIS间的互操作制定了OPEN GIS规范。

2)构件(组件)技术,构件(组件)技术也是实现互操作的可行方法。程序设计中的组件技术,可以在许多不同平台下使用,受之启发,可将GIS某功能包装成独立的组件,使之可以在不同的系统环境下调用。这样可实现系统功能的相互调用。

七、Open GIS规范

1、含义:

OGIS,也叫开放式地理数据交换规程,它是由开放地理信息系统协会(Open GIS Consortium)制定的一系列开放标准和接口。Open GIS规范是OGC规范的最高层次,是利用软件统一地表示地理数据和地理处理的规范系统。

2、目的:

在传统GIS软件与高带宽的异构地学处理环境中架起一座桥梁,具体通过信息基础设施,把地理空间数据和地理处理资源集成到主流的计算机技术中,促使可互操作的商业地理信息处理软件的广泛应用。

3、特点:

1)是一种统一的规范,使用户和开发者能进行互操作;

2)能克服烦琐的批处理及导入、导出障碍,在分布操作系统异构数据库环境下获取数据及数据处理功能资源;

3)由于Open GIS独立于具体平台,它只能是抽象层的概念描述,而不是具体的实现。

4、 多数据格式是多源空间数据集成的瓶颈,是OpenGIS出现的基础

1) 多语义性 由于地理系统的研究对象的多种类特点决定了地理信息的多语义性。一个GIS研究的决不会是一个孤立的地理语义,但不同系统解决问题的侧重点也有所不同,因而会存在语义分异问题。

2) 多时空性和多尺度

一个GIS系统中的数据源既有同一时间不同空间的数据系列;也有同一空间不同时间序列的数据。还会根据系统需要而采用不同尺度对地理空间进行表达,不同的观察尺度具有不同的比例尺和不同的精度。

3) 获取手段多源性

获取地理空间的数据的方法有多种多样,包括来自现有系统、图表、遥感手段、GPS手段、统计调查、实地勘测等。

4) 存储格式多源性

图形数据又可以分为栅格格式和矢量格式两类。传统的GIS一般将属性数据放在关系数据库中,而将图形数据存放在专门的图形文件中。不同的GIS软件采取不同的文件存储格式。

5、OpenGIS规范的作用

通过OpenGIS规范把商业部门、集成部门、用户、研究人员、数据提供商等连接到一起,通过必要的软件工具和通信技术,为各种用户提供对地理信息的共享和互操作。

6、互操作地理信息的工作方式(OGIS框架)

如何实现OpenGIS规范,OpenGIS规范并没有提出具体的标准实施模式,其框架主要由三部分组成

1)开放的地理数据模型(Open Geodata Model,OGM)

包含认可的类型和结构集合(将地理现实抽象为实体(特征)和现象(层)),通过这一集合,可表示任何地理模型。

2)OGIS服务模型(Open Service Model,OSM)

定义地学数据服务的对象模型,由一组相互可操作的软件构件集组成,为对特征的访问提供对象管理、获取、操作、交换等服务设施。

3)信息群模型(Information Communities Model)

信息群指共享数据的用户群,可以是数据提供者、使用者。不同用户对数据理解不同,引起语义上交流障碍。信息群模型,主要任务是解决具有统一的OGM(开放地理数据模型)及语义描述机制的一个信息部门内部以及不同OGM及语义描述的信息部门之间的数据共享问题。采用的主要方法是语义转换,使具有不同特征类定义以及语义模式的信息用户群之间实现语义的互操作。

§4-6 空间数据标准目录

第五章 空间数据的处理

§5-1 坐标变换

一、图幅数据的坐标变换

1、比例尺变换:乘系数

2、变形误差改正:通过控制点利用高次变换、二次变换和仿射变换加以改正

3、坐标旋转和平移 即数字化坐标变换,利用仿射变换改正。

4、投影变换:

三种方法。

二、几何纠正

1、高次变换

其中A、B代表二次以上高次项之和。上式是高次曲线方程,符合上式的变换称为高次变换。式中有12个未知数,所以在进行高次变换时,需要有6对以上控制点的坐标和理论值,才能求出待定系数。

2、二次变换

当不考虑高次变换方程中的A和B时,则变成二次曲线方程,称为二次变换。二次变换适用于原图有非线性变形的情况,至少需要5对控制点的坐标及其理论值,才能解算待定系数。

3、仿射变换

实质是两坐标系间的旋转变换。

设图纸变形引起x,y两个方向比例尺不同,当x,y比例尺相同时,为相似变换。

特性:

·直线变换后仍为直线;

·平行线变换后仍为平行线;

·不同方向上的长度比发生变化。

求解上式中的6个未知数,需不在一直线上的3对已知控制点,由于误差,需多余观测,所以,用于图幅定向至少需要四对控制点。

三、地图投影变换

假定原图点的坐标为x,y(称为旧坐标),新图点的坐标为X,Y(称为新坐标),则由旧坐标变换为新坐标的基本方程式为:

1、解析变换法1)反解变换法(又称间接变换法) 2)正解变换法(又称直接变换法)

2、数值变换法

利用若干同名数字化点(对同一点在两种投影中均已知其坐标的点),采用插值法、有限差分法或多项式逼近的方法,即用数值变换法来建立两投影间的变换关系式。

3、数值解析变换法

当已知新投影的公式,但不知原投影的公式时,可先通过数值变换求出原投影点的地理坐标φ,λ,然后代入新投影公式中,求出新投影点的坐标。即:

§5-2 图形编辑

图形编辑又叫数据编辑、数字化编辑,是指对地图资料数字化后的数据进行编辑加工,其主要的目的是在改正数据差错的同时,相应地改正数字化资料的图形。

图形编辑是一交互处理过程, GIS具备的图形编辑功能的要求是:

1)具有友好的人机界面,即操作灵活、易于理解、响应迅速等;

2)具有对几何数据和属性编码的修改功能,如点、线、面的增加、删除、修改等;

3)具有分层显示和窗口操作功能,便于用户的使用。

一、编辑操作

1、结点的编辑

1)结点吻合(Snap) 或称结点匹配、结点咬合,结点附和。

方法:

A、 结点移动,用鼠标将其它两点移到另一点;

B、 鼠标拉框,用鼠标拉一个矩形,落入该矩形内的结点坐标通过求它们的中间坐标匹配成一致;

C、 求交点,求两条线的交点或其延长线的交点,作为吻合的结点;

D、自动匹配,给定一个吻合容差,或称为咬合距,在图形数字化时或之后,将容差范围内的结点自动吻合成一点。一般,若结点容差设置合理,大多数结点能够吻合在一起,但有些情况还需要使用前三种方法进行人工编辑。

2)结点与线的吻合在数字化过程中,常遇到一个结点与一个线状目标的中间相交。由于测量或数字化误差,它不可能完全交于线目标上,需要进行编辑,称为结点与线的吻合。

编辑的方法:

A、 结点移动,将结点移动到线目标上。B、 使用线段求交;C、 自动编辑,在给定容差内,自动求交并吻合在一起。

3)需要考虑两种情况

A、 要求坐标一致,而不建立拓扑关系;如 高架桥(不需打断,直接移动)

B、 不仅坐标一致,且要建立之间的空间关联关系;如 道路交叉口(需要打断)

4)清除假结点(伪结点)

由仅有两个线目标相关联的结点成为假结点。

有些系统要将这种假结点清除掉(如ARC/INFO),即将目标A 和B合并成一条,使它们之间不存在结点;

但有些系统并不要求清除假结点,如Geostar,因为它们并不影响空间查询、分析和制图。

2、图形编辑

包括用鼠标增加或删除一个点、线、面实体,移动、旋转一个点、线、面实体。

1)删除和增加一个顶点删除顶点,在数据库中不用整体删除与目标有关的数据,只是在原来存储的位置重写一次坐标,拓扑关系不变。增加顶点,则操作和处理都要复杂。不能在原来的存储位置上重写,需要给一个新的目标标识号,在新位置上重写,而将原来的目标删除,此时需要做一系列处理,调整空间拓扑关系。

2)移动一个顶点 移动顶点只涉及某个点的坐标,不涉及拓扑关系的维护,较简单。

3)删除一段弧段复杂,先要把原来的弧段打断,存储上原来的弧段实际被删除,拓扑关系需要调整和变化.

3、数据检查与清理数据检查指拓扑关系的检查,结点是否匹配,是否存在悬挂弧段,多边形是否封闭,是否有假结点。

要求系统能将有错误或不正确的拓扑关系的点、线和面用不同的颜色和符号表示出来,以便于人工检查和修改。

数据清理则是用自动的方法清除空间数据的错误.

例如给定一个结点吻合的容差使该容差范围内的结点自动吻合在一起,并建立拓扑关系。给定悬挂弧段容差,将小于该容差的短弧自动删除。在Arc/info中用Data Clean 命令,在Geostar中选择整体结点匹配菜单。

4、撤消与恢复编辑

Undo,Redo功能是必要的。但功能的实现是困难的。当撤消编辑,即恢复目标,要恢复目标的标识和坐标、拓扑关系。这一处理过程相当复杂.

因此,有些GIS不在图形编辑时实时建立和维护拓扑关系,如Arc/Info等,而在图形编辑之后,发Clean 或Build命令重新建立拓扑关系。这样,在每次进行任何一次编辑,都要重新Clean 或Build,对用户不便。

二、关键算法

1、点的捕捉

设光标点为S(x,y),

某一点状要素的坐标为A(X,Y)

可设一捕捉半径D(通常为3~5个象素,这主要由屏幕的分辩率和屏幕的尺寸决定)。

若S和A的距离d小于D则认为捕捉成功,即认为找到的点是A,否则失败,继续搜索其它点。

乘方运算影响了搜索的速度,因此,把距离d的计算改为:

捕捉范围由圆改为矩形,这可大大加快搜索速度。

2、线的捕捉

设光标点坐标为S(x,y),D为捕捉半径,线的坐标为(x1,y1),(x2,y2),…(xn,yn)。通过计算S到该线的每个直线段的距离d。.

若min(d1,d2,…dn-1)<D,则认为光标S捕捉到了该条线,否则为未捕捉到。

加快线捕捉的速度的方法:

1)在实际的捕捉中,可每计算一个距离di就进行一次比较,若di<D,则捕捉成功,不需再进行下面直线段到点S的距离计算了。

2)把不可能被光标捕捉到的线,用简单算法去除。

3)对于线段也采用类似的方法处理。

4)简化距离公式:

点S(x,y)到直线段(x1,y1),(x2,y2)的距离d的计算公式为:

3、面的捕捉

实际上就是判断光标点S(x,y)是否在多边形内,若在多边形内则说明捕捉到。

判断点是否在多边形内的算法主要有垂线法或转角法。

垂线法的基本思想是从光标点引垂线(实际上可以是任意方向的射线),计算与多边形的交点个数。

若交点个数为奇数则说明该点在多边形内;若交点个数为偶数,则该点在多边形外。

加快速度的方法:

1)找出该多边形的外接矩形,若光标点落在该矩形中,才有可能捕捉到该面,否则放弃对该多边形的进一步计算和判断。

2)对不可能有交点的线段应通过简单的坐标比较迅速去除。

3)运用计算交点的技巧。

4、图形编辑的数据组织—空间索引

为加速检索,需要分层建索引,主要方法有格网索引和四叉树索引。

1)格网索引

a、每个要素在一个或多个网格中

b、每个网格可含多个要素

c、要素不真正被网格分割 ,

2)四叉树索引

线性四叉树和层次四叉树都可以用来进行空间索引。

A、线性四叉树,先采用Morton或Peano码,再根据空间对象覆盖的范围进行四叉树分割。

B、层次四叉树,需要记录中间结点和父结点与子结点之间的指针,若某个地物覆盖了哪个中间结点,还要记录该空间对象的标识。

§5-3 拓扑关系的自动建立

1、在图形采集和编辑中实时建立

(见龚建雅的书)

二、多边形拓扑关系自动建立

1、链的组织

1)找出在链的中间相交的情况,自动切成新链;

2)把链按一定顺序存储,并把链按顺序编号。

2、结点匹配

1) 把一定限差内的链的端点作为一个结点,其坐标值取多个端点的平均值。

2)对结点顺序编号。

3、检查多边形是否闭合

通过判断一条链的端点是否有与之匹配的端点来进行.

多边形不闭合的原因:

1)由于结点匹配限差的问题,造成应匹配的端点未匹配;

2)由于数字化误差较大,或数字化错误,这些可以通过图形编辑或重新确定匹配限差来确定。

3)还可能这条链本身就是悬挂链,不需参加多边形拓扑,这种情况下可以作一标记,使之不参加下一阶段拓扑建立多边形的工作。

4、建立多边形

1)概念

a、顺时针方向构多边形:指多边形是在链的右侧。

b、最靠右边的链:指从链的一个端点出发,在这条链的方向上最右边的第一条链,实质上它也是左边最近链。a的最右边的链为d

c、多边形面积的计算

2)建立多边形的基本过程

1° 顺序取一个结点为起始结点,取完为止;取过该结点的任一条链作为起始链。

2° 取这条链的另一结点,找这个结点上,靠这条链最右边的链,作为下一条链。

3° 是否回到起点:是,已形成一多边形,记录之,并转4°;否,转2°。

4°取起始点上开始的,刚才所形成多边形的最后一条边作为新的起始链,转2°;若这条链已用过两次,即已成为两个多边形的边,则转1°。

5、岛的判断

找出多边形互相包含的情况.

1°、计算所有多边形的面积。

2°、分别对面积为正的多边形和面积为负的多边形排序。

3°、从面积为正的多边形中,顺序取每个多边形,取完为止。若负面积多边形个数为0,则结束。

4°、找出该多边形所包含的所有面积为负的多边形,并把这些面积为负的多边形加入到包含它们的多边形中,转3°。

正面积多边形包含的负面积多边形是关键.

1°、找出所有比该正面积多边形面积小的负面积多边形。

2°、用外接矩形法去掉不可能包含的多边形。即负面积多边形的外接矩形不和该正面积多边形的外接矩形相交或被包含时,则不可能为该正面积多边形包含。

3°、取负面积多边形上的一点,看是否在正面积多边形内,若在内,则被包含;若在外,则不被包含。

6、确定多边形的属性

多边形以内点标识。内点与多边形匹配后,内点的属性常赋于多边形.

§5-4 图形的裁剪、合并和图幅接边

一、图形的裁剪--开窗处理

1、方式:

正窗:提取窗口内的数据。开负窗:提取窗口外的数据子集。

矩形窗和多边形窗。

2、算法:

包括点、线、面的窗口裁剪---计算机图形学。

而不规则多边形开窗------相当于多边形叠置处理。

二、图形合并---数据文件合并

一幅图内的多层数据合并在一起;

或将相邻的多幅图的同一层数据合并.

涉及到空间拓扑关系的重建。对于多边形,由于同一个目标在两幅图内已形成独立的多边形,合并时,需去除公共边界,属性合并,具体算法,删去共同线段。 实际处理过程是先删除两个多边形,解除空间关系后,删除公共边,再重建拓扑。

三、图幅接边—形成无缝数据库

几何裂缝:指由数据文件边界分开的一个地物的两部分不能精确地衔接。--几何接边

逻辑裂缝:同一地物地物编码不同或具有不同的属性信息,如公路的宽度,等高线高程等。---逻辑接边

1、识别或提取相邻图幅。--要求图幅编号合理

2、几何接边

3、逻辑接边

1)检查同一地物在相邻图幅的地物编码和属性值是否一致,不一致,进行人工编辑。

2)将同一地物在相邻图幅的空间数据在逻辑上连在一起。

§5-5 空间插值

空间插值:

内插:在已观测点的区域内估算未观测点的数据的过程;

外推:在已观测点的区域外估算未观测点的数据的过程.—--预测。

一、边界内插

首先假定任何重要的变化都发生在区域的边界上,边界内的变化则是均匀的、同质的。

边界内插的方法之一是泰森多边形法。

泰森多边形法的基本原理是,未知点的最佳值由最邻近的观测值产生。

二、趋势面分析

是一种多项式回归分析技术。多项式回归的基本思想是用多项式表示线或面,按最小二乘法原理对数据点进行拟合,拟合时假定数据点的空间坐标X、Y为独立变量,而表示特征值的Z坐标为因变量。

1、当数据为一维时,

1)线性回归:

2、数据是二维的

二元二次或高次多项式

三、局部内插

利用局部范围内的已知采样点的数据内插出未知点的数据。

1、线性内插

将内插点周围的3个数据点的数据值带入多项式,即可解算出系数a0、a1、a2 。

2、双线性多项式内插

将内插点周围的4个数据点的数据值带入多项式,即可解算出系数a0、a1、a2、a3 。

3、双三次多项式(样条函数)内插

是一种分段函数,每次只用少量的数据点,故内插速度很快;样条函数通过所有的数据点,故可用于精确的内插;可用于平滑处理。

双三次多项式内插的多项式函数为:

四、移动平均法

在局部范围(或称窗口)内计算个数据点的平均值

二维平面的移动平均法也可用相同的公式,但位置Xi应被坐标矢量Xi代替。

窗口的大小对内插的结果有决定性的影响。

小窗口将增强近距离数据的影响;大窗口将增强远距离数据的影响,减小近距离数据的影响。

当观测点的相互位置越近,其数据的相似性越强;当观测点的相互位置越远,其数据的相似性越低。

加权移动平均法:λi是采样点i对应的权值

加权平均内插的结果随使用的函数及其参数、采样点的分布、窗口的大小等的不同而变化。通

常使用的采样点数为6—8点。对于不规则分布的采样点需要不断地改变窗口的大小、形状和方向,以获取一定数量的采样点。

§5-6 数据压缩与光滑

一、数据压缩

矢量数据压缩

栅格数据压缩

1、 Douglas—Peucker

压缩效果好,但必须在对整条曲线数字化完成后才能进行,且计算量较大;

2、垂距法

每次顺序取曲线上的三个点,计算中间点与其它两点连线的垂线距离d,并与限差D比较。若d<D,则中间点去掉;若d≥D,则中间点保留。然后顺序取下三个点继续处理,直到这条线结束。

压缩算法好,可在数字化时实时处理,每次判断下一个数字化的点,且计算量较小;

3、光栏法

定义一个扇形区域,通过判断曲线上的点在扇形外还是在扇形内,确定保留还是舍去。

算法简单,速度快,但有时会将曲线的弯曲极值点p值去掉而失真。

二、曲线光滑(拟合)

是假象曲线为一组离散点,寻找形式较简单、性能良好的曲线解析式。

插值方式:曲线通过给定的离散点。如拉格朗日插值,三次样条曲线

逼近方式:曲线尽量逼近给定离散点。如贝塞尔和B样条曲线。

一、矢量向栅格转换

点:简单的坐标变换

线:线的栅格化

面:线的栅格化 +面填充

(一)线的栅格化

1、DDA法(数字微分分析法)

2、Bresenham算法

(二)面(多边形)的填充方法

1、内部点扩散法(种子扩散法)

2、扫描法

3、边填充算法

二、栅格向矢量转换

从栅格单元转换为几何图形的过程为矢量化;

(一)要求(矢量化过程应保持):

1)栅->矢转换为拓扑转换,即保持实体原有的连通性、邻接性等;

2)转换实体保持正确的外形。

(二)方法

方法一,实际应用中大多数采用人工矢量化法,如扫描矢量化,该法工作量大,成为GIS数据输入、更新的瓶颈问题之一。

方法二,程序转化转换(全自动或半自动)

过程为:

1、边界提取

2、二值化

3、二值图像的预处理

4、细化:1)剥皮法 2)骨架法

5、跟踪 6、拓扑化

------本页内容已结束,喜欢请分享------

感谢您的来访,获取更多精彩文章请收藏本站。

© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片