基于养分微观管理的空间数据转化模型研究

2021-11-28赵帅

软件导刊 2021年11期

赵帅

（西藏农牧学院资源与环境学院，西藏林芝 860000）

0 引言

数据模型是对现实世界数据特征的抽象，它将现实世界中杂乱的信息用一种规范而形象化的方式表达，以此描述数据、组织数据和操作数据，是数据库系统的基础［1］。数据模型从20 世纪60 年代中后期起步，从结构化数据模型、半结构化模型、OLAP 分析模型发展到现在的大数据模型［2］。结构化模型有层次模型［3］、网状模型［4］、关系模型［5］和面向对象模型［6-7］；半结构化模型包括XML 模型［8］、JSON模型［9］、图模型［10］、RDF 模型［11］和超模型；分析模型包括ROLAP 模型［12］、MOLAP 模型［13］和Storm 模型［14］；大数据模型包括NoSQL 模型［15］和NewSQL 模型［16］。

空间数据模型是关于GIS 中空间数据组织的概念，反映现实世界中空间实体及其相互之间的联系，为空间数据组织和空间数据库模式设计提供基本的概念和方法［17］。目前，在GIS 数据模型的实现层次中，最常用的数据模型是栅格模型和矢量模型、表面模型［18］，以及后来结合时间的时空立方体模型［19］，其他模型大多在此基础上改进。随着数据模型的发展，许多学者将计算机数据建模方法应用于空间数据建模。比如Hoinkes 等［20］发表了基于面向对象的时空数据建模；Peuquet 等［21］引入事件时空数据模型。其中面向对象的数据模型又分为单粒度对象模型和多粒度对象模型［22］两种。

这些数据模型对现实世界的抽象管理起到了巨大的作用，为数据世界的丰富发展做出了巨大贡献。然而，传统GIS 主要集中于大中尺度空间对象的抽象、表达和分析［23］，缺少对微观世界的描述表达，当下还没有专门针对微观尺度数据模型的研究。另外，当前的数据模型无法摆脱人工运维的束缚，无法实现自生长和自存储。因此，本文以植物营养学为思想基础，结合抽象代数理论提出新一代数据模型——空间数据转化模型（Spatial Data Transfor⁃mation Model，SDTM），建立转化数据库，以此来促进微观空间管理，为数据的自生长和自存储提供方便，也为微观地理信息系统的研究提供思路与方法。

1 转化模型理论

1.1 思想基础

1.1.1 植物营养学思想

植物营养学是研究植物对养分的吸收、运输、转化及与外界环境的交换等，以此提高作物产量和质量［24］。养分在植物体内的过程非常复杂，为了研究方便，对其作一定抽象，将此过程简化为存在养分、吸收养分、运输养分、养分转化、养分（即废物）分离5 个步骤［25］。存在养分指在植物体外的环境中存在养分；吸收养分是养分从植物体外进入到植物体内；运输养分和养分转化是发生在植物体内的过程；养分（废物）分离是废物从植物体内到体外的过程。动物营养学、人类营养学和植物营养学过程一样，也可以简化为这5 个步骤，只是植物营养学的养分分离可以忽略，而动物和人不能忽略。当前的农业GIS 研究了存在养分这个步骤，也就是常说的养分资源区域管理［26］，而其他的步骤则是养分微观管理内容，当下还没有与GIS 结合的相关研究。养分运输从本质上是养分进入一个细胞，在细胞内转化（或者不变，不变是转化为自身），然后再离开细胞。因此，可以将这5 个步骤继续概括为吸收、转化和分离3 个步骤。

植物、动物和人都是由细胞构成的，因此可以将细胞作为微观世界的基本对象。以植物为例，主要关注植物的发芽生长开花结果，也就是随着植物种子的生长，转化为茎、转化为芽、转化为叶子、转化为花，最后转化为果实，总共花费多长时间等。但是植物总共有多少细胞，每个细胞的位置属性等信息相对变得不那么重要；再比如盐酸和氢氧化钠，主要关注盐酸和氢氧化钠的化学运算，关注盐酸的浓度和氢氧化钠的浓度，以及转化后混合物的浓度（浓度多少代表转化快慢），但并不关注每个盐酸分子、氢氧化钠分子和混合物分子的具体位置。

因此在微观尺度，最重要的是对象A与对象B之间的转化运算，对象A的浓度是多少，对象B的浓度是多少，最后混合的浓度是多少，转化运算了多少，还有多少没转化等，也就是对象及对象之间的各种转化状态，对象与对象之间是否能转化，转化的速度快慢等信息。管理的目的是提高转化速度，还是降低转化速度，以及如何保存转化等等。

1.1.2 群论理论思想

群的定义［27-28］如下：设G是一个非空集合，⋅（乘法）是它的一个二元运算，如果满足以下条件：①封闭性。对任意a、b∈G存在唯一确定的c∈G，使得a⋅b=c；②结合律。即对任意元素a、b、c∈G，都有(a⋅b) ⋅c=a•(b⋅c)；③单位元。存在e∈G，对任意a∈G，满足a⋅e=e⋅a=a，e称为单位元，也称幺元；④逆元。对任意a∈G，均存在b∈G，a⋅b=b⋅a=e（e 为单位元），则称a与b互为逆元素，简称逆元，b记作a-1，则称G对⋅构成一个群。

群G的运算若适合交换律，则称之为交换群或Abel群。交换群的运算有时用加法“+”表示，这时幺元记为0，a的逆元（也称为负元）记为-a，这种群也称为加法群。一个群如果只含有有限个元素就称为有限群，否则称为无限群。通常用 |G|表示G的元素个数，若 |G|=n，则称G为n阶群。

1.2 数学基础

1.2.1 数据和操作

数据库系统为用户提供一个数据的抽象视图，使用户不必了解数据库文件的存储结构、存储位置、存取方法等细节就可以存取数据，这个抽象视图也即数据模型［29］。通过分析上面的养分过程，可以发现整体分为3 类：①各种养分；②吸收、转化、分离3 种操作；③养分进入、转化、离开的场所—细胞。

这里把养分视为数据源，把吸收的所有养分看作是开始状态，用Tbegin表示，把最后形成的茎叶花果看作是结果状态，用Tend表示。从Tbegin到Tend需要经过对所有养分的多次多种操作才能实现，用Transformation表示操作过程，简写为T，用{nutrients}和{operates}表示。整个体系表示如下：

对于植物营养整个过程体系来说，开始的养分知道，最后的结果也知道，但是中间的操作并不知道，因此先用一元n次方程来描述，如式（2）所示：

其中，ai指数据（即养分nutrient），xi根指方程的根（即操作operate），则式（1）可以表示为式（3）：

根据植物营养理论分析，可知抽象后的操作为吸收、转化、分离3 种。因此，把式（2）和代数体系式（3）修改为式（4）和式（5）：

该方程的根为x1、x2、x3，根可以由系数的加减乘除等运算得到，系数不同根也不一样，但是根的数量是3 个。

1.2.2 群论分析

对植物的结构进行抽象描述，用茎和两个叶子来抽象简化代替，如图1 所示。其中茎A由3 个细胞对象组成，叶B由3 个细胞对象组成，叶C由3 个细胞对象组成。图中的线代表养分流动，先进入细胞，然后在细胞内转化，再流出细胞。但是由于茎和叶都是植物的一部分，是两种不同对象，因此初步定位茎能转化为叶，叶不能转化为茎，也就是茎中养分可以流入叶，但是叶中养分不能流入茎，用单向箭头描述。下面以转化为中心进行描述。

Fig.1 Abstract sketch of the structure of the plant图1 植物结构抽象简图

对于茎A来说，与细胞A1相关的转化过程包括养分从其他细胞流入A1，由其它细胞转化到A1；与细胞A2相关的转化过程包括养分从A1流入A2，由其它细胞转化到A2；与细胞A3相关的转化过程包括养分从A2流入A3，由其它细胞转化到A3。

对于叶B来说，与细胞B1相关的转化过程包括养分从其他细胞流入B1，由其它细胞转化到B1；与细胞B2相关的转化过程包括养分从B1流入B2，由其它细胞转化到B2；与细胞B3相关的转化过程包括养分从B2流入B3，由其它细胞转化到B3。

对于叶C来说，与细胞C1相关的转化过程包括养分从其他细胞流入C1，由其它细胞转化到C1；与细胞C2相关的转化过程包括养分从C1流入C2，由其它细胞转化到C2；与细胞C3相关的转化过程包括养分从C2流入C3，由其它细胞转化到C3。

通过分析，上述语言可以简化为养分从Ai转化，流出Ai，流入Ai+1，转化为Ai+1，用［AiAi+1］式子表示。

结合群论性质来分析：①封闭性。茎由茎细胞组成，对细胞、养分都具有封闭性；②结合律。（茎A1茎A2）茎A3=茎A1（茎A2茎A3），细胞与细胞之间的操作都一样，符合结合律；③单位元。茎的细胞都是由最下面的细胞向上逐渐分化形成，因此最下面的茎A1是单位元；④逆元。茎可以再生成茎，因此茎都有逆元。茎A可以称为一个群。同理，叶B、叶C都可以称为一个群。

当然，茎群与叶群是不一样的群，叶B与叶C也是不一样的群。茎群内部可以相互转化，是双向的。但是茎转化为叶的方向是单向的，也就是叶子不能转化为茎。养分进入茎A1、茎A2、茎A3的操作都是一样的，但是从茎A3进入叶C1就不一样了。

1.3 转化模型

通过上面的分析，本文提出养分空间数据转化模型，简称为空间数据转化模型或者转化模型，该模型主要用来描述微观空间的对象与其他对象之间的转化。在植物内部，养分在垂直方向做长距离运输，包括木质部运输和韧皮部运输。木质部主要由导管和管胞组成，韧皮部由筛管和伴胞组成［25］，如图2 所示。

Fig.2 Structure of xylem and phloem图2 木质部和韧皮部组成结构

通过观察养分的长距离运输，发现组成结构主要包括两个部分：一个是通路，由一个个的中空细胞构成，另外一个是旁边附属的细胞，养分就是在这样的结构中流动。结合前面分析对其作进一步抽象就得到转化模型，如图3 所示。

图3 中，（a）是前面稍作修改后的图，（b）是通过立面表格描述（a）的转化过程，（c）和（d）是对其做（a）和（b）进一步简化抽象，（e）是再做进一步代数替换，最后得到（f）和（g）就是转化模型图。其中（f）是转化模型的型，（g）是转化模型单个对象的型，而（e）是转化模型的值。

该模型由两部分构成：①附属细胞，抽象为对象转化序列，如（e）中的右部分{AA,AA1,A1A2}；②通路，如（e）中的左部分，用速度{ }V表示。其中A是该对象序列的基元。每个元素都由转化前的状态和转化后的状态组成，AA表示其转化为自己，AA1表示由前一状态A转化到现在状态A1，其他以此类推。本文把V值一样、基元一样的称为一个群，如e就称为A群。对于该群来说，群里面的3 个元素转化速度都一样，都是V（注：转化模型是立体模型，如图3 中（e）、（f）、（g）的上半部分，不过用立面来简要描述，如图3 中（e）、（f）、（g）的下半部分，全文的图都类似。彩图扫OSID 码可见，下同）。

Fig.3 Structure of SDTM图3 转化模型结构

转化模型形式化表示为：T(V,G,D,F)，其中T为转化名，V为对象转化的速度，G为该对象转化序列的基元，D为所有该对象转化状态元素构成的群，F为对象状态转化的规则集合。

2 转化模型规则

由于转化的是群，所以通常的群操作和群特性都适用，但结果可能不是群。例如，图3 中的A群和C元素组合在一起构成的就不是群，因为A2与C不是互逆的。

2.1 转化操作

转化模型包括两个部分，一个是通路，一个是对象转化序列。因此，转化操作也需要考虑两个部分，对转化模型操作的目的是提高转化速度，或者降低转化速度。下面详细分析。

2.1.1 并操作

并运算操作包括通路并操作和对象转化并操作：①通路并操作类似于物理上的同向速度比较，当两个速度相并时速度取最大值；②对象转化并操作类似于集合之间的合并，如果两个转化序列有一样的转化状态，则可以按照转化状态一样在水平方向连接；如果转化序列没有一样的转化状态，则按照基元统一在水平连接。

如图4 所示的（a）和（b），（a）是两个对象的速度和转化序列，分别表示两个群（A群和B群），各自上下转化的速度是V1>V2，各自的基元是A，B。两个通路相并的结果取大值，也就是V1。由于两个对象序列的转化状态毫无关系，因此直接在水平方向连接就行，（b）是并操作结果。

如图4 所示的（c）和（d），（c）是两个对象的速度和转化序列，分别表示两个群（A群和B群），各自上下转化的速度是V4>V3，各自的基元是A，B。两个通路相并的结果取大值，也就是V4。由于两个对象序列的转化状态有关系，基元B是由基元A的A1状态转化而来的，因此直接在A群序列的A1状态水平方向上连接，（d）是并操作结果。

Fig.4 Merging operation result of SDTM图4 转化模型的并操作结果

2.1.2 交操作

交运算操作包括通路交操作和对象转化序列交操作：①通路交操作类似于物理上的异向速度比较，当两个速度相交时，速度取最小的；②对象转化序列交操作类似于集合之间的相交，如果两个转化序列有一样的转化状态，则统一取基元连接；如果转化序列有相关的转化状态，则取两个基元及其之间的部分水平连接。

如图5 所示的（a）和（b），（a）是两个对象的速度和转化序列，分别表示两个群（A群和B群），各自上下转化的速度是V1>V2，各自的基元是A，B。两个通路相交的结果取小值，也就是V2。由于两个对象序列的转化状态毫无关系，因此直接在水平方向上连接就行。（b）是交操作的结果。

如图5 所示的（c）和（d），（c）是两个对象的速度和转化序列，分别表示两个群（A群和B群），各自上下转化的速度是V4>V3，各自的基元是A，B。两个通路相交的结果取小值，也就是V3。由于两个对象序列的转化状态有关系，基元B是由基元A的A1状态转化而来，因此直接在A群序列的A1状态水平方向连接，并保留基元A和基元B之间的部分。（d）是交操作结果。

Fig.5 Intersecting operation result of SDTM图5 转化模型的交操作结果

2.2 转化规则

根据上述知识讨论转化模型的规则要求，包括水平完整性和垂直完整性。水平是对象组合的完整性，垂直方面是转化序列，即对象转化成各个状态，详细描述如下。

2.2.1 封闭性规则

根据群论的封闭性，转化模型也应该满足封闭性，比如图5 的茎{A1,A2,A3}就体现出茎的封闭性。该群中的任意两个元素（a），（b）相互操作得到（c），则（c）也一定属于该群，这也符合现实情况。对于茎这个群来说，茎细胞转化为茎细胞，茎群对其有封闭性。对于叶这个群来说，叶细胞转化为叶细胞，叶群对其有封闭性。

2.2.2 单位元规则

从图5 可以看出，每一序列就是一个群。按照群论要求，一定存在e∈G，对任意a∈G，满足a⋅b=b⋅a=e。对于多层来说，在现实生活中往往都是有了第一层才会有第二层、第三层，因此把最下方的叫做基元，基元也就是该群的单位元，该对象的转化都是以单位元为基准进行转化的，因此该序列的其他状态都可以按照垂直方向转化为该群中的各种状态。对于转化模型来说，基元在现实中是某个对象，该对象用大写字母表示，如图6 中的A。但是在记录时，不仅要记录该对象，更要记录对象的转化状态，并且用前面的字母代表始状态，后面的字母代表终状态，如图6 中的AA表示对象是A，转化为自身A；AB表示对象是B，由A转化过来；An B表示对象是B，由An对象转化过来。旁边的蓝色表示该群序列转化的速度。

Fig.6 Identity element of SDTM图6 转化模型的单位元

2.2.3 逆元规则

虽然在现实世界中时光是无法倒流的，但是在计算机数字世界中却可以往返倒回去，这里用逆元表示这种情形。图6 中每一序列就是一个群，对于任意a属于G，存在b属于G，a⋅b=b⋅a=e（e为单位元），则称a与b互为逆元素，简称逆元，b记作a-1。因此，该序列的每个状态都有逆元，这样整个序列之间就是上下联通的。如图7 所示，左边方向是双向的，则互为逆元，即一个群；而右边是单向的，则不是逆元，即两个群。图6 中AA是一个群，而AB是两个群，不互为逆元。

Fig.7 Inverse element of SDTM图7 转化模型的逆元

2.2.4 结合律规则

由于转化模型是描述水平方向和垂直方向上的转化，因此不管在水平方向还是垂直方向，都必须一个对象一个对象地通过，不能颠倒，也就是要符合群的结合律要求，即对任意元素a、b、c∈G，都有(a⋅b) ⋅c=a•(b⋅c)。

3 案例研究

以现实生活中的一个简单案例来描述转化模型，如图8 所示。整幅图代表一个学校（School），红色的代表学校围墙，Tree 为校园的一棵树，包括树干（trunk）和两片叶子（leave），building 为一个5 层楼房。学校建在土地上（land），树木占据一部分土地，与树木接壤的是土壤（soil）；楼房也建在土地上，与楼房接壤的是一部分土地或者土壤（soil）。

Fig.8 Simple map of the school图8 学校简图

3.1 集合角度

从集合角度分析，School 包括围墙及与围墙接触的土壤，树木及与树木接触的土壤，楼房及与楼房接触的土壤，严格来说这些才是学校的范围，而土地并不属于学校。其中树木包括一个茎和两片叶子，茎包括4 个细胞，每个叶子都包括3 个细胞，楼房包括两列5 层。

School=｛｛围墙，土壤｝，｛围墙，土壤｝，｛树木，土壤｝，｛楼房，土壤｝｝；

Tree=｛树干，叶子，叶子｝；trunk=｛茎细胞，茎细胞，茎细胞｝；leave=｛叶细胞，叶细胞，叶细胞｝；

building=｛楼，楼｝；楼=｛屋，屋，屋，屋，屋｝。

3.2 群论角度

从群论分析，图中的School 是一个群，只有一层，是一个基元。围墙也是一个群，只有一层，是一个基元，另外一个围墙也一样；树木是一个群，只有一层，是一个基元；建筑是一个群，只有一层，是一个基元；土壤是一个群，只有一层，是一个基元。

其中，茎是一个群，有4 层，一个基元、3 个转化状态；叶子是一个群，有3 层，一个基元，两个转化状态；楼是一个群，有5 层，一个基元，4 个转化状态。按照前面的模型要求分别表示为图9 所示。

Fig.9 SDTM of building，stem，leaf and soil图9 楼、茎叶、围墙和土壤的转化模型结构

3.3 转化模型

根据前面转化模型操作，对案例中的各种转化模型进行合并。

（1）左楼与右楼的并与交。左楼和右楼都是建筑，是一种对象。速度一样(V1=V2)，但是右楼并不是由左楼的某层转化而来，因此合并和相交后的转化模型见图10。由于左楼是建筑的一部分，右楼也是建筑的一部分，合并后把建筑的内容扩大了。又因为左楼属于建筑，右楼也属于建筑，相交后，两个共性只有属于建筑这一点，而建筑从外部整体来说只有一层，所以只取基元。因此，两个相交其实等于建筑的转化，当然建筑只有一层转化而已。

Fig.10 The operation results of buildings图10 楼的操作结果

（2）茎与叶的并与交。因为茎可以转化为叶，图8 中左边叶子是由茎的第3 个细胞转化得到，右边叶子是由茎的第2 个细胞转化得到，先将叶模型修改。另外，茎的转化速度大于叶的转化速度，两个叶子的转化速度一样(V3>V4,V3>V5,V4=V5)。并操作取最大速度，交操作取最小的速度。由于茎和叶存在转化关系，所以两类的交操作就取两类基元和基元之间的操作，结果如图11 所示。

Fig.11 The operation results of stem and leaf图11 茎与叶的操作结果

（3）植物与建筑的并与交。因为植物和建筑两个无关，没有相互转化关系，速度(V1>V3)。因此，按照前面转化模型要求，得到植物与建筑的并操作结果和交操作结果，如图12 所示。

Fig.12 Operation results of plant and buildings图12 植物与建筑的操作结果

（4）学校由围墙、植物、建筑构成并和交的操作。假设围墙转化的速度大于建筑转化的速度大于植物转化的速度，则4 个并操作取速度最大的，也就是围墙转化的速度V6，或者V7；4 个交操作取速度最小的，也就是植物转化的速度V3，结果如图13 所示。

Fig.13 Operation results of walls，plant and buildings图13 围墙、植物与建筑的操作结果

（5）学校的结果。学校包括围墙、植物、建筑。从内部考虑学校的最终结果有两种：①内部各转化序列的并结果；②内部各转化序列的交结果，如图14 所示。

Fig.14 Operation results of School’s SDTM图14 学校的转化模型操作结果

3.4 结果讨论

通过前面的转化模型操作，从物体内部考虑最终得到学校内部描述的两个结果，一个是并结果，一个交结果。并结果取最大速度，包括内部每个转化状态，整体非常完整、全面，当然这种转化结果是最好的。而交的结果则速度比较慢，内部状态只包含基元以及基元之间的转化状态，也就是只保留关键状态及信息。这样虽然花费时间较多，但是依靠关键信息最终也会逐渐转化为完整状态。

目前GIS 空间数据模型的第三维（高程h）是用数值（如树高5m）作为属性表示，这是对物体外部测量的结果。从物体内部看，第三维是一点一点变高形成（如树是由细胞经过多次转化）的结果，因此转化模型可以通过描述物体内部对象的转化，对内部空间要素进行管理生成，以此实现外部看到的第三维（高程）。或者提高转化速度快速形成，或者降低转化速度缓慢形成，为微观GIS 和三维GIS 的发展提供帮助。另外在长高过程中，虽然细胞的转化数量非常巨大，但细胞的种类是一定的，所以可以应用转化模型的理论规则，以有限的种类通过计算机实现自转化和自生成，达到无限的巨大数目，实现植物、动物的自生长，或者所有状态都转化为自生长，或者只有关键信息转化为自生长。

4 结语

地理信息系统的核心是空间数据模型。随着GIS 与各学科越来越多的交叉融合，GIS 不仅用于宏观尺度、中观尺度的空间管理，也用于微观尺度的空间管理［30］。本文以多学科交叉融合为思路，植物营养学思想为基础，植物内部空间的养分微观管理为目的，借助抽象代数的群论理论，描述了微观空间的对象转化，以此为基础构建新一代数据模型——空间数据转化模型，对转化模型概念、操作和规则作了初步分析。当然本文还存在一些不足，如微观GIS的内部空间水平转化与垂直转化、自生长的时间与规则、自存储的时间与方式、转化模型的物理存储和程序编写等都需要继续深入研究。随着科技的发展，微观GIS 将会进入生命内部空间，广泛应用于人体、动物、植物的疾病诊断、治疗管理等方面，为生命健康、社会发展作出贡献。