分享
UN_Comtrade数据共享平台设计与实现_叶思菁.pdf
下载文档

ID:200429

大小:2.60MB

页数:9页

格式:PDF

时间:2023-03-07

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
UN_Comtrade 数据 共享 平台 设计 实现 叶思菁
UN Comtrade 数据共享平台设计与实现*叶思菁1)宋长青1,2)程昌秀1,2)高剑波1,2)高培超1)胡洛铭2)(1)北京师范大学地表过程与资源生态国家重点实验室,100875,北京;2)北京师范大学地理科学学部,100875,北京)摘要UNComtrade(UnitedNationsinternationaltradestatisticsdatabase)是全球最大且应用最为广泛的国际贸易数据库,具有高权威性与完整性.本文在框架体系结构设计与数据表结构设计基础上构建 UNComtrade 数据共享平台,以期为地理学研究提供数据与工具支撑.在数据聚合策略方面,平台通过综合集成数据爬取、加载模块并嵌套多种错误修正方法,实现 5 亿多条商品贸易记录的动态高容错聚合.在检索策略方面,平台通过分区复合索引提升数据检索指令执行效率与可扩展性.检索试验表明,平台能够在 80 用户并发模式下稳定执行不同类型检索指令,并且通过调用ODBC/JDBC 接口将计算过程融入检索任务,可以更加有效利用服务器端资源并节省数据传输与读写耗时,具有效率更高、简化数据处理过程等优点.2017 年平台被应用于中-美商品显性比较优势特征检索-计算-格网化表达-对比分析,案例表明平台具有高效、稳定的并发检索效率,以及高可扩展性等优点,可以为贸易特征计算与分析提供便捷快速、形式多样的数据共享服务.关键词国际贸易;大数据;格网;显示性比较优势指数;地理信息系统中图分类号K902DOI:10.12202/j.0476-0301.2021279 0 引言当今全球化时代,各国通过签署双边贸易协定,以不同形式参与经济一体化,贸易成为影响现代社会政治、经济、科技、文化、民生与国家安全的重要因素.双边商品贸易数据在分析国家间贸易竞争与合作态势以及解析全球生态系统服务流动格局等方面发挥越来越重要的作用.UNComtrade 数据库(UnitedNationsinternationaltradestatisticsdatabase)是全球最大且应用最为广泛的国际贸易数据库,具有高权威性与完整性.每年全球超过 200 多个国家或地区分别以记录国(reporter)的角色向该数据库汇交它们与其他贸易伙伴国家(partner)的年度商品(或服务)贸易额分类统计数据.汇交过程中,这些数据记录被基于联合国 统 计 司 统 一 标 准 规 范 执 行 分 类 编 码(例 如 HS、SITC、BEC 等)与核算.发展至今,UNComtrade 数据库存储记录总量超过 30 亿,记录日期可以追溯到1962 年.UNComtrade(http:/comtrade.un.org)为 众 多 不 同领域研究做出了重要贡献.1)UNComtrade 为丰富贸易理论,加强贸易系统规律及其驱动因素认知提供数据支撑.例如:Fadeyi等1利用引力模型的泊松伪极大似然规范,评价自由贸易协定(FTA)对南非农业贸易的影响;Veninga 等2基于 UNComtrade 数据研究埃及国内政治不稳定对小麦贸易的影响.此外,部分研究分析了 FTA 对欧洲农产品贸易特征3,拉丁美洲出口多样性4的影响.2)UNComtrade 为国际贸易特征计量方法的发展提供了应用指导.复杂网络分析方法与复杂性理论为揭示贸易关系的内在结构与演变,以及贸易伙伴之间相互依赖关系提供研究范式.大部分相关研究是以国家(或地区)为节点,以贸易流为边,以贸易特征(例如贸易额、显示性比较优势指数)为权重,构建网络以表达特定类别产品在不同国家之间的贸易关系及其驱动因素58.例如:Dong 等5构建小麦贸易竞争网络,分析气候变化对全球小麦贸易流动的影响,进而提出一个政策框架以促进小麦贸易环境的健康稳定;Ermann 等67提出,贸易网络具有生态网络的典型特征,即高度嵌套性,并构建国家间多产品世界贸易的 Google 矩阵以分析贸易流特征.针对网络分析中产品种类数受限问题,部分研究提出通过构建多层网络增加贸易产品数量810.另一方案是通过二分网络模型表达众多类别产品之间的关系1112.其中代表性研究是 Hidalgo 等13在 2007 年提出了“产品空*第二次青藏高原综合科学考察研究资助项目(2019QZKK0608);国家自然科学基金资助项目(42171250,41901316)通信作者:宋长青(1961),博士,教授.研究方向:地理区域综合研究、全球化与地缘关系等.E-mail:收稿日期:2021-11-192022-12北京师范大学学报(自然科学版)58(6)JournalofBeijingNormalUniversity(NaturalScience)963间”的概念,设置可以串联生产的产品(即“生产过程需要近似的生产部门、基础设施、物理因素、技术工艺等”的产品)在二分网络中的近邻分布.在此基础上,将国家和产品之间的联系纳入“产品空间”网络,评价国家生产结构的复杂性1415.其他被广泛应用的计量方法还包括引力模型3,1617、聚类模型18等.3)UNComtrade 为描述全球贸易格局与变化过程提供重要支持.众多研究提出众多指数来评估不同国家间特定商品或产业链的贸易关系(例如比较优势、互补性、相似性、技术复杂性等).例如:Zheng等19计算并比较了 30 个国家新能源产品技术复杂度指数及其区域异质性;Cao 等20评估了中国出口环境类产品技术复杂性的演变及其在国际产业价值链中的地位;Hao 等21分析了铁矿石进口竞争格局、进口竞争区域和主要进口国的总体特征;Ye 等22应用显性比较优势指数分析了中美商品贸易的竞争格局.4)UNComtrade 以其全球化视角被越来越广泛地应用于地理学研究,为全球生态保护2123、水-能源-食物-土地系统认知2326、污染防治2728、能源管理2931及国家安全32等其他主题研究提供重要数据支撑.Moran 等33计算了不同国家在各自贸易伙伴边界内的生态足迹;类似的方法也被用于分析 19 世纪美国和英国之间主要农产品贸易生态足迹25.为丰富全球电子垃圾的概念和政策,Lepawsky27从 19962012 年超过 9400 份贸易报告中,量化了 206 个国家之间的电子垃圾贸易的规模和方向.Dalin 等26将农产品贸易量与省级农产品虚拟水含量估算相结合,构建了中国国内外虚拟水贸易网络,并分析虚拟水流动格局及其节水效益.Meyfroidt 等24提出评估国家植树造林工程及其对碳减排的贡献应综合考虑隐藏在农林业产品贸易背后的森林砍伐与耕地开垦转移,并计算净木材贸易对国家植树造林碳减排效益的抵消比率.Chen 等29利用 UNComtrade 能源贸易数据,从相关性、多样性、国际关系影响等方面评估哈萨克斯坦和土库曼斯坦(出口国)、吉尔吉斯斯坦(进口国)的能源安全.在数据共享方面,UNComtrade 数据库集成开放了基于应用程序界面互操作和基于 JSON/XML 应用程序接口等不同形式的共享方案,但在实际共享应用中存在限制:首先,全球贸易研究往往涉及多国家间大量不同类型商品长时间序列进出口额数据记录,基于 webservice 的数据共享方式随着查询结果增加而趋于不稳定;其次,共享方案中预先设定产品类型、年份、reporter、partner、商品/服务编码、贸易流种类等若干种检索因素,简化共享互操作的同时也限制了检索条件的扩展与优化(例如用户难以在检索过程中集成分组、排序及聚合函数),并使得贸易特征计量模型难以与共享方案集成应用.这些不足在涉及大量地理要素时空格局与过程研究中表现得尤为突出.针对上述问题,本文在设计框架体系结构与数据表结构基础上,基于 ORACLE 数据库管理系统构建UNComtrade 数据共享平台,以期为相关领域研究提供数据与工具支撑.平台基于 Python3.6(集成Scrapy1.5.2)框架研发贸易数据自动化聚合组件,并通过分表策略与开放 ODBC 接口提升数据检索指令执行效率与可扩展性.实际应用表明,平台具有动态稳定更新、高并发检索效率、高可扩展性等优点,可以为贸易特征计算与分析研究提供更为便捷快速、形式多样的数据共享服务.需要说明的是,平台仅聚合年度双边商品贸易记录,不包含 UNComtrade 数据库中服务贸易或月度贸易记录等其他数据集.1 平台框架体系结构考虑到平台低耦合、高灵活性与易维护性的要求,UNComtrade 数据共享平台应用分层体系结构3436,包括基础设施层、数据层与应用层,各层在下一层提供的功能与服务基础上构建,解决问题的一部分并为上一层提供功能与服务接口,如图 1 所示.由于双边贸易数据的结构化特征,基础设施层服务器端侧重纵向扩展,并应用万兆网络保障物理传输性能;数据层部署于 Linux 操作系统上,基于 Oracle 数据库管理系统构建混合存储模式,包括应用关系型数据表存储管理双边商品贸易数据集,并结合文件系统存储原始数据、备份文件与共享数据.此外通过开放不同形式的访问接口,SQL 功能可以被直接应用于设计检索指令;应用层由一个数据更新节点与若干应用客户端组成,数据更新节点基于 Python3.6&Scrapy1.5.2 执行数据爬取解析核查加载过程并根据数据层反馈指令动态调整计算任务,应用客户端兼容JAVA,.NET等不同计算环境,向数据层发送检索指令并接收相应查询结果数据.2 数据表结构设计平台数据表逻辑结构如图 2 所示,其中:1)MTRADE_TRADEDATA 为核心数据表,每条记录表示在特定年份(YR),单一 reporter(RTCODE)与 partner(PTCODE)间对于某种商品(CMDCODE)基于特定贸易关系(RGCODE)的贸易额(TRADEVALUE)、贸 易 数 量(QUANTITY)与 商 品 净 重(NETWEIGHT)等.例如,中国(RTCODE)与美国(PTCODE)间对于964北京师范大学学报(自然科学版)第 58 卷大豆(HS4 位编码:1201,CMDCODE)进口(RGCODE)的贸易额.2)COMTRADE_COUNTRYCODE 与 COMTRADE_HSCODE 为外键表,分别用于存储不同版本的 HS 商品种类编码信息与国家信息.3)COMTRADE_HISTORY 用于存储贸易数据下载信息,每条记录对应一次下载任务,URL 下载指令与下载结果数量分别存储于字段 RECORD 与 DWNNUM.4)临时数据表TEMP_TRADEDATA 与COMTRADE_TRADEDATA 表结构一致,下载记录则被解析、加载到临时数据表中,经过检测无误后转移到核心数据表;如存在错误则回滚下载过程,自动修正下载指令并重新执行.3 平台关键技术3.1 数据聚合策略针对 UNComtrade 数据难以稳网络:16G FC networkCPU:Xeon 6244,3.6GHz,8C/16T,10.4GT/s*4;内存:1152 GB;硬盘:900 GB 15KRPMSAS*30+960 GB SSD*2;网卡:双口万兆网卡10 GB Base T/SFP*2;Application client应用客户端Update node数据更新节点指令数据指令数据指令数据指令数据数据指令操作系统:CentOS 7.264数据库管理系统:Oracle 12c+ASM&grid UN Comtrade Dataset1)原始数据2)备份文件3)共享数据接口与中间件:SQL/JDBC/ODBC/ADO.NET/PYTHON数据服务器应用层基础设施层数据层图 1 UN Comtrade 数据共享平台框架体系结构数据表名称:TEMP_TRADEDATA字段名称字段含义数据类型约束IDID 标识符NUMBER(20,0)主键YR贸易年份NUMBER(6,0)非空HISID更新记录标识符NUMBER(20,0)外键数据表名称:COMTRADE_TRADEDATA字段名称字段含义数据类型约束条件IDID 标识符NUMBER(20,0)

此文档下载收益归作者所有

下载文档
收起
展开