为您找到与logistic人口模型matlab数据拟合相关的共200个结果:
今天读文网小编要与大家分享的是:Logistic人口预测模型的SPSS拟合方法分析相关论文。具体内容如下,欢迎阅读与参考:
Logistic人口预测模型的SPSS拟合方法分析
Logistic模型为荷兰数学家及生物学家Verhulst.Pearl在修正非密度方程时提出,其目的为研究受到生存资源制约的情况下生物种群的增长规律。在Logistic模型中,有限空间内种群不能无限增长,而是存在着数量上限。由于自然资源、环境条件等因素对种群的增长起着阻滞作用,并且随着种群数量的增大,阻滞作用逐步增大,即实测增长率是一个减函数,且随着种群数量的增大而减小,当种群数量趋于上限时,种群增长亦趋于稳定。由于Logistic阻滞增长模型所需的数据少,计算简单,对中短期时间内的种群数量预测较为准确,亦常应用于人口预测方面。
如上文述,人口增长率为以人口数量x为自变量的函数r(x),这里r(x)为减函数。假设r(x)= r ?Sx,S>0,这里r为初始值r(),即当人口无生存环境和资源限制时的固有增长率。当人口数量达到人口最大容量,将有r()=0,此时人口达到稳定状态。由线性关系r()=r-S,可得S=r/。假设x是时间t的函数x(t),从而有解变量可分离方程。
通过模型方程(Ⅰ)可知,Logistic模型拟合的重点为参数和的确定。下采用两种SPSS软件的回归拟合方法,利用1990-2010年人口调查数据(如表1)进行人口数量的预测。
(一)非线性回归(Nonlinear Regression)拟合
在SPSS(SPSS19.0)的变量视图中定义两变量人口数量x及年份t,在数据视图中由上而下录入人口数据(如图1所示)。
在菜单栏依次选择分析(Analyze)―回归(Regression)―非线性估计(Nonlinear),打开非线性回归窗口。将年末总人口[x]送入因变量一栏,在模型表达式输入框中输入模型公式
A/(1 +(A / 114333 - 1)* Exp(- r *(t - 1990)))(如图2)。此处以A代替人口最大容量,由于时间以1990年为初始年份,原方程中的t转为t-1990。选择“参数”项进行参数A和r初始值的设定(如图3),这里A初始值选择人数中的最大值134091(万人),r的初始值选择1991年的人口增长率0.013,“使用上一分析的起始值”一栏选中,单击“继续”。单击“保存”项,打开对话框如图4,选中预测值和残差项,便于检验模型方程的拟合效果,选择“继续”返回非线性回归窗口,选择“确定”运行。在输出(Output)窗口中,可以得到参数A的迭代计算过程、参数估计等内容。由参数估计得参数估计值,=0.0675。R2=1.000。
(二)曲线估计法
采用SPSS的曲线估计进行模型拟合,须先求参数。对估计的方法很多,这里采用三点法进行求取。
选择分析(Analyze)―回归(Regression)―曲线估计(Curve Estimation),打开曲线估计窗口,将年末总人口[x]和年份[t]分别送入因变量和自变量输入框,在“模型”区选中Logistic,在上限一栏填入142515.5576,在“保存”对话框中选中预测值和残差,其他依照默认选择。选择“确定”。
从可决系数R2来看,两种方法所得拟合方程的R2均得1,则两种方法对Logistic人口预测模型的拟合性都很好。分别用两种方法所得方程对2011年和2012年的年末人口数进行估计,结果如下表1。可以看出,曲线估计的拟合相对较好。
考虑二者操作的简便性,前者的拟合性不依赖于A、r初值的选取(选取失当会影响迭代过程所需时间),可靠程度较好,后者则需要利用其它方法预估的值,最终所得方程的拟合性很大程度上亦依赖于的取值。
浏览量:2
下载量:0
时间:
数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。以下是读文网小编今天为大家精心准备的:OLAP融合于数据挖掘之模型构建相关论文。内容仅供阅读与参考!
OLAP融合于数据挖掘之模型构建全文如下:
本文提出的OLAM模型对OLAP中数据立方体和星型模式的概念分别进行了拓展,涵盖问题的整个搜索空间,能够比较全面地反映多维数据挖掘的实质.下面描述相应的理论方法、基本权标和数据结构.
1.1从数据立方体到影响域
本文在OLAM模型中引进基本权标:影响域(influencedomain).影响域与多维空间的数据立方体在逻辑上是等价的.但立方体上计算的是聚合(aggregation),而影响域上计算的是蕴涵(implication),即数据中隐藏的模式.影响域同立方体一样具有属性和值,不同点在于它具有置信度(confidence).
立方体将维映射至度量,而影响域将维和度量映射至置信而影响域将度.一个影响域可视为一个函数,其映射关系从维和度量映射至一置信度级别.影响域可视为是广义概念上的数据立方体空间,因为影响域的大小通常比数据立方体要大得多,OLAM分析常常在更细的粒度上分析更多的维,或对多个特性之间的关系进行探索.由于每次重新计算的代价太昂贵,所以需要在比星型模式存储有更多的聚合的模式上进行,即采用下一节所提出的旋转模式.为了“遍历”整个影响域,需要将OLAP运算与影响性分析交叉.可以看出,影响域的操作可在多维和多层次的抽象空间中进行,有利于灵活地挖掘知识.而文献〔3,4,5〕的操作是基于数据立方体的多维数据挖掘,包含在基于影响域的操作之内,是其中的特例.影响域概念可用面向对象的思想描述,这样有助于生成一个较好的结构化的框架.影响域包含六个主要特性:(1)基本维(类);(2)属性;(3)对象或实例;(4)层次;(5)度量;(6)蕴涵.其中,基本维是一种高层次的类型划分,如产品、客户等.每个类/维具有一属性集合,如产品维具有属性价格、颜色等.每个类/维有对象或要素作为实例,对象的每个属性具有一个值.在类和属性内存在层次,例如,对类来讲,商标类是产品的父类;对属性来讲,属性集合地区,城市,省}是一个层次.度量是在维形成的空间上的计算.蕴涵是在维和度量形成的立方体空间上的计算.
1.2从星型模式到旋转模式
从面向对象的角度来看,数据立方体与影响域的特性不尽相同,包含基本维(类)、属性、对象或实例、层次以及度量这五个特性,OLAP的星型模式通常直接映射在该对象结构中.星型模式每个维表都可看成一个对象,对象的属性代表在维表中的列,度量在各个维构成的空间上进行计算.图1给出一个星型模式的例子,包含四个基本维:商店维、客户维、产品维和定货维,中央的事实表中存有度量和各个基本维的码值.星型模式是用来处理聚合运算的,该模式能很好地用于OLAP,但它本身不带数据挖掘功能,不能用于OLAM,因此需要将星型模式作相应扩展.
在对影响域进行分析的过程中,通常将分析焦点聚焦在星型模式中的维表上(如产品或商店,如图1所示).由于在分析中要用附加的聚合或选择的数据项以丰富维表内容,因此对于每个库表来说,需要比星型模式存储更多的数据.分析的焦点在各个维表之间不断转换,例如从客户维转换至商店维再到产品维等等,可以看作是焦点在绕着星型模式旋转,因此,本文引入“旋转模式”的概念,将OLAM的分析结构命名为旋转模式.图2显示出与图1中星型模式所对应的旋转模式的例子.旋转模式的中心存储的是影响域的蕴涵,外围是各个维表的码值以及聚焦度量和其它度量,四周呈辐射状的是各个维表.
在执行影响域分析时,焦点沿着不同的基本维(或类)旋转,在维和度量形成的广义数据立方体空间上执行蕴涵运算对应于图1的旋转模式的例子如图3所示,旋转模式中的库表具有五个主要部分:(1)中的库表具有五个主要部分聚焦维;(2)聚焦度量;(3)内部属性;(4)外部属性;(5)非聚焦度量.聚焦维代表当前分析焦点所在的基本维,如图2所示的客户维;聚焦度量代表用户关心的度量,如利润;内部属性是聚焦维中的属性,如客户年龄等;外部属性是非聚焦维中的属性,如某客户最喜爱的产品颜色等;非聚焦度量是用于辅助决策的度量,如某客户平均一次购买的商品的数目.由此可以看出影响域中的存储模式与OLAP是不同的.
OLAM机制具有交互的特性,而且求蕴涵函数的计算代价比较昂贵,因此在大型数据库或数据仓库中实现OLAM机制的关键是解决快速响应和有效实现的问题.必须考虑如下因素:
2.1快速响应和高性能挖掘
OLAM若想获得快速响应和高的性能,会比OLAP困难,因为数据挖掘的计算代价通常比OLAP昂贵.快速响应对于交互式挖掘是致关重要的,有时为了得到快速响应甚至可以牺牲精度,因为交互式挖掘能一步步引导挖掘者聚焦在搜索空间并查找越来越多重要的模式.一旦用户能限定小的搜索空间,就可调用更高级的而速度较慢的挖掘算法进行细致分析.可考虑采用逐渐精化数据挖掘质量的OLAM方法:首先在大数据集上用快速挖掘算法标识出感兴趣的模式/区域,然后用代价较高但较精确的算法进行详细分析.
2.2基于数据立方体的挖掘方法
基于数据立方体的挖掘方法应该是OLAM机制的核心.基于立方体的数据挖掘已经有很多研究,包括概念描述、分类、关联、预测、聚类等.基于立方体的挖掘继承了关系型或事务型数据挖掘方法的思想,并具有许多特性.在基于立方体的有效挖掘算法领域需要更多的研究.高性能数据立方体技术对OLAM很重要.由于一个挖掘系统需要计算大量维之间的关系或详细细节,这样的数据不可能都预先实体化,有必要联机动态计算数据立方体的一部分.另外,多特性数据立方体的有效计算,以及支持具有复杂维和度量的非传统的数据立方体,对有效地数据挖掘都很重要.因此,需进一步开发数据立方体技术.
2.3选择或添加数据挖掘算法
关系型查询处理能用不同的处理途径对同一查询生成相同的答案,但是采用不同的数据挖掘算法可能会生成显著不同的挖掘结果.因此,提供多种可选的数据挖掘算法很重要.另外,用户也许想自己开发一个算法,如果提供标准开放的API,而且OLAM系统经过很好地模块化,用户就有可能增加或修改数据挖掘算法.用户定义的数据挖掘算法可以较好地利用一些开发良好的系统构件以及知识可视化工具,并与已有的数据挖掘功能合成.因存在有多个数据挖掘功能,如何在某一具体应用中选定合适的数据挖掘功能是一个问题,必须熟悉应用问题、数据特征以及数据挖掘功能的作用,有时需要执行交互探索式分析来选择合适的功能.因此,建造探索式分析工具以及构建面向应用的语义层是两个重要的解决方案.OLAM提供探索式分析工具,进一步的研究应该放在为具体应用自动选择数据挖掘功能上.
2.4在多个数据挖掘功能之间交互
OLAM的优势不仅仅在于选择一系列的数据挖掘功能,也在于在多个数据挖掘和OLAP功能之间交互.例如首先切割立方体的一部分,基于一指定的类属性将该部分分类并查找关联规则,然后下挖在更细2.5可视化工具
为了有效地显示OLAP挖掘结果并与挖掘处理交互,开发多种知识和数据可视化工具很重要.图表、曲线、决策树、规则图、立方体视图、boxplot图等是描述数据挖掘结果的有效工具,帮助用户监测数据挖掘的过程并与挖掘过程交互.
2.6可扩展性
OLAM系统与用户及知识可视化软件包在顶端通讯,与数据立方体在底端通讯.它应该高度模块化,并具有可扩展性,因为它可能会与多个子系统合成并以多种方式扩展.应该扩展OLAP挖掘技术至高级的和/或特殊用途的数据库系统,包括扩展的关系型、面向对象的、文本、空间、时间、多媒体和异种数据库以及Internet信息系统.对复杂类型的数据,包括结构化、半结构化和非结构化数据的OLAP挖掘也是一重要的研究方向.
2.7做书签和回溯技术
OLAM借助于数据立方体导航,提供给用户充分的自由,运用任一数据挖掘算法序列来探索和发现知识.当从一个数据挖掘状态转换至另一状态时常常可有很多选择.可做个书签,如果发现一个路径无意义,就回到原先的状态并探索其它的方法.这种做标记和回溯机制防止用户“迷失在OLAM空间”中.
利用OLAM模型沿着多个维进行挖掘,观察沿着这些维的模式,进行合并,并以智能的方式与用户进行交互,可以在多维数据库的不同的部位和不同的抽象级别交互地执行挖掘.它有如下优点:
(1)便于交互式探索性的数据分析.有效的数据挖掘需要探索性的数据分析功能〔6〕.用户常希望灵活地遍历数据库,选择任一部分的相关数据,在不同的抽象级别上分析,并以不同的形式表示知识/结果.OLAM便于对不同的数据子集在不同抽象级别上进行数据挖掘,这连同数据/知识可视化工具将大大加强探索性数据挖掘的能力和灵活性.
(2)联机选择数据挖掘功能.事先预测挖掘何种类型的知识是困难的,对于用户来讲,常常不知道想挖掘什么样的知识.通过OLAM模型将OLAP与多个数据挖掘功能结合,用户可以灵活选择所需的数据挖掘功能,并动态交换数据挖掘任务.本文所提出的OLAM模型的理论方法、基本权标和数据结构将数据挖掘和OLAP技术结合在一个统一的框架之中,大大加强了决策分析的功能和灵活性.该模型有助于在大型数据库和数据仓库中交互式地挖掘多层次的知识,是一个很有前景的方向.
1 E.F.Codd, S.B.Codd, C.T.Salley. Beyond decision support.〔J〕Computerworld, 27(30), July 1993
2 Usama M Fayyad, www.51lunwen.com/database/ Gregory Piatetsky-Shapiro et al. Advances inknowledge discovery and data mining.〔M〕California: AAAI/MIT Press, 1996
3 J.W.Han. Towards on-line analytical mining in large databases.〔R〕ACM SIGMOD Record, 1998. 27:97~107
4 J. W. Han, S. Chee, and J. Y. Chiang. Issues for on-lineanalytical mining of data warehouses.〔C〕Proc. of 1998SIGMOD’96 Workshop on Research Issues on Data Mining andKnowledge Discovery (DMKD’98), Seattle, Washington, June1998
5 J.W.Han. OLAP Mining: An Integration of OLAP with DataMining.〔C〕Proc. 1997 IFIP Conference on Data Semantics (DS-7), Leysin, Switzerland, Nov. 1997. 1~11
6 M.S.Chen, J.W.Han, and P.S.Yu. Data mining: an overviewfrom a database perspective.〔J〕IEEE Transactions onKnowledge and Data Engineering, 1996. 8(6): 866~883
浏览量:2
下载量:0
时间:
美国人口咨询局定义迁移为:所谓迁移,就是人们以半永久性或永久性居住为目的,并进行距离较长的地理迁移。今天读文网小编要与大家分享的是:影响我国人口迁移统计数据质量的原因分析相关论文。具体内容如下,欢迎阅读与参考:
影响我国人口迁移统计数据质量的原因分析
现阶段,我国主要存在两种人口统计数据来源途径。其中一种为统计人口普查与抽样调查。可靠详实的人口统计数据,是对人口形势与科学决策进行正确判断的前提与基础;另一种则是日常统计工作报表,像计划生育部门的节育与生育统计、公安部门人口户籍变动统计等。由于统计制度的健全与完善,极大的提高了我国人口统计数据质量与统计水平,然而,也存在我国人口统计数据不准确与不可靠现象,本文主要对影响我国人口迁移统计数据质量的原因进行分析,并提出相应的解决对策。
1.1模糊的人口迁移概念
所谓人口迁移,其实就是人口在一定时间、空间内所发生的大规模移动现象,基于人口迁移有着较为复杂的界定,时期与职能部门的不同,对迁移人口界定也存在一定差异性,期称谓也较为杂乱。
多样的称谓。现阶段,我国很多关于人口迁移的文献与研究文案中都有关于迁移的文学术语,常见的人口迁移包括:暂时性迁移、非户籍迁移、流动人口、永久性迁移、户籍迁移以及暂住人口等,这些称谓都可以从一定角度对人口迁移进行定义,而且各定义间具有相互融合现象,像户籍迁移与永久性迁移其实就有着某种交集,而两者又具有一定差异性,根据人口学定义,移居迁入地一年以上为永久性迁移。
不统一的人口迁移时间限定。根据全国性人口普查,我国在1987年的1%人口抽样调查,并未对迁移实施时间限定,而全国人口普查在1990年限定迁移时间为迁移原住地超过1年,之后的中国人口普查中,更改一年的迁移时间至半年。此外,在某一地区的公安部门明文规定,离开原居住地超过3日就被定位迁移性人口,出发于自身工作需求,计生部门紧紧统计到达现住地或离开原住地超过30日的外迁人口。
分散的人口迁移空间限定。人口抽样调查和人口普查中,对我国迁移人口来源地进行全面调查,1990年全国性人口普查、人口抽样调查,人口来源地进行细化调查,使其细化到县、区、市,近年来,我国人口普查进一步细化,开始对乡镇街道一级进行普查,跨县迁移是对县市区一级进行统计,而在调查现住地方面仍然比较混乱。1995年人口抽样调查与1990年人口普查,调查现住地是细化至县市区一级,近年来,我国人口普查调查中,也对乡镇街道一节进行了细化调查。全国户籍管理中,相关公安机关只要有户口变动,那么就会有登记。
因此,对于户籍人口迁移来源地和现住地,都可以进行基层户籍登记地的细化。针对暂住人口的等级,可细化其来源至市级、县级,不存在现住地统计信息。计划生育部门流动人口管理系统中,并没有涉及到区、县内的迁移,对于跨县迁移需要达到乡镇街道一级的细化,对于现住地的调查也可达到乡镇街道一级的细化。
1.2人口迁移不统一数据采集内容
通常全国人口普查与人口抽样调查均为专门组织的调查活动,由于该调查本身极具特殊特性,且对人口资料的搜集相对也比较全面,所?项目比较多。自我国展开1%人口抽样调查之时,对人口迁移资料进行搜集的过程是不断发展变化的过程,这个过程既表现在选取调查项目中,同时还在调查内容方面体现出来。虽然人口计生部门和公安部门从其工作职责出发,他们所调查的人口迁移信息要比1%人口抽样调查和人口普查信息小很多,然而,相对来说,在涉及我国人口迁移统计内容及项目方面,公安部门要比计生部门少,这种不统一的人口迁移统计数据采集内容,最终会导致人口迁移统计数据质量差。
2.1对人口迁移概念予以明确
因为不断完善的国外覆盖全国社保体系,也未受限于户籍制度,因此,国外在定义人口迁移时较为纯粹,比如,美国人口咨询局定义迁移为:所谓迁移,就是人们以半永久性或永久性居住为目的,并进行距离较长的地理迁移。要求对人口迁移予以界定时,要尽可能的与国际相接轨,另一方面,要尽量从人口学角度对迁移目的属性、空间属性与时间属性进行考虑,而且还要考虑到迁移后的户籍制度。根据现阶段我国人口有着多样的迁移称谓,必须进一步规范于统计实践中,因为各人口迁移称谓使用频率,可以定义为:在不同地区间的人口移动或者流转,都被叫做人口迁移。
根据我国户籍制度,对我国几次较大规模人口迁移普查与调查进行借鉴,有效结合目前计生部门和公安部门人口迁移调查,主要参照系为流入地或者迁入地居住时间,对有迁移行为的人口进行具体分类,见表1。
2.2对采集人口迁移数据进行进一步规范
1%人口抽样调查和全国人口普查最终目的表明这类调查中有着极为丰富的人口迁移调查内容,而且所设置的调查项目也比较合理科学,可以满足研究与管理人口迁移工作之需。然而,很多必要人口迁移资料仍然不足,像人口迁移过程中迂回迁移与回迁的信息资料、流动儿童与留守儿童基本信息等。所以,计生部门和公安部门在采集人口迁移数据时,除了对自身工作之需予以考虑外,还要尽量接轨于统计部门所收集的资料,实现数据共享。
2.3形成数据采集“一张网”,实现数据共享机制
计生部门和公安部门作为可以实施采集人口迁移数据的重要部门,对现代信息技术予以充分利用的前提下,一方面相关部门采集数据一盘棋,另一方面还要实现部门“一张网”模式。这样既可以在一定空间与时间内搜集人口迁移的数据资料,将其制作为全国人口迁移强度与规模的面板数据,又能够保证人口数据采集质量。这样方便了对我国人口迁移因果关系的探讨和对内在机制的理解。根据人口抽样调查和全国人口普查资料,对相关数据库予以补充与完善。此外,通过数据库资料也能对抽样调查与人口普查中数据资料进行检验和修正。具体操作过程中,应该依照管理之需与工作职责,做好明确分工。
总之,只有对人口迁移概念予以明确,同时进一步规范采集人口迁移数据,通过此类提高我国人口迁移统计数据质量的解决对策,才能不断提高我国人口迁移统计数据质量。
浏览量:3
下载量:0
时间:
大数据从字面意义来讲,主要指的是数据量大,但是其也常常被用于承载各种类型的相关概念,涵盖了巨量数据资料、海量数据信息、下一代数据管理能力、实时数据以及社交媒体数据分析等等。今天读文网小编要与大家分享的是:大数据时代下的人口信息管理及应用探析相关论文。具体内容如下,欢迎阅读与参考:
大数据时代下的人口信息管理及应用探析
随着科技、信息、通讯技术的不断进步与飞速发展,云计算、物联网、大数据等概念开始逐步进入人们的视野并日益成为关注的热点与焦点,引领我们逐步步入一个信息化、数字化的大数据时代。的确,当下,我们几乎难以找出一个比大数据更为火热的概念与词汇,大数据已然渗透到人们生活的方方面面。下至个人的生活、思维、行为方式,中到各行各业的运营管理,上至经济、社会文化乃至国家的宏观决策,无一不受其影响,引起了人们的思维方式、行为方式、生产生活方式、科研范式、组织管理方式的全方位变革,真可谓是数字至上,一切用数据说话。毋庸置疑,在这一时代,数据将成为可与石油、矿山相媲美的资源,而收集、存储、处理、分析、挖掘利用数据成为每一个企业、科研团队以及政府各部门的首要任务之一 。相应地,如何从复杂、繁乱、非结构化的数据中快速获得相应的战略、决策信息就成为区分各个行业胜者与输家的关键因素,同时,数据信息的有效管理与分析利用也是政府服务与管理创新以及提升国家核心竞争力的重要途径。因此,世界上的不少国家,诸如美国、英国、日本、韩国都将大数据上升到国家战略的层面。
人口是各种经济社会关系系统中最为基础与根本性的要素, 相应地,人口数据信息也就成为各类数字信息中最为基础性的信息资源,但同时也是极具战略性,关乎经济、资源、社会环境、医疗卫生、民生百态以及教育等方方面面的公共性资源 。因此,对人口数据信息的有效、高效管理与充分的挖掘应用既是社会公共管理服务的基础,也是国家信息化战略的重要内容,更是制定与实施各项政策和指导各项实践工作的重要依据 。
中国人口数量居世界之首,互联网、移动互联网的用户数也居世界各国前列,因此,理应也势必会成为产生数据量最多的国家。然而,我国虽然拥有庞大的人口信息资源,但是在人口信息资源的管理方面还有诸多不完善之处,人口数据的分析利用与充分挖掘也十分有限。因此,充分利用云平台、大数据分析等相关技术做好人口信息的有效管理及应用就显得十分必要且意义重大。
1. 何谓大数据
大数据从字面意义来讲,主要指的是数据量大,但是其也常常被用于承载各种类型的相关概念,涵盖了巨量数据资料、海量数据信息、下一代数据管理能力、实时数据以及社交媒体数据分析等等。目前,比较有代表性的定义是3V、4V定义。所谓3V定义即认为大数据需要满足规模性(Volume)、多样性(Varity)和高速性(Velocity)这三个特点2。在3V定义的基础上,有数据公司、分析公司又发展出了4V定义。如IDC、IBM。IDC认为除了以上三个特点外,大数据还应当具有价值性。
IBM则认为,虽然前3个V已基本包括了大数据本身的关键属性与相应的特征,但真实性也是当前企业亟需考虑的重要维度。总之,不论是大数据的3V定义还是4V论调,均强调了对类型多样的大量数据的收集整理。然而,大数据不仅仅是指数据的规模性、多样性,大数据更多地是一种思想研究方法,是思维、技术、数据和应用的四位一体,即,利用互联网思维,采用量化分析,研究、解决相关问题,了解现状、预测未来 。
2. 大数据的价值。
大数据的出现意味着人们可以利用现代的技术、分析工具对大量的非结构化数据进行有效存贮与整理,快速完成一些工作量巨大的数据处理任务,全面提升工作效率。但是,大数据最为重要的价值在于对来源、结构多样的海量数据的整合、实施分析处理、深入挖掘与有效利用。而对数据的分析与处理,对于个人而言,可以量化自我。对于企业而言,可以精准把握客户需求,提供个性化的产品与服务,从而有效提升企业的服务质量与核心竞争力。
对于政府部门来讲,海量数据的分析,可以有效把握现状,增加预测的精准性,既可以提高决策的科学化,又可以提高公共服务水平。因此,2012年初的瑞士达沃斯论坛上,一份题为《大数据,大影响》(Big Data,Big Impact)的报告就宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。除此之外,还有不少人将大数据比喻为数字金矿、新财富、石油等,这足见大数据在当今时代的重要地位。具体到我国来讲,大数据凭借其规模性、可再生、重复利用性,极大地契合了我国信息化以及新型城镇化建设的发展要求。目前,大数据已经在医疗、金融、农业、民生、公共服务、监管等方面得以广泛应用,助力电子政务、智慧农业、智慧城市的建设与发展。
1. 人口信息管理的现状。基于人口信息的基础性、公共性以及对人口信息管理的重要性与迫切性认识的不断上升,尤其是近年来,信息化建设已经上升到国家战略的高度,因此,我国人口各相关部门已经具备相当完备的信息化基础。据赛迪工业和信息化研究院的统计结果显示,当下,直辖市、中东部地区的人口数据库覆盖率已达到70%,西部地区的覆盖率也在40%以上 。
然而,这些数据库的建设及信息化的提升,只是解决了规范管理和办公效率的问题 ,而在数据的实际分析利用中仍存在诸多问题。信息管理系统平台的不兼容,各类数据信息的口径不统一以及信息的条块分割现象严重等问题的存在,致使数据库中的数据质量堪忧、数据的开发利用仍停留在基础阶段。具体来讲,人口信息管理建设中仍存在着数据的多头采集、信息收集不准确、数据缺失及重复严重、数据的更新不及时以及维护不到位等问题。
各项人口信息零散地分属于不同部门,"孤岛"现象严重。诸如:公安部门登记户籍、迁移和刑事处罚等相关信息、计生部门关注育龄妇女的生育、节育情况、民政部门登记婚姻及社会救助相关信息、劳动和社会保障机构则登记居民社会保险状况等等 。而数据的条块分割,一方面造成网络和信息采集资源的重复建设,浪费了大量的人力、物力及财力。另一方面,也造成了大量异构、相对封闭的海量数据无人问津。同时,数据信息的协同创新与共享机制的不健全也造成了掌握数据者无力进行数据的深入分析与挖掘,想要对数据进行深入分析、充分利用者则无权获取数据。这严重影响到人口信息资源的开发利用以及相关政府部门的科学决策和公共服务能力。
当下,随着新型、有质量、健康城镇化进程的不断推进,再加上流动人口规模的居高不下,人口信息管理尤其是城市管理的难度也将越来越大。我们在人口数据信息的有效管理以及深入挖掘、分析利用方面还有很长的道路要走。
2. 人口信息化管理的要求。
在全球加速实现信息化热潮的推动下,尤其是在大数据异常火热的今天,对人口信息管理和决策的科学性、系统性及实时性提出了更高要求。《中华人民共和国国民经济和社会发展第十二个五年规划纲要》明确提出了提高信息化水平,大力推进国家电子政务建设,推动重要政务信息系统互联互通、信息共享和业务协同。完善人口基础信息资源体系,强化信息资源的整合,规范采集和发布,加强社会化综合开发利用。
《中共中央国务院关于全面加强人口和计划生育工作统筹解决人口问题的决定》也提到要完善人口数量、素质、结构、分布、迁移、就业、贫困等系关民生和经济社会发展的信息资源建设和开发利用。充分开发和运行人口宏观调控管理、人口发展趋势预测、人口安全预警预报、基层管理服务、流动人口综合管理、奖励优惠信息管理等综合应用系统。2013年8月14日,经国务院常务会议讨论通过并印发的《关于促进信息消费扩大内需的若干意见》向社会发布。《意见》首次将“信息化”在“新四化”或“四化同步”的提及顺序中排在第一位。可见,建立有效的人口综合信息系统已经上升到国家政策层面。
3. 人口信息化管理的相关实践。
鉴于数据在当今社会的重要位置以及人口信息化管理迫切需要提升的现实,各地政府在人口信息化及应用方面做了不少尝试。如:国家人口计生委积极支持陕西省筹建全国人口信息处理与备份西安中心,建设人口信息数据仓库,开发人口信息综合处理平台,并做好数据交换共享和数据备份,为提升公共服务及社会管理水平以及相应的宏观决策提供人口基础信息服务支撑。
北京市的《全员人口系统》,包括北京市全员人口个案数据库和户籍人口信息管理系统、流动人口信息管理系统、人口统计分析决策系统等一个数据库、三个应用系统。每日进行人口信息的实时变更,保证了数据更新的及时、有效性。上海市长宁区则建成了一个包含了全区实有人口、房屋和单位的基础信息数据库。可见,各地在人口管理信息化建设方面做出了巨大的努力。
大数据时代,经济社会宏观大背景的变化要求政府相关部门必须在管理方式上寻求突破与创新。这就要求,在管理方式方面,要打破传统的科层制管理方式,向着更为灵活、更为高效、更为人本以及可持续发展的管理方式转变。在具体的管理手段中,应充分利用信息科学技术,提升信息化水平,真正实现职能市场化和政务电子化。
云计算凭借着安全节能、高效管理、智能化运作的虚拟化技术,实现了各种资源的自由调用及利用率的最大化。因此,利用云计算及其相关技术,建立新一代高效的人口基础信息数据库,通过集约化和网络化的人口信息管理格局,将在人口管理信息化建设方面发挥重要的作用:
其一,云计算技术实现了对信息的大量、高效存储及随时获取,有助于打造绿色、节能的人口数据信息中心。
其二,利用人口信息交换平台,打破公安、教育、卫生、民政等各个不同部门以及不同层级之间信息壁垒,实现了对海量人口数据的统一管理以及信息的高度共享。这不仅极大地降低了社会管理成本,而且,有助于避繁就简,减缓工作压力、增强工作的协调性及提高公共服务质量。
其三,通过云计算平台,可以实现数据的动态管理,实时、有效监测各项指标的运行。
其四,云计算及其相关技术,助力政务工作的电子化,集信息查询、协调服务、信息反馈、信息共享等多功能于一体,简化并优化了工作流程,既减少了重复劳动,又提高了办公效率和决策质量。
然而,大数据并不意味着庞大数据量的存储及统一、规范还关乎着量化分析及相应的预测、决策。当前,我国正处在全面建设小康社会征程中,全力推进工业化、信息化、城镇化、农业现代化建设,大数据分析对我们深刻认识我国人口、家庭发展现状,把握经济、社会发展规律,实现科学、可持续发展以及做出科学预测、决策具有十分重要的意义 。
在大数据时代,信息化是经济与社会发展的大势所趋,而在这一时代中,人、服务将成为核心要素,消费者、服务的享有者将会拥有更多的话语权。因此,从人本角度出发,对人的认知、思维、行为、生活方式的分析研究将成为社会服务不断提升、完善的源动力。同时,对数据的深入分析挖掘,也是我们的管理方式从应急式走向预警式、从粗放的感性管理走向精细的量化管理的重要路径。而对于人口管理相关部门而言,人口信息化的提升与人口数据的有效利用也是加强人口与社会管理的最为基础性的工作以及创新社会管理的重要路径。
我国人口数量大,人口种类繁多,再加上持续的大规模人口流动,对城市的居住、就业、教育、卫生以及基础设施建设均造成了较大的压力,严重威胁到社会的和谐与稳定,亟需通通过对人口信息这一庞大的数据库、数据资料的分析挖掘进行相应的预测与优化资源的配置与管理,提升公共服务的水平。通过利用云计算、数据可视化等技术对相关人口数据的分析和挖掘,人口信息资源的巨大的潜在价值将被释放出来,并将产生良好的经济效益及社会效益:
首先,有助于精准把握人口发展现状,做到心中有数。目前,我国的人口结构极为复杂且人口流动十分频繁,人口信息管理不到位及共享机制不健全,致使人口管理中存在着底数不清、情况不明等问题,而厘清人口发展现状及预测未来发展趋势则是健全政府管理体制,提升公共服务水平的重要路径。通过对各类数据的统一、规范处理,直接生成各类统计报表和相应的汇总资料,将数据以更为清晰直观的方式展现给政府相关部门,有利于政府领导全面了解诸如人口老龄化、劳动力人口变化、育龄人口、学龄人口分布变化等情况。
其次,有助于政府各部门的宏观决策,指导实践。通过对未来人口规模、人口结构、人口迁移分布、抚养系数、婚姻状况和家庭结构、发展趋势等的估算与预测可以为政府在教育、城市基础设施建设等资源的合理配置、社区的合理建设以及总体规划方面提供科学的决策依据,加大科学决策的力度。 再者,有助于进行预警分析。大数据的一个重要功能就是进行预测,可以通过对大量数据信息的综合分析,对人口、经济、社会、环境之间的关系进行深入把握,及时做出预警分析,真正实现人口、资源与环境的和谐、可持续发展。
最后,有助于政府相关服务更加人性化和个性化。通过对数据信息的及时分类汇总与把握,切实了解各类相关人群的真实需求,并据此开展相应的工作,提升服务的针对性与及时有效性。如:流动人口的工作、就业及生活状况;困难人群的帮扶情况;生育、健康等服务情况等。
在大数据对相关人口信息的分析运用方面,2014年1月25日晚央视晚间新闻与百度合作推出的“据说春运”特别节目进行了完美的诠释。在未有可视化大数据支撑之前,我们所感知到的春运无非是“人群拥挤”、“一票难求”这些关键词,更为具体的数据信息往往无从知晓。“据说春运”利用百度后台每天数十亿次LBS(基于地理位置的服务)定位数据进行计算分析,通过时间、地域两个维度,实时、动态、全景展现了人口大迁徙的轨迹与特征。我们通过实时查询,可以清楚地知道人们都去哪儿了?哪些城市是中转要道?哪些线路最热门?等等。
人口信息化以及人口数据的分析、挖掘既可以为政府科学制定人口政策提供强有力的决策支持,也有助于改善政府公共服务质量,创新政府管理、治理模式,全面提升社会管理水平及公众的生活满意度,当然,人口数据分析更深层次的作用则在于促进区域经济、社会发展。
大数据时代已然来临,在国家大力推动人口信息化发展的背景下,希望我国的人口信息化建设与管理不断完善。同时,抓住大数据带来的机遇,早日打破人口信息的孤岛现象,充分发挥人口信息资源在政府决策以及经济、社会发展方面的积极作用。我们坚信,随着移动互联网、云计算技术的进一步发展,大数据将会在提升企业效益、提高人口管理水平、加快经济结构转型升级、推进新型城镇化等方面发挥更为重要的作用。
浏览量:2
下载量:0
时间:
4月28日,国家统计局发布第六次全国人口普查主要数据公报。随后,北京、天津、河北、山西等24个地区相继发布本地区数据公报。这次人口普查数据反映了10年来中国经济社会的巨大变化,人口过快增长的势头得到了有效遏制。同时也反映出中国面临着一些矛盾和挑战,一是流动人口规模不断扩大,二是人口老龄化趋势在加快,三是出生人口的性别比偏高。
根据普查数据,此次人口普查登记的全国总人口为13.4亿人(加上港澳台的人口总数为13.7亿人),与2000年第五次人口普查相比,10年增加7390万人,增长5.84%,年平均增长0.57%,比1990年到2000年年均1.07%的增长率下降了0.5个百分点。从四大区域人口分布情况来看,东部地区人口占全国常住人口的37.98%,与五普相比,上升2.41个百分点。
从各地区人口变化情况看,按常住人口口径统计,广东已经超过河南,常住人口达到1.04亿,也是全国唯一一个常住人口数量超过1亿的省份。而在2000年,河南常住人口排名第一。此外,全国有6个省份常住人口减少。10年间,常住人口增加最多的5个地区是广东、浙江、上海、北京、山东。常住人口减少的6个省份为湖北、四川、重庆、贵州、安徽、甘肃,其中湖北人口减少最多,10年间减少了304万。增长方面,公布数据的21个地区中,共有13个地区增幅超过全国平均水平,北京、天津、上海、广东的增长幅度最大,年均增长率为3.8%、3.24%、2.6%、1.9%,都远远超过了国家0.57%的平均增长率。
根据普查结果,全国居住在城镇的人口为6.66亿人,城镇化率为49.68%,城镇化率10年上升13.46个百分点,净增2亿人,不论是年净增量还是城镇人口总量,都已经处于世界第一的位置。这说明近十年城镇化进程在加快,也标志着我国工业化和现代化水平的不断提高。从地区情况看,共有浙江、北京等7个地区公布了城乡人口分布情况。城镇化率方面,东部经济发达省份城镇化水平较高,北京的城镇化率最高达到86%,高出全国平均水平36.32个百分点。广东66.18%,比全国平均水平高16.5%。甘肃、青海、贵州等西部地区较低。城镇化率变化方面,宁夏城镇人口增长较快,较第五次全国人口普查上升15.02个百分点,高出全国13.46%的上升幅度1.56个百分点。
此次人口普查,全国流动人口大幅增加,流动人口总数为2.6亿,比2000年增长81.03%。广东、浙江、上海、北京等地区公布了本地区流动人口情况。从流动人口数量来看,广东流动人口数量最为庞大,为3128万人,占常住人口的30%,占全国流动人口的12%。流动人口数量之庞大,是广东省成为全国第一人口大省的主要原因。外来人口比重方面,上海外来常住人口为897.7万人,占常住人口的39%,是外来人口比重最大的地区,十年共增长159.08%。其次是北京外来人口的比重已由2000年的18.9%提高到2010年的35.9%。
全国普查数据显示,全国总人口性别比(以女性为100,男性对女性的比例)由2000年第五次全国人口普查的106.74下降为105.20。这是上世纪80年代实施计划生育政策以来,首次出现男女比例下降。从全国的范围看,男多女少的失衡现象有一定程度的改善。但是全国的新生儿性别比情况却并不乐观,新出生的人口中,男女性别比例高达118.06,比2000年人口普查的116.86上升了1.2个百分点。过去30年,这一性别比的失衡越来越严重。从地区情况看,公布数据的23地区中14地区人口性别比超过国家平均水平,其中天津的人口性别比最高为114.52,增加10.53,其次是海南为110.9。吉林、重庆、山东、河南、江苏5个地区的人口性别比低于103,其中江苏的人口性别比101.54,最为合理。从人口性别比变化情况看,17个地区人口性别比出现下降,其中重庆下降幅度最大,由2000年的108.04下降到2010年的102.43。天津、广东等6个地区性别比上升。
浏览量:2
下载量:0
时间:
浏览量:2
下载量:0
时间:
摘要:人口问题关系到小至地区大至国家的经济发展,所以,人口的预测在未来的参考价值也不断提高。文章着手于logistic人口模型,通过matlab等数学软件,利用方程与实际数据相结合,从未知的角度来预测已知,将预测值和真实值进行比较,分析logistic人口模型的在贵州省少数民族自治州的适用情况,分析原因,并结合现实,给出相应的建议。
关键词:logistic;民族自治州;人口模型;人口流动;贵州
我国是人口最多的发展中国家,经济的发展离不开人口发展,人口发展又会反作用于经济发展,所以,在我国,要想搞好经济发展,首先就要解决人口问题。
由于我国的地理原因和历史原因,少数民族地区的经济和人口发展属于滞后状态,但是国民经济的发展势必会带动少数民族地区的经济发展,民族地区的滞后势必也会成为总是经济发展的弊端,所以少数民族地区的发展成为了大家关注的焦点,希望能通过少数民族地区的发展来提高总体发展的均衡性。
1789年,马尔萨斯就在《人口理论》一书中提出了人口指数增长模型,在当时受到了很大的关注,但同时人们也提出了很多争议,因为指数增长型明显地存在了一些弊端,在当时间趋向无穷的时候,人口总数也会趋向无穷,这与现实情况是不相符合的,但由于当时人口基数小,所以马尔萨斯模型还是活跃了很长一段时间,直至西方经济的迅速发展,人口数量也得到了迅速的发展,此时,马尔萨斯模型已与当时的人口发展产生了很大的误差,人们便愈加重视马尔萨斯人口模型的缺陷,于是Logistic人口模型即阻滞增长模型便应运而生了。
下面文章就贵州省的三个民族自治县用Logistic人口模型做预测,与真实值比较并对结果做分析。
Logisitic人口模型是改进的马尔萨斯人口模型,所以在条件假设方面logistic人口模型还是传承了马尔萨斯人口模型的特点,它们的差异就是,在马尔萨斯人口模型中认为单位时间内人口的增长量与人口总数成正比,比率为常数r;而在logistic人口模型中引入常数Nm,用来表示自然环境条件所能容许的最大人口数,并假设增长率等于r1-,即净增长率随着N(t)的增加而减小,当N(t)→Nm时,净增长率趋于零,按此假定的情况下建立人口预测模型。如果假设在预测期内不会发生大的人口迁移、自然灾害等特殊情况。
如果考虑自然灾害的突发、城镇化进程与生态环境保护政策实施引发的人口迁移、旅游业的发展以及国家的生育政策颁布的影响因素,以上Logisitic连续状态模型就遭到破坏。
文章以贵州省3个民族自治县作为研究对象,以人口总量最为研究的指标,需要对贵州省这三个自治县做出假设:一是贵州省这3个民族自治县自然条件的情况符合logistic人口模型的基本条件要求;二是在我们所研究的时间范围内自然环境所能容许的最大人口数是一个常量。
根据上式logistic人口模型方程,我们通过求解不难可以得到:
其中Nm表示自然环境条件所能容许的最大人口数,N0表示与初始时刻t0所对应的初始人口,N(t)表示t时刻所对应的人口。我们需要知道三组数据才可以求解此方程,并用其总之后的预测。
通过查看区域经济年鉴,我们可以得到2000-2002年的人口数据,并将2000年的数据看成是方程中的N0,而2001年和2002年的数据则将看成是两个已知的N(t),我们通过matlab软件可以求得这三个自治州所对应的r和Nm,如表1所示:
现在我们就可以得到各个地区的logistic人口预测方程,接着我们将以黔西南布依族苗族自治州为例,将r和Nm代入方程可以得到方程为:
其他两个自治州的方程可容易得到,在这里我们就不逐一写出。根据这些方程我们可以分别得到对应的预测值,如表2所示。
为了更加详细地对上述预测值的可靠性做一个评价,我们需要对上述数据进行误差分析。
为了能与真实值做比较,我们现在给出一个误差率t,根据区域统计年鉴我们可以容易查找到对应的年份这三个自治州的实际年末总人口,我们令
我们同样可以得到对应的误差率的表,如表3所示。
从表3我们可以看到,2003年的预测值和真实值最为接近,误差率分别为0.0702%,0.0431%,0.0658%,但是接下来的所有年份所有的预测的误差率都相对要大得多,数值上都大于0.4850%。据相关资料我们可以明显看到,2004-2006年黔东南和黔南自治州的误差率明显要高于黔西南地区,而在表中,我们可以看到黔南和黔东南的走势大致相同,而黔西南虽然相对而言重心比较接近真实值,但是还是属于起伏不定状态。
显然,本文中的预测值与真实值之间的差异是比较大的,造成这种现象的原因分析如下:
第一,本文在求解r和Nm的时候,仅仅单一的选择了2000,2001和2002年的数据,单一的数据必定会存在着误差,一般在这种情况下应该采用均值来减小误差。
第二,在文章中所求解的Nm是一个随着经济发展而变化的量,这种变化在经济有大变化的地方变化的速度越是快,所以我们在文中脱离了经济对Nm的影响。
第三,假设的条件是一种理想化的状态,即满足了假设的条件势必能用logistic人口模型,但是文中所涉及的地方已经不在这种限制范围内。
根据现实情况辅助分析,因为经过西部大开发政策,拉动了西部贫穷落后的地区,刺激当地经济增长,同时,由于20世纪80年代中期以后,我国严格的户籍制度开始松动,地区之间的人口流动现象日益频繁,流动人口数量不断增多,并成为一个不可忽视的庞大的社会群体,因此,马尔萨斯人口模型和logistic人口模型中,无人口流动的封闭式区域这一重要假设条件已经遭到了破坏,在今后的人口预测中,若要用到logistic人口模型,那也必定会是需要将现有的方程进行改进,人口的流动对人口数量的影响已经不容忽视。随着经济的发展,人口的数量,人口质量与人口结构以及经济本身越来越不可分,相互融合相互影响。
1、吕红平等.中国少数民族地区人口状况研究[M].中国社会科学出版社,2010.
2、葛渭高,田玉,廉海荣.应用常微分方程[M].科学出版社,2010.
3、梁中堂.我国五个民族自治区经济发展和人口变动研究[J].人口学刊,2008(4).
4、国民经济综合统计司.中国区域经济统计年鉴[M].
浏览量:2
下载量:0
时间:
失业问题与通货膨胀、资源匮乏、环境恶化一样,是影响世界各国经济发展的四大难题之一。鉴于中国城镇失业人口再就业的严峻形势和促进再就业的重大意义,本文主要从中国城镇失业人口再就业的影响因素着手,分析了1076位城镇失业人口再就业形势主要受哪些因素影响。
本文在研究方法上,注重对中国城镇失业人员的实证分析、定性分析与定量分析的结合并加入了对城镇失业人口再就业影响因素的实证分析,使促进失业人员再就业的对策更有针对性。另外,运用生存分析法中的Cox模型,分析了影响城镇失业人员再就业的因素。
中国目前失业问题仍然严重,总量上,劳动力供大于求,结构性失业突出,同时,出现四大群体(下岗职工、失地农民、进城务工农民、大学毕业生)失业问题的交织。从宏观上看,失业制约了中国经济的发展,影响了社会的稳定;从微观上看,失业人口成为了城镇弱势群体的源头,其生活水平和生存状况堪忧。中国城镇失业人员失业呈现长期化趋势。调查表明,失业2年以上的占55.2%。城镇失业人员实现再就业的主要领域为个体私营经济和服务业。从单位性质看,失业人员实现再就业的去向主要在非公有制经济领域,占全部实现再就业的失业人员的81.7%。从行业看,失业人员实现再就业的去向主要是批发和零售贸易业(占23.3%),居民服务和其他服务(占19.2%),交通运输、仓储和邮政业(占12.2%)和其他服务业(占14.9%),这些行业占了全部再就业失业人员的近七成。
生存分析就是处理、分析生存数据。由于失业人员的再就业数据的选取,只能是确定一定的研究期间,它符合生存数据的特点:在研究期间结束时,所要研究的事件还没有发生,或过早终止,使要收集的数据发生缺失。如:失业人员再就业的时间是不确定的,有可能在研究期间仍然处于失业,也有可能在研究期间实现再就业。所以,本文选取生存分析的方法来研究中国城镇失业人口再就业的影响因素。
由于再就业率是难以估计的,所以不宜采用非参数或参数模型方法。因此,对失业人员再就业问题的分析主要是运用生存分析中的Cox回归模型进行。我们主要通过Cox模型分析以下问题:失业人员从失业到再就业这段时间,我们称之为失业持续时间。在生存分析法中,失业人员处在失业状态,即表示存活;失业人员实现再就业,即表示死亡。其中性别、年龄、受教育程度、健康状况、技能水平、原工作单位性质都是影响失业状态转变的危险因素。我们要确定那些危险因素对生存时间有重要影响,也就是确认重要的预后因素。通过建立失业持续时间随性别、年龄、受教育程度、健康状况、技能水平、原工作单位性质因素变化的模型,来确定这些对失业持续时间有影响的预后因素,并根据危险因素在模型中的影响对再就业率进行预测。 4.2数据选取
以2005年社会综合调查数据(CGSS)中普通居民调查问卷数据为计量数据,来分析影响城镇失业人口再就业的因素。这些数据包括失业人员的性别、年龄、健康状况、受教育程度、原单位性质、技术职称、失业时间、再就业时间,其中通过失业人员的失业时间和再就业时间计算出失业人员的失业持续时间。
主要以原工作单位性质这个变量为主要危险因素分析对失业人员持续失业时间的影响。假设失业持续时间丁有一个连续的概率分布f(t),t是T的实现值,则失业者在(0,t)实现再就业的累积概率为:
失业时间一直持续到时间t并将在以后结束的概率为s(t)=1-F(t),S(t)即为存活函数,用以表示失业持续时间的长短。与存活函数相对应的是转机函数h(t),表示失业时间至少持续到t的情况下在(t,dt)内实现再就业的条件概率,表示再就业率,即当dt趋于零时失业者在(t,dt)内实现再就业的条件概率的极限值,即h(t)=limdt→ 0[Pr(t≤T<+dt)|dt]。通过推导可得存活函数与转机函数间的关系为:
由于失业持续时间样本的概率分布f(t)具有不同的形式,则相应的h(t)也要有对应的分布函数,而由于样本分布函数往往难以确认,因此,可使用Cox模型对样本分布没有严格要求的半参数模型进行分析。Cox模型的一般表达式为: h(t,x)=h0(t)exp (x'β)。h0 (t)为基准转机率,是时间的随机非负函数;X是含有一系列影响因素(协变量)的向量,X=β1 X1+β2X2+…+βn Xn,因此,h(t,x)是将在时刻t实现再就业的转机率分解为基准转机率和由向量X引致的增量转机率。β表示当X变化一个单位时引起的转机率改变倍数的自然对数值;而eβ1 就是相对转机度,表示变量X变化所引起的基准转机率改变的倍数。将失业人员的原工作单位性质因素引入Cox模型,可得:
h(t,x)=h0 (t)exp (δI+X'β)
其中I是表示失业人员原工作单位性质的分类变量,δ为I的系数,eδ则表示不同的失业人员原工作单位性质所引起的再就业转机率的变化倍数。
根据存活函数与转机函数间关系以及(2)式,可构建包含失业人员原工作单位性质因素的失业持续时间模型为:
假设失业时间持续到t-1并在时间间隔αt=[t-1,t)内实现再就业的转机率为ht,根据存活函数与转机函数间关系有:
在失业时间已经持续到t的条件下,失业时间能超过时间段αt的概率为 (1-ht),则单个失业者在第rt个时间间隔内实现再就业的似然函数为:
利用STATA统计软件进行Cox回归所得结果。可以看出,原工作单位性质为政党机关、国有企业、国有事业单位、三资企业之间再就业转机率的差别不是很明显,原工作单位性质为集体企事业单位、个体经营、私/民营企事业的失业人员再就业转机率与其他三类有明显差异,再就业转机率高。原工作单位性质为个体经营、私/民营企事业失业人员的累积失业存活时间最短,原工作单位性质为国有企业和国有事业单位的失业人员的累积失业存活时间最长。
从对个人特征变量的回归结果来看,性别变量HARZ.RATE系数为1.048,说明男性失业者再就业转机率略高于女性;年龄变量系数为0.579,表明再就业转机率随年龄增加而逐步减少,高龄失业者的失业持续时间会相对长一些,甚至转为退休;教育程度变量系数大于1,说明学历越高,再就业转机率越高,失业持续时间会越短;健康状况变量系数为1.019,说明健康是实现再就业的必要条件;技能的系数为1.004,表明具有技能的失业人员的再就业转机率高。
从以上分析得出,原工作单位的性质对失业持续时间具有显著影响。同样地条件下,失业人员原工作单位性质为民营、个体及私企的再就业持续时间会短,而相对的原工作单位为国有企业和国有事业单位的失业人员再就业持续时间会长。而中国的90年代末的国有企事业改革造成了大规模的企业职工下岗,说明了政策性的变化会影响到失业者的再就业。现在,国家应该大力发展民营、个体及私企,这样会有利于失业者的再就业。
浏览量:2
下载量:0
时间:
互联网技术和信息技术的发展给社会带来大变革的同时也带来了大数据时代。大数据时代的到来对社会带来了机遇与挑战。下面是读文网小编为大家整理的计算机大数据论文,供大家参考。
一、大数据给计算机教学带来的变化
大数据必将给教育带来巨大的改变,曾经依靠经验和灵感的授课过程,将被以数据分析为主的决策分析所代替。而计算机教学既是大数据技术的传播载体,更是最应率先应用大数据技术的课程。无论如何,大数据已经就在我们眼前,已经悄然改变着教学过程,也必将深度改变学校的计算机教育模式。
(一)计算机教学内容的变化
随着大数据技术的发展和大数据分析的成熟,大数据技术及应用必然会成为各高校重要课程。现在,美国的学校已经开设相关课程,比如,大数据分析统计基础、大数据分布式计算、大数据挖掘与机器学习等。国内一些高校也正在尝试开设大数据课程,帮助学生了解大数据,学习大数据分析。下一步,大数据基础、大数据分析、大数据处理的核心技术等等,必将成为计算机专业的必学内容,也会成为高校重要的基础课程。另外,计算机智能教学系统和教育测评软件将更多地使用在教学中,以记录学生的学习轨迹。而计算机专业的教师也必须熟练掌握大数据技术和分析方法。
(二)计算机教学思维的变化
原来的计算机教学基本是灌输式教学,老师教授的是计算机基础知识、C语言编程的模式、数据库的基本架构,等等。大数据和互联网的发展必然会改变这种授课方式,使知识的接受方式呈现多元化倾向。随着移动互联的发展,学生可以随时随地通过互联网更便捷的获取学习内容。而课堂上单纯的照本宣科、按部就班将不能吸引学生的注意力。因此,教师必须转变教学思维,以更多的案例和互动式教学,引导学生去寻找解决问题的办法,寻找“芝麻开门”的钥匙,只有如此才能让学生有兴趣待在课堂。同时,大数据带来的将是对海量教学案例的数据分析,让教师对计算机教学的难点及教授方法优劣有了更加清晰的认识,不必依靠教学经验去判断教学效果,完全可以驾轻就熟地进行互动教学,启发学生寻找最优解决方案,将是大数据时代下计算机教学的突出特点,这是对计算机专业教学思维带来的革命性变化。
(三)计算机教学模式的变化
目前,计算机教学主要模式是备课—教授—上机—测试,教师主要的精力放在了课前备课。而大数据技术的应用,将会让教师把更多的精力放在课后分析上,形成“备课—教授—上机—测试—数据分析—改进”的模式。在这个模式中,课后的数据分析将是整个教学过程的关键环节。通过大数据分析,可以对一个班的学生进行整体学习行为评价,可以对学生上机测试情况进行细化分析,可以对每个学生的学习习惯进行学习评估,分析学生的学习中偏好、难点以及共同点等,从而得出学习过程中的规律,改进教学方式,提高教学质量。
(四)个性化教学的深入开展
大数据技术的发展,使建立覆盖学生学习全过程、全要素的信息库成为可能,学生大量的试卷、课堂表现留存,学生的学习经历及成长轨迹,学生的家庭情况等等,都将被涵盖在大数据分析中。另外,前述的计算机智能教学系统和教育测评软件,将详细记录学生每次答题的背景、过程和结果。这些信息让教学分析变得更加容易,教师可以利用数据挖掘的关联分析和演变分析等功能,依靠学生的某些学习特征,比如答题持续时间,具体回答步骤和内容(可以细化到每次击键和每个笔划),答对的要素和答错的要素等等,在学生管理数据库中挖掘有价值的数据,并分析学生的日常行为,研究各种行为的内在联系,来据此形成针对学生个性化的教学策略,以帮助学生在学习方面取得更大的突破。
二、小结
大数据时代,让我们比以往任何时候都更接近发掘学生的潜力,比以往任何时候更依靠于理性分析。其实,教学活动传授的不应仅是知识,更需要关照学生的灵魂。大数据让教学活动离学生心灵很近,让老师离自由发挥很近。未来,包括计算机教学在内的学校教育将会有更少的课堂与更多的实验室,有更多的互动与更少的灌输,有更个性化的服务和更灵活的学制。学校将不仅是课堂,更是舞台。
1计算机基础教育面临的问题
目前,国内高等院校的计算机基础教育更多地沿用了传统计算机教育的方法,只注重讲授计算机的理论知识和操作要领,未考虑学生学习的效果。这导致学生只是记住一些概念和理论,能做基本的操作,却很难用所学的知识灵活地解决实际问题。当前大学计算机基础教育面临以下4个问题:
(1)学生的计算机应用能力差异大
高等院校的学生来自全国各地,而不同地区的中小学计算机教育水平参差不齐。单一的课堂教学已无法保证所有的学生学得会、学得好,这给教学带来了问题。
(2)教学和实验的学时严重不足
目前,各个高校都在减少课时,教师只能在课堂上和实验中加大讲授的知识量,加快教学进度。当一个教师面对几十个学生时,基础较差的学生往往得不到教师足够的指导和练习时间,这给辅导答疑带来了问题。
(3)学习的结果与过程未被记录下来
学生可以利用丰富的网络资源巩固课堂内容,扩大知识面,加深对知识的理解。在传统教学中,教师往往忽视了学生的课后学习,没有记录学习结果与过程,这给教育过程的改进带来了问题。
(4)目前的网络教学系统很少区分学习个体
网络教学系统能够提供大量的多媒体教学资源,帮助教师进行课后辅导答疑,却很少区分学习个体,导致缺乏个体相关的数据,从而难以提供个性化的指导,这给网络教学系统的智能化带来了问题。这些问题归根结底是数据的问题,是数据没有被有效地规划和整合的问题。我们把与学习过程相关的大量数据收集起来,对这些数据进行分析,挖掘出有价值的信息,最后传递给学习者,这是一种解决计算机基础教育所面临问题的可行方法。
2面向计算机基础教育的大数据
在当前知识大爆炸的时代,人们获取知识的途径不仅仅局限于课堂,更多的是网络资源。当代的大学生接受新生事物更快,更愿意在特定的学习情境下去主动构建知识。因此,大学计算机基础教育需要改革现有的教育模式,将大数据技术融入到大学计算机基础教育中,建立与时俱进的大数据驱动的教育模式可以有效解决上述问题。在大数据时代涌现出大量的网络教学系统,随着这些网络教学系统的推广和普遍应用,使用者数量急剧增加,产生了大量的数据。数据之间可能存在某种联系,对这些联系进行分析和挖掘可能会找到有价值的信息。将有价值的信息展现出来,能够帮助我们做出正确的决策。在人类社会的发展已经由动力驱动转变为数据驱动的背景下,教育正在发生着一场新的变革,大学计算机基础教育也面临着类似的机遇和挑战。通过网络教学系统,可以更加方便地获取和利用大学计算机基础教育相关的各种数据
。大学计算机基础教育涉及的数据主要有以下几种:
(1)课件。课件是文字、声音、图像、动画等素材的集合,帮助教师更加生动地讲解课程内容,主要使用PPT和Flash两种文件。
(2)视频。视频是将教师在课堂上的授课内容录制下来,为学生提供课后学习的方式。学生可以在教学系统中下载或在线学习视频内容。
(3)题目。题目主要用于测试学习效果,包括判断题、填空题、选择题、问答题、程序设计题等各种题型。
(4)问题。学生在学习过程中遇到的问题,通过教学系统提交给教师。这些问题反映了学习的难点,是教师在课堂上需要详细讲解的教学内容。
(5)代码。代码是学生做程序设计类题目时所编写的程序代码。学生编写代码的质量可以由教师评判,也可以由系统自动评判。
(6)行为。行为用来记录学生的学习活动,如课件下载行为、视频点播行为、作业浏览行为、编程行为等。这些行为能够反映出学生的学习情况。
(7)缺陷。缺陷是学生提交的作业中包含的各种错误,反映了学习过程中存在的问题。对教学系统而言,这些数据是进行个性化推荐学习的参考依据;对教师而言,这些数据能够提示教学过程中需要特别关注的地方。
(8)过程。过程是指在教学过程中收集到的一些宏观数据,如课件学习过程、视频学习过程、测试过程等。这些过程能够反映出学生学习的个体差异。
3大数据驱动的新模式
在大数据时代,我们可以利用大数据技术在大量与学习相关的数据中挖掘出有价值的信息。这些信息能够帮助学生更加科学有效地学习,较好地解决当前计算机基础教育面临的问题。因此,我们将大数据技术融入到大学计算机基础教育中,提出一种大数据驱动的计算机基础教育新模式。它是在有效规划和整合计算机基础教育大数据的前提下,为学生提供各种自主学习资源和服务的新模式。学生和教师在使用各种网络教学系统时,输入的数据和学习行为都被系统记录下来。利用大数据技术对记录下来的数据进行分析,挖掘出与学生学习特征相关的数据。这些数据为学生的后续学习提供个性化的推荐,规划个性化的学习路线;向教师反馈学生的学习行为和效果,为后续教学提供个性化的推荐,帮助教师改进教学方法。以在线课程系统、在线编程系统和在线答疑系统为代表的各种网络教学系统目前得到了广泛的应用,这些系统本质上都是大数据驱动。实践证明,这些系统的应用将为学生学习和教师教学提供实质性的帮助。
1)在线课程系统是课堂教学的延伸
大型开放式网络课程MOOC是国际上流行的教学平台。自2013年5月以来,北京大学、清华大学、复旦大学、上海交通大学等国内一流高校纷纷宣布加入MOOC,向全球提供免费的在线课程。MOOC采用云计算架构,提供大量的视频学习资源和人机交互功能。学生提交作业后,系统能自动评判作业的质量,以评估学习效果。MOOC的出现给计算机基础教育带来巨大影响。MOOC解决了学生计算机应用能力差异大的问题,学生不管基础如何,都能找到与之相应的学习内容;MOOC弥补了课堂教学学时不足的问题,学生能在课后随时随地找到学习资源;MOOC能够记录学习的结果与过程以及作业中的错误等,这些对于改进教学方式和调整教学重点等都有意义。
2)在线编程系统是实验环节的补充
随着SaaS技术(软件即服务)的不断成熟,出现了许多功能强大的在线编程系统。这给大学计算机基础教育中的程序设计类课程的实验教学
带来了巨大的帮助。使用在线编程系统进行实验的好处有以下几点:
(1)教师不用在实验室的每台计算机中安装软件,学生通过浏览器就可以编写程序;
(2)学生编写的代码都存储在云端,能上网的地方就能练习编程,并且随时可以修改代码,解决了实验教学学时不足的问题;
(3)在线编程系统主要记录代码和代码编写的过程,能够收集实验过程中与学习相关的数据。国外在线编程系统CodeCademy提供了一种学习编程的新方式。它的用户群是零基础的学习者,所以CodeCademy创设趣味性的学习环境,手把手帮助学习者了解编程的过程。它的在线编辑器能让学习者不用寻找、下载和安装编程环境就可以在网络上编程。在线编程系统不仅为实验教学提供了方便的实验环境,还能收集大量的程序代码和学生的编程行为,有助于分析学生的学习特点与习惯,区分学习个体,为制订个性化学习路线提供有价值的数据。
3)在线答疑系统是课后辅导的平台
学生在学习过程中常常会遇到很多问题,这些问题如果能及时得到解答,就能促进学生更深入地学习;反之,就会影响学生的学习效果和积极性。目前,互联网上已经出现了许多人工解答和自动解答的系统。有代表性的是上海交通大学的远程教育设计中心设计开发的AnswerWeb自动答疑系统,它是一个动态的问题及答案的数据库。学生输入关键词后可以在系统已有的问题和答案数据库中查找相关的材料。如果没有找到答案,则会自动转发给教师请求帮助解答。随后,新的提问和答案将被增加到系统库中。系统会记录所有的问题和答案以及学生提问过程中的行为。在线答疑系统应用到大学计算机基础教育中,解决了教师无法在课后对每位学生进行辅导答疑的问题。同时,利用大数据技术,答疑系统将学生提问和获得解答的行为记录下来,自动的分析这些数据,挖掘学习个体特征,为学生的后续学习提供个性化的推荐。
4结语
计算机基础教育必须与时俱进,通过转变教育模式才能满足社会的需求。大数据驱动的计算机基础教育新模式不仅有利于解决当前大学计算机基础教育面临的问题,而且能推荐个性化的学习规划,为学生找到适合自己的学习路线。网络教学系统在收集了大量的学习过程数据后,对这些数据进行分析、挖掘,进而延伸课堂教学,补充实验环节,实现课后辅导,并向学生推荐个性化的学习路线。大数据驱动的新模式给计算机基础教育带来了新天地。
浏览量:3
下载量:0
时间:
随着互联网的普及与信息化进程的推进,为各个行业的发展提供了更加广阔的平台,不仅提升了企业工作效率,还促进了经济发展。下面是读文网小编为大家整理的计算机大数据论文,供大家参考。
1计算机信息处理技术存在不足之处
大数据时代的到来,计算机信息处理技术也存在着很大风险,其中最突出的问题是计算机病毒以及恶意盗版软件等,给用户使用计算机产生了极大的消极影响。这些还是一些比较基础的问题,随着计算机技术的发展,还出现篡改数据、冒名顶替等问题,影响计算机技术服务质量,计算机信息处理技术受到了前所未有的考验。另外,大数据时代的到来,还出现了许多新型网络技术,针对一些繁琐的问题能够有效解决,提高了人们的工作效率,然而,这也在一定程度上降低了网络的真实性,特别是在网络交流和沟通日益紧密的前提下,导致网络信息真假难分,不仅增加了信息搜索难度,而且致使人们无法快速获得真实信息。因此,提高计算机信息处理技术至关重要。
2大数据时代计算机信息处理技术
2.1信息采集、加工方面
计算机信息处理技术要进行工作,首先,要采集数据信息,计算机技术都是建立在数据采集基础之上的,数据采集主要是针对目标信息源进行实时的信息监督和控制,并将才觉得数据储存在计算机数据库中,为各个软件提供信息支持,确保下一项工作顺利进行;其次,对数据信息进行加工,按照用户的要求,对数据信息进行加工;最后,将加工好的数据信系进行分类,最终传送到用户手中,实现数据采集、加工以及传送目标。
2.2存储方面
计算机存储技术是将采集的信息储存到计算机数据库之中,在用户需要某一项信息过程中,可以通过数据库直接将数据调取出来,计算机以其储存量大、速度快等优势,受到人们越来越多的关注,另外,计算机技术还能够实现长时间储存。
2.3信息安全方面
大数据时代的到来,让人们感受技术带来的便捷的同时,也让人们意识到数据信息安全对人们的重要性。因此,为了能够提高数据信息的安全、可靠性,可以通过以下几个方面进行:首先,建立计算机信息安全体系,加大专业技术人才的培养力度,投入资金,为构建计算机安全体系奠定坚实的基础;其次,加大研究力度,开发信息安全技术产品。传统信息安全技已经无法满足大数据时代数据安全需求,为了能够尽快改善数据安全问题,应加大研究力度,寻求更好的解决方案,有效避免数据信息受到威胁;最后,重视对重要数据的检测,大数据时代的突出特点是数据量大,无法实现对每一个数据的检测。因此,为了提高数据安全系数,应加强对重点数据信息的检测,从而确保数据信息安全。
2.4信息处理技术的发展
计算机硬件具有一定局限性,在一定程度上阻碍了计算机网络的发展,而云计算网络能够突破这一弊端。因此,推广和应用云计算机网络成为未来大数据时代计算机信息处理的主要发展趋势。传统计算机网络是将硬件与网络有机结合,抑制了计算机信息处理技术的发展,将二者分离开,促使云计算主筋形成云计算网络,从而构建大数据信息网络系统,推动我国社会不断发展。
3结论
根据上文所述,大数据时代的到来,计算机信息处理技术不断渗透到社会各个领域,对人们的生活产生了巨大影响。因此,作为一种重要技术,应加大对其关注力度,深入研究,逐步完善计算机信息处理技术,为人们提供更加安全、可靠地技术,促进社会健康发展。
一、大数据特征
大数据的特征常用4V来表示,具体是指大数据的四个显著的特征:第一是数据体量,主要指的是巨大的数据量与数据的完整性。第二是数据类型,指数据的种类非常的多而且复杂,大数据技术就是要在这些复杂的数据类型之间寻找其关联性。第三是处理速度,爆炸式增长的数据量要求快速化的处理速度,才能使得数据的有效利用。第四是价值,大数据的最终目标是将庞大数据中找到数据时间的价值关系,通过找到低密度的数据价值对决策做支持。当前大数据技术不仅产生于特定领域中,而且还产生于我们每天的日常生活中,Facebook、微博、微信等社交媒体上的数据就是最好的例子。大数据发展为社会各领域带来的机遇和挑战,网络思想政治教育作为信息时代育人的新载体自然无法回避这个新的环境变化。分析大数据对网络思想政治教育带来的巨大机遇与严峻挑战,探讨如何在大数据时代创新网络思想政治教育的具体措施,进而为下一步发展提供有益的指导已然成为热点研究问题。
二、大数据时代下的网络思想政治教育的新发展方向
(一)树立大数据时代的网络思想政治教育的数据意识网络思想政治教育必须顺应科技与时代的发展。大数据时代教育工作者需要树立网络思想政治教育的数据意识,这是发展大数据环境的网络思想政治教育的首要前提。针对大数据发展网络思想政治教育可以分为如下三个方面。首先是要全面了解和分析大数据本身,理解大数据是什么、大数据的变革力量何在、大数据的未来发展趋势等等;其次是在理解大数据的基础上,系统地分析大数据时代对网络思想政治教育可能产生的影响,带来的机遇和挑战。最后是充分的确立数据意识,意识到数据是现代社会最具价值的资源,是发展与决策的源泉。用数据意识驱动网络思想政治教育工作创新发展,例如在一定的数据分析基础上将灌输式集中教育变为交流式个别教育。
(二)借助大数据技术对网络思想政治教育进行量化研究
定性研究与定量研究相结合是网络思想政治教育的重要研究方法。定量分析法是对社会现象的数量特征、数量关系与数量变化进行分析的方法。定量分析使用数学模块对研究对象可量化数据进行的分析,通过分析对目标给予评价并做出判断。定量分析方法始终受到教育工作研究人员的关注,因为网络思想政治教育中存在极大的不确定性和动态性的因素,定量分析方法可以帮助我们对网络思想政治教育进行科学评价。但与此同时定量分析方法具有很大的复杂性,受很多技术因素的限制,一直不能很好的发挥作用。大数据技术的出现为定量研究提供了一种新的技术手段,成为科学研究新的范式。定量研究可以运用大数据技术进行理论假设、建立数据模型以及数据分析验证。由此可见,大数据时代网络思想政治教育的研究,需要与数据资源丰富的机构单位合作,借助这些数据载体的平台、资源以及高精尖的技术,进行合理合法的挖掘教育对象的信息,从而精确的开展网络思想政治教育活动。另外,要建设一支过硬的网络思想政治教育队伍,不但要具备思想政治教育的专业知识,而且还要具备创新的网络教育观念、精通大数据等新技术手段。
(三)促进大数据时代网络思想政治教育信息资源建设
发挥大数据技术的优势,分析网民的接受习惯,增强教育内容的实效性、趣味性,以服务成长成才为核心有针对性地加强功能开发,提高网络思想政治教育信息资源的受关注度。此外在信息资源建设过程中要注意好以下几点:首先要把握信息资源内容的方向性,弘扬主旋律、传递正能量。其次信息资源的形式要多样,通过文字、声音、图像等形式,经由微博、微信等新兴传播手段,提高教育的实效性。再次,信息资源来源要丰富,可以从各大媒体引进、从理论学习资料借鉴、从大型活动中总结、从日常工作中提炼,确保信息资源及时更新。
三、总结
通过以上的分析,可以看出,大数据时代网络思想政治教育必须在继承传统中实现新发展。坚持不动摇的是网络思想政治教育的基本结构、功能以及原则。创新发展的是符合大数据时代的教育内容与内涵,进而找准变化点,更新网络思想政治教育的研究方法,将网络思想政治教育带入新的发展阶段。
浏览量:2
下载量:0
时间:
在当前的科技水平背景下,计算机对数据进行处理的运行速度已经逐渐无法跟上人们逐渐提升的娱乐需求以及办公需要,这也对计算机技术合理发展以及进步起到了很大的制约作用。下面是读文网小编为大家整理的QQQ,供大家参考。
企业管理数据库[3]的数据信息是由工业管理以及商业管理要求来决定的,收集职工详细信息,包括人员情况、职工薪水、职称晋级、产品指标以及销路规划等,及时了解员工的工作状况以及企业的经济数据,能够提高工作效率,使企业的日常运营方便快捷。当构建企业数据库的时候,比如企业的产品数据库,数据库包含的信息有产品的性能特征、厂家的具体情况等,因此检索字段可以设置为产品名称、厂家名称以及产品分类号等,有利于用户快速检索相关产品,当客户需要查找某种产品的时候,只需要输入主题字或者关键字,就可以获得该产品的产品情况。另外,由于员工的加入以及退出,会导致信息资料的变化,因此,在建立企业数据库的时候,应该严格按照数据库的构建流程,建立完善的数据库体系。对于人员流失比较频繁的部门,应该建立专门的数据库,保证数据库的完善,避免数据库的损坏。在日常工作中,还要不定期对数据库数据信息进行更新。
尽管数据库是严格按照流程进行构建的,但是数据库的漏洞也是难以避免的。比如前后工作之间的衔接以及校验,比如计算机文字的错误录入。因此,必须对数据库进行维护和管理。
1加强数据库管理人员的技能
维护计算机数据库,应该加强数据库管理人员的专业技能和综合素质,使它们能够熟练掌握计算机专业知识,熟练运用计算机相关软件。建立专门的数据库校验部门,分派专业管理人员对数据库进行分析和校验,检查数据库构建过程以及检索过程中出现的错误,并且及时进行核实,并且进行更正,保证数据库信息资源的准确性和完整性。
2加强数据库的更新与维护
当计算机数据库构建完毕以后,应该全面检查输入信息的准确性以及完整性,建立定期检查制度[4],保证计算机数据库的质量,提高数据库的利用效率。数据库的时效性影响着数据库的生命。因为科学技术发展十分迅速,数据信息不断更换,比如国家政策、法律法规等,随时都可能出现过时的现象,一旦旧的法律以及标准被重新制定或者修改和增补,那么就需要重新录入最新数据信息,代替作废的旧信息。因此,除了选择性能好的操作系统之外,还应该及时对系统进行升级,保证系统的稳定运行,还要对数据信息进行实时记录,及时进行更新,并添加到数据库中,有利于利用数据库的信息资源。对于大学图书馆数据库的维护,由于分类名目较多,图书资源繁杂,因此,应该根据学校的性质以及文献的专业设置,细化图书文献资源的分类工作,减少不必要的类别,并且添加新的文献资源。如果不能及时对数据库进行更新维护,那么就无法保证数据库的准确性以及全面性,从而对数据库的有效应用造成影响。对于企业产品数据库的维护,一般在一至两周年内对数据进行更新[5],因为产品可能停产或者改型,也可能研制出了新一代的产品,而且有些厂家可能已经倒闭,或者更换了厂址,或者改了新的厂名,产品信息的变化非常大,所以,必须及时对产品的相关数据信息进行更新,保证产品信息具有一定的时效性。只有及时更新数据库,才能保证数据库的活力与生命,才能满足信息时代人们对于数据信息的需求。
3重视用户的计算机教育
在计算机数据库的使用过程中,还要对数据库的使用者进行相关培训。只有对使用者普及计算机知识以及数据库的知识,才能使用户在使用过程中达到快捷方便的使用目的。另外,还应该编制用户使用手册,并且重点标注重要的注意事项,使使用者能够合理地运用数据库信息资源,避免造成数据库的破坏。
4营造方便快捷的网络环境
当数据库建成以后,必须配备一定数量的、性能好、运行稳定的计算机,还需要定期对计算机的设备硬件以及应用软件进行定期检测和维护,确保计算机数据库的正常使用。营造方便快捷的网络环境,有利于推动社会经济和文化教育,扩展数据库的应用领域,提高数据库的使用效率,充分发挥数据库的强大作用。
随着时代的进步以及科学技术的发展,计算机数据库成为学校以及企业必需的工具。数据库的构建和管理也是一项长期而复杂的工程,因此,在数据库的操作过程中,必须细致入微,衔接得当,创造出一个稳定、准确的操作环境,提高学习和工作的效率。
数据库安全系统除了要保证数据的安全性,还要对数据的相容性、有效性、正确性进行保护,即保证数据的完整性。相容性是指不同用户对同一数据进行访问得到数据是相同的;有效性是指数据库中的理论数值能够满足现实应用中对该数值段的约束;正确性是指数据表对应域的类型与数据的输入值的类型是一致的。防止发生输入和输出数据不符合语义的现象,同时保证数据的相容性、有效性、正确性,才能保证数据的完整性。
操作人员的失误或是计算机的硬件故障等问题对数据库造成的破坏是目前数据库安全系统的保护措施所不能避免的,目前数据库安全系统的保护措施仅能保证数据库的安全性、完整性,并且保证并发事务的正确执行。但是操作人员的失误或是计算机的硬件故障会影响到数据库中数据的正确性,数据库受到破坏、数据库中的部分数据丢失或者全部数据的丢失的现象都有可能是其造成的。所以保证故障恢复功能有着非常重要的作用,它可以保证结束数据库的错误状态,恢复成正确状态。
威胁数据库安全的因素
数据库安全的标志是,数据库的保密性、完整性和可用性不会受到威胁。从实际情况来看,危害数据库的安全因素主要有:一是计算机软件和硬件环境的意外情况,比如:系统的崩溃、磁盘的损坏进而破坏数据;对数据库的不正确的使用破坏现象;非法访问、修改数据库造成的破坏;为了某种目的,故意对数据库造成的破坏;二是通过网络对数据进行的一系列有预谋的破坏活动;三是账号的设置过于简单、脆弱,有些企业方便员工查看相关资料不设置账号密码或者是公开;四是数据库治理人员的角色分工模糊,有些人身兼数职,大大降低了治理效率;软件本身的漏洞等等。
计算机数据库安全管理措施
1安全模型
现在的安全模型可以分为两种:第一种就是多边安全模型。多边安全模型能够阻止对数据库安全措施信息的横向泄露,最大程度的保护数据库信息安全。第二种就是多级安全模型。多级安全模型中分为绝密级、机密级、秘密级由高到低的三个层次,密级或者高于密级权限的人员可以使用该密级信息,军用系统和数据库的安全保密系统首先使用这种多级安全模型,它分层次的对信息进行绝对保护。
2用户标识与鉴别
目前计算机中有非常多的方法可以进行用户标识与鉴别,多种方法也可以在一个系统中同时使用,强化系统的安全性。常用的方法有:输入用户名确定用户身份;回答口令识别用户身份;回答对随机数的运算结构表明用户身份等等。尽管这类方法可以加强系统安全性,到也使成本增加很多,所以,一般都是像百度这类大型企业使用。
浏览量:2
下载量:0
时间:
随着我国信息化时代的到来,计算机数据库系统得到了广泛的发展和应用,在各行各业的发展过程中,计算机数据库管理系统已经取得了很好的发展应用水平。下面是读文网小编为大家整理的计算机数据库毕业论文,供大家参考。
企业管理数据库的数据信息是由工业管理以及商业管理要求来决定的,收集职工详细信息,包括人员情况、职工薪水、职称晋级、产品指标以及销路规划等,及时了解员工的工作状况以及企业的经济数据,能够提高工作效率,使企业的日常运营方便快捷。当构建企业数据库的时候,比如企业的产品数据库,数据库包含的信息有产品的性能特征、厂家的具体情况等,因此检索字段可以设置为产品名称、厂家名称以及产品分类号等,有利于用户快速检索相关产品,当客户需要查找某种产品的时候,只需要输入主题字或者关键字,就可以获得该产品的产品情况。另外,由于员工的加入以及退出,会导致信息资料的变化,因此,在建立企业数据库的时候,应该严格按照数据库的构建流程,建立完善的数据库体系。对于人员流失比较频繁的部门,应该建立专门的数据库,保证数据库的完善,避免数据库的损坏。在日常工作中,还要不定期对数据库数据信息进行更新。
尽管数据库是严格按照流程进行构建的,但是数据库的漏洞也是难以避免的。比如前后工作之间的衔接以及校验,比如计算机文字的错误录入。因此,必须对数据库进行维护和管理。
1加强数据库管理人员的技能
维护计算机数据库,应该加强数据库管理人员的专业技能和综合素质,使它们能够熟练掌握计算机专业知识,熟练运用计算机相关软件。建立专门的数据库校验部门,分派专业管理人员对数据库进行分析和校验,检查数据库构建过程以及检索过程中出现的错误,并且及时进行核实,并且进行更正,保证数据库信息资源的准确性和完整性。
2加强数据库的更新与维护
当计算机数据库构建完毕以后,应该全面检查输入信息的准确性以及完整性,建立定期检查制度[4],保证计算机数据库的质量,提高数据库的利用效率。数据库的时效性影响着数据库的生命。因为科学技术发展十分迅速,数据信息不断更换,比如国家政策、法律法规等,随时都可能出现过时的现象,一旦旧的法律以及标准被重新制定或者修改和增补,那么就需要重新录入最新数据信息,代替作废的旧信息。因此,除了选择性能好的操作系统之外,还应该及时对系统进行升级,保证系统的稳定运行,还要对数据信息进行实时记录,及时进行更新,并添加到数据库中,有利于利用数据库的信息资源。对于大学图书馆数据库的维护,由于分类名目较多,图书资源繁杂,因此,应该根据学校的性质以及文献的专业设置,细化图书文献资源的分类工作,减少不必要的类别,并且添加新的文献资源。如果不能及时对数据库进行更新维护,那么就无法保证数据库的准确性以及全面性,从而对数据库的有效应用造成影响。对于企业产品数据库的维护,一般在一至两周年内对数据进行更新[5],因为产品可能停产或者改型,也可能研制出了新一代的产品,而且有些厂家可能已经倒闭,或者更换了厂址,或者改了新的厂名,产品信息的变化非常大,所以,必须及时对产品的相关数据信息进行更新,保证产品信息具有一定的时效性。只有及时更新数据库,才能保证数据库的活力与生命,才能满足信息时代人们对于数据信息的需求。
3重视用户的计算机教育
在计算机数据库的使用过程中,还要对数据库的使用者进行相关培训。只有对使用者普及计算机知识以及数据库的知识,才能使用户在使用过程中达到快捷方便的使用目的。另外,还应该编制用户使用手册,并且重点标注重要的注意事项,使使用者能够合理地运用数据库信息资源,避免造成数据库的破坏。
4营造方便快捷的网络环境
当数据库建成以后,必须配备一定数量的、性能好、运行稳定的计算机,还需要定期对计算机的设备硬件以及应用软件进行定期检测和维护,确保计算机数据库的正常使用。营造方便快捷的网络环境,有利于推动社会经济和文化教育,扩展数据库的应用领域,提高数据库的使用效率,充分发挥数据库的强大作用。
随着时代的进步以及科学技术的发展,计算机数据库成为学校以及企业必需的工具。数据库的构建和管理也是一项长期而复杂的工程,因此,在数据库的操作过程中,必须细致入微,衔接得当,创造出一个稳定、准确的操作环境,提高学习和工作的效率。
一、计算机网络数据库安全概述
对数据库进行安全保护,可以有效避免用户非法越权使用、窃取、更改甚至破坏数据。数据库安全包括以下几点。
1.逻辑完整性。保护数据库的整体结构,如对某个字段进行修改时,其他字段没有遭到破坏。
2.物理完整性。数据不会受到自然及物理问题的破坏,如电力和设备故障等问题。
3.元素安全性。数据库中存储的所有元素均正确。
4.访问控制。明确只有通过授权的用户才可以访问数据库,可以通过不同方式限制不同用户的访问。
5.可审计性。能够对数据库元素进行追踪存取与修改。
6.可用性。授权用户可以对数据库进行自由访问。
7.身份验证。审计追踪、访问数据库必须进行严格的身份验证。
二、计算机网络数据库存在的安全威胁
1.数据库的下载。多数用户在使用ASP编写连接文件中,大都用语句“(conn.asp):”对数据库进行保护。单从语句的连接上看是正确的,而且名称长度也很保险,下载者对数据库难以识别解除。但是如果通过暴库技术与相关工具,就可以快速定位具体数据库的各种情况,一般是用“%5c”命令,虽然不能百分百成功暴库,但是出现暴库的几率非常高。在获取地址后通过IE输入,再下载到本地,就能够获得用户名及密码。
2.注入SQL。互联网中,大多数是在设立防火墙后才布置WEB服务器,只开放80端口,非法者无法入侵其他端口,因此,80端口是他们入侵的目标,而常用方式是注入SQL。有少数程序编制者在编写程序的代码时,忽略了对用户输入的数据正确性的辨别,使得应用程序面临很多威胁。在客户端对代码进行传输,收集处理程序与服务器数据信息,得到所需资料,这种操作被称为注入SQL。注入SQL可以常规访问80端口,相当于普通Web页面进行访问,防火墙对注入SQL无法获取报警信息,如果管理员不能及时进行审核检查,几乎很难发现被入侵。
三、维护计算机网络数据库安全的应对措施
1.严格查堵URL端漏洞。在审核用户使用数据库的情况时,若发现用户端在URL提交参数时,存在exec,insert,delete,from,count,user,xp_cmdshell,add,asc(,char(,drop,able,mid"等用在注入SQL中的字符以及字符串,就必须立即禁止ASP的运行,而且会显示出如“出错提示”等报警信号,对于有接收的用户端在URL提交参数程序时用<!--#includefile=“../*****.asp”-->即可写入程序,该方法能够有效防止多数入侵者的入侵,同时还不会影响程序执行的速度;也可以在if语句中对注入SQL常用的字符、字符串进行设置,在特定的时间里拒绝IP访问,增强数据库安全,防止黑客非法入侵。
2.严格查堵form和cookies漏洞。有些袭击者通过form、cookies提交含有“or”、“=”等字符入侵,为防止入侵,应该在编写程序时添加特殊字符,确保程序安全执行。可通过paraname=Request.form()即paraname=Request.Cookies()获取用户名与密码,再加入代码,如果在用户参数paraname中发现空格、=、or等字符时,应该终止then后面的执行情况,不再运行ASP,以拦截入侵者入侵。
3.增强自身安全。暴库是因为IIS服务器具体显示各执行错误的情况并中断执行时,把错误信息发送给了用户。为防止暴库,应该调整IIS默认设置。通常的防范措施是把数据库后缀名由MDB变为ASP、ASA。虽然该方式可以防暴库,但随着计算机技术的发展,该方法已经无法满足最新防范的要求。后缀修改的ASP、ASA的数据库文件,黑客能够进行查找并确定具体存储位置,可以通过迅雷等下载获得。
4.数据库名的前面加“#”。现在大部分的管理员在数据库名的前面加#号,可以有效防止数据库被非法下载,这是因为IE不能下载带#号文件。但是网页不仅可以通过常规方式进行访问,还能够通过IE编码技术进行访问。IE里的不同字符都存在相应编码,编码符号“%23”可以取代#号,以此种方式进行处理后,数据库文件后缀加#号是无法被下载和使用。
5.加密用户密码。加密用户密码也是一项有效的应对措施,一般是采取MD5进行加密。MD5没有反向算法,因此很难解密,黑客们即使获得加密情况,但还是无法找出正确的原始密码。虽然可通过UPDATE方式以其他密码替代,但是这种操作难以实行。需要注意的是,信息数据进行MD5加密后很难解密,因此用户必须防止密码丢失、忘记。这种加密方法必须改变前用户的所有资料,用户要对资料进行重新设置,还要把数据库中经过MD5加密放入相关字段进行计算后才能再次存储。
四、结论
数据库的安全直接影响到整个计算机网络系统的安全,因此,应该采取全方位的保护措施,保证计算机网络系统的安全,为广大用户营造安全且稳定的网络运行环境,以防止计算机网络数据库被非法入侵和袭击。
浏览量:2
下载量:0
时间:
计算机技术发展至今,已经成为了多元化技术的一种统称。计算机的软件技术是目前应用最为广泛的技术,也是发展最为迅速的技术。下面是读文网小编为大家整理的计算机数据处理论文,供大家参考。
一、防雷电波侵入的措施
计算机网络系统防雷电波侵入,特别是高层建筑物内的电子计算机设备的供电电力线不可架空敷设进入大楼。已经这样敷设的地方,应采取改造措施,改用铠装电缆穿金属管埋地敷设进入楼房,并装上电源避雷器,会收到好的效果。数据通信的信号线在户外传输时不可架空敷设,应穿金属管埋地敷设,在两端信号线上装上相应的信号浪涌保护器,金属管两端应接设备保护地。金属管埋地线路要避开直击雷引线和接地体。信号线在户内传输时,不可与强电线路并排平行敷设。
二、防感应雷的措施
(一)电源系统的防感应雷
目前市场上有三相四线组合型电源浪涌保护器和单相组合型电源浪涌保护器,有箱式带雷击数计数的和简易型,单相又有并式和串式,还有多种直流电源浪涌保护器。各种场合均有相应的电源浪涌保护器。这些电源避雷器性能稳定,安装方便。一般应在总电力室、楼层配电屏和机房等设三级来防护电源系统的感应雷,采用者三级防护来实现逐级泄流的作用。
(二)数据信号线防感应雷
1、用交换网进行远程通信的广域网,在Modem前用两线信号浪涌保护器。
2、在异步串行通信端口用RS-232-C25针9线或9针9线速率在20Kbps或64Kbps以下的数据信号浪涌保护器。这种浪涌保护器使用场合较多,比如Modem与主机或终端间作为二级防护;以太网或Novell网总线结构粗缆网路由器与Modem间作二级保护;在终端服务器与终端间以保护终端服务器;各银行系统营业部服务器与各终端通过RS-232-C接口的地方都可使用这种避雷浪涌保护器。
3、局域网总线结构细缆网BNC连接速率100Mbps的数据信号浪涌保护器,用于以太网、细缆Novell局域网与终端串接,安装方便。
4、通过HUB采用星形连接方式的10BASE-T网络,用RJ45连接器连接双绞线传输的数据信号浪涌保护器。
5、两线平衡传输的数据信号浪涌保护器,用于监控系统或自动控制以及电流环的地方。
6、采用卫星数据通信的广域网,在室内收/发单元或室外单元使用卫星数据通信同轴浪涌保护器。这些信号浪涌保护器安装方便、性能好,能有效地防止感应雷击。安装后不影响数据传输和通信。具体安装多少个信号浪涌保护器,要根据具体单位的设备位置和布线来确定,一般是信号线上楼或到别的房间要考虑安装,以防感应雷击。
三、防止地电位反击
系统的接地是比较复杂的问题。我们的看法是防雷与接地是一个整体,而且接地是做好防雷的基础。我们主张接地系统能分开则分开好,分不开或高层建筑物及综合通信系统应采取联合的接地方式。或采用分开接地方式,对于弱电电子设备,各接地系统应相距20米以上。这样的接地体才是独立的,不致于造成地电位反击。因为雷电流是属于高频冲击波,在地中传播时,电压随距离的衰减成一个嗽叭口的曲线形状。按照GB50174-2008《电子计算机机房设计规范》中的规定,计算机机房应采用四种接地方式:
●交流工作接地,接地电阻不应大于4欧;
●安全保护接地,接地电阻不应大于4欧;
●直流工作接地,接地电阻按计算机系统具体要求确定,若设备较少,接地电阻可以为2欧;若设备多,其接地电阻应不大于1欧;
●防雷接地,这里指防直击雷接地,应按现行国家标准GB50057-2010《建筑物防雷设计规范》执行,一般不应大于10欧。一个单位、一栋大楼、一个系统的接地问题应全盘综合考虑,为安全提供条件。首先要考虑供电系统的接地问题,供电系统有一个体制问题。按照国际电工委员会(IEC)的规定和要求,我国采用的几种供电体制中与计算机机房供电有关的有TN-C;TN-C-S;TN-S;TT四种体制。供电的系统接地指变压器低压侧中性点直接接地的系统,低压负载侧电气设备平时不带电的外露导体的接地称为保护接地。而保护接地又分为接零保护和接地保护,计算机机房提倡采用TN-C-S系统供电。即接零保护的三相五线或单相三线制。中性地N、保护接地PE、直流工作接地和防雷接地,这四种接地在“电子计算机机房设计规范”中有两种规定:第一,交流工作接地、安全保护接地、直流工作接地、防直击雷的接地等四种接地宜共用一组接地装置,接地电阻按直流工作接地确定,这属于机房的联合接地方式。第二,分开接地,若防直击雷的接地单独设置接地装置时,其余三种接地宜共用一组接地装置,接地电阻按直流工作接地的电阻确定,而且与防直吉雷的接地体要相距20米以上,以防止反击。高压变压器低压侧中性点的接地有三种与直流工作接地、联合接地装置的连接方式。另外计算机局域网的总线结构形式中粗缆网、细缆网采用的传输介质同轴电缆,其外皮金属在整个网上都是悬空的,不可轻易乱接地,只能在服务器的远端的一个终接器接地,且必须接设备保护地。电子计算机系统的接地应采用单点接地方式,当多个电子计算机系统共用一组接地装置时,宜将各电子计算机系统分别采用接地线与接地体或汇集线连接,连接线一般采用绝缘铜芯绞线,其截面应大于35mm2,引线越长,其线的截面越大。我们的多功能防浪涌保护器的接地一般是利用建筑物的接地装置并应与建筑物的避雷带相连。各种防感应雷的防浪涌保护器的接地,一般均接到被保护设备的保护地上。
1对传统数据处理与现代结构实验数据处理的分析
从以上的论述中可以看出,传统计算机辅助数据处理还存在诸多的问题,为了有效的解决这一问题,研发出了现代结构数据处理系统,该系统相对于传统的数据处理系统而言,存在以下优点:首先,在新的软件系统中引进了数据库技术,其操作模块和数据模块是独立的两个模块,可以实现其独立工作。其次,该系统采取了C/S的管理模式,这种模式可以实现对量测数据的管理、导入以及结果处理。再次,采用SQL语言编辑形式,可以对测试数据的快速查询和对实验要求的快速访问。最后,该系统中预留了数据入口接驳功能,可以实现自由的职能扩展。
2实验数据处理技术方案
2.1实验概况
本次结构实验选取某铁路钢构三跨PC箱形桥,按照刚度相思的原则,将该桥的尺寸和模型尺寸拟定为18.2:1,该桥模型的总长度为29.6米,在墩身的建筑中,使用的是C40的混凝土,墩台使用的混凝土型号和墩身使用的混凝土型号保持一致,在桥身的建筑中,采用的是C60的混凝土类型,在1号和4号桥墩采用的支座是活动的,2号和3号桥墩采用的刚性连接支座,并对其采用竖向和水平的加载方式。在本次实验工况研究中,设置了四种工况,包括水平推力、张拉、配种以及竖向加重。
2.2对结构实验的分析
按照结构实验数据处理的一般流程将软件化为为三个层次,第一个层次就是数据库层,主要用于存储试验中用到的各种信息;第二层为数据管理层,主要负责对试验中各种数据的管理;第三层为处理结果层,该层主要是根据第二层下达的任务,实现对数据的结果表达。在Matlab软件中,设计了一套完整的控制函数,并包括I/O设备访问所需要的函数,该函数可以实现对硬件的有效控制,同时也满足了硬件之间的通讯功能。
2.3对实验结构数抽象据库的分析
根据实验模型的机构体系,根据数据库的原理,可以得出抽象的数据库模型,该数据库的模型可以通过Access2000实现。在该数据库模型中,涉及到的因素很多,例如用于存储百分表位移计分布信息的位移测点表,存储加载历程和工况的工况信息表,除此以外,还包括应力信息表、压力信息表、位移测值表以及应变信息表。在数据访问和数据管理操作中,不会对其他表进行操作,只需要通过位移测点表、测点信息表以及工况信息表来完成。采用这种数据访问和数据管理方法,可以有效的确保原始数据不受到破坏,提高原始数据的安全性。
2.4对数据管理和数据处理的分析
在对数据进行相关操作时,要确保数据的安全性。因此,在进行数据库操作的过程中,应该将其放在安全性比较高的C/S模型中,并在其前端管理程序中实现。通过控制Matlab软件编程数据管理程序,在ODBC中建立相应的数据库接口,从而在Database中实现对数据的处理和数据访问功能。在对数据库进行管理的过程中,需要实现多个方面的功能,具体来说,主要包含以下几个部分:首先,要预留出UCAM接入口和PC接入口,并实现对数据的手动导入和自动导入功能。其次,要按照一定的条件,实现对数据的访问和对数据的查询功能,并做到便捷和高效。再次,要实现数据处理任务定制功能,根据数据查询的结果和数据的性质,程度可以对程度做出智能判断,并建立起数据连接机制和数据导入机制,最后利用Matlab来实现对数据库的管理功能。根据以上的论述,利用Matlab编程程序,实现了对数据的初步自动化功能和可视化功能。
3总结
综上所述,在计算机进行大型结构实验和现场检测数据处理时,要以数据处理流程为基础,并遵循其处理流程进行数据处理,其管理功能可以利用Matlab软件来实现,并利用Matlab软件软件的计算功能,实现对节后实验数据和现场检测数据的处理、查询以及浏览。通过这样的计算机数据处理程序和流程,可以有效的一高数据的效率,并且可以确保原始数据的安全性。在本研究中,所设计的结构能够有效的节约人力和物理资源,减少工作人员的实际操作,实现对资源的合理利用。
浏览量:2
下载量:0
时间:
大数据时代的到来,使图书馆的数据来源及信息服务模式都发生了变化。图书馆应探索利用大量半结构、非结构化数据对图书馆的信息服务进行深度挖掘,以寻求新的发展模式。以下是读文网小编为大家精心准备的:大数据对公共图书馆服务的影响探讨相关论文。内容仅供参考,欢迎阅读!
摘要:随着计算机技术的发展以及互联网技术的进步,大数据时代正在悄然来临,为各行各业的发展带来了前所未有的挑战。大数据的存储和运算能力对公共图书馆的建设和发展来说既是机遇也是挑战,如何应对这一新的信息技术的冲击关系着公共图书馆未来的发展走向。公共图书馆要大力提高对数字图书资源的分析、储存和处理能力,确立较高的管理和监督标准,重视大数据时代公共图书馆的信息安全建设,才能更充分安全地发挥公共图书馆的应有职能。
1.1 大数据的基本内涵
计算机和网络技术的飞速发展,促进了信息经济时代信息总量以几何级数的速度快速增长,要对这些信息进行快速、准确的分析、归类,提取出有益于企业以及个人有用的信息,就必须借助于强大的信息管理技术,大数据时代的到来开启了人们对信息重新管理的新时代。维基百科将大数据称为海量资料,其所涉及的资料数据规模巨大、总量甚多,无法透过目前主流软件工具,可以在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯[1]。大数据最初是由世界著名的麦肯锡咨询公司于2011年首先提出,其后,包括美国军方、国防部在内的诸多政府机构、企业事业组织都宣布投入大量资金推动大数据技术的研发和应用。
2012年3月,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家战略,奥巴马政府甚至将大数据定义为“未来的新石油”。美国政府曾表示将通过提高美国从大型复杂的数据集中提取知识和管理的能力,来加强整个国家的竞争力。显然,大数据不止是一个词汇,更是一门技术,是一个产业时代[2]。公共图书馆作为知识的粮仓、精神的智库,其对信息的储备必然会由传统的纸质书籍收藏走向电子数据存储的新阶段。随着时间的推移,读者借阅信息及电子书会越来越多,因此,公共图书馆要大力提升使用大数据提供服务的质量和水平。
1.2 大数据的特征
大数据是信息化社会对信息进行管理和分析的新技术手段,随着对大数据研究的深入,大数据的一些基本特征也逐渐显现出来。
1.2.1 数据存储量更大。巨大的存储功能是大数据最显著的特征,从以往的MB、TB跃升为PB、ZB,已经显示了这一数据存储新时代的到来。
1.2.2 信息种类更多。大数据对信息的存储不再仅仅满足于文字、音视频资料的存储和整理,已扩展到网络日志、图片、地理信息以及XML、HTML等多种类、多格式的信息,既满足了信息经济时代人们的需求,也极大地提高了人们对信息的处理能力[3]。
1.2.3 信息处理速度更快。信息处理的速度决定了大数据无与伦比的优势,在大数据时代,信息处理速度基本遵循1秒定律,只有迅速地搜集到有价值的信息企业才能在竞争激烈的市场经济环境下迅速占得先机,这不仅有助于提高企业管理的效率,也能极大地促进企业综合效益的提高。
大数据的这些特征若能应用到公共图书馆的日常管理工作中,对分析读者的阅读行为和提高读者服务的质量、吸引更多的读者通过图书馆查询有价值的信息将大有裨益。
2.1 大数据推动了读者对个性化服务的新需求
大数据不仅提高了图书馆系统管理的效率,更提高了读者对公共图书馆服务质量的要求。许多读者碍于时间或空间的限制不能常去公共图书馆,而计算机和互联网阅读则为读者异地、即时利用图书馆带来了诸多的便利,也极大地丰富了读者可以获得的信息总量。因此,公共图书馆可以根据读者的爱好和特点推送个性化的服务,即通过对读者的历史借阅信息进行分析(在征得读者同意且不侵犯读者隐私权的前提下),主动为读者推荐相关的书刊或以知识为单元的数字信息,这样既缩短了读者查询书刊或信息的时间,也提高了公共图书馆管理的效率。
例如广西壮族自治区图书馆“文华集群数字图书馆平台Dlibs”子系统的“DLibs统计分析与决策系统”里的“读者分析”模块,就是对读者以往的借阅历史、个人背景信息(包括借书证状态、证类型、读者性别、读者年龄段、读者文化程度、读者专业、读者职称)、浏览信息、借阅信息等通过大数据进行分析,可按日、周、月、年等的时间统计,结果之一是可大致知晓读者的阅读倾向或研究方向,一方面图书馆以此通过网络定期向读者推送相关信息,另一方面也成为图书馆新书采购的重要依据。能否以大数据的技术和资源优势为读者提供丰富多彩的个性化服务和为自身发展获得决策依据,考验着大数据时代公共图书馆能否及时应对新技术的挑战。
2.2 巨量、复杂的数据对图书馆的存储和处理能力提出新的挑战
大数据时代对公共图书馆存储、处理、分析和整合信息的能力带来了前所未有的挑战,随着手机、平板电脑等移动终端的流行,人们越来越喜欢通过电子设备进行阅读。公共图书馆作为知识的储存基地和传播基地,必然要适应新形势的要求,推出更多的电子资源满足读者的需求。将纸质资源转换为电子资源是一项繁重的工作,但如何快速、准确地对信息进行处理考验着公共图书馆的信息管理水平。近几年,全国文化信息资源共享工程、国家数字图书馆推广工程等数字资源建设共享项目,及各公共图书馆自建的特色数据库和购买的数据库等都丰富了公共图书馆的馆藏数字资源,这为公共图书馆拓展服务提供了资源基础与机制保障。一方面,数据数量和质量是一所公共图书馆发挥自身价值的基础。
当前,许多公共图书馆自身海量数据的存储及运算能力尚不足,又面临大数据对存储能力的高要求,二者之间的矛盾如何化解,关系着公共图书馆在大数据时代能为读者提供哪些阅读服务,以及能否满足不同读者的个性化需求。资源存储能力不足、存储质量不高是大数据时期公共图书馆亟待解决的问题[4]。另一方面,数据即业务的基础,对结构化数据、非结构化数据、半结构化数据的处理能力,包括分析、整合、推送能力的强弱决定着公共图书馆为读者提供服务质量的高低。公共图书馆要提供存储信息服务、搜索服务、咨询服务等,这一切都建立在对信息处理能力高低的基础之上。现行的大多数公共图书馆服务仍以纸质书籍的借阅为主,或辅有一些音像光盘借阅,及只提供在馆内自行下载图书馆自建和购买的数据库相关内容,其服务形式单一,服务效果一般,特别是针对个人读者在主动推送服务上根本没有系统地展开。
3.1 建立完善的人才引进和管理制度
大数据时代公共图书馆服务的改进,离不开优秀的人才和完善的图书馆管理制度。一方面,公共图书馆要主动招揽具有扎实计算机和互联网专业知识的人才,为大数据服务的提供奠定人才基础。定期对馆内员工进行培训,邀请专家、学者为馆员授课,提高所有馆员利用大数据的巨大优势提供服务的意识和水平,丰富大数据的管理和使用经验,提高为读者提供服务的水平。此外,还要提高管理层和馆员的人文情怀,图书馆的目的是为读者提供优质的阅读服务,要警惕公共权力和商业资本对公共图书馆数据资源的渗透和控制,发挥好公共图书馆的公共服务功能。
另一方面,公共图书馆要建立完善的管理制度。首先,要认识到公共图书馆是公共资源,是国家提供的公益服务,服务质量的高低取决于公共图书馆自身的建设水平以及馆员服务意识的高低。要通过不断完善的管理制度,提高馆员的服务意识和水平,发挥好公共图书馆的应有职能。其次,公共图书馆要努力提高馆员的素质,对于工作中表现不积极、服务不热情、失误不断的馆员,要及时进行教育、辅导,严格落实岗位责任制等,才能更好地提高公共图书馆的服务水平。
3.2 提高公共图书馆的数据整合能力
大数据时代公共图书馆需要建设更好的特色数据库、数字资源服务系统及富有个性的门户网站等,不断加强对数据信息的整合和处理能力。一方面,公共图书馆要在现有资源的范围内,购买性价比高的计算机设备和配置较高速的宽带网络,为大数据的建立奠定技术基础。省市级的公共图书馆可以集中各自的优势,协力建设云存储平台,实现资源共享,既扩大了本馆资源的储备量,又节省了必要的资金,减轻了应对大数据的压力[5]。
另一方面,图书馆要以现有的设备为基础,大力提升数据的分析、处理能力,完善公共图书馆的网络基础设施建设,围绕以数据为中心的知识创新型服务中心,深入进行数据的分析和挖掘,通过对读者服务数据和社会网络数据对用户的借阅记录、信息行为、微博日志等各类数据进行深入分析,挖掘有价值的信息,以此为依据,使图书馆不断优化服务方式及提高服务的效率和质量。此外,公共图书馆要定期对馆藏的数据信息进行维护,防止网络和系统受到恶意攻击或病毒的侵扰,保障馆藏资源和读者信息的安全,防止读者隐私泄露。
大数据是集成人工智能、商业智能、数学算法、自然语言理解和信息技术等多个跨学科领域的技术成果,是信息科技领域的一次革命性的进步。大数据的出现改变了人们对数据的认识,也改变了人们的工作和生活方式,大数据对各行各业的影响正在持续不断的发生。公共图书馆作为信息的集散中心,在大数据的冲击下,要以现有的资源为基础,大力提升对信息的处理和整合能力,提高信息的安全性和便捷性,不断利用大数据丰富为读者提供服务的形式,通过提供个性化的服务,充分发挥公共图书馆社会公益的职能。
总之,大数据意味着大机遇,拥有巨大的应用价值,但同时也在工程技术、管理政策、人才培养、资金投入等诸多领域遭遇大挑战。公共图书馆只有不断完善自身的网络基础设施建设,图书馆之间形成协调、稳定、有序网络体系,才能充分利用这个大机遇,建立起以大数据为基础的新的服务模式,真正实现资源共享,最大限度地满足读者需求,丰富公共图书馆对外服务的多样性,使公共图书馆发挥出更大的价值。
大数据对公共图书馆服务的影响探讨相关
浏览量:2
下载量:0
时间:
ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。以下是读文网小编今天为大家精心准备的:ETL工具在构建完整的数据仓库体系结构中的运用探讨相关论文。内容仅供参考,欢迎阅读!
数据仓库是面向主题的、集成的、相对稳定的、反映历史变化的数据集合。它通常是指一个数据环境,通过提供当前和历史数据来辅助决策支持。数据仓库的组成部分有:数据仓库数据库、ETL 工具、元数据、访问工具、数据集市、数据仓库管理等。通过对多个异构数据源进行有效的集成,并按照应用主题进行数据重组和展示,就形成了数据仓库系统。由此,根据应用需求的不同,数据仓库的体系结构可以分为以下四种:
(1)两层结构:源数据系统经过处理直接加载到数据仓库;(2)独立型数据集市:加工成多个独立的数据集市来满足多种应用需求;(3)依赖型数据集市和操作型数据存储:完整的数据仓库,多个源数据系统先集成到操作型数据存储(ODS),再转换、加载到数据仓库,最后形成部门级数据集市。文章描述的就是此体系结构的构建过程。它的特点是:整合多个复杂的源数据系统;实现各种复杂的数据转换处理;提供多层次的数据访问;满足多部门的即独立又交叉的应用需求;(4)逻辑型数据集市和实时数据仓库:没有独立的数据集市,体现数据加工的实时性。
ETL 过程是数据加工处理过程的统称,包括三个部分:抽取、转换和加载。它的目的是为决策支持应用提供一个单一的、权威的数据源。数据仓库的ETL 过程是整个系统实施的关键环节,关系到数据仓库的建设成效。无论从理论上还是从实践上来说,运用ETL 工具是一个必需的、明智的选择。文章以Oracle 公司的软件产品ODI11g 来讲解。
数据仓库的数据存储有四个层次,即源数据系统、ODS、企业级数据仓库和数据集市。运用ETL 工具就是实现数据在这四个层次中逐层递进的三级加工处理过程。虽然每一级处理都具有抽取、转换、加载的处理,但是它们的侧重点还是有区别的。
(1)源数据系统到ODS 过程:将多个异构数据源集成到统一的数据集结区ODS,重点是抽取处理,兼有字符集转换、数据类型转换等处理。(2)ODS 到企业级数据仓库过程:将操作型数据转换成事件型数据,重点是转换处理,包含清洗、调和、导出、匹配、合并等多种复杂处理。(3)企业级数据仓库到数据集市过程:将数据按照应用需求进行组合,重点是加载处理,还涉及到索引、更新等处理。下面,结合三级处理,从四个方面描述常见的技术难点及应对。
3.1 数据抽取
(1)静态抽取:为了保证源数据的一致性和完整性,应该抽取操作型数据相关的代码数据和编码数据。这些数据特点是量小,变化小,可以采用全量刷新方法。ODI 工具中,编制一个接口,指定源表和目标表,确定LKM 和IKM,即可实现。此方法也适用于初次抽取操作型数据。(2)增量抽取:源数据系统包含大量的业务数据,必须通过增量更新的方法才能做到有效的抽取。因此,增量更新问题是一个最重要、最根本的技术问题。ODI 工具内置的变化数据捕获机制(CDC)能有效地解决这个问题。实现思路如下:为源表指定日记知识模块JKM;将源表添加到CDC 列表,并启动日记;编制接口时,勾选日记记录的数据,并指定增量模式的IKM。此外,还可以通过编制ODI 过程代码来利用现有的物化视图实现增量更新。
3.2 数据转换
(1)关键维度的统一:多个源数据系统集成后,首先面临的问题就是关键维度的统一。不同的业务系统有各自不同的关键维度(如纳税人识别号,纳税人电子档案号),这就必须统一到唯一的维度。解决这个问题,可以采用对照表的方法。实现思路如下:选定主要的、核心的业务系统的关键维度;以此维度为主,建立其他业务系统的维度对照表;ODI 工具中,编写接口时,增加连接维度对照表,增加字段映射。
(2)数据表的合并:业务系统中可能存在同一事件信息存储于不同的数据表中的情况。ETL 过程需要将分散的数据转换到一个数据表。虽然可以编写多个ODI 接口实现,但是不可避免地存在数据完整性风险,且编制繁琐、执行效率低下。建议采用多个源数据集来实现,思路如下:在ODI 接口中,配置多个源数据集,并设置数据集的顺序和关系;以第一顺序数据集为主,分别设置目标数据项映射关系;指定带有多数据集功能的标准LKM 和IKM。
(3)数据表的拆分:业务系统的单一数据表中可能包含同一维度下的不同粒度的数据,这时就需要将源表数据拆分成多个目标表。常见的情况是,纳税人财务报表数据表中同时包含月报、季报和年报。由于ODI 11G 版本中限定每一个接口只能有一个目标数据存储,所以必须采用新的方法来处理。这里,介绍两种方法来实现。a.编制多个接口,封装在一个程序包中。步骤如下:分别编制多个接口对应多个目标表,将最后一个接口的“清除日记表”选项设置为真,其余接口该项为假;建立程序包,按顺序导入这批接口。b.改造标准IKM,添加插入数据步骤。步骤如下:编制普通的ODI 接口,实现一个目标表的加工;模拟执行接口,并分析执行语句和顺序;获取与目标表相关的语句;复制IKM,并编辑,按照原目标表语句增加其余目标表的执行步骤;指定新的IKM。此方法优点是执行效率高,缺点是改造IKM 需要一定的技术储备,且增加了项目的整体复杂度。
(4)最新有效数据的问题:分析源数据系统的业务规则时,会发现有多次记录业务操作数据的情况,例如更正申报。这就要求在数据转换时,应以操作时间最新或者操作序号最大的记录作为有效数据。解决的方法有两种:a.编写2 个接口,利用临时表存储最新操作时间或最大操作序号,然后再关联源表数据,最后将2 个接口依次导入程序包。b.改造IKM 接口,增加2 个新步骤,修改1 个原步骤,具体如下:新增步骤-创建临时表;新增步骤-在临时表中插入满足业务逻辑的最新有效凭据(时间或序号);修改步骤-在目标表中插入关联到临时表的源表数据。
3.3 数据加载
(1)创建目标表主键:虽然在接口中可以指定目标表的主键,但是标准的ODI 处理并不能自动生成该主键。为此,改造IKM 来实现这个重要功能:选择适当的IKM,为其增加一个选项,并指定类型和默认值;在原IKM 步骤中,增加一个创建主键的新步骤,并在此步骤的选项栏次中勾选新增选项。
此方法的原理是通过一个自定义选项来控制IKM 的逻辑判断,由用户通过配置来决定是否执行此步骤。
(2)实现增量的全量加载在企业级数据仓库和数据集市中,常常需要对不同粒度的数据进行加载,例如将月度数据加载到年度分析中。为此,文章提出以增量的全量方式加载数据,提高效率。具体思路如下:获取增量中所有的月度;删除目标表中包含这些月度的年度数据;重新获取源表中包含这些月度的数据,并加工成年度数据;加载年度数据到目标表。
数据仓库是包含一系列理论和技术的综合环境,它的目的是为数据分析和决策支持提供历史的、丰富的、可用的数据。由此,数据的存储和处理也紧紧围绕这一目的而展开。在这个过程中,工具软件有着不可替代的重要作用。很多开发建设理念就集成在工具软件的应用中。只有充分理解其基础功能,将其不断改造完善,才能使这些理念和规则落地,支撑起整个数据仓库。
浏览量:2
下载量:0
时间: