努力打造地方资讯门户第一网!

帮助中心 广告联系

中国建造师挂靠网-二级建造师报考条件、挂靠价格、挂靠费用、挂靠风险、建造师信息网-中国建造师网

热门关键词: 

  听说最近《长安十二时辰》比较火,于是趁着一个周末赶紧补一补剧。相信很多人都对其中的大案牍术比较感兴趣。

  大案牍术的发明者是徐宾,只是靖安司一个八品主事,因为其出色的记忆力,以及对术数的刻苦钻研,研究出了一套以档案数据为基础的处理事务的方法,即为“大案牍术”,无论是破案调查找人,甚至预言未来,都可以做到。

  他做不良帅那么多年,破案无数,深知很多事情并不需要搜考秘闻,真相就藏在人人可见的文卷之中,就看你能不能找出来——此所谓’大案牍’之术。李泌特意在靖安司集中一批精干官吏,专事检校查阅,正适合应付眼下这局面,可见此人卓识。

  凭借大案牍之术和祆教的户籍配合,他迅速地找出一个可疑之人。此人叫作龙波,来自龟兹,开元二十年来京落为市籍,同年拜入祆教,就住在怀远坊内,一直单身。供奉记录显示他最近半年来,给祆祠的供奉陡增,为此还特受褒奖。天宝二载底市籍有过一次清册重造,但龙波的户口仍是开元二十年。有一位户部老吏敏锐地注意到这个小纰漏。户籍上要写清相貌,若是旧册不造,则有可能冒名顶替。

  大数据,Big Data,是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据具有4个基本特征:

  数据体量巨大。百度资料表明,其新首页导航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。有资料证实,到目前为止,人类生产的所有印刷材料的数据量仅为200PB。

  数据类型多样。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。

  价值密度低。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。

  现如今,大数据是一个很火的词汇,但是所有的理解也都不尽相同,对于不同的人,大数据有着不同的意思。

  对于广大用户来说,大数据就是被采集到的各种信息。最简单的来说,指的就是用户的一些个人信息,如姓名、手机号、职业等。再深层次一些可能是用户的人际关系、交易记录、用户的行为记录等。

  对于一些从事大数据相关的技术人员来说,大数据就是数据采集、数据存取、数据处理、统计分析、数据挖掘等。而做这些的目的主要是通过大量数据,进行预测分析,来实现商业价值。

  就像大案牍术一样,徐宾可以通过一些案牍中的记录,进行破案找人、预测未来,如今的大数据更是有着广泛的应用。

  无论是各行各业,一旦有了大量数据,通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值。大数据利用已经逐渐成为提高核心竞争力的关键因素,各行各业的决策正在从“业务驱动” 转变“数据驱动”。

  在大数据时代,可通过实时监测、跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。

  通过《长安十二时辰》的影视剧以及原著我们知道,大案牍术之所以可以进行断案和预知未来主要是有几个基本前提:

  以上环节,其实也是当今的大数据处理的主要流程:包括数据收集、数据预处理、数据存储、数据处理与分析、数据展示/数据可视化、数据应用等环节。

  整个处理流程也可以精简概括为四步,分别是数据采集存储、数据预处理、数据统计分析,最后是数据挖掘。

  这案牍上的数字,其实指的就是大数据中很重要的数据质量。数据质量贯穿于整个大数据流程,每一个数据处理环节都会对大数据质量产生影响作用。

  数据的采集是指利用多个数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

  虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。

  统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。

  与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。

  大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。

  以上这些工具,是和大数据有关的一些框架技术,可以看到每一个类型中都有多种技术可以实现,所以在做技术选型的时候,需要根据自己的业务实际情况选择最适合自己的框架。

推荐阅读

免责声明

本网转载作品的目的在于传递更多信息,涉及作品内容、

版权等问题,请联系我们进行修改或删除!