看过第七次人口普查公报就会发现,整个工作流程跟企业里做数据分析的流程是相似的。这篇文章先来看看二者的共性,再来看看作为一个互联网从业人员应该重点关注“七人普”里的哪些信息。
我们对照《第七次全国人口普查公报》进行说明
对普查内容和普查方式进行创新。全面采用电子化数据采集方式,由普查员使用电子设备采集,实时直接上报数据;
巧妇难为无米之炊,做数据分析首先要收集数据,本次普查将人口信息数据化并上报,对应到企业就是埋点上报。
埋点怎么理解呢,“点”其实就是app或者网站上某个位置,埋点就是在某个位置,用户产生某个动作后,记录下来用户当前的信息。某个动作可以是浏览、点击、滑动等等。比如:电商app里,当用户点击下单按钮后,就把用户下单的时间、金额、商品id、手机网络状态、手机操作系统等信息记录下来,这就是一个埋点。一个埋点可以记录任何信息,但必不可少信息有三个,时间、地点、人物。时间是行为发生的时间,用于分析用户时序;地点是在当前页面具体哪个位置发生的;人物就是用户标识,一般用手机、PC的设备信息生成。其他信息根据数据分析的需要选择性地收集。
信息收集完,一般都是通过实时技术上报到企业的服务器中,用于后续的分析。根据这些埋点就可以分析出用户在什么时间浏览了哪些内容,最后点击了哪些内容,点击的内容看了多长时间,最终购买了什么东西,花了多少钱等等,进一步可以分析出用户偏好什么内容,用户的消费能力怎么样,从而更进一步地做个性化推荐。
充分利用互联网云技术、云服务和云应用完成数据处理工作
由于埋点数据量比较大,并且有长期存储的需求。所以企业的埋点上报后,一般存放在分布式存储介质里,后续数据分析工作大都用分布式计算框架进行处理。分布式存储、计算服务目前大都采用云服务的形式。我之前工作的一家公司最开始自己买服务器搭建分布式服务,由于运维成本实在太大,不堪其扰,最终转移到阿里云上,节省了很大一部分运维成本。
分布式存储、计算框架可以用开源的,如:Hadoop、Hive、Spark等,也可以企业自研的,如:阿里云的 MaxCompute。
按照国家网络安全三级等保标准对普查数据采集、传输、存储进行安全管理,确保公民个人信息安全
这部分说的是个人信息保护,在企业里,对于用户保密的信息,如:身份证号,会进行脱敏处理,即:将身份证号进行编码,变成两外一个唯一的标识,这样既不影响使用,又不会泄露隐私信息。
除了脱敏,还需要对数据的保密程度分级,建立相应的权限审核机制。使用什么级别的保密数据,就要申请对应的权限,记录在案,做到信息泄露可追溯。
各级普查机构严格执行质量控制要求,认真开展质量验收,确保普查各阶段工作质量
这部分说的是数据质量监控。在企业里,埋点质量监控也是重点内容,如果上报上来的埋点都是错误的、不可以用的,显然是没有意义的。
企业的埋点质量监控一般通过两个方面来做,第一,对单个埋点校验,检查上报的埋点各个字段的格式是否正确、监控核心字段的空值率等。第二,对流量做监控,通过同环比,判断上报埋点的量级是否有异常。
第七次全国人口普查全面查清了我国人口数量、结构、分布等方面情况,掌握了人口变化的趋势性特征,为完善我国人口发展战略和政策体系、制定经济社会发展规划、推动经济高质量发展提供了准确统计信息支持。
这部分就是我们熟悉的数据分析了,在企业里就是对用户行为进行分析,得到有价值的结论,为app或网站的迭代提供决策支持。
数据分析一般分为两大部分,一部分是数值分析,可以是单纯的数字统计,也可以用 Python 机器学习进行拟合、分类等。数据量较大的情况会用分布式计算框架Hadoop、Spark。另一部分是文本分析,这部分更多的使用机器学习、深度学习方法去挖掘数值分析看不到的东西。
另外,补充一点。人口普查里我们看到的年龄、性别、学历等信息在企业里一般称之为用户画像。这些信息是无法通过埋点收集过来,但对企业来说是非常重要的数据,往往需要结合用户行为,使用机器学习、深度学习算法预测得到。
到这里,第一部分内容就结束了,我们以人口普查为例,介绍了企业数据分析的流程以及涉及的技术。下面再来简单说下作为互联网从业者我们应该关注哪些方面。
人口素质不断提高,人才红利新的优势将逐步显现。同时,大学生就业压力加大,产业转型升级步伐需要加快。
白领人口供给长期过剩,996内卷还会激烈,所以高新企业人才成本降低,“人才红利优势逐步显现”。
打铁还需自身硬,还得不断提高真才实学。
人口加快集聚,既反映了城镇化和经济集聚的趋势性变化,也对提高城镇化质量、促进区域协调发展提出了新的要求。
大城市人口加速流入,农村人口加速流失。
中国的城市化进程尚未完成,对于还未毕业的在校生来说,选择一线、新一线城市是明智的选择。对于已经在大城市的打工人来说,在核心地段买房是明智的选择。
老年人口比例上升较快,老龄化已成为今后一段时期我国的基本国情。同时,老年人口的增加也会带来智慧、传承、发挥和需求拓展扩大。
做好延迟退休的准备,看来不光要考虑中年危机,还要考虑老年危机了。
没有哪个企业会闲的没事,整天分析一堆没用的数据。人口普查也一样,从中找到对自己有用的信息,找到未来的路该怎么走,才是每个人最应该干的事。
未经允许不得转载:任鹏个人博客 » 通过技术视角看看不一样的第七次全国人口普查!!
最新评论
Forex wiki. https://lt.forex-stock-bitcoin-brokers.com
Magnificent items from you, man. I have take note your stuff
Following on from the 3rd March Meetings held by economic de
It is remarkable, rather valuable message dfgdlfg2131.32
一般都会有一个沙盒期的,过了沙盒期就会慢慢放出来
百度不收录是应为是新站的原因吗?
The spike in consumer prices that left inflation at a four-d