自莫是在用数码解析现实, 就是于于是现实分析数据

今天以知乎上回复了一个问题,
关于如何变成平等称数据分析师。我翻了有材料,
很认真地回。虽然最终收获特别少赞同,
但是应对的长河自己也好总了数码时代的有的气象。
恰好最近挺窝囊地以个别下商家受犯选择, 一家是召开多少挖掘层,
一小是开多少解析层, 回答了题目觉得温馨呢重明亮两寒店之优劣,
所以觉得受益匪浅 :D


原对如下。

问:如何成为一个数码分析师?需要具有什么技能?

答:数据
(Data) 是 DIKW Pyramid (Data, Information, Knowledge, Wisdom)
中最低级的材料。而数工程是身针对数码开展募集, 处理, 提取价值(变为
I 或 K)的进程。首先介绍一下有关的几乎种植角色: Data Engineer, Data
Scientist & Data Analyst。 这三只角色任务重叠性高, 要求合作密切,
但各承担之圈子稍有两样。大部分店里的这些角色且见面基于每个人自己的技艺长短而身兼数职,
所以有时候比较难区别。

Data Engineer 数据工程师: 分析数据少不了用采取计算机和各种工具
automate 数据处理的过程, 包括数据格式转换, 储存, 更新, 查询。
数据工程师的办事就是开发工具完成 automate 的历程, 属于
Infrastructure/Tools 层。
是角色出现的频率不多。因为生备的MySQL, Oracle等数据库技术,
很多不胜商厦仅仅待DBA就够了。而 Hadoop, MongoDB 等 NoSQL 技术之开源,
更是假定在特别数量的观下都未曾尽多 engineer 的事宜,一般还是付诸 scientist
。据我所知 Facebook 有特别的 database
team,因为数据量太过了还要工作特别; Square 有 Data Engineering
team,因为对数据稳定性上求苛刻;Google 就不用说了, 膜拜一下 GFS,
BigTable, MapReduce 这些名字就可以了。

Data Scientist 数据科学家: 数据科学家是跟数学相结合的高中级角色,
需要因此数学方法处理旧数据检索来肉眼看不到的重新高层数据, 一般是行使
Statistical Machine Learning NoSQL的主意, 最近也发生流行玩 Deep Learning的。
有人称 Data Scientist 为 Programming
Statistician,他们要有异常好之统计学基础, 但也要参与多 learning
程序的开销(基于 Infrastructure 之上), 而现在众多群之 Data Scientist
职位且求身兼 Data Engineer。 Data Scientist 是把 D 转为 I 或 K
的主力军。

Data Analyst 数据分析师:
工程师和科学家做了汪洋的办事用计算机程序尽可能多地提取了价值(I/K),然而真正使从数量被观察出再胜之价,
则需要靠丰富的行经验以及洞察力, 这些都用人力的干预。 Data Analyst
需要之是指向所当业务产生深厚了解, 能自如应用时的工具(无论是 Excel,
SPSS也好,
Python/R也好,工程师于您出的工具也好,必要时还要会自己担任工程师和科学家,力尽所能获好欲之工具)有针对性地对数据作分析,并且要将发现讲话的发生物地向其它职能部门呈现出,最终成为行动。这就算是拿多少最终得出
Wisdom。
夫职务出现吧未是过剩, 在群号里不曾这么的职务, 因为都是 C-level
的食指或者产品经理于做着多少解析的事务。 这样的职大量冒出的地方我光掌握
Wall Street 和 NSA,因为发雅量之 case 需要处理, 而每个 case
都待有人分析。
值得一提的凡 PayPal 当年中间处理 fraud 的题目,
积累了汪洋骗分析的更, 后来 PayPal 创始人 Peter Thiel 又创办了
Palantir, 专门召开多少解析工具平台, 在美国打响帮助众单位解决在反恐,
人口贩卖等诸多欲专家参与的问题。 Palantir 有相同句子口号是 Surface data,
not mining it(呈现数据,而不打)。是一个于好玩的见解 :)

网站地图xml地图