对硅谷和硅谷科学技术公司的十四问,全程干货

从硅谷公司哪家强,到人们在议的泡泡问题,大数量和人工智能怎么样整合?二零一五年的科学和技术前瞻是怎样一副图景?来自硅谷的Coursera软件工程师董飞将其近期在新加坡国立公然讲座上的干货和种种场地的问答整理出来和大家分享。文中有她的手法从业经验,也有其对亲自就职或深度讨论过的有的商家具体分析,如Hadoop、亚马逊、LinkedIn等。董飞的虎扑页面在这里,邮箱是dongfeiwww@gmail.com。

1、如今硅谷最火最资深的高科技(science and technology)创业公司都有怎样?

billion startup club

在硅谷大家相当热心的谈创业谈机会,我也通过友好的片段观测和积累,看到了很多近来几年涌现的走俏创业公司。我给咱们一个列表,那一个是华尔街网站的普天之下创业公司融资规模评选。它自然的题目是
billion startup club,我在二零一八年国内讲座也享受过,不到一年的时日,停止到
2015 年 1 月 17 日,现在的名次和范围已经暴发了很大的变迁。

首先估值在 10 比尔lon 的达标了 7
家,而一年前一家都尚未。第二;头名是华夏人精通的一加;第三,前 20
名中,绝大多数(8 成在美利坚同盟国,在加州,在硅谷,在斯德哥尔摩!)比如 Uber,
Airbnb, Dropbox, Pinterest;第四,里面也有很多貌似情势成功的,比如
Flipkart 就是印度市场的天猫,Uber 与 Airbnb
都是共享经济的范围。所以我们仍是可以够在运动
(Uber),大数目(Palantir),消费级互联网,通信 (Snapchat),支付
(Square),O2O App
里面寻找下大机遇。那里面很多商行自己都亲自面试和感触过他们的环境。

2、有诸如此类之多的高估值公司,是不是代表存在很大的泡沫?

技巧趋势炒作图

看了那么多高估值公司,很四人都觉着极度疯狂,那是否很大泡泡了,泡沫是否要破了,是过三个人的问题。我以为在硅谷那个充满期待的地点,投资人鼓励创业者敢于去做一样也促进了白沫,很多档次在多少个月的小时就会估值翻
2,3 倍,如 Uber,Snapchat
上自家也惊呆于她们的大批融资规模。那么那张图就是讲“新兴技术炒作”周期,把各项技能听从技术成熟度和期待值分类。

更新萌芽 Innovation Trigger”、“期望最顶峰 Peak ofInflated
Expectation”、“下调预期至低点 Trough of Disillusion”、“回归理想 Slope
ofEnlightenment”、“生产率平台 Plateau of
Productivity”,越往左,技术约新潮,越处于概念阶段;越往右,技术约成熟,约进入商业化运用,发挥出拉长生产率的成效。纵轴代表预期值,人们对此新技巧一般会趁着认识的深深,预期不断升温,伴之以媒体炒作而抵达顶峰;随之因技术瓶颈或其余原因,预期渐渐冷却至低点,但技术技能成熟后,期望又重新上升,重新积累用户,然后就到了可不止加强的健康轨道上来。

Gartner
公司每年公布技术趋势炒作图。今年和二〇一八年的图比较呈现,物联网、自动驾驶小车、消费级
3D 打印、自然语言问答等概念正在处于炒作的终极。而大数量已从终端滑落,NFC
和云计算接近谷底。

3、以后,高科技(science and technology)创业的取向是怎么?

本身先提一个多年来看的一部影视《Imitation
Game》,讲总括机逻辑的开拓者Alan图灵(总结机届最高奖以她命名)辛苦的一世,他当时为破译德军密码制作了图灵机为世界二战胜利作出出色贡献,挽回几千万人的生命,可在万分时代因为同性恋被判化学阉割,自杀了却了短暂的
42
岁生命。他的一个高大进献就是在人工智能的开拓工作,他提出图灵测试(Turing
Test),测试某机器是不是能展现出与人极度或不能够区分的智能。

明日人工智能已经有了很大发展,从专家系统到基于总括的学习,从引而不发向量机到神经网络深度学习,每一步都辅导机器智能走向下一个阶梯。

在 Google资深数学家吴军学士(数学之美,浪潮之巅小编),他指出当前技术提高多少个方向,第一,云总结和和运动互联网,那是正在进行时;第二,机器智能,现在开始暴发,但对社会的熏陶很两人还尚未察觉到;第三,大数目和机具智能结合,那是将来时,一定会暴发,有店铺在做,但还尚无太善变规模。他以为未来机械会操纵
98%的人,而昨天大家就要做个挑选,怎么变成多余的 2%?

4、为何大数目和机械智能结合的前程一定会赶来?

其实在工业革命之前(1820 年),世界人均 GDP 在 1800
年前的两三千年里基本没有转变,而从 1820 年到 2001 年的 180
年里,世界人均 GDP 从原来的 667 英镑进步到 6049
新币。由此足见,工业革命带来的受益增进的确是天翻地覆的。那其中暴发了什么,大家能够去探究一下。但人类的进化并从未平息或者说稳步增加,在表明了电力,电脑,互联网,移动互联网,全球年
GDP 增加从格外之 5 到
2%,音讯也是在强烈拉长,根据测算,近年来两年的新闻量是前边 30
年的总数,如今 10
年是远超人类拥有往日累计新闻量之和。在电脑时代,有个出名的摩尔(Moore)定律,就是说同样费用每隔
17个月晶体管数量会翻倍,反过来同样数量晶体管资本会减半,那么些规律已经很好的
match 了近期 30
年的进步,并且可以衍生到许多近乎的领域:存储、功耗、带宽、像素。

冯诺伊曼是 20
世纪最关键的科学家之一,在当代电脑、博弈论和核武器等重重世界内有独立建树的最宏大的科学全才之一。他提议(技术)将会逼近人类历史上的某种本质的奇点,在那之后
全体生人行为都不容许以大家耳熟能详的长周旋续存在。那就是满世界闻明的奇点理论。近日会越来越快指数性增加,弥利坚将来学家
Ray Kurzweil 称人类可以在 2045
年已毕数字化永生,他协调也创设奇点高校,相信随着音信技术、有线网、生物、物理等领域的指数级拉长,将在
2029 年贯彻人工智能,人的寿命也将会在以后 15 年获得大幅延长。

5、海外值得关切的大数额集团都有怎么着?国内又有如何?

Big Data 集团列表

那是 2014 年计算的 Big Data
公司列表,我们大致可以分成基础架构和选拔,而底层都是会用到一些通用技能,如
Hadoop,Mahout,HBase,卡桑德拉,我在上面也会蕴藏。我得以举多少个例证,在分析这一块,cloudera,hortonworks,mapr
作为 Hadoop 的三剑客,一些运维领域,mangodb,couchbase 都是 nosql
的意味,作为劳务领域 AWS 和 谷歌(Google) BigQuery
触机便发,在观念数据库,Oracle 收购了 MySQL,DB2 老牌银行专用,Teradata
做了连年数据仓库。上边的 Apps 愈多,比如应酬消费领域 谷歌, 亚马逊(Amazon),
Netflix, 推文(Tweet),
商业智能:SAP,GoodData,一些在广告媒体领域:TURN,Rocketfuel,做智能运维
sumologic 等等。二〇一八年的最新 Databricks 伴随着 斯帕克(Spark) 的浪潮震撼 Hadoop
的生态系统。

对于神速成长的炎黄市场,大商厦也象征大数据,BAT
三家都是对大数量的投入也是舍得余力。

自己 5
年前在百度的时候,就提出框统计的东东,近日两年他们建立了硅谷商讨院,挖来
Andrew Ng
作为首席地理学家,商量项目就是百度大脑,在语音、图片识别大幅升高精确度和召回率,近年来还做了个无人自行车,格外幽默。腾讯作为最大的交际应用对大数额也是一见倾心,自己研发了
C++ 平台的雅量存储系统。Tmall二零一八年双十一主战场,2 分钟突破 10
亿,交易额突破 571 亿,背后是有许多故事,当年在百度做 Pyramid(按 谷歌三辆马车打造的金字塔三层分布式系统)的有志之士,继续在 OceanBase
创立神话。而阿里云当年蒙受争议,马云(英文名:中国首富马云)也怀疑是或不是被王坚忽悠,最终经历了双十一的洗礼表明了阿里云的可相信。华为的小米科技(science and technology)董事长雷军对大数额也是寄托厚望,一方面这么多数据几何级数增进,另一方面存储带宽都是英雄花费,没价值就会破产。

6、Hadoop是现行最流行的大数目技术,在它出现的立刻,是什么样导致了Hadoop的盛行?当时Hadoop具有啥样规划上的优势?

看 Hadoop 从哪里开头的,不得不提 谷歌 的先进性,在 10 多年前,谷歌(Google)出了 3 篇 paper 论述分布式系统的做法,分别是 GFS, MapReduce, BigTable,
分外 NB 的连串,但没人见过,在工业界很多个人痒痒的就想按其思想去仿作,当时
Apache Nutch Lucene 的作者 Doug Cutting 也是里面之一,后来他俩被 Yahoo
收购,专门成立 Team 去投入做,就是 Hadoop
的起来和普遍向上的地点,之后乘机 Yahoo 的牛人去了 非死不可, 谷歌,
也有创建了 Cloudera, Hortonworks 等大数据公司,把 Hadoop
的举行带到各类硅谷集团。而 谷歌还没有终止,又出了新的三辆马车,Pregel, Caffeine, Dremel,
后来又有广大步入后尘,开首新一轮开源大战。

为何 Hadoop
就比较符合做大数目吧?首先增加很好,直接通过加节点就可以把系统能力进步,它有个重大思想是移动计量而不是运动多少,因为数量的移位是很大的本金要求网络带宽。其次它提议的对象就是利用廉价的家常电脑(硬盘),那样即使可能不稳定(磁盘坏的几率),但通过系统级别上的容错和冗余达到高可信性。并且格外灵活,可以行使各个data,二进制,文档型,记录型。使用各个款式(结构化,半结构化,非结构化所谓的
schemaless),在按需计算上也是个技术。

7、围绕在Hadoop周围的有何公司和制品?

Hadoop

涉嫌 Hadoop
一般不会说某一个东西,而是指生态系统,在那中间太多互动的组件了,涉及到
IO,处理,应用,配置,工作流。在真的的办事中,当几个零件互相影响,你头痛的有限支撑才刚刚早先。我也几乎说多少个:Hadoop
Core 就五个 HDFS,MapReduce,Common,在外边有 NoSQL: 卡桑德拉, HBase,
有 非死不可 开发的数据仓库 Hive,有 Yahoo 主力研发的 Pig
工作流语言,有机器学习算法库 Mahout,工作流管理软件
Oozie,在众多分布式系统接纳 Master 中饰演主要角色的 Zookeeper。

8、能如故不能用老百姓都能领会的主意解释一下Hadoop的办事规律?

俺们先说 HDFS,所谓 Hadoop
的分布式文件系统,它是能确实到位高强度容错。并且根据 locality
原理,对三番五次存储做了优化。简单说就是分配大的数据块,每一遍延续读整数个。即便让您自己来设计分布式文件系统,在某机器挂掉还是能正常访问该肿么办?首先须求有个
master 作为目录查找(就是
Namenode),那么数量节点是用作分割好一块块的,同一块数据为了做备份不可能松手同一个机器上,否则那台机械挂了,你备份也同等不可以找到。HDFS
用一种机架位感知的章程,先把一份拷贝放入同机架上的机器,然后在拷贝一份到其他服务器,也许是例外数额基本的,那样倘若某个数据点坏了,就从另一个机架上调用,而同一个机架它们内网连接是不行快的,若是那一个机器也坏了,只好从远程去得到。那是一种艺术,现在还有基于
erasure code
本来是用在通讯容错领域的点子,可以省去空间又达到容错的目标,我们感兴趣可以去询问。

接着说
MapReduce,首先是个编程范式,它的思想是对批量处理的任务,分成多个等级,所谓的
Map 阶段就是把多少生成 key, value pair, 再排序,中间有一步叫
shuffle,把同样的 key 运输到同一个 reducer 上边去,而在 reducer
上,因为相同 key 已经确保在同一个上,就径直可以做聚合,算出有些 sum,
最终把结果输出到 HDFS 上。对应开发者来说,你需求做的就是编辑 Map 和
reduce 函数,像中间的排序和 shuffle
网络传输,容错处理,框架已经帮你搞好了。

9、MapReduce模型本身也有局地题材?

先是:须要写过多底层的代码不够快速,第二:所有的业务必须求转化成七个操作
Map/Reduce,那我就很意外,也不可以化解所有的动静。

10、斯帕克从何而来?斯帕克(Spark)相比较于Hadoop MapReduce设计上有什么样的优势?

骨子里 斯帕克(Spark) 出现就是为着解决地点的题目。先说有的 斯帕克 的发源。发自 2010
年 伯克利(Berkeley) AMPLab,发布在 hotcloud
是一个从学界到工业界的打响典范,也抓住了一级 VC:安德·烈(An·dre)essen Horowitz
的 注资. 在 2013 年,这个大牛(伯克利(Berkeley) 系主管,MIT 最青春的助理员教师)从
贝克莱(Berkeley) AMPLab 出去创立了 Databricks,引无数 Hadoop
大佬尽折腰,它是用函数式语言 Scala 编写,斯帕克(Spark)不难说就是内存计算(包括迭代式计算,DAG 计算, 流式计算 )框架,从前MapReduce 因作用低下大家平常讥讽,而 斯帕克(Spark) 的产出让大家很干净。 Reynod
作为 斯帕克 焦点开发者, 介绍 斯帕克 性能超 Hadoop 百倍,算法已毕仅有其
1/10 或 1/100。在二〇一八年的 Sort benchmark 上,斯帕克 用了 23min 跑完了 100TB
的排序,刷新了前边 Hadoop 保持的世界纪录。

11、若是想从事大数额方面的行事,是或不是足以引进一些得力的学习形式?有如何推荐的书本?

自己也有局地提出,首先仍然打好基础,Hadoop
就算是火热,但它的根基原理都是书本上很多年的积淀,像算法导论,Unix
设计艺术学,数据库原理,深刻了解计算机原理,Java
设计形式,一些重量级的书可以参照。Hadoop 最经典的 the definitive guide,
我在搜狐上也有分享

说不上是选项对象,假若你像做多少数学家,我可以引进coursera的data
science课程,通俗易懂。学习 Hive,Pig
那一个基本工具,倘若做应用层,紧假若把 Hadoop
的有的干活流要熟习,包涵一些要旨调优,若是是想做架构,除了能搭建集群,对一一基础软件服务很精通,还要了解总括机的瓶颈和负载管理,Linux
的一对属性工具。最后依旧要多加操练,大数据我就是靠实践的,你可以先按
API
写书上的事例,可以先调试成功,在底下就是多积累,当遭受相似的题目能找到呼应的经典形式,再进一步就是事实上问题,也许周边什么人也没际遇,你要求些灵感和网上问问题的技能,然后根据实际境况作出最佳选取。

12、与大数量技术涉及最严峻的就是云总计,您曾在亚马逊(Amazon)云计算部门办事过,能否简单介绍一下亚马逊的Redshift框架吗?

自身在 亚马逊(Amazon) 云统计部门工作过,所以仍旧相比较驾驭AWS,总体上成熟度很高,有恢宏 startup 是按照其开发,比如出名的
Netflix,Pinterest,Coursera。亚马逊 如故不断创新,每年进行 reInvent
大会推广新的云产品和享用成功案例,在那么些中我任由说多少个:像 S3
是简简单单面向对象的贮存,DynamoDB 是对关系型数据库的增补,Glacier
对冷数据做归档处理,Elastic MapReduce 直接对 MapReduce
做打包提供统计服务,EC2 就是基础的虚拟主机,Data Pipeline
会提供图形化界面直接串联工作职责。

Redshift,它是一种(massively parallel
computer)架构,是格外有利于的数据仓库解决方案,就是 SQL
接口,跟各类云服务无缝连接,最大特征就是快,在 TB 到 PB
级别极度好的习性,我在工作中也是直接采取,它还援救不一样的硬件平台,如若想速度更快,可以运用
SSD 的,当然支持容量就小些。

13、Linkedin都利用了怎么大数量开源技术?

在 Linkedin,有过多数码产品,比如 People you may like, job you may be
interested, 你的用户访问来源,甚至你的 career path
都得以挖掘出来。那么在 Linkedin
也是大量用到开源技术,我那边就说一个最成功的
Kafka,它是一个分布式的音讯队列,可以用在 tracking,机器内部
metrics,数据传输。数据在前端后端会经过不相同的蕴藏或者平台,每个平台都有协调的格式,假如没有一个
unified log,会现出患难型的 O(m*n)
的数目联网复杂度,假如你设定的格式一旦暴发变化,也是要修改所有有关的。所以那边指出的中级桥梁就是
Kafka,大家约定用一个格式作为传输标准,然后在接受端可以任意定制你想要的数据源(topics),
最终已毕的线性的 O(m+n)
的复杂度。对应的陈设细节,仍然要参照设计文档。那其中主要小编 杰伊Kreps,Rao Jun 出来树立了 Kafka 作为单身发展的信用社。

在 Linkedin,Hadoop
作为批处理的主力,大批量施用在逐个产品线上,比如广告组。大家单方面需求去做一些心灵手巧的询问分析广告主的匹配,广告预测和实际效果,其它在报表生成地点也是
Hadoop 作为支撑。假诺你想去面试 Linkedin 后端组,我提议我们去把 Hive,
Pig, Azkaban(数据流的管理软件),Avro 数据定义格式,Kafka,Voldemort
都去看有的规划意见,Linkedin 有专门的开源社区,也是 build
自己的技能品牌。

14、谈一谈Coursera在大数额架构方面和其余硅谷创业集团对待有哪些特色?是什么样来头和技艺趋势造成了这几个特征?

Coursera
是一个有沉重驱动的营业所,我们不是为着追求技术的极端,而是为了服务好老师,同学,解决他们的痛点,分享他们的打响。那一点是跟其余技术集团最大的分别。从单平素说,现在仍然早期积累阶段,大规模统计还平昔不来到,大家唯有积极深造,适应变化才能维持创业公司的高速成长。

Coursera
作为创业集团,相当想维持神速和飞跃。从技术上来说,所有的都是在根据 AWS
开发,可以想像随意启动云端服务,做一些试验。大家大约分成产品组,架构组,和数据分析组。我把所有应用的开发技术都列在地方。因为集团相比新,所以并未怎么历史遗留迁移的题材。大家勇于的使用
Scala 作为主要编程语言,采取 Python
作为脚本控制,比如产品组就是提供的科目产品,里面多量选用 Play
Framework,Javascript 的 backbone
作为控制中枢。而架构组首假如维护底层存储,通用服务,性能和稳定性。

自身在的数据组由 10
五个人组合,一部分是对生意产品,主旨加强目的做监控,挖掘和改正。一部分是搭建数据仓库完善跟各种部门的无缝数据流动,也利用很多技术例如使用
Scalding 编写 Hadoop MapReduce 程序,也有人做 AB testing 框架,
推荐系统,尽可能用至少人力做影响力的作业。其实不外乎开源世界,我们也积极向上利用第三方的产品,比如
sumologic 做日志错误分析,Redshift 作为大数目解析平台,Slack
做内部通讯。而具备的这么些就是想解放生产力,把重心放到用户体验,产品开发和迭代上去。

[正文来源读者的投稿,不代表36氪立场]

—–分割线君—–

新版36氪iOS客户端正式上线!该部分都有了,你想要看创业资讯,你想要分享,想看录像,想来运动现场…下载36氪iOS客户端,即氪触达。

下载地址戳:36氪iOS客户端

或直接在 App Store 搜索“36氪”或“36Kr”

网站地图xml地图