菜鸟数据正确入门01 – 工具包概况

NumPy

NumPy 紧要提供基础的数组数据结构和矩阵运算。

  • 敏捷便捷的多维数组对象
  • 可举办向量化统计
  • 提供线性代数等矩阵
  • 可集成 C 代码

SciPy

遵照 NumPy
提供了大量的科学统计算法(信号处理、最优化求解等等),解决正式问题。

  • 数值积分和微分方程求解
  • 壮大的矩阵总计效能
  • 最优化工具
  • 概率分布总结和总结函数
  • 信号处理函数

不及解释了,先上车 -。-

发车以前,为接下去的千家万户著作做准备,先来罗列一下 Python
科学总括生态中广泛的工具包。

Pandas

提供 data frames 数据结构,便于处理真实数据集。

  • 易用、高效的数目操作函数库
  • 执行 join 以及此外 SQL 类似的法力来重塑数据
  • 提供包括 dataframe 在内的数据结构
  • 支撑各种格式(包括数据库)输入输出
  • 支撑时间序列

Matplotlib

擅长数据绘图,绘制交互式可视化图像。

  • 提供一套和 matlab 一般的吩咐 API
  • 分外顺应交互式绘图
  • 可以作为绘图控件嵌入 GUI

数量正确是什么?为何要学习数据科学?

IPython

IPython 为
NumPySciPyPandasMatplotlib
等包提供一个交互式接口,它自己并不提供科学总计的功效。这么些工具组合在共同,形成了足以匹敌如
Matlab、Mathmatic 这个纷繁工具的科学统计框架。

不等的工具包,在数额解析的不比等级各显神通:

任何常用工具包

  • Seaborn:总结绘图
  • StatsModels:总计模型
  • scikit-learn:机器学习
    • 建立在 NumPy,SciPy 基础上
    • 通过合并接口来利用,可以便捷在数量集上实现流行的算法
    • 含蓄众多用来规范机器学习任务的工具,如:聚类、分类和回归等
  • Requests:网页数据抓取
  • Beautiful Soup:解析网页数据
  • Flask:轻量级的 web 框架
  • sqlite3:轻量级数据库接口
  • Pyspark: Spark 的 Python 接口
  • nltk:自然语言处理
  • sqlite,networkx:社交网络分析
  • theano:深度学习

Art & Code 的热点作品

网站地图xml地图