乍认识机器上-理论篇(慕课笔记)

哟是机上 

定义:

利用计算机从历史数据被寻找有规律,并把这些原理用到对前景匪确定场景的裁决。

打数据被摸索规律

摸规律:概率学 统计学
统计学方法:抽样 -> 统计 -> 假设检验
随着电脑处理能力加强 -> 不需要采样
数量多 -> 维度增加 -> 无法可视化 -> 只能数学方法意味着

俺们进行机上的一个目的就是于大气底多寡遭到概括出一个正好的数学模型

机器上提高的原动力

挺数目概念的起

就此数码代表专家
经济使,数据表现

作业体系提高的历史

因专家更(头脑风暴。然后交到程序员写有判定语句)
据悉统计-分纬度统计(依靠业务报表,数据仓库,olap统计)
机上-在线学习(实时的数据流,实时调整)

一流以-关联规则

购物篮分析:关联规则 (一栽多少挖掘算法)

联想连接 找有规律 

市物品而买了另外什么物品。
纸尿布和啤酒的故事

经济学,捆绑销售;更不行之功利

典型以-聚类

用户细分的突出案例,全球通精准营销
管用户消费之数据应用聚类算法,可以依据用户信息,自动对用户展开归类

 典型应用-朴素贝叶斯及仲裁树 

省吃俭用贝叶斯——垃圾邮件的辨别
决定树——银行以借时对用户之偿还能力评估

独立以-ctr预估和一道过滤

互联网广告:ctr预估(线性逻辑回归)–用户点击率预估,百度搜索结果排序
推介系统:协同过滤(类似购物车分析—关联规则)

 典型应用自然语言处理和图像识别

自然语言处理
  情感分析:根据用户的评论,分析下该用户是我们的能动用户或半死不活用户….
  实体识别:将一如既往篇文章被,主干比如人名,时间,地名提取出来

深上
  图片识别:给一样摆放照片,自动识别出来,是猫啊还是兔。

复多应用:

语音识别

聪明机器人

个性化医疗

腹心虚拟助理

结分析

手势控制

人脸识别

视频内容自动识别

机关开

机实时翻译……

数解析以及机具上之界别

多少解析:交易数据、少量数目、采样分析。对数码一致性要求严格,使用关系项目数据库sql
serve、mysql、oracle。
机械上:行为数据、海量数据、全量分析。需要保证数据吞吐量,数据一致性可以减去,所以用NoSQL数据库

 

数码解析(OLAP,联机分析)-用户(数据分析师)驱动,交互式分析。
机械上-数据+算法驱动,自动进行辨别。

NoSQL 1

NoSQL 2

机器上常见算法和归类

依数量情况:Y有无发出确定
出监督上—已清楚分类(标签)—分类,回归
凭监督上—未知分类(无标签)—聚类
一半监督上—强化学习,随着样本数据量上升,分类标准清晰

随算法的实质
变化模型—给出属于A/B/C类的概率,类似陪审团;
辨认模型—通过叫定函数判断Y/N,类似大法官裁决;

 

(1)ICDM
1.分拣—C4.5使用决策树算法,可以化解【分类】&【回归】问题;
2.聚类—K-Means算法,属于无监督措施,解决电信用户分类问题;
3.统计上—SVM(支持于量机)可以缓解分类(主)和回归问题,有非常好的显现与坚固的数学理论支持,曾经给当是最好好之归类算法。现在光线被【深度上】掩盖了。有早晚之数学门槛,面试中时常被讯问。
4.涉及分析—Apriori应用叫“尿片和纸尿裤”案例,最早化解了往往项集问题。由于用频繁造访数据库,已被裁。取代她的是华人开始的【FP-Growth】算法。应用:电商的推介系统,但时时有发生重新好的替代方式。
5.统计分析—EM算法是一个算法NoSQL框架,用于解决一系列问题。
6.一连挖掘—PageRank。Google使用的网页排序算法,很知名。
7.集装以及促进—AdaBoosts算法,应用被人脸识别,本质也改进的仲裁树算法,属于有监控的归类算法。
8.分类—kNN。相对简便易行的归类算法,有监督。
9.分类—Naive Bayes朴素贝叶斯算法,用于识别垃圾邮件。
时下匪常用的算法:Apriori和CART。

(2)著名算法
1.FP-Growth—干分析方法Apriori的改进。
2.逻辑回归—应用特别多,多用来百度、Google搜索结果的排序。
3.RF(随机森林)、GBDT—同AdaBoost类似,都属决策树算法。
4.推介算法—电商标配
5.LDA—用于文书分析、自然语言处理。有得的难度。
6.Word2Vector—google出品,耳熟能详,用于文书挖掘。
7.HMM(隐马尔科夫)、CRF(条件分析)—文本挖掘。
8.纵深上—目前最火之算法

NoSQL 3

机上解决问题

机械上,预测问题(类别-离散 ,数值 -连续),聚类问题
规定目标:业务需,数据,特征工程(数据预处理,提取特征
70%-数据的领到非常主要),数据好直接就是喂给算法,数据对范的熏陶大非常,数据控制了最后的预计结果

机器上解决问题的框架

训练模型:定义模型-产生公式(根据现实而化解之题目)、定义损失函数(预测的结果跟诚的结果里面的差错最小的函数)、优化算法(使损失函数取极小值)
型评估:交叉验证、效果评估

网站地图xml地图