专业IT网络知识平台,分享IT百科知识、生活百科知识解答!

易企推科技
易企推科技

干货是什么意思(为什么会说干货分享)

来源:小易整编  作者:小易  发布时间:2020-03-31 09:49
摘要:机器学习 - Machine Learning 是时下最火热的技术名词之一。 逃学博士一直在不断丰富自己的知识,将学到的知识消化吸收,并且写成文字发表出来。这是一个学习的过程,利人利己,何乐不为。 另外,做个小宣传。这位加拿大Bob大叔是一个经营着农场的高中老师,顺便教大家...

机器学习 - Machine Learning是时下最火热的技术名词之一。

逃学博士一直在不断丰富自己的知识,将学到的知识消化吸收,并且写成文字发表出来。这是一个学习的过程,利人利己,何乐不为。

另外,做个小宣传。这位加拿大Bob大叔是一个经营着农场的高中老师,顺便教大家生活中的英语。浑厚的美式大叔发音,有兴趣的可以去学习下。

逃学博士所在学校离大叔很近,大叔也苦于自己的视频被搬运。所以,一拍即合。逃学博士帮Bob大叔在国内上传视频啦。希望大家支持。

干货!一篇文章讲清楚 什么是机器学习, 什么是交叉验证 ?

加拿大Bob大叔

言归正传,这篇文章我们一起来简单了解一下:

  • 什么是机器学习(Machine Learning);
  • 什么是交叉交叉验证;

这些是机器学习的基础,打好基础我们再聊高深的知识。

01 什么是机器学习?

干货!一篇文章讲清楚 什么是机器学习, 什么是交叉验证 ?

机器学习

信息时代,数据为王。我们首先要弄清楚,为什么现在的科技公司都称自己是“数据公司”。整天收集那么多数据做什么呢?

我们一步一步来!

每天我们自己都会贡献很多数据,比如你上网浏览了什么网页,你在淘宝上查看了什么产品,你去过什么地方(手机GPS),今日头条上看过什么主题的文章或者视频等等。不要以为没有用,科技公司靠着这些数据可是赚的盆满钵满的。

对我们个人来说”时间就是金钱!“

对于数据公司来说”数据就是金矿!”

你有没有发现,当你在头条上看过“教羽毛球”的视频后,头条就会给你不停的推送羽毛球相关的视频呢?

这些推送可不是头条工作人员给你手动推送的,而是通过后台的算法,认为你大概率对羽毛球相关视频感兴趣,所以才推送给你。毕竟你点开视频,头条才能赚钱。

那我们就从这个推送问题,来说说机器学习吧!

干货!一篇文章讲清楚 什么是机器学习, 什么是交叉验证 ?

图1:原创,转载注明出处

假设你有1000个人的数据,分别是他们对运动的喜好,包括:

  • 羽毛球
  • 乒乓球
  • 篮球
  • 足球

图1的方法是 机器学习的一种方法,叫决策树(Decision Tree)。这个数据分析的目的是找出喜欢羽毛球和喜欢篮球之间的关系

  • 羽毛球(Y)- 乒乓球(Y)- 篮球(Y)
  • 羽毛球(Y)- 乒乓球(N)- 足球(Y)- 篮球(Y)
  • 羽毛球(Y)- 乒乓球(N)- 足球(N)- 篮球(N)
  • 羽毛球(N)- 乒乓球(Y)- 篮球(Y)
  • 羽毛球(N)- 乒乓球(N)- 足球(Y)- 篮球(Y)
  • 羽毛球(N)- 乒乓球(N)- 足球(N)- 篮球(N)

如果这个机器学习模型表现好的话,我们完全可以从一个人是否喜欢羽毛球,一步一步推断出他是否也喜欢篮球。

这就是一个简单的机器学习过程。那么,机器学习最重要两步是什么呢?

  • 建模找关系;
  • 定关系预测;

我们一起来做一个简单的机器学习模型,研究目标是 糖的摄入量和肥胖之间的关系

干货!一篇文章讲清楚 什么是机器学习, 什么是交叉验证 ?

瞎掰的数据

不要在意数据,都是我瞎掰的。

我们看到,糖摄入量和体重是存在一个正相关的关系。这就是最基本的线性规划的问题(Linear Regression)。

干货!一篇文章讲清楚 什么是机器学习, 什么是交叉验证 ?

数据间的关系

机器学习的核心之一是依靠数据定模型找关系,也就是用数据去训练(Training)模型

上图所示,体重 = 1.6493 * 糖摄入量 + 45.877

为什么我们要去找这个关系呢?

因为我们要依靠已有的数据,去预测未来可能会发生的事,这就是机器学习的核心之二:定模型关系预测

比方说,这时候有一个人说我每天吃 20 克的糖,这样我们可以利用上面找到的关系,算出这个人的体重大概在78.863 千克。

至于准不准,我们会在之后的文章里谈论。 02 什么是交叉验证?

Cross Validation(交叉验证),又一个高大上的名字。不要被唬住,其实道理说白了很简单。

比方说我们手上有1000个人的糖摄入量和体重的数据,我们并不能用全部的数据去建立模型。

干货!一篇文章讲清楚 什么是机器学习, 什么是交叉验证 ?

一般来说,

  • Machine Learning需要数据去决定模型关系,这叫(Train the Machine Learning Method)
  • 同时,建立模型之后,我们需要知道这个模型效果如何。同样需要数据去验证,这叫(Test the Machine Learning Method)
如果你用了所有的数据去建立模型,那你根本就没有任何数据去验证模型了。

有的同学说,我可以用建立模型的数据去验证啊!

打个比方,你的数据 - 100个男人里,有98个怕老婆,2个不怕(因为没老婆),那你建立的模型结论是 98%的男人怕老婆

如果你用建模型的数据去检测,你当然会发现这个模型太准了。但事实是这样吗?

因此,一般来说,会将已有数据分成两份:

  • 一份用来Train the machine learning method;
  • 一份用来Test the machine learning method;

干货!一篇文章讲清楚 什么是机器学习, 什么是交叉验证 ?

交叉验证

如上图,我们一共有20个数据。我们将其中5个数据拉出来用于检验模型,另外15个建立模型。也就是说,数据被分成了4份,每一份5个数据。

第一需要弄明白为什么需要交叉验证?

Machine Learning的方法太多了,什么SVM,Random forest,K-nearest Neighbor等等,你怎么去比较哪一种方法更好呢?

建模 + 验证

是这样没错,但是你怎么能保证你挑选出来用于建立和验证模型的数据就是最合理的呢?

仔细观察上图,20个数据点,10个红球,10个绿球。

上图第一行:

前5个数据用于验证,后15个数据用于建模(8个红的,7个绿的),这样去建立的模型,红球出现的概率更高。这就和真实情况有出入,因为红球和绿球明明一样多。

这就引出了 交叉验证 了。

把数据分成4份,标注为A,B,C,D。

  • 第一次用A作为检测数据,BCD作为建模数据,记录下模型的表现;
  • 第二次用B作为检测数据,ACD作为建模数据,记录下模型的表现;
  • 第三次用C作为检测数据,ABD作为建模数据,记录下模型的表现;
  • 第四次用D作为检测数据,ABC作为建模数据,记录下模型的表现;

这样做我们就可以保证:

  • 每一个数据都被用来检测过一次;
  • 每一个数据都被用来建模过三次;

对挑选的几种 机器学习的方法都这样处理一遍,然后给模型总体表现排序,最好的自然就是我们所要用的方法了。

分成四份,如上例,叫做 4倍交叉验证(Four-Fold Cross Validation)。

干货!一篇文章讲清楚 什么是机器学习, 什么是交叉验证 ?

K-Fold Cross Validation

一般实际应用的时候,数据被分成10份,就是10倍交叉验证。

干货!一篇文章讲清楚 什么是机器学习, 什么是交叉验证 ?
03 总结

逃学博士一直觉得,很多看似高深的知识背后,都是基础知识的延伸,只不过被套上了很多高大上的专有名词。

介绍机器学习,先给你整一堆 专有名词,听众觉得完全听不懂,但是感觉好厉害的样子。

专业的划分不是知识的划分,是看怎么把知识点包装成只有专业内的人才能听得懂的形式。

比方说:

我们今天拿到了一批数据,先做一个10倍交叉验证,看看选什么方法,是SVM还是Random Forest,最后给我一个分析报告。

如果你没有看这篇文章,第一次见这段话是不是懵逼。

希望大家喜欢我的文章。

“逃学博士”:理工科直男一枚,在冰天雪地的加拿大攻读工程博士。闲暇之余分享点科学知识和学习干货。

 


本文地址:百科知识频道 https://www.hkm168.com/zhibai/121043.html,易企推百科一个免费的知识分享平台,本站部分文章来网络分享,本着互联网分享的精神,如有涉及到您的权益,请联系我们删除,谢谢!


百科知识
小编:小易整编
相关文章相关阅读
  • 祝福老师句子大全,教师节送礼必备(感恩教育恩人)

    祝福老师句子大全,教师节送礼必备(感恩教育恩人)

    祝福老师句子大全,教师节送礼必备(感恩教育恩人)教师节是每年的9月10日,这一天是我们向教育恩人表达感激之情和祝福的日子。在这个特殊的日子里,送上一句祝福老师的话语,表达我们对教育工作者的敬意和感激之情,成为了每位学生们献给老师的最好礼物。...

  • 贺知章名句赏析,诗人风采展示(品味优美诗歌)

    贺知章名句赏析,诗人风采展示(品味优美诗歌)

    贺知章名句赏析,诗人风采展示(品味优美诗歌)贺知章,唐代诗人,被誉为“豪放派”代表之一。他的诗歌生动有力,意境深远,语言通俗易懂,充满浓郁的民族气息。他留下了许多优美的诗句,让人感慨万千,不得不赞叹其诗才与风采。其中,著名的“海内存知己,天...

  • 纸飞机折法,制作简单易学(挑战手工艺术)

    纸飞机折法,制作简单易学(挑战手工艺术)

    纸飞机折法,制作简单易学(挑战手工艺术)纸飞机是一款低成本、简单易学的手工艺品,因其制作过程简单易懂,大家可以尝试在家,不需要太多专业工具。首先准备一张A4大小的白纸,将其折成一半,然后再打开,将两边的边角对齐,再次往中间折叠。在折叠的位置...

  • 中超赛程表,看球购票攻略(跟随绿茵场之旅)

     中超赛程表,看球购票攻略(跟随绿茵场之旅)

    中超赛程表,看球购票攻略(跟随绿茵场之旅)中超联赛一直以来都备受球迷关注,每个赛季都会有无数的球迷前往现场观看比赛。为了让广大球迷更好地安排自己的观赛计划,我们在这里为大家介绍一下中超赛程表和看球购票的攻略。中超赛程表中超联赛一般从3月份开...

  • 春节习俗大全,传统文化策源地(领略浓郁年味)

    春节习俗大全,传统文化策源地(领略浓郁年味)

    春节习俗大全,传统文化策源地(领略浓郁年味)春节是中国最重要的传统节日,也被称作“年节”、“新春节”等,是一个具有重大历史意义和文化内涵的节日。说到春节,就不得不提到具有浓郁地域特色和文化内涵的习俗,这些习俗既体现了中华民族的优秀文化传统,...

  • “水”字旁常用字,快速记忆方法(提高汉字识别能力)

    “水”字旁常用字,快速记忆方法(提高汉字识别能力)

    “水”字旁常用字,快速记忆方法(提高汉字识别能力)汉字是中国文化的重要组成部分,对于中文学习者而言,汉字的认识和记忆是非常重要的。其中“水”字是汉字中的一个旁常用字。在学习这个字时,我们可以采用一些快速记忆方法,提高汉字识别能力。首先,我们...

  • 做梦梦见很多蛇,分析梦境内涵(看懂心理暗示)

    做梦梦见很多蛇,分析梦境内涵(看懂心理暗示)

    做梦梦见很多蛇,分析梦境内涵(看懂心理暗示)做梦时梦见很多蛇是一种比较常见的梦境,对于这种梦境的解释和分析是非常重要的。从心理学的角度来看,这种梦境不仅反映了我们潜意识中的想法和情感,也可以为我们指引未来的行动。首先,梦见很多蛇可能说明我们...

  • 制作铃声详解,打造个性化手机(表现自我风格)

    制作铃声详解,打造个性化手机(表现自我风格)

    制作铃声详解,打造个性化手机(表现自我风格)随着移动设备的普及,手机不仅是通信工具,也成为了一种个性化的表现方式。而铃声则是手机个性化中最直接的表现形式之一。制作一个个性化的铃声,不仅可以让你的手机更具有个性化的特色,同时还可以让你展现出自...

  • 周排行
  • 月排行
  • 年排行

精彩推荐