51dev.com IT技术开发者社区

51dev.com 技术开发者社区

机器人的三大定律有没有致命的逻辑破绽?

机器人的三大定律有没有致命的逻辑破绽?

在电影《机器管家》中,新一代管家机器人安德鲁第一次来到主人尼尔家时,就向大家宣誓了机器人三定律来解决机器人与人之间的伦理问题——一,机器人不得伤害或允许伤害人类;二,机器人必须在不违反第一条定律的前提下执行人类的任何指令;三,机器人必须在不违反第一、二定律的前提下保护自己的存...

通俗理解决策树算法中的信息增益

通俗理解决策树算法中的信息增益

在决策树算法的学习过程中,信息增益是特征选择的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,说明该特征越重要,相应的信息增益也就越大。 1 概念我们前面说了,信息熵是代表随机变量的复杂度(不确定度)通俗理解信息熵,条件熵代表在某一个条件下,随机变量的复...

了解信息增益和决策树

了解信息增益和决策树

信息增益================一,特征选择中的信息增益:================信息增益是什么,我们先从它的用处来了解它:信息增益是特征选择中的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。那么如何衡量一个特征为分类系统带来的信息多少呢:对...

机器学习特征选择之卡方检验与互信息

机器学习特征选择之卡方检验与互信息

特征选择的主要目的有两点:1.      减少特征数量提高训练速度,这点对于一些复杂模型来说尤其重要2.      减少noisefeature以提高模型在测试集上的准确性。一些噪...

一条SQL搞定卡方检验计算

一条SQL搞定卡方检验计算

 上一篇文章《一条SQL搞定信息增益的计算》介绍了在机器学习特征工程中,如何使用SQL来进行信息增益的计算。卡方检验作为一种数理统计中的假设检验方法,也常用于特征选择中。本文简单介绍了卡方检验的原理,并用HiveSQL实现卡方检验值的计算。  卡方检验最基本的思想就是通...

一条SQL搞定信息增益的计算

一条SQL搞定信息增益的计算

介绍信息增益之前,首先需要介绍一下熵的概念,这是一个物理学概念,表示“一个系统的混乱程度”。系统的不确定性越高,熵就越大。假设集合中的变量X={x1,x2…xn},它对应在集合的概率分别是P={p1,p2…pn}。那么这个集合的熵表示为:举一个的例...

从零开始,了解元学习

从零开始,了解元学习

元学习是目前机器学习领域一个令人振奋的研究趋势,它解决的是学习如何学习的问题。传统的机器学习研究模式是:获取特定任务的大型数据集,然后用这个数据集从头开始训练模型。很明显,这和人类利用以往经验,仅仅通过少量样本就迅速完成学习的情况相差甚远。因为人类学习了「如何学习」。在这篇文章中,我将从一个非常直观...

随机森林步骤

随机森林步骤

RandomForest是加州大学伯克利分校的BreimanLeo和AdeleCutler于2001年发表的论文中提到的新的机器学习算法,可以用来做分类,聚类,回归,和生存分析,这里只简单介绍该算法在分类上的应用。 RandomForest(随机森林)算法是通过训练多个决策树,生成模型,然...

企业要从AI中获益,需先打开这四道锁

企业要从AI中获益,需先打开这四道锁

  如果你是一位科技和AI爱好者,想必会在各种信息渠道看到“人工智能又能干什么了”、“人工智能又在某领域超过人类了”,这类消息近乎于每天都在我们的眼球前摇晃。  久而久之,我们似乎会习惯性地认为AI已经可以拿下一切问题,甚至觉得AI已经是万能的。  这...

信息增益与熵

信息增益与熵

 在信息论中,熵被用来衡量一个随机变量出现的期望值。变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大,熵是整个系统的平均消息量。信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程...

解读决策树与随机森林模型的概念

解读决策树与随机森林模型的概念

决策树,是机器学习中一种非常常见的分类方法,也可以说是所有算法中最直观也最好理解的算法。有人找我借钱(当然不太可能。。。),借还是不借?我会结合根据我自己有没有钱、我自己用不用钱、对方信用好不好这三个特征来决定我的答案。  我们把转到更普遍一点的视角,对于一些有特征的数据,如果我们能够有这么一颗决策...

最适合人工智能开发的编程语言优缺点对比

最适合人工智能开发的编程语言优缺点对比

人工智能技术的提升不仅为企业的运营带来了效率,而且为人民的生活带来了便利。迄今为止,人工智能已经实现了生物识别智能、自动驾驶汽车和人脸识别等等项目。  就像大多数软件应用程序的开发一样,开发人员也在使用多种语言来编写人工智能项目,但是现在还没有任何一种完美的编程语言是可以完全速配人工智能项目的。编程...

深度学习——你需要了解的八大开源框架

深度学习——你需要了解的八大开源框架

导读:深度学习(DeepLearning)是机器学习中一种基于对数据进行表征学习的方法,深度学习的好处是用非监督式或半监督式的特征学习、分层特征提取高效算法来替代手工获取特征(feature)。作为当下最热门的话题,Google、Facebook、Microsoft等巨头都围绕深度学习重点投资了一系...

深度学习如何提取特征

深度学习如何提取特征

引题:一个粗糙的想法,简单粗暴:法1:每幅图我让机器一个一个像素看,从像素来说,它最能准确地表达某个具体的物体具体的姿势。可以想到,来了一个像素,你能干嘛,你能判断它是谁?逐像素,你只能:(1)对比一张图片和你有损压缩之后相差多少(2)设一个阀值,然后灰度分级。一旦涉及特征,不会只是像素(尽管有ra...

机器学习】【决策树】用样本集详解并计算:信息+香农熵+条件熵+信息增益+信息增益比+决策树的最优根节点+经验熵+经验条件

机器学习】【决策树】用样本集详解并计算:信息+香农熵+条件熵+信息增益+信息增益比+决策树的最优根节点+经验熵+经验条件

首先信息、香农熵、条件熵、信息增益都是信息论里面的概念。本文章的讲解和代码实现(除了条件熵和信息增益)都基于两个随机变量的样本空空间,样本空间X={x1,x2}的概率分布如下所示:p(x1)=p1,0<p1<1p(x2)=p2,0<p2<1p1+p2=1信息是用来消除随机不确...