天天看点

常识机器学习

常识机器学习

区块链技术,块分散成小立方体在数字数据后台- 3D渲染

有不同的方法来定义常识机器学习。这可能意味着尽可能使用简单的模型,避免过度拟合,正确选择特征,或以正确的方式进行交叉验证。也可能意味着不使用任何数据集。然而,做出的预测远远超过那些在大型数据集上工作的聪明的数据科学家团队。第一个定义可能是以后文章的主题。这里我主要讨论后者。我提供了例子来说明我的意思。一般来说,这可以归结为拥有错误的数据和/或缺乏业务经验,或缺乏常识。我需要打破常规的思维。

更大的顶级数据科学家团队、更大的数据和更好的模型并不是解决方案。更多样化的数据或第三方数据有时会有很大帮助。问题是如何找到正确的数据。虽然在某些情况下,不需要数据:我称之为机器学习只用人脑完成。

第一个例子:Covid预测

在早期,当我查看有关“康复者”的统计数据时,这个数字低得令人难以置信。在深入调查之后,很明显,“恢复”意味着你的检测结果呈阳性,你的病例被记录在某个官方数据库中。也许你去了医院,然后“活着”出院了。我被感染的家人和亲密的朋友——他们都是自己康复的——都没有被统计出来。这是我进一步调查官方数据可能相差多远的起点。

如今,科学家们抱怨接受检测的人太少,或者在家里进行检测而不报告结果。一些人声称,在任何正式的阳性病例中,有14例未报告。追踪病例是否仍然重要,这是我不愿讨论的问题。我认为住院治疗是一个更好的指标,尽管它是一个滞后的指标。如今,科学家们使用废水数据,尽管美国各地并没有均匀地跟踪这种数据。

一个简单的解决方案

在过去的几天里,我生病了,还在恢复中。我不知道是什么,我妻子(也有点生病)的Covid检测呈阴性。她学校的几个同事最近感染了新冠病毒。我查了一下新冠热能持续多久。这让我想到了一个简单的解决方案来估计病例趋势,并包括那些(像我自己)从未进入官方数据库的病例。

我想到了这个主意:看看谷歌的“Covid症状”或相关关键字的趋势。你可以按面积细分。如果你可以访问完整的数据(谷歌可以),你甚至应该能够根据IP地址告诉我,我昨天在谷歌上搜索了“Covid fever”。当然,这并不意味着我是积极的,但这是一个很好的代理指标。特别是,我发现俄勒冈州的情况比附近的州更“糟糕”。下面是图片。这些数据对所有人都是免费的,可以在这里找到。

常识机器学习

俄勒冈州“Covid症状”的谷歌关键字趋势

当你可能刚刚被感染时,你也开始质疑是否要接种疫苗。疫苗可能已经过时了,正如预期的那样,我的病情并不比接种疫苗的人更严重。如果你呼吸困难(我这次没有),你要自我隔离,你也会想为什么要在家里戴口罩。这可能会让本来就不愉快的情况变得更糟。这方面似乎没有任何严肃的研究。一个放之四海而皆准的解决方案远非理想。我的观点是,许多分析中缺少了一些基本的统计数据。

第二个例子:回应你招聘广告的隐形候选人

我最近写了一篇关于招聘数据科学家时人才短缺的神话的文章:请看这里。许多公司使用的自动简历筛选流程是拙劣的人工智能。考生可以列出6种编程语言来通过,诚实、优秀的考生可能会失败。

优秀的招聘经理知道如何在LinkedIn上找到潜在的候选人。自从我在LinkedIn上恢复活跃后,许多招聘人员联系我,甚至在Facebook上!你很容易发表比许多人所发表的更有深度的评论,并脱颖而出。我这样做不是为了找工作,而是为了扩大我的受众。最后,我想知道简历这个概念是否已经过时了。

招聘经理过于依赖黑盒系统等简历筛选工具是不利的。你需要再努力一点。我想这些工具在未来会变得更智能,但目前它们还不太好。做一个简单的测试:用伪造的简历应聘你所招聘的职位。看看有多少这样的简历通过审核。那么你的下一个问题是:我的公司是否应该停止在这样一个低效的系统上浪费资金?

说到招聘,你肯定想要有商业知识的人(见下一节)。缺乏常识实际上是缺乏商业知识。这可能和成为一名优秀的程序员一样重要。然而,当NBCi聘请我处理广告归因问题时,我在电视广告方面的商业专业知识是零。我从来不看电视节目,也没有电视机。但他们最终还是喜欢我所做的,因为我用简单的语言和简单的电子表格解释了它,利益相关者可以理解。它还产生了附加值。在面试候选人或申请一个职位时要考虑的一件事是:讨论过去的成功故事。

第三个例子:像Reddit这样的公司错失了盈利机会

我最近遇到的一个反复出现的问题是,我的广告在Facebook、Twitter或Reddit等平台上的拒绝率很高。就好像我在卖非法的东西一样。然而,他们是高度针对性的,相关的,并促进高质量的机器学习论文。相反,当我访问这些平台时,我只看到无关的广告。

我也是一个专业的广告作家。起初,我以为广告是由机器人审批的。然而,在很多情况下,这是由人类造成的。如果手动检查这些广告的人都不能分辨出好坏,人工智能又怎么能做到呢?一些人工智能系统是由对实际问题知之甚少的人设计的。他们可能拥有麻省理工学院的机器学习博士学位,但要么他们缺乏商业知识,要么他们上面的人不知道他们在做什么。以Reddit为例,我要求他们写一个可以被接受的广告。他们没能兑现承诺。这是为MLTechniques.com做广告。希望随着IPO的临近,会有更多的人关心收入——至少是股东。

正如我在前一节中所写的,我在对电视节目一无所知的情况下,也不会操作电视机,但却在电视广告业工作得很成功。所以这绝对是可能的。但了解你的客户体验对提高你的人工智能有很大帮助。如果像Reddit这样的公司聘请的机器学习科学家本身就是广告商,他们将获得客户的视角,从而开发出更有意义的人工智能。现在,客户体验和广告审批可能由两个不同的团队负责。他们要么不沟通,要么目标冲突。

其他的例子

Facebook上的自动翻译是另一个例子。尽管我经常在Facebook上用法语阅读和发帖,但它的算法已经认定我只会一种语言。facebook为我翻译了所有的英语,可能是因为我在美国。开发这一功能的工程师在FB上也必须面对同样的问题。英语版本也很有趣。谷歌还会反复询问我是否需要翻译成英语。然而,我已经好几年没用过这个功能了。这些只是小麻烦,但它表明那些设计这些系统的人(或那些对功能做出最终决定的人)并不生活在现实世界中。

另一个例子:谷歌地图让我走上了一些尴尬的道路。在偏远地区的多日汽车旅行中,算法是残酷的数学。它肯定能显示最快或最短的路。但是,当交通堵塞很容易避免的时候,政府并不关心那些停放着大量拖拉机的两车道公路,或者没有加油站的长段路段。如果你把你的旅行分成更短的部分,它会做得更好——一个简单的修复,你会认为算法本身可以利用。你会想,设计这些系统的人除了在日常通勤中测试过这些系统吗?这个算法在某种程度上进行了数学优化。但不是在实际用途中最有用的方式,而是在非标准旅行中使用它。

最后,2008年房地产泡沫的破裂是数据科学出错的一个例子。科学家们追随他们的模型,就像泰坦尼克号的船长追随他的船走向深渊一样吗?还是他们足够聪明,避免了损失?那是不是太贪心了?

继续阅读