您能向我们简单介绍下自己和一些经历吗?
是什么促使您分享这份数据集的?
使用新闻订阅来预测股市动向的做法并不新奇。我的硕士论文也是基于这个想法的。当我身处学术机构时,获取免费且高质量的数据是很容易的。然而,对于现实中的企业来说,却很少有这种免费的午餐。大多数的新闻供应商并不想公开他们的数据源。恰恰相反,这些供应商向他们的高级用户按月收取昂贵的订阅费用。
我真的不希望一个奇妙的点子仅仅因为无力购买数据而被迫放弃。

您是如何使用这份数据集向您的学生(包括kaggle用户)讲解自然语言处理与深度学习方面知识的?
首先,这份数据集听起来很酷。一想到自己能够预测市场的动向(尽管使用简单算法来预测实际市场动向的做法并不现实),大家都会感到很激动。但是,从根本上来说,这也是一个典型的nlp问题:文本分类。新闻文本数据作为输入,而股票动向则视为分类标签。在一门名叫自然语言处理中的深度学习的课程中,我用这份数据集教我的学生通过使用深度学习算法,比如cnn,解决这类问题。
对于那些可能有兴趣使用开放数据平台进行教学或研究的教育工作者,您有没有什么建议?
当然有。在一个开放数据平台中,教育工作者不仅可以从他们的学生,而且还可以从整个社区中获得反馈。人们在一起讨论并分享时,新的想法会随之产生。我是开放数据的强烈拥护者。这也是我在kaggle上共享自己数据的原因。
您是如何搜集并清洗数据的?
这需要些技巧,日后我会专门写一份教程。(别担心,我并没有进行非法爬取)
谈一谈您目前最喜欢的用于数据分析的kernel
同样地,大部分kernel目前使用的都是非常基础的解决方案(换句话说,都是导入其他的解决方案来处理问题)。对于这个数据集,我知道简单的方法仍能取得很好的效果,但我希望大家能够使用更为复杂的理论来解决这个问题,比如,使用facebook最近发布的fasttext。我将开设一门课程,教授如何在这份数据集上应用fasttext。
您使用新闻标题预测股市时,最有趣的体会是什么?
“不要做白日梦” :p
很多学生和朋友告诉我,他们的算法在这份数据集上效果不错,但在预测真实股市时却没有那么有用。当然,首先你需要一种科学的评估方法,比如交叉验证。否则,当你认为自己正在基于某个数据集调整算法时,你实际上已经陷入了过拟合的陷阱。其次,这份数据集仅包含了8年的日常股市数据,大约2500个数据点,这对于任何一个严谨的评估方法都是远远不够的。最后,但同样重要的是,在真实市场中,新闻数据仅仅代表着真实世界的一个维度,更好的解决方法是结合代表不同维度的多个数据源进行预测。
如果这份数据被您的学生或其他数据发烧友使用,你会怎么想?
做任何你想做的事!
您分享的数据集正在改变着世界,在您看来,有哪些方式能够容易地获取类似的开放数据?
正如我前面提到的,有些数据集真的非常昂贵。当然,我从不支持那些泄露版权数据的人。这种做法完全是错的。我倾向于使用公开且合法的替代品来避开障碍。如果一个有前途的项目因为承担不起昂贵的数据集而终止,那将会是一种耻辱。所以,最好的情况是,高级用户付费使用高级数据集的同时,开放平台的贡献者也能提供相同质量的替代品。这仍是一个健康的生态系统,每个人的需求都得到满足。
如果您能够免费提供另外任何一种数据用于分析,您会选择什么数据?
令大家兴奋不已的数据。
<a href="https://promotion.aliyun.com/ntms/act/ambassador/sharetouser.html?usercode=lwju78qa&utm_source=lwju78qa">数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!</a>
文章原标题《open data spotlight: daily news for stock market prediction | jiahao sun》,作者:megan risdal