您能向我們簡單介紹下自己和一些經曆嗎?
是什麼促使您分享這份資料集的?
使用新聞訂閱來預測股市動向的做法并不新奇。我的碩士論文也是基于這個想法的。當我身處學術機構時,擷取免費且高品質的資料是很容易的。然而,對于現實中的企業來說,卻很少有這種免費的午餐。大多數的新聞供應商并不想公開他們的資料源。恰恰相反,這些供應商向他們的進階使用者按月收取昂貴的訂閱費用。
我真的不希望一個奇妙的點子僅僅因為無力購買資料而被迫放棄。

您是如何使用這份資料集向您的學生(包括kaggle使用者)講解自然語言處理與深度學習方面知識的?
首先,這份資料集聽起來很酷。一想到自己能夠預測市場的動向(盡管使用簡單算法來預測實際市場動向的做法并不現實),大家都會感到很激動。但是,從根本上來說,這也是一個典型的nlp問題:文本分類。新聞文本資料作為輸入,而股票動向則視為分類标簽。在一門名叫自然語言進行中的深度學習的課程中,我用這份資料集教我的學生通過使用深度學習算法,比如cnn,解決這類問題。
對于那些可能有興趣使用開放資料平台進行教學或研究的教育工作者,您有沒有什麼建議?
當然有。在一個開放資料平台中,教育工作者不僅可以從他們的學生,而且還可以從整個社群中獲得回報。人們在一起讨論并分享時,新的想法會随之産生。我是開放資料的強烈擁護者。這也是我在kaggle上共享自己資料的原因。
您是如何搜集并清洗資料的?
這需要些技巧,日後我會專門寫一份教程。(别擔心,我并沒有進行非法爬取)
談一談您目前最喜歡的用于資料分析的kernel
同樣地,大部分kernel目前使用的都是非常基礎的解決方案(換句話說,都是導入其他的解決方案來處理問題)。對于這個資料集,我知道簡單的方法仍能取得很好的效果,但我希望大家能夠使用更為複雜的理論來解決這個問題,比如,使用facebook最近釋出的fasttext。我将開設一門課程,教授如何在這份資料集上應用fasttext。
您使用新聞标題預測股市時,最有趣的體會是什麼?
“不要做白日夢” :p
很多學生和朋友告訴我,他們的算法在這份資料集上效果不錯,但在預測真實股市時卻沒有那麼有用。當然,首先你需要一種科學的評估方法,比如交叉驗證。否則,當你認為自己正在基于某個資料集調整算法時,你實際上已經陷入了過拟合的陷阱。其次,這份資料集僅包含了8年的日常股市資料,大約2500個資料點,這對于任何一個嚴謹的評估方法都是遠遠不夠的。最後,但同樣重要的是,在真實市場中,新聞資料僅僅代表着真實世界的一個次元,更好的解決方法是結合代表不同次元的多個資料源進行預測。
如果這份資料被您的學生或其他資料發燒友使用,你會怎麼想?
做任何你想做的事!
您分享的資料集正在改變着世界,在您看來,有哪些方式能夠容易地擷取類似的開放資料?
正如我前面提到的,有些資料集真的非常昂貴。當然,我從不支援那些洩露版權資料的人。這種做法完全是錯的。我傾向于使用公開且合法的替代品來避開障礙。如果一個有前途的項目因為承擔不起昂貴的資料集而終止,那将會是一種恥辱。是以,最好的情況是,進階使用者付費使用進階資料集的同時,開放平台的貢獻者也能提供相同品質的替代品。這仍是一個健康的生态系統,每個人的需求都得到滿足。
如果您能夠免費提供另外任何一種資料用于分析,您會選擇什麼資料?
令大家興奮不已的資料。
<a href="https://promotion.aliyun.com/ntms/act/ambassador/sharetouser.html?usercode=lwju78qa&utm_source=lwju78qa">數十款阿裡雲産品限時折扣中,趕緊點選領劵開始雲上實踐吧!</a>
文章原标題《open data spotlight: daily news for stock market prediction | jiahao sun》,作者:megan risdal