R语言rcurl抓取问财财经搜索网页股票数据

2021-05-19 23:30:09

问财财经搜索是同花顺旗下的服务之一,主要针对上市公司的公告、研报、即时新闻等提供搜索及参考资料。相对于其他股票软件来说，一个强大之处在于用自然语言就可以按你指定的条件进行筛选。而大部分现有的行情软件支持的都不是很好，写起来就费尽心思，还不一定能行。

然而问财有一个缺陷在于它只能获取一天的股票相关信息。如果，我们希望实现抓取一段时间的股票历史信息，就要通过网页批量抓取。

事实上，我们可以通过制作一个爬虫软件来自己定义时间日期和搜索的关键词，并且批量下载一定日期范围的数据。

我们以抓取每天的收盘价大于均线上股票数目为例子，用r来实现抓取：

例如需要获取10月12日的数据，在问财里输入下面的关键词即可

查看搜索结果链接，我们可以看到关键词在链接中的显示规则

因此，我们在r中可以通过制作一个时间段的伪链接来向服务器不断发送搜索请求，从而实现一段日期数据的批量抓取

url=paste("http://www.iwencai.com/stockpick/search?typed=1&preParams=&ts=1&f=1&qs=result_rewrite&selfsectsn=&querytype=&searchfilter=&tid=stockpick&w=",as.character(as.Date(i, origin = "1970-01-01")) ,input2)

然后，我们查看其中一天的网页源代码，可以找到对应股票数据的xml源码

因此，可以通过编写一个html_value 函数来获取这个xmlValue

xpath <- '//div[@class=\"natl_words long_words\"]/span[@class=\"natl_num\"]'

html_value <- function(url,xpath){

webpage <- getURL(url)

webpage <- readLines(tc <- textConnection(webpage)); close(tc)

pagetree <- htmlTreeParse(webpage, error=function(...){}, useInternalNodes = TRUE)

value <- getNodeSet(pagetree,xpath)
##i <- length(value)##统计满足条件的值个数，一般情况为1

# value1 <- xmlValue(value[[ 1]])

# value2 <- xmlValue(value[[ 2]])

# value3 <- xmlValue(value[[ 3]])

# value4 <- xmlValue(value[[ 4]])

value1=character(0)

for(i in 1:length(value))value1[i] <- xmlValue(value[[ i]])

return(value1)

}

然后封装成一个函数，就可以任意下载一段时间内几个关键词所对应的股票数据了。

最后可以将爬取到的数据批量输出到一个excel文件中，从而方便后续的分析。

参考文献

1.用机器学习识别不断变化的股市状况—隐马尔科夫模型(HMM)的应用

2.R语言GARCH-DCC模型和DCC（MVT）建模估计

3.R语言实现 Copula 算法建模依赖性案例分析报告

4.R语言COPULAS和金融时间序列数据VaR分析

5.R语言多元COPULA GARCH 模型时间序列预测

6.用R语言实现神经网络预测股票实例

R语言rcurl抓取问财财经搜索网页股票数据

继续阅读

《量化金融R语言高级教程》一2.2　在R中建模

简单有趣的 NLP 教程：手把手教你用 PyTorch 辨别自然语言（附代码）

用R语言模拟M / M / 1随机服务排队系统

R语言分段回归数据分析案例报告

R语言对BRFSS数据探索回归数据分析

R语言在逻辑回归中求R square R方

R语言有极值（EVT）依赖结构的马尔可夫链(MC)对洪水极值分析

R语言中实现层次聚类模型

r语言聚类分析：k-means和层次聚类

R语言阈值模型代码示例

R语言Wald检验 vs 似然比检验

R语言状态空间模型：卡尔曼滤波器KFAS建模时间序列

在R语言中进行缺失值填充：估算缺失值

R语言如何和何时使用glmnet岭回归

与Lillian 一起学：R语言 - 数据科学实战（简介）