天天看点

自动统计知网数据

http://blog.csdn.net/twosecond/archive/2009/06/22/4289052.aspx

<?php

    function inDB($words,$year){

        $mysql_server_name="localhost"; //数据库服务器名称

        $mysql_username="root"; // 连接数据库用户名

        $mysql_password=""; // 连接数据库密码

        $mysql_database="ljj"; // 数据库的名字

        // 连接到数据库

        $conn=mysql_connect($mysql_server_name, $mysql_username,$mysql_password);

        // 执行sql查询

        foreach($words as $word){

            // 从表中提取信息的sql语句

            $strsql = "INSERT INTO `ljj`.`tongji` ( `id` , `word` , `year` ) VALUES ( NULL , '".$word[$i]."', '".$year."' )";

            $result = mysql_db_query($mysql_database, $strsql, $conn);

        }

    }

    echo "starttime is".date("Y-m-d H:i:s").'

';

    $url_o[] = 'http://epub.cnki.net/grid2008/detail.aspx?filename=GFJM200905030&dbname=CJFD2009';

//    $i = 1;

//    while($i     //    $url[] = $url_o."$i";

    //}

    foreach($url_o as $link){

        $flag = 0;

        while( ( $contents = file($link)) == FALSE ){

            $flag++;echo "flag=$flag

";

            if($flag > 3) return 0;

        }

        foreach($contents as $string){

            if(($tmp = trim(strip_tags($string))) == '')continue;

            $result[] = $tmp;

        //提取关键词

        $start = array_search("【中文关键词】",$result);

        $end = array_search("【英文关键词】",$result)-1;

        while($start++             $keywords[] = substr($result[$start],0,strlen($result[$start])-1).'

        //提取年份

        $start = array_search("【文献出处】",$result);

        $end = array_search("【中文关键词】",$result)-1;

        $paperyear = substr($result[$end],0,4).'

        if(count($keywords) == 0 || $paperyear ';}

        else{

            inDB($keywords,$paperyear);

            echo '保存成功

         }

    echo "endtime is".date("Y-m-d H:i:s");

?>