天天看点

Perl帮MM轻松搞定Excel数据

<a target="_blank" href="http://blog.51cto.com/attachment/201105/213448634.png"></a>

<a href="http://blog.51cto.com/attachment/201105/203008353.png" target="_blank"></a>

当Wholesale price (如上图)所在行的us$后面值大于20时,就将该url记录下来(MM的本意是只要Wholesale price 后面的us$后面的值大于20时,即将该行标注成红色,这里稍微修改一下)。起初,MM是click one by one,该文件中此类的url不下100个,MM手都点酸了,眼也看花了,终于把工作做完了。之后,我说,你就是这样天天工作的呀,不烦才怪呢,效率不高不说,而且容易出错。好了吧,GG我帮你写个程序,这样的工作怎么能由MM的纤纤玉手亲自来做呢,一切交给电脑来处理吧。

要用perl来处理这个问题,需要用到两个module,一个是LWP::Simple,另一个则是Spreadsheet::ParseExcel,初次不知道怎么用的,请perldoc modulename.

这里附上perl 代码

#!/usr/bin/perl -w 

use strict; 

use LWP::Simple; 

use Spreadsheet::ParseExcel; 

my @array; 

my $parser   = Spreadsheet::ParseExcel-&gt;new(); 

my $workbook = $parser-&gt;parse('第二期统计.xls'); 

if ( !defined $workbook ) { 

    die $parser-&gt;error(),".\n"; 

for my $worksheet ( $workbook-&gt;worksheets() ) { 

    my ( $row_min,$row_max ) = $worksheet-&gt;row_range(); 

#本来下面一句应该是这样写的

#for my $row ( $row_min..$row_max ),之所以换成2,是因为想过滤掉第一行中的那几个中文字符,哈哈

    for my $row ( 2..$row_max ) { 

#下面一句换成1的目的是为了与第二列数据相匹配

        my $cell = $worksheet-&gt;get_cell( $row,1 ); 

        next unless $cell; 

        my $tmp_url = $cell-&gt;value(); 

        push @array,$tmp_url; 

    } 

for my $url ( @array ) { 

    my $content = get $url or die "can't get $url\n"; 

    print $url,"\n"; 

    if ( $content =~ /wholesale_price/ ) { 

        $content =~ m{&lt;\S+\s+\w+="\S+"\s+\w+="\S+"&gt;US\$\s+(\d+.\d+)&lt;/\w+&gt;}; 

        open RES,'&gt;&gt;','results.txt' or die "$!\n"; 

        if ( $1 &gt; 20 ) { 

            print "$url\n"; 

            print RES "$url\n"; 

        } 

        close RES; 

[root@web ~]# cat results.txt  

http://www.wholesale-dress.net/lapel-long-sleeve-single-button-front-suit-light-grey-g1158909.html 

http://www.wholesale-dress.net/korea-style-zipped-stand-collar-jacket-khaki-g1228884.html

本文转自dongfang_09859 51CTO博客,原文链接:http://blog.51cto.com/hellosa/572004,如需转载请自行联系原作者