天天看点

java poi 读取excel各种数据

Microsoft的Office系列产品拥有大 量的用户,Word、Excel也成为办公文件的首选。在Java中,已经有很多对于Word、Excel的开源的解决方案,其中比较出色的是 Apache的Jakata项目的POI子项目。该项目的官方网站是http://jakarta.apache.org/poi/。

POI 包括一系列的API,它们可以操纵基于MicroSoft OLE 2 Compound Document Format的各种格式文件,可以通过这些API在Java中读写Excel、Word等文件。POI是完全的Java Excel和Java Word解决方案。POI子项目包括:POIFS、HSSF、HDF、HPSF。表7-2对它们进行了扼要先容。

表7-2  POI子项目先容

子项目名 说明 

POIFS(POI File System) POIFS是POI项目中最早的最基础的一个模块,是Java到OLE 2 Compound Document Format的接口,支持读写功能,所有的其他项目都依靠与该项目。 

HSSF(Horrible Spreadsheet Format) HSSF是Java到Microsoft Excel 97(-2002)文件的接口,支持读写功能 

HWPF(Horrible Word Processing Format) HWPF是Java到Microsoft Word 97文件的接口,支持读写功能,但目前该模块还处于刚开始开发阶段,只能实现一些简单文件的操纵,在后续版本中,会提供更强大的支持 

HPSF(Horrible Property Set Format) HPSF 是Java到OLE 2 Compound Document Format文件的属性设置的接口,属性设置通常用来设置文档的属性(标题,作者,最后修改日期等),还可以设置用户定义的属性。HPSF支持读写功能,当前发布版本中直支持读功能。 

7.3.1  对Excel的处理类

下 面通过HSSF提供的接口对Excel文件经行处理。首先需要下载POI的包,可以到apache的官方网站下载,地址为:http: //apache.justdn.org/jakarta/poi/,本书采用的是poi-2.5.1-final-20040804.jar,读者可以 下载当前的稳定版本。把下载的包按照前面先容的方式加进Build Path,然后新建一个ch7.poi包,并创建一个ExcelReader类。

ExcelReader类可以读取一个XLS文件,然后将其内容逐行提取出来,写进文本文件。其代码如下。

java 代码

public class ExcelReader{   

   // 创建文件输进流   

   private BufferedReader reader = null;   

   // 文件类型   

   private String filetype;   

   // 文件二进制输进流   

   private InputStream is = null;   

   // 当前的Sheet   

   private int currSheet;   

   // 当前位置   

   private int currPosition;   

   // Sheet数目   

   private int numOfSheets;   

   // HSSFWorkbook   

   HSSFWorkbook workbook = null;   

   // 设置Cell之间以空格分割   

   private static String EXCEL_LINE_DELIMITER = " ";   

   // 设置最大列数   

   private static int MAX_EXCEL_COLUMNS = 64;   

   // 构造函数创建一个ExcelReader   

   public ExcelReader(String inputfile) throws IOException, Exception{   

      // 判定参数是否为空或没有意义   

      if (inputfile == null || inputfile.trim().equals("")){   

         throw new IOException("no input file specified");   

      }   

      // 取得文件名的后缀名赋值给filetype   

      this.filetype = inputfile.substring(inputfile.lastIndexOf(".") + 1);   

      // 设置开始行为0   

      currPosition = 0;   

      // 设置当前位置为0   

      currSheet = 0;   

      // 创建文件输进流   

      is = new FileInputStream(inputfile);   

      // 判定文件格式   

      if (filetype.equalsIgnoreCase("txt")){   

         // 假如是txt则直接创建BufferedReader读取   

         reader = new BufferedReader(new InputStreamReader(is));   

      }   

else if (filetype.equalsIgnoreCase("xls")){   

         // 假如是Excel文件则创建HSSFWorkbook读取   

         workbook = new HSSFWorkbook(is);   

         // 设置Sheet数   

         numOfSheets = workbook.getNumberOfSheets();   

      }   

else{   

         throw new Exception("File Type Not Supported");   

      }   

   }   

   // 函数readLine读取文件的一行   

   public String readLine() throws IOException{   

      // 假如是txt文件则通过reader读取   

      if (filetype.equalsIgnoreCase("txt")){   

         String str = reader.readLine();   

         // 空行则略往,直接读取下一行   

         while (str.trim().equals("")){   

            str = reader.readLine();   

         }   

         return str;   

      }   

      // 假如是XLS文件则通过POI提供的API读取文件   

      else if (filetype.equalsIgnoreCase("xls")){   

         // 根据currSheet值获得当前的sheet   

         HSSFSheet sheet = workbook.getSheetAt(currSheet);   

         // 判定当前行是否到但前Sheet的结尾   

         if (currPosition > sheet.getLastRowNum()){   

            // 当前行位置清零   

            currPosition = 0;   

            // 判定是否还有Sheet   

            while (currSheet != numOfSheets - 1){   

               // 得到下一张Sheet   

               sheet = workbook.getSheetAt(currSheet + 1);   

               // 当前行数是否已经到达文件末尾   

               if (currPosition == sheet.getLastRowNum()){   

                  // 当前Sheet指向下一张Sheet   

                  currSheet++;   

                  continue;   

               } else{   

                  // 获取当前行数   

                  int row = currPosition;   

                  currPosition++;   

                  // 读取当前行数据   

                  return getLine(sheet, row);   

               }   

            }   

            return null;   

         }   

         // 获取当前行数   

         int row = currPosition;   

         currPosition++;   

         // 读取当前行数据   

         return getLine(sheet, row);   

      }   

      return null;   

   }   

   // 函数getLine返回Sheet的一行数据   

   private String getLine(HSSFSheet sheet, int row){   

      // 根据行数取得Sheet的一行   

      HSSFRow rowline = sheet.getRow(row);   

      // 创建字符创缓冲区   

      StringBuffer buffer = new StringBuffer();   

      // 获取当前行的列数   

      int filledColumns = rowline.getLastCellNum();   

      HSSFCell cell = null;   

      // 循环遍历所有列   

      for (int i = 0; i < filledColumns; i++){   

         // 取得当前Cell   

         cell = rowline.getCell((short) i);   

         String cellvalue = null;   

         if (cell != null){   

            // 判定当前Cell的Type   

            switch (cell.getCellType()){   

            // 假如当前Cell的Type为NUMERIC   

            case HSSFCell.CELL_TYPE_NUMERIC:{   

               // 判定当前的cell是否为Date   

               if (HSSFDateUtil.isCellDateFormatted(cell)){   

                  // 假如是Date类型则,取得该Cell的Date值   

                  Date date = cell.getDateCellValue();   

                  // 把Date转换本钱地格式的字符串   

                  cellvalue = cell.getDateCellValue().toLocaleString();   

               }   

               // 假如是纯数字   

               else{   

                  // 取得当前Cell的数值   

                  Integer num = new Integer((int) cell   

                        .getNumericCellValue());   

                  cellvalue = String.valueOf(num);   

               }   

               break;   

            }   

            // 假如当前Cell的Type为STRIN   

            case HSSFCell.CELL_TYPE_STRING:   

               // 取得当前的Cell字符串   

               cellvalue = cell.getStringCellValue().replaceAll("'", "''");   

               break;   

            // 默认的Cell值   

            default:   

               cellvalue = " ";   

            }   

         } else{   

            cellvalue = "";   

         }   

         // 在每个字段之间插进分割符   

         buffer.append(cellvalue).append(EXCEL_LINE_DELIMITER);   

      }   

      // 以字符串返回该行的数据   

      return buffer.toString();   

   }   

   // close函数执行流的封闭操纵   

   public void close(){   

      // 假如is不为空,则封闭InputSteam文件输进流   

      if (is != null){   

         try{   

            is.close();   

         } catch (IOException e){   

            is = null;   

         }   

      }   

      // 假如reader不为空则封闭BufferedReader文件输进流   

      if (reader != null){   

         try{   

            reader.close();   

         } catch (IOException e){   

            reader = null;   

         }   

      }   

   }   

}   

7.3.2  ExcelReader的运行效果 

下面创建一个main函数,用来测试上面的ExcelReader类,代码如下。

java 代码

public static void main(String[] args){   

      try{   

          ExcelReader er=new ExcelReader("c:\xp.xls");      

          String line=er.readLine();   

          while(line != null){   

              System.out.println(line);   

              line=er.readLine();   

          }   

          er.close();   

      }catch(Exception e){   

          e.printStackTrace();   

      }   

  }   

main函数先创建一个ExcelReader类,然后调用它提供的接口readLine,对XLS文件进行读取,打印到控制台,处理前的XLS文件如图7-12所示。

图7-12  处理前的XLS文件内容

运行main函数进行内容提取后,Eclipse的控制台输出如图7-13所示。

图7-13  输出结果

可以看到,Excel文件中的内容已经被成功的输出了出来。

7.3.3  POI中Excel文件Cell的类型

在读取每一个Cell的值的时候,通过getCellType方法获得当前Cell的类型,在Excel中Cell有6种类型,如表7-3所示。

表7-3  Cell的类型

CellType 说明 

CELL_TYPE_BLANK 空值 

CELL_TYPE_BOOLEAN 布尔型 

CELL_TYPE_ERROR 错误 

CELL_TYPE_FORMULA 公式型 

CELL_TYPE_STRING 字符串型 

CELL_TYPE_NUMERIC 数值型 

本 例采用了CELL_TYPE_STRING和CELL_TYPE_NUMERIC类型,由于在Excel文件中只有字符串和数字。假如Cell的Type 为CELL_TYPE_NUMERIC时,还需要进一步判定该Cell的数据格式,由于它有可能是Date类型,在Excel中的Date类型也是以 Double类型的数字存储的。Excel中的Date表示当前时间与1900年1月1日相隔的天数,所以需要调用HSSFDateUtil的 isCellDateFormatted方法,判定该Cell的数据格式是否是Excel Date类型。假如是,则调用getDateCellValue方法,返回一个Java类型的Date。

实际上Excel的数据格式有很多,还支持用户自定义的类型,在Excel中,选择一个单元格然后右键选择“设置单元格格式”,在弹出的单元格格式中选中“数字”,如图7-14所示。

图7-14  Excel的单元格格式

图中的数占有数值、货币、时间、日期、文本等格式。这些数据格式在POI中的HSSFDataFormat类里都有相应的定义。

HSSFDataFormat 是HSSF子项目里面定义的一个类。类HSSFDataFormat答应用户新建数据格式类型。HSSFDataFormat类包含静态方法 static java.lang.String getBuiltinFormat(short index),它可以根据编号返回内置数据类型。另外static short getBuiltinFormat(java.lang.String format)方法则可以根据数据类型返回其编号, static java.util.List getBuiltinFormats()可以返回整个内置的数据格式列表。

在HSSFDataFormat里一共定义了49种内置的数据格式,如表7-4所示。

表7-4  HSSFDataFormat的数据格式

内置数据类型 编号 

"General" 0 

"0" 1 

"0.00" 2 

"#,##0" 3 

"#,##0.00" 4 

"($#,##0_);($#,##0)" 5 

"($#,##0_);[Red]($#,##0)" 6 

"($#,##0.00);($#,##0.00)" 7 

"($#,##0.00_);[Red]($#,##0.00)" 8 

"0%" 9 

"0.00%" 0xa 

"0.00E+00" 0xb 

"# ?/?" 0xc