通常,在WEB系統中,上傳檔案時都需要做檔案的類型校驗,大緻有如下幾種方法:
1. 通過字尾名,如exe,jpg,bmp,rar,zip等等。
2. 通過讀取檔案,擷取檔案的Content-type來判斷。
3. 通過讀取檔案流,根據檔案流中特定的一些位元組辨別來區分不同類型的檔案。
4. 若是圖檔,則通過縮放來判斷,可以縮放的為圖檔,不可以的則不是。
然而,在安全性較高的業務場景中,1,2兩種方法的校驗會被輕易繞過。
1. 僞造字尾名,如圖檔的,非常容易修改。
2. 僞造檔案的Content-type,這個稍微複雜點,為了直覺,截圖如下:
3.較安全,但是要讀取檔案,并有16進制轉換等操作,性能稍差,但能滿足一定條件下對安全的要求,是以建議使用。
但是檔案頭的資訊也可以僞造,截圖如下,對于圖檔可以采用圖檔縮放或者擷取圖檔寬高的方法避免僞造頭資訊漏洞。
被僞裝成gif的惡意圖檔檔案
對應的Java代碼如下:
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;
import java.util.HashMap;
import java.util.Iterator;
import java.util.Map;
import java.util.Map.Entry;
import javax.imageio.ImageIO;
import javax.imageio.ImageReader;
import javax.imageio.stream.ImageInputStream;
public class FileTypeTest
{
public final static Map FILE_TYPE_MAP = new HashMap();
private FileTypeTest(){}
static{
getAllFileType(); //初始化檔案類型資訊
}
private static void getAllFileType()
{
FILE_TYPE_MAP.put("jpg", "FFD8FF"); //JPEG (jpg)
FILE_TYPE_MAP.put("png", "89504E47"); //PNG (png)
FILE_TYPE_MAP.put("gif", "47494638"); //GIF (gif)
FILE_TYPE_MAP.put("tif", "49492A00"); //TIFF (tif)
FILE_TYPE_MAP.put("bmp", "424D"); //Windows Bitmap (bmp)
FILE_TYPE_MAP.put("dwg", "41433130"); //CAD (dwg)
FILE_TYPE_MAP.put("html", "68746D6C3E"); //HTML (html)
FILE_TYPE_MAP.put("rtf", "7B5C727466"); //Rich Text Format (rtf)
FILE_TYPE_MAP.put("xml", "3C3F786D6C");
FILE_TYPE_MAP.put("zip", "504B0304");
FILE_TYPE_MAP.put("rar", "52617221");
FILE_TYPE_MAP.put("psd", "38425053"); //Photoshop (psd)
FILE_TYPE_MAP.put("eml", "44656C69766572792D646174653A"); //Email [thorough only] (eml)
FILE_TYPE_MAP.put("dbx", "CFAD12FEC5FD746F"); //Outlook Express (dbx)
FILE_TYPE_MAP.put("pst", "2142444E"); //Outlook (pst)
FILE_TYPE_MAP.put("xls", "D0CF11E0"); //MS Word
FILE_TYPE_MAP.put("doc", "D0CF11E0"); //MS Excel 注意:word 和 excel的檔案頭一樣
FILE_TYPE_MAP.put("mdb", "5374616E64617264204A"); //MS Access (mdb)
FILE_TYPE_MAP.put("wpd", "FF575043"); //WordPerfect (wpd)
FILE_TYPE_MAP.put("eps", "252150532D41646F6265");
FILE_TYPE_MAP.put("ps", "252150532D41646F6265");
FILE_TYPE_MAP.put("pdf", "255044462D312E"); //Adobe Acrobat (pdf)
FILE_TYPE_MAP.put("qdf", "AC9EBD8F"); //Quicken (qdf)
FILE_TYPE_MAP.put("pwl", "E3828596"); //Windows Password (pwl)
FILE_TYPE_MAP.put("wav", "57415645"); //Wave (wav)
FILE_TYPE_MAP.put("avi", "41564920");
FILE_TYPE_MAP.put("ram", "2E7261FD"); //Real Audio (ram)
FILE_TYPE_MAP.put("rm", "2E524D46"); //Real Media (rm)
FILE_TYPE_MAP.put("mpg", "000001BA"); //
FILE_TYPE_MAP.put("mov", "6D6F6F76"); //Quicktime (mov)
FILE_TYPE_MAP.put("asf", "3026B2758E66CF11"); //Windows Media (asf)
FILE_TYPE_MAP.put("mid", "4D546864"); //MIDI (mid)
}
public static void main(String[] args) throws Exception
{
File f = new File("c://aaa.gif");
if (f.exists())
{
String filetype1 = getImageFileType(f);
System.out.println(filetype1);
String filetype2 = getFileByFile(f);
System.out.println(filetype2);
}
}
public final static String getImageFileType(File f)
{
if (isImage(f))
{
try
{
ImageInputStream iis = ImageIO.createImageInputStream(f);
Iterator iter = ImageIO.getImageReaders(iis);
if (!iter.hasNext())
{
return null;
}
ImageReader reader = iter.next();
iis.close();
return reader.getFormatName();
}
catch (IOException e)
{
return null;
}
catch (Exception e)
{
return null;
}
}
return null;
}
public final static String getFileByFile(File file)
{
String filetype = null;
byte[] b = new byte[50];
try
{
InputStream is = new FileInputStream(file);
is.read(b);
filetype = getFileTypeByStream(b);
is.close();
}
catch (FileNotFoundException e)
{
e.printStackTrace();
}
catch (IOException e)
{
e.printStackTrace();
}
return filetype;
}
public final static String getFileTypeByStream(byte[] b)
{
String filetypeHex = String.valueOf(getFileHexString(b));
Iterator> entryiterator = FILE_TYPE_MAP.entrySet().iterator();
while (entryiterator.hasNext()) {
Entry entry = entryiterator.next();
String fileTypeHexValue = entry.getValue();
if (filetypeHex.toUpperCase().startsWith(fileTypeHexValue)) {
return entry.getKey();
}
}
return null;
}
public static final boolean isImage(File file){
boolean flag = false;
try
{
BufferedImage bufreader = ImageIO.read(file);
int width = bufreader.getWidth();
int height = bufreader.getHeight();
if(width==0 || height==0){
flag = false;
}else {
flag = true;
}
}
catch (IOException e)
{
flag = false;
}catch (Exception e) {
flag = false;
}
return flag;
}
public final static String getFileHexString(byte[] b)
{
StringBuilder stringBuilder = new StringBuilder();
if (b == null || b.length <= 0)
{
return null;
}
for (int i = 0; i < b.length; i++)
{
int v = b[i] & 0xFF;
String hv = Integer.toHexString(v);
if (hv.length() < 2)
{
stringBuilder.append(0);
}
stringBuilder.append(hv);
}
return stringBuilder.toString();
}
}
這樣,不管是傳入的檔案有字尾名,還是無字尾名,或者修改了字尾名,真正擷取到的才是該檔案的實際類型,這樣避免了一些想通過修改字尾名或者Content-type資訊來攻擊的因素。但是性能與安全永遠是無法同時完美的,安全的同時付出了讀取檔案的代價。本人建議可采用字尾名與讀取檔案的方式結合校驗,畢竟攻擊是少數,字尾名的校驗能排除大多數使用者,在字尾名擷取不到時再通過擷取檔案真實類型校驗,這樣來适當提高性能。