天天看點

Python爬蟲技術--基礎篇--面向對象程式設計(下)

1.擷取對象資訊

當我們拿到一個對象的引用時,如何知道這個對象是什麼類型、有哪些方法呢?

使用type()

首先,我們來判斷對象類型,使用​

​type()​

​函數:

基本類型都可以用​

​type()​

​判斷:

>>> type(123)

>>> type('str')

>>> type(None)

      

如果一個變量指向函數或者類,也可以用​

​type()​

​判斷:

>>> type(abs)

>>> type(a)

      

但是​

​type()​

​​函數傳回的是什麼類型呢?它傳回對應的Class類型。如果我們要在​

​if​

​語句中判斷,就需要比較兩個變量的type類型是否相同:

>>> type(123)==type(456)
True
>>> type(123)==int
True
>>> type('abc')==type('123')
True
>>> type('abc')==str
True
>>> type('abc')==type(123)
False
      

判斷基本資料類型可以直接寫​

​int​

​​,​

​str​

​​等,但如果要判斷一個對象是否是函數怎麼辦?可以使用​

​types​

​子產品中定義的常量:

>>> import types
>>> def fn():
...     pass
...
>>> type(fn)==types.FunctionType
True
>>> type(abs)==types.BuiltinFunctionType
True
>>> type(lambda x: x)==types.LambdaType
True
>>> type((x for x in range(10)))==types.GeneratorType
True
      

使用isinstance()

對于class的繼承關系來說,使用​

​type()​

​​就很不友善。我們要判斷class的類型,可以使用​

​isinstance()​

​函數。

我們回顧上次的例子,如果繼承關系是:

object -> Animal -> Dog -> Husky
      

那麼,​

​isinstance()​

​就可以告訴我們,一個對象是否是某種類型。先建立3種類型的對象:

>>> a = Animal()
>>> d = Dog()
>>> h = Husky()
      

然後,判斷:

>>> isinstance(h, Husky)
True
      

沒有問題,因為​

​h​

​變量指向的就是Husky對象。

再判斷:

>>> isinstance(h, Dog)
True
      

​h​

​​雖然自身是Husky類型,但由于Husky是從Dog繼承下來的,是以,​

​h​

​​也還是Dog類型。換句話說,​

​isinstance()​

​判斷的是一個對象是否是該類型本身,或者位于該類型的父繼承鍊上。

是以,我們可以确信,​

​h​

​還是Animal類型:

>>> isinstance(h, Animal)
True
      

同理,實際類型是Dog的​

​d​

​也是Animal類型:

>>> isinstance(d, Dog) and isinstance(d, Animal)
True
      

但是,​

​d​

​不是Husky類型:

>>> isinstance(d, Husky)
False
      

能用​

​type()​

​​判斷的基本類型也可以用​

​isinstance()​

​判斷:

>>> isinstance('a', str)
True
>>> isinstance(123, int)
True
>>> isinstance(b'a', bytes)
True
      

并且還可以判斷一個變量是否是某些類型中的一種,比如下面的代碼就可以判斷是否是list或者tuple:

>>> isinstance([1, 2, 3], (list, tuple))
True
>>> isinstance((1, 2, 3), (list, tuple))
True
      

 總是優先使用isinstance()判斷類型,可以将指定類型及其子類“一網打盡”。

使用dir()

如果要獲得一個對象的所有屬性和方法,可以使用​

​dir()​

​函數,它傳回一個包含字元串的list,比如,獲得一個str對象的所有屬性和方法:

>>> dir('ABC')
['__add__', '__class__',..., '__subclasshook__', 'capitalize', 'casefold',..., 'zfill']
      

類似​

​__xxx__​

​​的屬性和方法在Python中都是有特殊用途的,比如​

​__len__​

​​方法傳回長度。在Python中,如果你調用​

​len()​

​​函數試圖擷取一個對象的長度,實際上,在​

​len()​

​​函數内部,它自動去調用該對象的​

​__len__()​

​方法,是以,下面的代碼是等價的:

>>> len('ABC')
3
>>> 'ABC'.__len__()
3
      

我們自己寫的類,如果也想用​

​len(myObj)​

​​的話,就自己寫一個​

​__len__()​

​方法:

>>> class MyDog(object):
...     def __len__(self):
...         return 100
...
>>> dog = MyDog()
>>> len(dog)
100
      

剩下的都是普通屬性或方法,比如​

​lower()​

​傳回小寫的字元串:

>>> 'ABC'.lower()
'abc'
      

僅僅把屬性和方法列出來是不夠的,配合​

​getattr()​

​​、​

​setattr()​

​​以及​

​hasattr()​

​,我們可以直接操作一個對象的狀态:

>>> class MyObject(object):
...     def __init__(self):
...         self.x = 9
...     def power(self):
...         return self.x * self.x
...
>>> obj = MyObject()
      

緊接着,可以測試該對象的屬性:

>>> hasattr(obj, 'x') # 有屬性'x'嗎?
True
>>> obj.x
9
>>> hasattr(obj, 'y') # 有屬性'y'嗎?
False
>>> setattr(obj, 'y', 19) # 設定一個屬性'y'
>>> hasattr(obj, 'y') # 有屬性'y'嗎?
True
>>> getattr(obj, 'y') # 擷取屬性'y'
19
>>> obj.y # 擷取屬性'y'
19
      

如果試圖擷取不存在的屬性,會抛出AttributeError的錯誤:

>>> getattr(obj, 'z') # 擷取屬性'z'
Traceback (most recent call last):
  File "", line 1, in 
AttributeError: 'MyObject' object has no attribute 'z'
      

可以傳入一個default參數,如果屬性不存在,就傳回預設值:

>>> getattr(obj, 'z', 404) # 擷取屬性'z',如果不存在,傳回預設值404
404
      

也可以獲得對象的方法:

>>> hasattr(obj, 'power') # 有屬性'power'嗎?
True
>>> getattr(obj, 'power') # 擷取屬性'power'
>
>>> fn = getattr(obj, 'power') # 擷取屬性'power'并指派到變量fn
>>> fn # fn指向obj.power
>
>>> fn() # 調用fn()與調用obj.power()是一樣的
81
      

小結

通過内置的一系列函數,我們可以對任意一個Python對象進行剖析,拿到其内部的資料。要注意的是,隻有在不知道對象資訊的時候,我們才會去擷取對象資訊。如果可以直接寫:

sum = obj.x + obj.y
      

就不要寫:

sum = getattr(obj, 'x') + getattr(obj, 'y')
      

一個正确的用法的例子如下:

def readImage(fp):
    if hasattr(fp, 'read'):
        return readData(fp)
    return None
      

假設我們希望從檔案流fp中讀取圖像,我們首先要判斷該fp對象是否存在read方法,如果存在,則該對象是一個流,如果不存在,則無法讀取。​

​hasattr()​

​就派上了用場。

請注意,在Python這類動态語言中,根據鴨子類型,有​

​read()​

​​方法,不代表該fp對象就是一個檔案流,它也可能是網絡流,也可能是記憶體中的一個位元組流,但隻要​

​read()​

​方法傳回的是有效的圖像資料,就不影響讀取圖像的功能。

2.執行個體屬性與類屬性

由于Python是動态語言,根據類建立的執行個體可以任意綁定屬性。

給執行個體綁定屬性的方法是通過執行個體變量,或者通過​

​self​

​變量:

class Student(object):
    def __init__(self, name):
        self.name = name

s = Student('Bob')
s.score = 90
      

但是,如果​

​Student​

​​類本身需要綁定一個屬性呢?可以直接在class中定義屬性,這種屬性是類屬性,歸​

​Student​

​類所有:

class Student(object):
    name = 'Student'
      

當我們定義了一個類屬性後,這個屬性雖然歸類所有,但類的所有執行個體都可以通路到。來測試一下:

>>> class Student(object):
...     name = 'Student'
...
>>> s = Student() # 建立執行個體s
>>> print(s.name) # 列印name屬性,因為執行個體并沒有name屬性,是以會繼續查找class的name屬性
Student
>>> print(Student.name) # 列印類的name屬性
Student
>>> s.name = 'Michael' # 給執行個體綁定name屬性
>>> print(s.name) # 由于執行個體屬性優先級比類屬性高,是以,它會屏蔽掉類的name屬性
Michael
>>> print(Student.name) # 但是類屬性并未消失,用Student.name仍然可以通路
Student
>>> del s.name # 如果删除執行個體的name屬性
>>> print(s.name) # 再次調用s.name,由于執行個體的name屬性沒有找到,類的name屬性就顯示出來了
Student
      

從上面的例子可以看出,在編寫程式的時候,千萬不要對執行個體屬性和類屬性使用相同的名字,因為相同名稱的執行個體屬性将屏蔽掉類屬性,但是當你删除執行個體屬性後,再使用相同的名稱,通路到的将是類屬性。

小結

執行個體屬性屬于各個執行個體所有,互不幹擾;