自去年發(fā)布 Python 的指代消解包(coreference resolution package)之后,很多用戶開始用它來構(gòu)建許多應(yīng)用程序,而這些應(yīng)用與我們最初的對話應(yīng)用完全不同。我們發(fā)現(xiàn),盡管在處理對話時這個包的速度完全沒問題,但在處理較大的問題時卻非常慢。
筆者決定調(diào)查一下這個問題,于是就產(chǎn)生了 NeuralCoref v3.0(https://github.com/huggingface
/neuralcoref/)這一項目,它比上一個版本快 100 倍(每秒能分析幾千個單詞),同時保持準(zhǔn)確度、易用性,并且依然在 Python 庫的生態(tài)系統(tǒng)中。
在本文中筆者想分享一些在這個項目中學(xué)習(xí)到的經(jīng)驗,具體來說包括:
1.怎樣用 Python 設(shè)計高速的模塊;
2.怎樣利用 spaCy 的內(nèi)部數(shù)據(jù)結(jié)構(gòu)來有效地設(shè)計高速的 NLP 函數(shù)。
雖然我們是在討論 Python,但還要用一些 Cython的魔法。但別忘了,Cython 是 Python 的超集(http://cython.org/),所以別被它嚇住了!
為 pyTorch 或 TensorFlow 等深度學(xué)習(xí)框架預(yù)處理一個大型數(shù)據(jù)集,或者在深度學(xué)習(xí)的批次加載器中有個很復(fù)雜的處理邏輯使得訓(xùn)練變慢。
加速的第一步:性能分析
首先要明確一點,絕大部分純 Python 的代碼是沒有問題的,但有幾個瓶頸函數(shù)如果能夠解決,就能給速度帶來數(shù)量級上的提升。
因此首先應(yīng)該用分析工具分析 Python 代碼,找出哪里慢。一個辦法是使用cProfile(https://docs.python.org/3/library/profile.html):
import cProfile
import pstats
import my_slow_module
cProfile.run(‘my_slow_module.run()’, ‘restats’)
p = pstats.Stats(‘restats’)
p.sort_stats(‘cumulative’).print_stats(30)
也許你會發(fā)現(xiàn)有幾個循環(huán)比較慢,如果用神經(jīng)網(wǎng)絡(luò)的話,可能有幾個 NumPy 數(shù)組操作會很慢(但這里我不會討論如何加速 NumPy,那么,應(yīng)該如何加快循環(huán)的速度?
利用 Cython 實現(xiàn)更快的循環(huán)
用個簡單的例子來說明。假設(shè)我們一個巨大的集合里包含許多長方形,保存為 Python 對象(即 Rectangle 類的實例)的列表。模塊的主要功能就是遍歷該列表,數(shù)出有多少個長方形超過了某個閾值。
我們的 Python 模塊非常簡單,如下所示:
from random import random
class Rectangle:
def __init__(self, w, h):
self.w = w
self.h = h
def area(self):
return self.w * self.h
def check_rectangles(rectangles, threshold):
n_out = 0
for rectangle in rectangles:
if rectangle.area() > threshold:
n_out += 1
return n_out
def main():
n_rectangles = 10000000
rectangles = list(Rectangle(random(), random()) for i in range(n_rectangles))
n_out = check_rectangles(rectangles, threshold=0.25)
print(n_out)
這里 check_rectangles 函數(shù)就是瓶頸!它要遍歷大量 Python 對象,而由于每次循環(huán)中 Python 解釋器都要在背后進行許多工作(如在類中查找 area 方法、打包解包參數(shù)、調(diào)用 Python API 等),這段代碼就會非常慢。
Cython 能幫我們加快循環(huán)
Cython 語言是 Python 的一個超集,它包含兩類對象:
1.Python 對象是在正常的 Python 中操作的對象,如數(shù)字、字符串、列表、類實例等。
2.Cython C 對象是 C 或 C++ 對象,如 dobule、int、float、struct、vectors,這些可以被 Cython 編譯成超級快的底層代碼。
高速循環(huán)就是 Cython 程序中只訪問 Cython C 對象的循環(huán)。
設(shè)計這種高速循環(huán)最直接的辦法就是,定義一個 C 結(jié)構(gòu),它包含計算過程需要的一切。在這個例子中,該結(jié)構(gòu)需要包含長方形的長和寬。
然后我們就可以將長方形列表保存在一個 C 數(shù)組中,傳遞給 check_rectangles 函數(shù)。現(xiàn)在該函數(shù)就需要接收一個 C 數(shù)組作為輸入,因此它應(yīng)該用 cdef 關(guān)鍵字(而不是 def)定義為 Cython 函數(shù)。(注意 cdef 也被用來定義 Cython C 對象。)
試一下這段代碼
有許多方法可以測試、編譯并發(fā)布 Cython 代碼!Cython 甚至可以像 Python 一樣直接用在 Jupyter Notebook 中,首先用 pip install cython 安裝 Cython:
編寫、使用并發(fā)布 Cython 代碼
Cython 代碼保存在 .pyx 文件中。這些文件會被 Cython 編譯器編譯成 C 或 C++ 文件,然后再被系統(tǒng)的 C 編譯器編譯成字節(jié)碼。這些字節(jié)碼可以直接被 Python 解釋器使用。
可以在 Python 中使用 pyximport 直接加載 .pyx 文件:
>>> import pyximport; pyximport.install()
>>> import my_cython_module
也可以將Cython代碼構(gòu)建成Python包,并作為正常的Python包導(dǎo)入或發(fā)布。這項工作比較花費時間,主要是要處理所有平臺上的兼容性問題。在進入 NLP 之前,我們先快速討論下 def、cdef 和 cpdef 關(guān)鍵字,這些是學(xué)習(xí) Cython 時最關(guān)鍵的概念。
通過 spaCy 使用 Cython 加速 NLP
前面說的這些都很好……但這跟 NLP 還沒關(guān)系呢!沒有字符串操作,沒有 Unicode 編碼,自然語言處理中的難點都沒有支持??!而且 Cython 的官方文檔甚至還反對使用 C 語言級別的字符串。一般來說,除非你知道你在做什么,否則盡量不要使用 C 字符串,而應(yīng)該使用 Python 字符串對象,這就輪到 spaCy 出場了,spaCy 解決這個問題的辦法特別聰明。
將所有字符串轉(zhuǎn)換成 64 比特 hash
在 spaCy 中,所有 Unicode 字符串(token 的文本,token 的小寫形式,lemma 形式,詞性標(biāo)注,依存關(guān)系樹的標(biāo)簽,命名實體標(biāo)簽……)都保存在名為 StringStore 的單一數(shù)據(jù)結(jié)構(gòu)中,字符串的索引是 64 比特 hash,也就是 C 語言層次上的 unit64_t。
StringStore 對象實現(xiàn)了在 Python unicode 字符串和 64 比特 hash 之間的查找操作。StringStore 可以從 spaCy 中的任何地方、任何對象中訪問,例如可以通過 nlp.vocab.string、doc.vocab.strings 或 span.doc.vocab.string 等。當(dāng)模塊需要在某些 token 上進行快速處理時,它只會使用 C 語言層次上的 64 比特 hash,而不是使用原始字符串。調(diào)用 StringStore 的查找表就會返回與該 hash 關(guān)聯(lián)的 Python unicode 字符串。但是 spaCy 還做了更多的事情,我們可以通過它訪問完整的 C 語言層次上的文檔和詞匯表結(jié)構(gòu),因此可以使用 Cython 循環(huán),不需要再自己構(gòu)建數(shù)據(jù)結(jié)構(gòu)。