⊙ 本文長約1.3萬字,閱讀需時33分鐘 本文來源:北大法寶法學期刊庫 《清華法學》2022年第3期 作者:左衛(wèi)民 四川大學法學院教授 中國計算法學的未來:審思與前瞻音頻:00:0043:02 摘要:作為一門尚處于概念凝練、知識醞釀階段的新學科,計算法學的實踐效果還未充分顯現(xiàn),其前景有著不確定性。充分應用統(tǒng)計學知識、機器學習方法的計算法學與法律實證研究本質(zhì)上是“一體兩面”的關系,兩者在研究對象和方法等方面具有共通性。計算法學應該在法律實證研究基礎上衍生與拓展,成為實證研究的2.0版。具備公開且定量化、可以模式識別、具有相對確定數(shù)量關系的數(shù)據(jù)才能被有效計算,計算法學的核心方法應是統(tǒng)計學與機器學習方法,其關鍵是獲得較高的數(shù)據(jù)擬合度,通過分析歷史數(shù)據(jù),“預測”法律的運行現(xiàn)象。此類預測雖然可以揭示法律現(xiàn)象之間的“相關性”,但難以發(fā)現(xiàn)法律實踐的“因果律”。相比法律人的決策,機器學習式的計算在視角、效率、成本收益等方面存在局限性。未來,計算法學需要結(jié)合我國法律數(shù)據(jù)的“本土資源”,探索可行的法律計算思路與計算方法,致力于揭示法律實踐規(guī)律,驗證、補充和修正法學理論,以打造中國計算法學的“拳頭產(chǎn)品”,促進計算法學的落地生根。 關鍵詞:計算法學;法律實證研究;計算科學;機器學習 近年來,“計算法學”逐漸成為法學界的高頻熱詞。例如,若干法學院校開設了計算法學課程、法學與計算機的雙學位專業(yè),甚至開始在計算法學相關領域招收研究生。中國計算機協(xié)會(CCF)也成立了計算法學行業(yè)分會以促進計算法學的發(fā)展。伴隨數(shù)據(jù)時代來臨,法律實踐更容易被數(shù)據(jù)記錄、捕獲,奠定了法律計算的數(shù)據(jù)基礎。隨機森林、聚類算法、神經(jīng)網(wǎng)絡等機器學習方法的出現(xiàn),為法律計算的實現(xiàn)提供了可能。上述種種,似乎預示計算法學正在興起。然而,關于計算法學的發(fā)展卻存在著兩種聲音:其一,計算法學正在興起。在國內(nèi),已有文章開始探討計算法學的概念與內(nèi)涵。計算法學似乎正成為一種新的發(fā)展趨勢。其二,計算法學并未成為獨立且成熟的學科。在部分學者看來,國內(nèi)尚未有成熟的計算法學概念、成果涌現(xiàn),計算法學既沒有有效的計算方法,又缺乏可行的計算思路,計算法學的發(fā)展可能受到諸多質(zhì)疑,似乎難以成為一個獨立的學科。 筆者認為,中國的計算法學的前景如何,取決于其是否能夠完整經(jīng)歷從知識醞釀或引介,到概念凝練和學科構(gòu)建,再到研究方法成熟的過程。對于剛剛走在知識醞釀階段的新學科而言,其研究前景還有諸多的不確定性。關于計算法學在中國的未來,我們需要討論三點:第一,計算法學的概念范疇。什么研究才能稱為計算法學研究?抑或是計算法學的概念與定義是什么?第二,計算法學應當如何計算??梢杂嬎愕姆山?jīng)驗數(shù)據(jù)是什么?用以法律計算的方法是什么?第三,計算法學的前途。即法律的計算效果究竟如何?未來的計算法學學科應該如何發(fā)展? 一、計算法學:概念為何? 何謂計算法學?這是一個尚未充分明確的問題。在域外,理論界實際上較少直接使用計算法學的稱謂,相鄰概念主要涉及計算社會科學(computational social science)、法律計量學(jurimetrics)、法律信息學(legal informatics)等。具體而言,可從以下方面把握域外計算法學的相關概念。 第一,從計算社會科學(computational social science)角度把握。按照克勞迪奧·喬菲雷維利亞(Claudio Cioffi-Revilla)的定義:“計算社會科學是以計算為媒介,對社會學領域開展的跨學科研究,使用大數(shù)據(jù)、云計算和智能機器人等計算機技術進行的數(shù)據(jù)挖掘?!?009年,由15位學者在自然科學領域內(nèi)權(quán)威期刊《科學》(Science)雜志刊發(fā)的《網(wǎng)絡生活:計算社會科學時代即將到來》指出:通過大量社會信息,計算和預測人類的交流、互動將成為計算社會科學的主要研究領域。據(jù)此,計算社會科學被視為一種充分使用大數(shù)據(jù)和依托計算科學方法的社會科學研究。計算法學的概念自然也需要放在計算社會科學的框架下把握。 第二,從量化研究角度把握。法律計量學的最早倡導者洛文杰(Loevinger)在《法律計量學:前進的下一步》一文中主張,將量化思維引入法律分析過程,強調(diào)使用概率統(tǒng)計方法來測量證人、法官與立法者行為。我國有學者則將其翻譯為“計量法學”或“數(shù)量法學”,所謂“計量法學”是一種使用法律實證分析,以數(shù)據(jù)建模為方法,從事判決預測與制度評價的研究。計算法學便應當從法律量化的角度加以理解。 第三,從法律信息的角度闡釋。自從香農(nóng)創(chuàng)立信息學以來,信息就成為計算機技術研究的對象。法律信息學開始成為信息學的分支之一,如根據(jù)美國斯坦福大學法律信息中心杰內(nèi)塞雷斯(Michael Genesereth)的論斷,計算法學是法律信息學的組成部分,而法律信息學是法律推理的一種方法,依托現(xiàn)代信息技術的法律分析可以極大地改變法律行業(yè),提高法律服務的質(zhì)量和效率,從而提高獲得司法公正的機會,并改善整個法律體系。據(jù)此,計算法學的概念應當在法律信息學的范疇內(nèi)理解與把握。然而,法律信息學的概念似乎還沒有獲得理論界的普遍性認可,域外代表性的研究成果尚不多見。 整體上,具備成熟研究思路和方法的計算社會科學(computational social science)已在數(shù)據(jù)與人工智能風起云涌的歐美社科界蔚然成風。在筆者看來,其原因可能與域外社會科學界包括法學界如美國實證研究已經(jīng)成為主流研究范式有關。歐美社科界很多研究者具備很強的統(tǒng)計分析能力,并在多領域開展實證研究包括法律實證研究。同時,當前域外研究者包括實證研究者通過長期關注并不斷吸收機器學習等計算科學的方法,展開新的科學研究包括新的實證研究,相關研究成果甚至可能促進法學與人工智能技術的跨界融合。實際上,我們已經(jīng)見到域外司法人工智能技術的發(fā)展往往伴隨著法律實證研究成果的實踐應用,美國COMPAS軟件與法國Predictice軟件對裁判結(jié)果預測的實踐應用即是最好的例子。以“做實證研究”來促進法律人工智能技術的發(fā)展,進而尋求在重大問題上的研究共識,正在成為美國式法律實證研究(計算法學)發(fā)展的新方向。 與域外不同,計算法學在中國的出現(xiàn),可能與新文科的興起,相關學術組織的成立,以及計算法學論文的發(fā)表有關。具體來看,國內(nèi)對計算法學概念的研討,大致可以分為兩種進路。第一種進路中的計算法學是“法律與計算、科技”的結(jié)合,認為使用計算機技術研究傳統(tǒng)法學問題即是計算法學。應用計算機技術實現(xiàn)對海量裁判文書中的數(shù)據(jù)提取、要素輸出和準確率檢查等就是計算法學的研究成果。這種理解往往將“計算法學”簡單理解為“法律與科技、計算”的結(jié)合,并進一步認為,在法律數(shù)據(jù)完備、真實、精確的前提下,通過計算方式研究法律數(shù)據(jù),從而設計出一系列智能化產(chǎn)品,為立法與司法活動提供重要參考。據(jù)此來看,這種進路將法律人工智能相關技術作為焦點,在識別、轉(zhuǎn)換法律文本為法律數(shù)據(jù)方面做了不少努力,如應用自然語義識別、裁判文書提取等,但在文字轉(zhuǎn)換成為數(shù)據(jù)之后,如何展開數(shù)據(jù)式研究,卻并未有多少應用統(tǒng)計學和機器學習方式展開的研究,也缺乏在此之上的法律人工智能開發(fā),最常見的僅僅是知識圖譜式的顯示而已。同時,這種定位還將法律與科技的結(jié)合問題,如法律如何規(guī)制大數(shù)據(jù)、人工智能應用的相關問題作為學術研究的關切點。不過,這種學科定位與發(fā)展模式僅是“科技”與“法律”簡單交叉的研究定位,可能導致計算法學與法律人工智能、司法人工智能的研究內(nèi)容重疊。當法律人工智能的發(fā)展在技術層面需要經(jīng)歷漫長過程,技術應用還可能遭受法律倫理質(zhì)疑之時,這恐怕難以支撐“計算法學”成為一門充分展開的獨立學科。 第二種路徑認為,計算法學是一種應用數(shù)學、統(tǒng)計學、計算科學的相關知識、方法展開的法律實證研究。筆者比較認同此種進路,但更明確地認為:計算法學其實是傳統(tǒng)實證研究的新階段,它是一種從量的層面研究社會現(xiàn)象的方法與學科。作為社會現(xiàn)象的一種,法律現(xiàn)象也具有量的屬性,可以從量的方法進行觀察和研究。根本上,法律實證研究與計算法學的研究對象有著天然共性。如法律實證研究與計算法學都強調(diào)使用統(tǒng)計學方法進行數(shù)據(jù)的收集、分析,進而發(fā)現(xiàn)法律現(xiàn)象的相關性和因果性。顯然,計算法學與法律實證研究都是一種基于經(jīng)驗數(shù)據(jù)的量化研究。至于是否應用計算機技術、計算思維和計算方法,并不能成為法律實證研究與計算法學的“分水嶺”。當前,法律實證研究成果同樣重視法律大數(shù)據(jù)與計算機技術結(jié)合,主要基于法律現(xiàn)象的經(jīng)驗數(shù)據(jù),使用統(tǒng)計學與計算機科學的相關知識來闡釋法律實踐。例如,王祿生開發(fā)了分段、分詞檢索工具,實現(xiàn)對303萬份判決書的自然語義挖掘,形成了一系列的法律實證研究成果。筆者所著的《刑事辯護率:差異化及其經(jīng)濟因素分析》一文,應用“爬蟲”軟件對54409份裁判文書進行了數(shù)據(jù)挖掘,使用Python語言參與數(shù)據(jù)挖掘和分析工作。同時,美國的實證研究學者更是已經(jīng)將決策樹、隨機森林以及神經(jīng)網(wǎng)絡等機器學習方法應用于法律的實證研究。通過分析法官經(jīng)驗和法律決策模式,使用機器學習方法構(gòu)造和模擬出同人類決策類似的決策模型,并依據(jù)決策模型的研究成果研發(fā)出風險評估和預測案件裁判結(jié)果的人工智能系統(tǒng)。 如圖1所示,科學意義上的計算法學與法律實證研究呈現(xiàn)“一體兩面”的關系。計算法學與法律實證研究在研究對象、研究方法和研究領域上相通,其本質(zhì)上是實證研究在新材料、新方法興起后的應用與拓展。計算法學處于統(tǒng)計學、計算機技術與法學的交叉領域,并非單純強調(diào)計算科學方法與計算機技術在法學領域內(nèi)的推廣,更不是那種既不使用數(shù)據(jù),也不運用統(tǒng)計學方法,更沒有決策樹、梯度算法等機器學習方法應用,僅簡單將法律問題與科學技術簡單組合的“偽”計算研究。至少計算法學研究的其中一種應是基于法律經(jīng)驗現(xiàn)象的數(shù)據(jù)分析與定量研究,以統(tǒng)計學、機器學習為主要研究方法,實質(zhì)上是法律實證研究的最新表述,可以視為法律實證研究的衍生或者2.0版本。 ![]() 圖1計算法學相關學科關系圖 二、計算方法:如何計算法律? 如何計算法律?一方面,法律的計算需要有成熟的計算法學,使用機器學習計算法律實踐或法律現(xiàn)象或許正在成為法律計算的一種新方向。另一方面,有了成熟的計算方法,還需要具備豐富的法律數(shù)據(jù)來源??墒怯嬎愕姆蓴?shù)據(jù)則誕生于法律的實踐,靜態(tài)的法律條文既不可能反映數(shù)量變化情況,更無法自我呈現(xiàn)法律條文背后復雜的權(quán)力關系,因此,動態(tài)變化的法律實踐才是法律量化數(shù)據(jù)的重要源泉。下文將從可以計算的法律量化數(shù)據(jù)特征與計算法學如何使用機器學習方法兩個方面展開分析。 ?。ㄒ唬┯嬎惴傻姆椒?/span> 計算法學的基本方式是什么?這是一個十分重要但尚未厘清的問題。筆者以為,以統(tǒng)計學為根基的機器學習應成為法律計算的主要方式。在美國,已經(jīng)有學者開始探索、使用機器學習相關方法研究法律問題。如美國學者喬恩·克萊因伯格(Jon Kleinberg)等人以此分析了美國15萬余件重罪案件的法官假釋結(jié)果,他們對法律的計算思路與方法值得關注,可據(jù)此從計算法律的設計思路,法律決策樹與隨機森林的組成以及梯度提升算法的應用方面把握計算法律的方式。 首先,使用機器學習的法律計算是以概率論、數(shù)理統(tǒng)計、最優(yōu)化理論等為基礎,核心要素是法律數(shù)據(jù)的計算模型。機器學習的結(jié)果與統(tǒng)計學的相關性分析類似,都是一種法律數(shù)據(jù)擬合度很高的計算模型,可以實現(xiàn)通過機器學習方法對法律結(jié)果的預測。如喬恩·克萊因伯格等人利用美國司法部(1990年至2009年)審前保釋決定的相關數(shù)據(jù),并將其分為法官決定組與機器學習預測組,對影響釋放決定的因素,如再犯風險、逃避審判風險、保釋金數(shù)額等決定性要素量化處理。通過決策樹、梯度提升算法等機器學習方法構(gòu)建和訓練計算模型,使用梯度算法提高計算模型的精確性,通過對比法官決策結(jié)果與機器學習算法預測結(jié)果的差異,分析影響差異產(chǎn)生的“不具有觀察性”的要素。 其次,利用法律經(jīng)驗數(shù)據(jù)的特征與法律決策分類結(jié)果之間的數(shù)量關系建構(gòu)出具有分類關系的決策樹,即讓不同法律關系特征落入對應分類的模型。為避免單一法律特征可能被過度放大,造成不必要的偏差,其隨機挑選部分法律數(shù)據(jù)特征建構(gòu)多棵決策樹形成隨機森林。決策樹與隨機森林是常用的機器學習分類方法,在法律樣本數(shù)據(jù)中,依據(jù)結(jié)果變量與自變量之間的對應關系可以構(gòu)建多棵決策樹組成隨機森林。如再犯風險、逃避審判可能和保釋金額同審前釋放決定之間的對應關系即可構(gòu)成不同類別的決策樹。獲得一種對同類數(shù)據(jù)相同方法處理的“學習分類器”,使得新出現(xiàn)的案例數(shù)據(jù)對應預測分類。例如,在喬恩·克萊因伯格等人的研究中使用決策樹對釋放風險予以評估,將觀察因素(影響決定的因素)映射到結(jié)果(逃避審判風險)的函數(shù),建立一系列“二元決策樹”。如決策樹根據(jù)先前是否有犯罪記錄進行第一次分叉,直至沒有辦法再找到新的屬性來進行節(jié)點分割時分叉停止,每個葉節(jié)點都形成對應的結(jié)果。上述方法將審前釋放決定與各類影響因素之間構(gòu)成不同的決策樹,并使用由決策樹構(gòu)成的“預測模型”實現(xiàn)對同類問題的分類預測,使得機器學習具備初步的結(jié)果分類預測功能。 再次,使用梯度算法提升模型預測結(jié)果的精確性,對比預測結(jié)果與法官決定的差異,分析影響人類法官決策的潛在因素。如若構(gòu)建出多個決策樹模型,讓重要的法律關系在法律決策的結(jié)果中占有更重要的比重,從而形成精確度更高的決策樹,需要使用梯度提升法。利用梯度提升方法將法律數(shù)據(jù)進行迭代,在決策樹的特定分叉中結(jié)合深度學習方法應用損失函數(shù),減少偏差和方差來提升預測結(jié)果的精確性。不僅如此,還會不斷使用估計與評估的相關算法,避免因使用相同數(shù)集造成過度擬合與標簽缺失問題,確保訓練樹(輸入值)的數(shù)據(jù)與評估樹的數(shù)據(jù)之間沒有缺漏。如在美國法官的審前釋放決定中,被告人是否出庭相比被告人是否具有前科,對于評估逃避審判責任的風險可能就是一組更為重要的關系。將機器學習的輸出結(jié)果與現(xiàn)實答案(法官釋放結(jié)果)代入損失函數(shù),可以對比出人類法官決策與機器學習預測之間的差異。此外,在處理選擇性標簽與潛在混淆因素問題之后,機器學習預測的釋放結(jié)果與法官釋放結(jié)果的差異化因素即會被捕獲。喬恩·克萊因伯格等人的研究即發(fā)現(xiàn):“相比機器學習算法,人類法官決策似乎釋放了一些高犯罪率的人群。這似乎表明人類法官可能錯誤預判了部分被告人的釋放風險或者考慮過其它不具備觀察條件的影響因素?!苯Y(jié)合這類差異,進一步發(fā)現(xiàn),法官不當運用“不具有觀察性”因素對釋放風險進行了不當評估。如被告是否出庭或庭上舉止等因素,使得法官假釋決定可能存在尚未被發(fā)現(xiàn)的系統(tǒng)性偏差,使用機器學習方法得出的解釋決定反而可能有助于減少監(jiān)禁率與犯罪率。 分析域外文獻中使用機器學習方法計算法律過程旨在說明,決策樹、隨機森林、梯度提升算法等機器學習方法已在相關法律實證研究與計算法學中廣泛應用,機器學習的法律計算具備相當?shù)膶嶋H應用價值。如蘇爾登(Surden)等人的專題文章詳盡介紹機器學習算法在法律實證研究中的實踐應用,張永健等人使用聚類算法等機器學習方法分析法律淵源的分類,李本(Benjamin Liebma)等人應用深度學習方法分析中國法官規(guī)避司法責任的規(guī)律性特征,等等皆是如此??梢哉f,計算法學(實證研究的機器學習版)的核心方法即是通過收集真實、客觀的法律運行數(shù)據(jù),使用logistic回歸、相關性分析等統(tǒng)計學方法,結(jié)合決策樹、隨機森林、梯度提升算法、聚類算法等典型的機器學習方法對法律實踐與法學現(xiàn)象展開研究或進行觀察,并總結(jié)、歸納法律運行規(guī)律。這些研究方法便是當下域外相當成功的實證研究與計算法律的最新方式,值得我們觀察、借鑒與嘗試運用。 ?。ǘ┛晒┯嬎愕姆蓴?shù)據(jù)特征 當然,擁有了成熟的計算方法以后,法律的計算還需要有大量符合計算要求的法律數(shù)據(jù)。首先,可以計算的法律是公開化而非半公開化的法律數(shù)據(jù)。理想的、可計算的法律數(shù)據(jù)要全景式展現(xiàn)法律規(guī)律(現(xiàn)象)產(chǎn)生、發(fā)展及其運作結(jié)果的全過程。實際上,公開化、完全理想的法律數(shù)據(jù)并不太多。我國裁判文書網(wǎng)公布的裁判文書是可公開獲取的法律數(shù)據(jù),但公開的僅僅是裁判結(jié)果與清單式的證據(jù)材料,而沒有公開裁判形成過程的相關信息。例如,審判委員會的決策可能對裁判結(jié)果產(chǎn)生實質(zhì)性影響,但是此類信息往往又不會被裁判文書所完整記載。又如可以影響量刑的法官的價值取向,主觀偏好、司法潛見等因素似乎也未充分公開。此外,大量案外(如社會結(jié)構(gòu)、經(jīng)濟水平和環(huán)境等)因素對司法裁判的影響程度,也未以法律數(shù)據(jù)的形式量化。因此,可以被外界計算的法律數(shù)據(jù)往往是已被數(shù)據(jù)記錄的、公開化的法律經(jīng)驗(現(xiàn)象)數(shù)據(jù),而非尚未被收集的法律數(shù)據(jù),當前可以計算的法律也往往處于法律規(guī)范、法律實踐的內(nèi)部。 其次,可以計算的法律是一種具備普遍性、共通性以及類型化特征的法律量化數(shù)據(jù)。計算法律的前提是將法律經(jīng)驗、法律規(guī)律從法律的文本語言轉(zhuǎn)化為計算機可以識別的數(shù)字,其過程實際上就是法律信息的模式識別,需要對法律信息進行劃分和歸類處理。目前運用較多的方法是“自然語義挖掘”技術。通過這種技術可以使得外在表述不同,但內(nèi)涵相對一致的法律文本語言劃分為相同或者相似的類別。換言之,可以計算的法律經(jīng)驗數(shù)據(jù)需要具備一定的類型化特征,具備模式化識別的條件。極為罕見的法律現(xiàn)象、法律經(jīng)驗往往可能無法形成有規(guī)模的類型化法律數(shù)據(jù),并且概括的分類必然會失去或忽略那些可能相關的特征。這可能減損數(shù)據(jù)本身所蘊含的信息量。在樣本的數(shù)據(jù)量不足或數(shù)據(jù)失真的情況下,即便存在好的計算方法,也難以產(chǎn)生可靠的計算結(jié)果。 此外,基于法律人法律推理和思維判斷所獲取的主觀性法律經(jīng)驗或法律感受往往無法進行類型化處理,更難以客觀量化。例如,“排除合理懷疑”作為刑事證明標準,往往是法官自由心證之結(jié)果,具有一定法律推理及其主觀經(jīng)驗累積判斷的特征,而“合理懷疑”的內(nèi)涵來源又具有豐富的神學、宗教色彩。所以,“排除合理懷疑”很難通過數(shù)字指標予以類型化分析和量化,更不是具備量化特征的法律關系。 再次,可計算的法律還應當具備相對確定的數(shù)量關系特征。建構(gòu)量刑模型即是一種典型的應用。刑罰中的刑期作為統(tǒng)計學意義上的連續(xù)變量,往往受到犯罪動機、犯罪手段以及認罪態(tài)度等因素的影響,前述量刑情節(jié)本身又屬于統(tǒng)計學意義上的定性變量。通過分析若干量刑情節(jié)的定性變量對量刑幅度的影響,可以發(fā)現(xiàn)各類量刑情節(jié)對刑期影響程度的大小,進而得出量刑實踐的規(guī)律性特征。換言之,量刑幅度與量刑情節(jié)是具備數(shù)量變化特征的法律關系,特別在最高法院積極推動的量刑規(guī)范化改革影響下,我國量刑程序公開化、透明化程度已經(jīng)取得長足進步,由相對確定的法定刑與法官自由裁量權(quán)共同構(gòu)成的量刑程序構(gòu)造,更有利于排除非法律因素的干擾,使量刑結(jié)果與量刑情節(jié)之間的數(shù)量關系特征更為明顯。不過,如果一項判決就是規(guī)則與事實相結(jié)合的產(chǎn)物,司法人員的工作模式便宛如數(shù)學公式的計算,這屬于非常理想化的法律計算過程。實際上,有研究表明:“只有在尋求的目標很簡單、有清晰的定義和可以測量的情況下,效率公式、生產(chǎn)函數(shù)和理性行動才能被具體指明?!比欢?,不少法律語言都存在模糊不清的“半影地帶”。尤其是我國定罪量刑所依據(jù)的法律條文可能因法律語言的融合和變遷形成語言的復雜、多元性變化。即使相同的法律條文,在具體適用的場合往往可能產(chǎn)生不同的理解,使用不同的法律解釋方法也可能產(chǎn)生截然相反的結(jié)果。例如,法律條文中的“認罪態(tài)度良好”“犯罪情節(jié)極其惡劣”“手段極其殘忍”等內(nèi)容,雖然文本表述明確,但是相同文字表述可以含有相當豐富和多元的內(nèi)容,可能影響數(shù)據(jù)量化的精準性。因此,量刑幅度與量刑情節(jié)這類相對確定的數(shù)量變化關系,因相關量刑情節(jié)在法律概念、法律語言方面的模糊性,也只能得出大致的量刑范圍,而不能得出具體的精確計算結(jié)果。法律計算還不能如“自動售貨機”那般輸入案情與法條便得出判決的結(jié)果。 最后,計算法學所計算的是具有一定數(shù)據(jù)質(zhì)量要求的全樣本大數(shù)據(jù)或大量數(shù)據(jù),這與傳統(tǒng)實證研究有所差異。傳統(tǒng)實證研究所處理的數(shù)據(jù)在代表性方面可能更好,但在數(shù)量與質(zhì)量方面不如計算法學所處理的數(shù)據(jù)。不過,兩者之間并沒有一個非此即彼的區(qū)分。實際上,傳統(tǒng)法律實證研究往往也能夠處理較大數(shù)量的有代表性的數(shù)據(jù),但完美的全樣本大數(shù)據(jù)在法律計算時并不多見,因而計算法律的實踐或許還會遭遇一定的數(shù)據(jù)質(zhì)量難題。 三、前路漫漫:計算法學的春天會到來嗎? 計算法學的出現(xiàn)使得學界甚至資本都摩拳擦掌,一時間“計算法學”變得炙手可熱,冠以“計算法學研究”“計算法學方法”“計算法學技術”的成果開始涌現(xiàn)。在筆者看來,此種熱鬧繁榮的景象并非意味著計算法學即將步入正軌。恰好相反,計算法學還需經(jīng)歷漫長的實踐探索。雖然機器學習已經(jīng)應用于法律計算和法律實證研究,機器學習對法律的計算效果或許具有積極意義,但是也存在一定的局限性。從積極層面而言,使用機器學習方法對法律經(jīng)驗數(shù)據(jù)的分析,可以獲得一種數(shù)據(jù)擬合性較高的回歸分析結(jié)果,能夠客觀揭示復雜法律實踐之間所蘊含的法律運行規(guī)律,從而改變了傳統(tǒng)依據(jù)主觀先驗式經(jīng)驗,通過法律邏輯推理并且創(chuàng)造法學理論的傳統(tǒng)法學知識生產(chǎn)方式。這有助于我們發(fā)現(xiàn)立法與實踐的悖反之處,將法律中的模糊表達量化為具有客觀參考價值的法律數(shù)據(jù)。此外,這種方法還可以揭示從前我們可能無從獲知的某些法律實踐之間存在事實上的相關性與關聯(lián)程度,并且在條件相同的情形下,機器學習算法將始終給出相同的答案,從而能夠減少法律系統(tǒng)內(nèi)部所存在的主觀盲目性,遏制法官因行使自由裁量權(quán)導致的錯誤。 然而,機器學習對法律的計算并不是一種“全方位、無死角”的計算,使用機器學習的法律計算存在兩方面的局限性。一方面,機器學習的法律計算僅僅是一種依托歷史數(shù)據(jù)的“預測”,僅能發(fā)現(xiàn)法律世界的“相關性”,難以解釋法律世界中的“因果律”。使用機器學習方法對法律結(jié)果的“預測”,其作用主要是發(fā)現(xiàn)各類影響因子、作用因素與法律實踐現(xiàn)象之間的相關性。當然,法官的司法決策過程涉及大前提(法律規(guī)則)、小前提(法律事實)和法律結(jié)果的“三段論”推理過程,此類決策推理是一種“反事實推理”的過程。即便是法律數(shù)據(jù)擬合度很高的機器學習“模型訓練”也僅是一種相關性分析,對于需要“反事實推理”得出法律的因果推斷過程,機器學習方法尚處于“知其然,而不知其所以然”的階段。單純的機器學習方法本身可能難以直接發(fā)現(xiàn)因果關系,揭示現(xiàn)象背后更深層次法律實踐之“因果律”。 另一方面,機器學習的法律計算難以充分把握、模擬人類的思維和意識。法律人的決策推理過程、決策結(jié)果往往與機器學習的法律現(xiàn)象預測具有明顯差異,這在復雜案件中更是如此。有研究就指出,“人類區(qū)別于其它靈長類動物的典型特征即是擁有意識”。由“硅元素”組成的計算機能否如同由“碳基”組成的人類那般擁有意識,像人類那樣思考?這一直是人工智能界與哲學界爭議不休的話題。計算機技術的先驅(qū)阿蘭·麥席森·圖靈在進行“圖靈測試”時,也有意或無意地回避機器是否具備意識的問題。姑且不論前述爭議的結(jié)局如何,法律人的思維推理模式與機器學習的計算之間始終存在“隔閡”,而這些不同是人類的自然基礎不同于機器所決定的。如法律人決策與推理的過程往往涉及無罪推定、排除合理懷疑、內(nèi)心確信等帶有人類主觀評價色彩的復雜概念,許多無法量化輸入、客觀認知的法律知識,恐怕難以被尚不具備人類思考和意識的計算機理解。即便理論上使用“強化學習”的方法可應對沒有歷史數(shù)據(jù)輸入的學習場景,但是此類學習方法還處于“有多少人工,方有多少智能”的尷尬局面。因此,它自然就難以勝任對主觀性法律概念的理解和把握。 實際上,感知領域才是機器學習與人工智能技術主要突破的方向,圖像識別、語音轉(zhuǎn)化是人工智能技術的主要應用場景,如人臉識別技術、自動駕駛、棋類(AlphaGo)游戲是其主要應用成果。這在相當程度上是一種基于歷史經(jīng)驗數(shù)據(jù)、對客觀物體的感知技術。相比機器學習面對單一客觀關系的“預測”結(jié)果,法律人決策面對的更多是未來不確定性的主觀性法律關系,復雜的人類法律決策夾雜人類常識、情感與主觀價值判斷等因素,機器學習等人工智能技術是—種“站在第三人”視角觀察現(xiàn)象、總結(jié)規(guī)律、建立理論的方法,實際上難以模仿和學習人類常識和主觀性認知,更不擅長模擬法律人的決策與內(nèi)心推理過程,至少在復雜案件中難以模擬、超越人的決策機制的效果。相比人類意識和人類大腦所具備的“自監(jiān)督學習”機制,機器學習方法在法律的預測能力、學習效率、成本收益方面不盡如人意。目前,最先進的人工智能系統(tǒng)可能還不如一只貓聰明,貓的大腦有大約7.6億個神經(jīng)元和1萬億個突觸,人腦則具有860億個神經(jīng)元但功耗僅為25瓦。人腦的計算量大約是每秒可執(zhí)行1.5×1018次計算,現(xiàn)在一塊GPU每秒可執(zhí)行1013次計算,功耗約為250瓦。為了達到人腦的計算能力,必須將10萬處理器鏈接并且至少消耗25兆瓦的巨型計算機才能實現(xiàn)。前述能耗是人腦消耗的100萬倍。即便未來機器的處理能力變得同人類一般強大,但是機器是否也具備人類基于生理的共情能力仍然未知。況且,法律人的決策過程實際上是對未來不確定性法律關系的評判,而非簡單基于已知法律數(shù)據(jù)的“預測”,這其中的差異也決定了機器學習方法與當前開發(fā)出的人工智能技術并不擅長模擬人類常識和邏輯推理過程。總之,計算機難以深度介入與模仿法律人的決策。 面對法律計算的上述局限,尚處于學科凝練與基礎建構(gòu)階段的計算法學,需要在未來理清學科發(fā)展脈絡,突破發(fā)展進程中的困難與瓶頸。 第一,結(jié)合我國法律數(shù)據(jù)的“本土資源”,探索可行的法律計算思路與機器學習方法。當前,我國裁判文書、檢察文書的公開已初具規(guī)模,各類司法文書的電子化與法律運作過程的數(shù)據(jù)化正在成為現(xiàn)實。但是,可公開獲取裁判文書所呈現(xiàn)的內(nèi)容往往只是法官自由心證的結(jié)果及其支撐裁判結(jié)果的材料及理由。這類數(shù)據(jù)可能已受到人類選擇性認知的影響,難以全面展現(xiàn)裁判結(jié)果形成的完整過程與全部考量因素。真實法律世界的某些部分包括重要而“隱秘”的部分是可獲得的法律數(shù)據(jù)尚未充分反映的。即便是從司法機關內(nèi)部獲取的法律數(shù)據(jù),因其數(shù)據(jù)本身主要滿足訴訟管理之需要,還不能完全呈現(xiàn)司法實踐的全貌,更難以充分滿足精確計算法律的需要??偟膩碚f,我國所公開的司法數(shù)據(jù)大多是一種結(jié)果性材料,對于研究一些諸如司法人員推理、決策等過程性問題的作用相當有限。據(jù)此,計算法學的未來發(fā)展,一方面需要吸收、借鑒域外實證研究中既有的機器學習、神經(jīng)網(wǎng)絡等計算機技術與方法,結(jié)合本土法律數(shù)據(jù),探索有效的法律計算思路與機器學習方法,促進中國計算法學的落地實施;另一方面,需要不斷擴寬法律數(shù)據(jù)的來源渠道,客觀記錄司法實踐的運行過程,保障法律數(shù)據(jù)來源渠道、形成過程與經(jīng)驗現(xiàn)象產(chǎn)生的真實性,為計算法學的繁榮奠定數(shù)據(jù)基礎。 第二,計算法學應致力在更多問題、更廣闊領域內(nèi),探索、應用機器學習,并與傳統(tǒng)法律實證研究以及其他研究方法共同揭示法律實踐規(guī)律與匡正法學理論。作為法律實證研究的衍生和拓展,計算法學同樣以法律實踐的經(jīng)驗現(xiàn)象作為理論關切點,通過收集、整理、分析和應用數(shù)據(jù),嘗試使用統(tǒng)計學、機器學習的相關知識進行相關研究。計算法學運用機器學習方法進行法律結(jié)果“預測”,是一種數(shù)據(jù)擬合程度較高的相關性分析,在相當程度上也是統(tǒng)計學知識與方法的實踐應用。相比傳統(tǒng)的法律實證研究,充分使用機器學習方法的計算法學或者說“未來版的實證研究”將倡導使用決策樹、隨機森林、梯度提升算法、神經(jīng)網(wǎng)絡架構(gòu)等機器學習、深度學習方法來分析法律關系,從而更有利于在大量散亂分布的法律數(shù)據(jù)中發(fā)現(xiàn)零散數(shù)據(jù)之間的相關性與關聯(lián)程度,最終發(fā)現(xiàn)司法實踐或法律事件的發(fā)展或運行規(guī)律。同時,為了彌補機器學習方法在“因果推斷”領域的缺憾,歸納法律現(xiàn)象背后的內(nèi)在規(guī)律與成因,還需要創(chuàng)新傳統(tǒng)的實證研究方法,這主要是使用諸如隨機實驗、斷點回歸、雙重差分、工具變量等方法,在實驗室條件下或者隨機田野試驗的條件下不斷探索法律規(guī)范、法律政策與法律實踐之間的“因果律”。如2021年諾貝爾經(jīng)濟學獎得主書亞·安格里斯特(Joshua D Angrist)和吉多·因本斯(Guido W Imbens)的貢獻即在于對因果關系分析方法的創(chuàng)新,即使用“自然實驗”來模仿隨機控制實驗,評估反事實結(jié)果從而推斷經(jīng)濟變量之間的因果關系。2019年諾貝爾經(jīng)濟學獎阿比吉特·班納吉(Abhijit V. Banerjee )、埃斯特·迪弗洛(Esther Duflo )、邁克爾·克雷默(Michael Kremer)在“減輕全球貧困方面的實驗性方法”作出了杰出貢獻,發(fā)現(xiàn)了全球貧困原理以及各種扶貧政策的因果效用。前述方法對于判斷法律規(guī)范與實踐之間的因果關系具有啟發(fā)和借鑒意義。因此,未來實證研究還應持續(xù)探索隨機試驗、雙重差分、工具變量等統(tǒng)計學的因果推斷方法,從而形成各類揭示“因果關系”的成熟方法。 當然,計算法學雖然是法律實證研究的最新范式轉(zhuǎn)型,但不是唯一的創(chuàng)新方式,其范式“轉(zhuǎn)型”也不意味著研究方法的替代。計算法學的發(fā)展繞不開法律實證研究方法的推廣,更無法取代法律實證研究的知識貢獻。即便是一種在原有方法上的部分創(chuàng)新也不應該直接否定或摒棄原有方法的知識貢獻,否則極易陷入研究方法上的“獨斷論”錯誤。事實上,機器學習方法的主要原理依然是統(tǒng)計學領域內(nèi)相關性分析的數(shù)學知識。對于需要發(fā)現(xiàn)法學理論“因果律”的領域,通過法律文本的法教義學研究仍然是未來法學理論建構(gòu)的重要源泉,結(jié)合司法實踐的法律實證研究與社科法學研究在揭示法律實踐規(guī)律方面也依然占有一席之地。尤其是傳統(tǒng)實證研究通過對統(tǒng)計學方法的創(chuàng)新應用,在因果推斷等方面也可以做出創(chuàng)新性研究,其價值與意義不亞于甚至可能高于不少計算法學的成果??梢哉f,法教義學、社科法學與法律實證研究(包括計算法學)的方法在學術志趣、研究對象與實現(xiàn)路徑方面盡管存在差別,但是它們都各自具備著獨特的方法論價值,相互之間彼此共生,共同促進法學研究的繁榮。使用統(tǒng)計學、機器學習方法的計算法學也應當結(jié)合現(xiàn)有法律實證研究等方法,共同揭示法律實踐之間的關聯(lián)性與因果律,客觀把握法律實踐規(guī)律,探索出一種補充、修正法學理論的新模式。計算法學與法律大數(shù)據(jù)的到來從未叫囂“理論已死”,而只是可能“從根本上改變了我們理解世界的方式”。 換言之,使用機器學習方法的計算法學出現(xiàn)或許將會為我們帶來觀察法律現(xiàn)象的全新方法,但是我們更應理性看待其未來發(fā)展:既不能高估機器學習方法所帶來的法律預測能力,也不能低估不斷發(fā)展的統(tǒng)計學理論與方法在主流實證研究中的獨特魅力與價值,更不能忽視結(jié)合統(tǒng)計和計算的實證研究與機器學習在發(fā)現(xiàn)法律實踐規(guī)律方面的貢獻。無論如何,現(xiàn)階段我們需要更多地夯實法律研究的“計算能力”,正確認識法律數(shù)據(jù)的欠缺性與機器學習法律計算的局限性,培養(yǎng)具備交叉學科背景的法律計算人才,摸索可應用于中國法律數(shù)據(jù)的計算思路與計算方法,打造中國計算法學的“拳頭產(chǎn)品”。嘗試并推進以實證研究方法為底色的計算法學學科建設,促進計算法學研究的落地生根,將是未來中國新型法律人的責任與使命。計算法學的春天已經(jīng)來臨了嗎?就讓未來告訴未來吧。 |
|