來源:https://www./blog/automated-machine-learning-short-history/ 翻譯:蔡玲 最近,我們聽到了關于機器學習的很多新聞,這部分是由不斷增長的需求和缺少數(shù)據(jù)科學家們所激發(fā)的。但像許多創(chuàng)新一樣,機器學習并不是簡單出現(xiàn)的 ,它至少發(fā)展了二十年。在這篇文章中,我們簡要地回顧一下這段歷史。 在成功地推出Unica系列營銷自動化軟件之前,這家公司的主要業(yè)務是通過特別關注神經(jīng)網(wǎng)絡進而進行預測分析。1995年,Unica介紹了Pattern Recognition Workbench (簡稱PRW,一種數(shù)據(jù)挖掘工具),一個使用自動網(wǎng)格搜索優(yōu)化模型的神經(jīng)網(wǎng)絡優(yōu)化軟件包。三年后,Unica與Group 1 Software(現(xiàn)在由Pitney Bowes公司擁有)在市場上推出Model 1,這是一個自動選取超過4種不同預測模型的工具。更名幾次之后,原始的Pattern Recognition Workbench (PRW)仍然作為IBM 的預測工具,作為IBM企業(yè)營銷管理套件的一部分出售。 其他兩個商業(yè)嘗試自動預測模型是從上世紀90年代末開始的。 MarketSwitch,提供市場營銷優(yōu)化的解決方案,其中包括嵌入式的“自動化”的預測建模能力。在銷售推介會上,MarketSwitch關于他如何優(yōu)化工作的信息提供得很少。然而,他們宣揚這是“前蘇聯(lián)火箭科學家”背后的技術,并承諾客戶,有了這個他們可以“解雇他們的SAS程序員”了。益百利(一家信息技術有限公司)在2004年收購了Market Switch,通過他的自身的服務外包分析,重新定位了產(chǎn)品作為決策工具和自動建模能力。 KXEN,1998年在法國成立的一家公司,圍繞著自動建模技術建立了自己的分析工具,還宣稱結(jié)構風險最小化(具體請點http://www./srm/)。原來的產(chǎn)品有一個基本的用戶界面,依靠于合作伙伴應用程序的生產(chǎn)出相反的API。最近,KXEN把自己定位為易于使用又能提供市場營銷分析解決方案,并試圖直接銷售給公司高管。 在這方面的努力是非常成功的,SAP(衛(wèi)星自動控制系統(tǒng))在2013年大概賣出了4000萬美元。 Market Switch和KXEN在反對傳統(tǒng)預測分析上取得了一些小進展。首先,通過定義它的狹小去“解決”問題,限制優(yōu)化的范圍到幾個算法,把建設工程的質(zhì)量和堅固性的花費減少到最小。其次,通過定位他們的工具就可以不需要專家來進行分析,他們疏遠了在客戶組織中非常了解他們的產(chǎn)品甚至于可以成為他們冠軍的人。 在過去的幾年中,領先的分析軟件供應商(SAS和SPSS)在他們的高端產(chǎn)品中增加了自動建模功能。2010年,SAS介紹SAS Rapid Modeler(SAS快速建模功能),附加到了SAS的Enterprise Miner??焖俳J且惶缀陮嵤﹩l(fā)式處理任務,如離群點識別、缺失值處理、變量選擇和模型選擇。用戶指定了一個數(shù)據(jù)集和響應措施;快速建模確定回應是連續(xù)的還是分類的,并利用這些信息與其他的診斷一起去測試測試一系列建模技術。用戶可以通過選擇初級、中級或高級方法來控制技術的范圍。(SAS最近將這個產(chǎn)品作為SAS Factory Miner)。 IBM SPSS Modeler包括一套自動準備數(shù)據(jù)功能以及自動分類、自動聚類、自動數(shù)字節(jié)點功能。自動準備數(shù)據(jù)功能執(zhí)行這樣的任務作為缺失值處理,異常處理,日期和時間的準備,基本價值篩選、分級和可變的重鑄。三個建模節(jié)點可以實現(xiàn)用戶指定的技術可以被運用于包括測試計劃在內(nèi)的,指定的模型選擇規(guī)則和在模型訓練集中設置限制等功能。 至今為止所有討論的軟件產(chǎn)品都是商業(yè)許可的,反映了機器學習社區(qū)的方向是為了開源軟件。在社區(qū)項目中的機器自動化學習取得最具創(chuàng)新性的發(fā)展并不讓人覺得稀奇,三個項目值得特別提及:Caret, Auto-WEKA和AutoML。 在開放資源的R語言的插入包中插入一套包括旨在加速模型規(guī)范和廣泛的技術調(diào)整生產(chǎn)力工具。該包包括預處理工具,可以支持虛擬編碼,零方差預測,識別相關的預測因子等諸如此類的任務,還可以支持模型訓練和調(diào)整。在當前插入的訓練功能可以支持192種不同的建模技術,它可以通過選定的技術來達到參數(shù)最優(yōu)化,但不優(yōu)化跨技術。用多個建模技術實現(xiàn)測試計劃,用戶必須編寫一個R語言的腳本來運行所需的訓練任務并捕獲結(jié)果。 注釋: caret:插入包(簡稱分類和回歸訓練)是一套旨在簡化創(chuàng)建預測模型中的功能。該軟件包中包含的工具:數(shù)據(jù)分割,預處理,特征選擇,基于重采樣的模型調(diào)整,變量重要性估計以及其他功能。 Auto-WEKA是另一個開放資源的機器自動化學習的項目。2013首次發(fā)布,Auto-WEKA是一個合作的項目,由英屬哥倫比亞大學和弗萊堡大學的四位研究人員驅(qū)動。在目前的版本中,Auto-WEKA只支持自動分類問題。該軟件從39個可用的算法中選擇一個學習算法,包括2種集成方法、10個元方法和27個基分類器。由于每個分類有許多可能的參數(shù)設置,搜索空間是非常大的,開發(fā)人員用貝葉斯優(yōu)化來解決這個問題。 CHALEARN是一個由美國國家科學基金會和商業(yè)贊助支持的免稅組織。CHALEARN舉辦一年一度的automl挑戰(zhàn),旨在開發(fā)自動化機器的回歸和分類學習的軟件。最近的一次會議是2015年7月在法國的里爾舉行的,會議演示了機器自動化學習的最新發(fā)展,還舉辦了一個活動。 想要看最新進展,請點擊這里:https://indico.lal./event/2914/ 隨著機器自動化學習的成熟,我們描述的能力也有了轉(zhuǎn)變。早期的商業(yè)產(chǎn)品如MarketSwitch和KXEN聲稱可以消除專家,但我們現(xiàn)在認為機器自動化學習系統(tǒng)的作為一種生產(chǎn)力工具,能讓專家更有效。例如,機器人手術,并不排除對心臟病專家的需要;它使心臟病學家集中更多的精力在診斷和病人護理上。類似的,自動機器學習并沒有消除專家分析,它還可以使專家專注于理解業(yè)務問題,并解釋結(jié)果,真正的價值驅(qū)動高級分析的實現(xiàn)。 |
|