
在新西蘭一個(gè)偏遠(yuǎn)的鄉(xiāng)村小鎮(zhèn),一對土著伙伴正在挑戰(zhàn)人工智能可能是什么,以及它應(yīng)該為誰服務(wù)這一議題。新西蘭最北端地區(qū)一座古老而灰色的建筑的后屋里,最先進(jìn)的人工智能計(jì)算機(jī)之一正在幫助重新定義這項(xiàng)技術(shù)的未來。 TeHiku 傳媒是一家由合作伙伴彼得-盧卡斯·瓊斯(Peter-Lucas Jones)和基奧尼·馬赫洛納(Keoni Mahelona)運(yùn)營的非營利性毛利人廣播電臺,他們以 50% 的折扣價(jià)購買了這臺機(jī)器,以訓(xùn)練自己的自然語言處理算法。如今兩人的核心夢想是振興毛利語,并接管他們所在團(tuán)體的各種數(shù)據(jù)。 馬赫洛納是夏威夷土著,在愛上了新西蘭后定居在這里,他笑著談起了這種奇異的情況?!斑@臺電腦就被放在凱塔亞的一個(gè)架子上,就在這樣一個(gè)窮困潦倒并擁有大量土著人口的廢棄之地。我想我們已經(jīng)有點(diǎn)低調(diào)了,”他說。
該項(xiàng)目與人工智能行業(yè)經(jīng)典運(yùn)作方式完全不同。在過去的十年里,人工智能研究人員以“越多越好”為教條將該領(lǐng)域推向了新的極限:積累更多的數(shù)據(jù),生成更大的模型(即用這些數(shù)據(jù)訓(xùn)練的算法),以產(chǎn)生更好的結(jié)果。
這種方法帶來了顯著的突破,但也導(dǎo)致了巨大成本。各路公司永不停息地挖掘人們的面孔、聲音和行為數(shù)據(jù),以擴(kuò)大營業(yè)額。通過來自整個(gè)人口的數(shù)據(jù)而建立的人工智能模型,已經(jīng)使得少數(shù)族裔和某些團(tuán)體被邊緣化,即使他們?nèi)詷O大地受制于該技術(shù)的影響。
多年來,越來越多的專家一致認(rèn)為,這些技術(shù)沖擊正在重復(fù)著殖民歷史的模式。他們說,全球人工智能的發(fā)展正在使沒有發(fā)言權(quán)的團(tuán)體和國家陷入貧瘠——這些社區(qū)和國家已經(jīng)被以前的殖民帝國貧困化。
圖 | 彼得-盧卡斯·瓊斯(左)和基奧尼·馬赫洛納(右)參加了 2019 年的土著人工智能研討會。(來源:《麻省理工科技評論》)
這一點(diǎn)在人工智能和語言文字中尤為明顯。“越多越好”的理念已經(jīng)創(chuàng)造了具有強(qiáng)大的自動(dòng)完成和文本分析功能的大型語言模型,現(xiàn)在被用于搜索、電子郵件和社交媒體等日常網(wǎng)絡(luò)服務(wù)。但是,這些通過吸引大量互聯(lián)網(wǎng)資源而建立的模式,也在加速語言文化的消失,就像以前的殖民和同化政策一樣。
只有最通用的語言才有足夠的使用者和足夠的潛在利潤,而科技巨頭則收集它們所需的數(shù)據(jù)以助其發(fā)展。因此,在日常工作和生活中對這些服務(wù)的依賴,迫使一些團(tuán)體使用主導(dǎo)語言,而不是他們自己的語言。
“數(shù)據(jù)是殖民化的最后一個(gè)前沿陣地,”馬赫洛納說。
在利用人工智能幫助復(fù)興毛利人的語言時(shí),馬赫洛納和瓊斯即這兩位毛利人,想要做一些不同的事情。他們克服了資源限制,開發(fā)了自己的人工智能語言工具,并創(chuàng)建了收集、管理和保護(hù)毛利人數(shù)據(jù)流的機(jī)制,以免在沒有毛利人群體同意的情況下使用。
正如硅谷許多人所應(yīng)對的“人工智能苦果”一樣,瓊斯和馬赫洛納的方法可以為新一代人工智能指明道路,它不將邊緣化的人僅僅視為數(shù)據(jù)對象,而是將他們重新確立為同享未來的共同創(chuàng)造者。
像全球許多土著語言文化一樣,毛利人隨著殖民化開始衰落。
1840 年,英國宣稱奧特亞羅瓦即新西蘭的毛利語名字,成為其殖民地后,英語逐漸成為當(dāng)?shù)亟?jīng)濟(jì)活動(dòng)的通用語。1867 年,《本土學(xué)校法案》使英語成為毛利人兒童可以使用的唯一語言。作為更廣范圍同化政策的一部分,學(xué)校開始羞辱、甚至毆打那些試圖使用毛利語的毛利學(xué)生。
在接下來的幾十年里,城市化打破了毛利人社區(qū),削弱了文化和語言保護(hù)的中心。許多毛利人也選擇離開,以尋找更好的經(jīng)濟(jì)出路。在一代人的時(shí)間里,說毛利語的毛利人比例從 90% 驟降到 12%。
20 世紀(jì) 70 年代,毛利人團(tuán)體的領(lǐng)袖和活動(dòng)人士震驚于這一現(xiàn)象,拼命努力扭轉(zhuǎn)這一趨勢。他們創(chuàng)建了兒童語言沉浸式學(xué)校和成人學(xué)習(xí)項(xiàng)目。他們走上街頭游行,要求毛利語和英語享有同等的地位。
1987 年,當(dāng)?shù)卣ㄟ^了《毛利人語言法案》,宣布毛利語為一種官方語言。三年后,政府開始資助創(chuàng)建毛利社區(qū)、或部落,以及像 TeHiku 媒體一樣的電臺,其以毛利語公開廣播,以提高該語言的普及性。
我今天交談過的許多毛利人,某種程度上是用他們父母或祖父母是否說過毛利語,來認(rèn)同自己的毛利人身份。在一個(gè)能接觸到代際語言文化傳播的環(huán)境中長大,被認(rèn)為是一種殊遇。
語言文化存續(xù)的黃金準(zhǔn)則是:在孩童時(shí)期通過日常接觸來學(xué)習(xí)它們。作為一個(gè)青少年或成年人,在學(xué)術(shù)環(huán)境中學(xué)習(xí)會更困難。每個(gè)部落的毛利語都有其獨(dú)特的口音、慣用語和區(qū)域歷史風(fēng)格,而一本教科書通常只教授一種或“標(biāo)準(zhǔn)”的毛利語版本。
換句話說,語言不僅僅是一種交流的工具。它表達(dá)了一種文化傳統(tǒng),因?yàn)樗鼜母改競鞯阶优?,從子女傳到下一代,并通過那些使用它以及賦予其意義的人而演變。語言被文化影響的同時(shí)也發(fā)揮著影響,語言塑造了人際關(guān)系、世界觀和自我認(rèn)同?!斑@是我們的思考和向彼此表達(dá)自我的方式,”另一位使用人工智能復(fù)興一種迅速消亡語言的本土技術(shù)專家邁克爾·朗寧·沃爾夫(Michael Running Wolf)說。
因此,保護(hù)一種語言就是保護(hù)一種文化歷史。但尤其是在數(shù)字時(shí)代,要擺脫一種少數(shù)民族語言的下坡路,就需要不斷保持警惕。每一個(gè)不支持該語言的新交流方式都迫使人們選擇使用主導(dǎo)語言,或是放棄融入多數(shù)文化的機(jī)會。
“如果這些新技術(shù)只能用西方語言,我們現(xiàn)在就會被排除在數(shù)字經(jīng)濟(jì)之外,”朗寧·沃爾夫說,“如果不能在數(shù)字經(jīng)濟(jì)中發(fā)揮作用,那么我們的語言文化將真的很難蓬勃發(fā)展。”
隨著人工智能的出現(xiàn),語言的復(fù)興現(xiàn)在正處于一個(gè)十字路口。這項(xiàng)技術(shù)可以進(jìn)一步確立主導(dǎo)語言的霸權(quán)地位,也可以幫助少數(shù)民族語言進(jìn)入數(shù)字世界,這也是瓊斯和馬赫洛納抓住的機(jī)遇。
早在瓊斯和馬赫洛納開始這段旅程之前,他們就在惠靈頓的游泳俱樂部成員聚會燒烤時(shí)相遇了。兩人一拍即合。馬赫洛納帶著瓊斯騎了一次長途自行車。“剩下的都是陳年舊事了,”馬赫洛納說。
2012 年,兩人搬回了瓊斯的家鄉(xiāng)凱塔亞,瓊斯成為了 TeHiku 媒體公司的 CEO。由于其與世隔絕,該地區(qū)仍然是奧特亞羅瓦(即新西蘭)經(jīng)濟(jì)最貧困的地區(qū)之一,但同樣,它的毛利人口數(shù)量也是該國保護(hù)得最好的地方之一。
在其 20 多年的廣播歷史中,TeHiku 公司已經(jīng)積累了豐富的電視音樂音頻材料存檔,包括瓊斯自己的祖母拉哈·莫羅亞(Raiha Moeroa)的錄音,她生于 19 世紀(jì)末,她的毛利語在很大程度上沒有受到殖民影響。
瓊斯看到了一個(gè)數(shù)字化檔案的機(jī)會,并創(chuàng)造了一個(gè)比較現(xiàn)代化的代際語言文化傳播方式。大多數(shù)毛利人不再和他們的毛利部落生活在一起,也不能依靠附近的親戚來進(jìn)行日常的毛利語交流。然而,有了數(shù)字文館,他們就可以隨時(shí)隨地聽從前的長輩們的毛利語。
當(dāng)?shù)氐拿瞬柯湓试S瓊斯繼續(xù)推進(jìn)這項(xiàng)工作,但需要一個(gè)地方在線存放這些材料。他和馬赫洛納都不喜歡把它們上傳到 Facebook 或 YouTube 上,因?yàn)檫@將允許科技巨頭們利用寶貴的數(shù)據(jù)“肆意妄為”。
幾年后,一些公司確實(shí)開始與說毛利語的人合作,以獲取此類數(shù)據(jù)。例如,Duolingo 公司試圖創(chuàng)建語言學(xué)習(xí)工具,然后將其在毛利人團(tuán)體中推廣。瓊斯說:“我們的數(shù)據(jù)將被那些拋棄我們這些語言的人利用,把它作為一種服務(wù)賣給我們?!薄斑@就像拿走屬于我們的土地再賣回給我們一樣,”馬赫洛納補(bǔ)充道。
唯一的選擇是為 TeHiku 建立自己的數(shù)字托管平臺。憑借工程背景,馬赫洛納同意領(lǐng)導(dǎo)這個(gè)項(xiàng)目,并加入了該公司,擔(dān)任 CTO。
數(shù)字平臺成為 TeHiku 建立數(shù)據(jù)主權(quán)的第一步——群體通過這一策略尋求對自己數(shù)據(jù)的管控,以確保對其未來的控制。毛利人數(shù)據(jù)主權(quán)網(wǎng)絡(luò)的聯(lián)合創(chuàng)始人塔胡·庫庫泰(Tahu Kukutai)說,對毛利人來說,對這種數(shù)據(jù)自治權(quán)的渴望植根于歷史。
在最早的殖民地人口普查中,在一系列毀滅性的戰(zhàn)爭中,英國人殺死了數(shù)千名毛利人并沒收了他們的土地,之后英國收集了有關(guān)部落數(shù)量的數(shù)據(jù),以跟蹤政府的同化政策的成功與否。
因此,數(shù)據(jù)主權(quán)是土著居民抵抗的最新例子——反對殖民者、反對單一民族國家,現(xiàn)在又反對大型科技公司?!懊~可能是新的,語境可能是新的,但數(shù)據(jù)主權(quán)建立在一個(gè)非常古老的歷史之上,”庫庫臺說。
2016 年,瓊斯開始了一項(xiàng)新項(xiàng)目:在 90 多歲的毛利語使用者失去他們的語言和知識之前采訪他們。他想創(chuàng)建一個(gè)工具,在每次采訪都顯示一個(gè)文字轉(zhuǎn)錄。然后,毛利語學(xué)習(xí)者將能夠?qū)⑹髽?biāo)懸停在單詞和詞組上看到它們的定義。
但幾乎沒人足夠精通這種語言能人工轉(zhuǎn)錄音頻。受到像 Siri 這樣的語音助手的啟發(fā),馬赫洛納開始研究自然語言處理?!敖屉娔X說毛利語是絕對必要的,”瓊斯說。
但 TeHiku 傳媒面臨著一個(gè)先有雞還是先有蛋的問題。為了建立一個(gè)毛利語的語音識別模型,它需要大量的轉(zhuǎn)錄音頻。為了轉(zhuǎn)錄音頻,它需要精通這門語言的人,而這個(gè)群體人數(shù)太少,這也正是模型一開始就想要彌補(bǔ)的。然而,有很多初級和中級毛利語使用者能夠熟讀毛利單詞,但是不能從錄音中辨認(rèn)出來。
因此,瓊斯和馬赫洛納,以及 TeHiku 傳媒的 COO 蘇珊娜·鄧肯(Suzanne Duncan),設(shè)計(jì)了一個(gè)聰明的解決方案:與其轉(zhuǎn)錄現(xiàn)有的音頻,不如讓人們錄下自己閱讀一系列事先設(shè)計(jì)好的語句的錄音,以捕捉該語言全部音域的聲音。
對于一個(gè)算法,這種方法得到的數(shù)據(jù)集使用起來沒有差別。從這成千對萬的語音和文本句子對中,該算法將學(xué)會識別音頻中的特定毛利語音節(jié)。
該隊(duì)宣布舉行了一場比賽。瓊斯、馬赫洛納和鄧肯聯(lián)系了他們能找到的每一個(gè)毛利人社區(qū)團(tuán)體,包括一些傳統(tǒng)的毛利舞蹈團(tuán)和毛利浮架獨(dú)木舟競速隊(duì),他們透露,提交錄音數(shù)量最多的團(tuán)隊(duì),將獲得 5000 美元的大獎(jiǎng)。
整個(gè)毛利群體都動(dòng)員起來了,競爭變得激烈起來。毛利人團(tuán)體成員特·米辛加·科涅(Te Mihinga Komene),作為一名教育家和利用數(shù)字技術(shù)振興毛利語的倡導(dǎo)者,一人就錄音了 4000 個(gè)短語。
金錢并不是唯一的驅(qū)動(dòng)力。人們接受了 TeHiku 傳媒的愿景,并相信它能保護(hù)他們的數(shù)據(jù)。“TeHiku 傳媒說,'對于你們給我們的數(shù)據(jù),我們都是監(jiān)護(hù)人的身份。我們會接管數(shù)據(jù),但你仍然擁有你們音頻的所有權(quán),’”米辛加說,“這是很重要的。這些價(jià)值觀定義了我們的毛利人身份?!?/span>
在 10 天內(nèi),TeHiku 傳媒從大約 2500 人錄制的約 20 萬段錄音中收集了總時(shí)長 310 小時(shí)的語音-文本對,這是人工智能領(lǐng)域研究人員聞所未聞的參與度?!俺嗣私M織,沒有人能夠做到,”迦利布·摩西(Caleb Moses)說,他是毛利人的數(shù)據(jù)科學(xué)家,他在社交媒體上了解了情況后加入了這個(gè)項(xiàng)目。
盡管與通常用于訓(xùn)練英語語言模型的成千上萬小時(shí)的數(shù)據(jù)相比,這些數(shù)據(jù)量仍然很小,但這足以啟動(dòng)整個(gè)項(xiàng)目。利用這些數(shù)據(jù)輔助引導(dǎo) Mozilla 基金會現(xiàn)有的開源模型, TeHiku 傳媒創(chuàng)建了第一個(gè)準(zhǔn)確率為 86% 的毛利語語音識別模型。
(來源:《麻省理工科技評論》)
從那時(shí)起,這種方法在其他人工智能語言技術(shù)中開枝散葉。馬赫洛納、摩西和一個(gè)新組建的團(tuán)隊(duì)創(chuàng)建了第二種和第三種算法,分別用于自動(dòng)標(biāo)記復(fù)雜的毛利語短語和向毛利語學(xué)習(xí)者提供發(fā)音準(zhǔn)確性的實(shí)時(shí)反饋。
該團(tuán)隊(duì)甚至嘗試了用語音合成技術(shù)來創(chuàng)建相當(dāng)于 Siri 的毛利語語音助手,盡管最終沒有達(dá)到可以部署的質(zhì)量要求。
一路走來,TeHiku 傳媒建立了新的數(shù)據(jù)主權(quán)協(xié)議。像摩西這樣的毛利人數(shù)據(jù)科學(xué)家仍然很少,但那些來自社區(qū)之外的人不能隨心所欲地使用這些數(shù)據(jù)。瓊斯說:“如果他們想嘗試探索這些數(shù)據(jù),他們會問我們,而我們基于我們的價(jià)值觀和原則作出決定方式?!?/span>
這可能具有挑戰(zhàn)性。開源的、自由發(fā)展的數(shù)據(jù)科學(xué)文化往往與數(shù)據(jù)主權(quán)的實(shí)現(xiàn)背道而馳,人工智能領(lǐng)域文化也是如此。瓊斯說,TeHiku 傳媒有時(shí)不得不拒絕一些數(shù)據(jù)科學(xué)家的請求,因?yàn)樗麄儭爸皇窍朐L問我們的數(shù)據(jù)”?,F(xiàn)在,公司正尋求通過實(shí)習(xí)項(xiàng)目和開放初級職位來培養(yǎng)更多的毛利人數(shù)據(jù)科學(xué)家。
后來,TeHiku 傳媒通過其全新數(shù)字語言平臺 PapaReo,開放了絕大部分工具的接口。公司還與毛利人領(lǐng)導(dǎo)的組織合作,比如教育有限公司 Afed,后者正在開發(fā)一款應(yīng)用程序來幫助毛利語學(xué)習(xí)者練習(xí)他們的發(fā)音。
“這顛覆了傳統(tǒng)規(guī)則,”Afed 公司創(chuàng)始人卡姆·斯威森-萬加(Cam Swaison-Whaanga)說,他也在進(jìn)行自己的毛利語學(xué)習(xí)之旅。學(xué)生們不再需要為在課堂上當(dāng)著老師和同學(xué)面前大聲說話而感到害羞。
TeHiku 傳媒也已經(jīng)開始與小規(guī)模的土著居民合作。在太平洋地區(qū),許多人和毛利人有相同的波利尼西亞祖先,他們的語言有共同的根源。利用毛利語數(shù)據(jù)作為基礎(chǔ),庫克群島的研究人員能夠訓(xùn)練庫克群島的初始語言模型,僅使用幾十小時(shí)的數(shù)據(jù)就能達(dá)到大約 70% 的準(zhǔn)確率。
馬赫洛納說:“這不再僅僅是教電腦說毛利語了。”“這是在為太平洋地區(qū)語言建立一個(gè)語言基礎(chǔ)。我們都在努力保持我們語言的活力?!?/span> 但瓊斯和馬赫洛納知道,總有一天,他們將不得不與土著社區(qū)和組織之外的團(tuán)體合作。如果他們想讓毛利語真正無處不在——甚至在 iPhone 和安卓系統(tǒng)上擁有說毛利語的語音助手,他們就需要與科技巨頭合作。
“雖然你有能力在社區(qū)做很酷的語音識別等等,但你得讓團(tuán)體里的人把它用起來,”凱文·斯坎內(nèi)爾(Kevin Scannell)說,他是一位推動(dòng)振興愛爾蘭語言的計(jì)算機(jī)科學(xué)家,他在自己的研究中也在努力應(yīng)對這種妥協(xié),“有一個(gè)可以讓你輸入文本并輸出語音的網(wǎng)站很重要,但這和讓每個(gè)人都能在手機(jī)上用起來并不一樣?!?/span>
TeHiku 傳媒正在為這種不可避免的情況做準(zhǔn)備。它創(chuàng)建了一個(gè)數(shù)據(jù)許可,根據(jù)毛利人的監(jiān)護(hù)原則,闡明了未來合作的基本原則。在許可范圍內(nèi)只授予數(shù)據(jù)訪問權(quán)限給尊重毛利人價(jià)值觀的組織,并將使用數(shù)據(jù)所獲得的任何利益?zhèn)骰亟o毛利人民。
該許可證尚未被 TeHiku 傳媒之外的組織使用,關(guān)于其可執(zhí)行性仍存在問題。但這個(gè)想法已經(jīng)激發(fā)了其他人工智能研究人員的靈感,比如 Mozilla 基金的 “公共語音”項(xiàng)目里的凱瑟琳·西宇(Kathleen Siminyu),該項(xiàng)目無償收集語音數(shù)據(jù),以建立用于不同語言的語音識別的公共數(shù)據(jù)集。
目前,這些數(shù)據(jù)集可以用于任何目的進(jìn)行下載。但去年,Mozilla 基金開始探索一種更類似于 TeHiku 傳媒的許可,貢獻(xiàn)己方數(shù)據(jù)的語言社區(qū)將被賦予對這些數(shù)據(jù)集更多的控制權(quán)限。
凱瑟琳說:“希望能讓人們知道,對數(shù)據(jù)集的貢獻(xiàn)會讓你對數(shù)據(jù)集的使用更有發(fā)言權(quán)?!?/span>
谷歌的人工智能倫理研究團(tuán)隊(duì)前聯(lián)合負(fù)責(zé)人瑪格麗特·米切爾(Margaret Mitchell)也同意這一觀點(diǎn),該團(tuán)隊(duì)進(jìn)行數(shù)據(jù)管制和所有權(quán)領(lǐng)域方面的研究?!斑@正是我們想要廣泛地為各種不同類型技術(shù)所開發(fā)的許可。我真的很想看到更多這樣的東西,”她說。
在某些方面,TeHiku 傳媒很幸運(yùn)。毛利語可以利用以英語為中心的人工智能技術(shù),因?yàn)樗谧帜副?、聲音和單詞結(jié)構(gòu)等關(guān)鍵特征上與英語有足夠的相似性。毛利人也是一個(gè)相當(dāng)大的土著群體,這使他們能夠積累足夠的語言數(shù)據(jù),并找到像摩西這樣的數(shù)據(jù)科學(xué)家來幫助現(xiàn)實(shí)他們的愿景。
“大多數(shù)其他社區(qū)還不夠大,不足以產(chǎn)生這些幸運(yùn)的偶然事件,”杰森·愛德華·劉易斯(Jason Edward Lewis)說,他是一名數(shù)字技術(shù)專家和藝術(shù)家,他共同組織了土著人工智能網(wǎng)絡(luò)。
與此同時(shí),他說,TeHiku 傳媒已經(jīng)成為一個(gè)強(qiáng)有力的證據(jù),證明人工智能可以在硅谷富有的盈利組織之外,由它應(yīng)該服務(wù)的人建立。

圖 | TTeHiku 媒體因其語言振興方面的工作而獲得新西蘭創(chuàng)新獎(jiǎng)(來源:《麻省理工科技評論》)
|