乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      深度學(xué)習(xí)在商戶掛牌語義理解的實(shí)踐

       路人甲Java 2020-03-01

      導(dǎo)讀:高德地圖擁有幾千萬的POI興趣點(diǎn),例如大廈、底商、學(xué)校等數(shù)據(jù),而且每天不斷有新的POI出現(xiàn)。為了維持POI數(shù)據(jù)的鮮度,高德會(huì)通過大量的數(shù)據(jù)采集來覆蓋和更新?,F(xiàn)實(shí)中POI名稱復(fù)雜,多變,同時(shí),名稱制作工藝要求嚴(yán)格,通過人工來制作POI名稱,需要花費(fèi)大量的人力成本。

      因此,POI名稱的自動(dòng)生成就顯得格外重要,而機(jī)器對(duì)商戶掛牌的語義理解又是其中關(guān)鍵的一環(huán)。本文主要介紹相關(guān)技術(shù)方案在高德的實(shí)踐和業(yè)務(wù)效果。

      一、背景
      現(xiàn)實(shí)世界中,商戶的掛牌各式各樣,千奇百怪,如何讓機(jī)器正確的理解牌匾語義是一個(gè)難點(diǎn)。商戶掛牌的文本種類有很多,如下圖所示,我們可以看到一個(gè)商戶牌匾的構(gòu)成。

      結(jié)合POI的名稱制作工藝,我們目前將POI的牌匾的文本行分為4大類:主名稱、經(jīng)營性質(zhì)(包括經(jīng)營范圍,具體的進(jìn)行項(xiàng)目)、分店名、噪聲(包括非POI文字,地址,聯(lián)系方式),前面3個(gè)類別會(huì)參與到POI名稱制作中。如上圖所示的牌匾,它輸出的規(guī)范名稱應(yīng)該是“世紀(jì)宏圖不動(dòng)產(chǎn) (興業(yè)路店)”。其中“世紀(jì)宏圖”是主名稱,“不動(dòng)產(chǎn)”是經(jīng)營范圍,而“興業(yè)路店”是分店名。

      從牌匾中找出制作名稱所需要的文字,不僅僅需要文本行自身的一些特征,還需要通過結(jié)合牌匾上下文,以及圖像的信息進(jìn)行分析。單純的文本行識(shí)別會(huì)遇到下面的問題,如下圖,在兩個(gè)牌匾中都提到了“中國電信”,但是它們的意義是不一樣的,這時(shí)必須結(jié)合上下文的理解。

      二、技術(shù)方案

      單純從文本的語義理解的角度出發(fā),那么這個(gè)應(yīng)該是一個(gè)文本分類問題。但是直接的分類效果不佳?,F(xiàn)實(shí)中在理解牌匾文本行語義的時(shí)候,需要結(jié)合圖形,位置,內(nèi)容,以及上下文關(guān)系綜合來判斷。為此,我們將商戶掛牌理解的這個(gè)問題分解成兩個(gè)子問題來解決,1.如何結(jié)合圖像、文本、以及空間位置;2.如何結(jié)合上下文關(guān)系。因此,我們提出了Two-Stages級(jí)聯(lián)模型。

      2.1 Two-Stages 級(jí)聯(lián)模型

      Two-stages級(jí)聯(lián)模型分為兩個(gè)主要的階段:第一階段提取單文本信息特征,包括文本位置和文本內(nèi)容等,第二階段提取牌匾中文本行上下文關(guān)系特征,消除只用單個(gè)文本識(shí)別容易造成的歧義,準(zhǔn)確識(shí)別出該文本屬性。

      2.1.1 Stage One 單文本行特征提取

      單文本行特征可以分為詞性結(jié)構(gòu)(token level)特征和句子語義(sentence level)特征。除此之外,位置信息(PV)也是比較重要的信息,需要進(jìn)行特征提取和編碼。將以上特征進(jìn)行融合,得到了單文本行特征。

      token level層的特征提取方面,結(jié)合名稱的構(gòu)成以及名稱工藝,我們定義了三種詞性: 核心詞(C)、通用詞(U)、結(jié)尾詞(T)。在這里我們使用LSTM網(wǎng)絡(luò)來學(xué)習(xí)名稱的詞性序列。

      sentence leve層的特征提取方面,由于我們的標(biāo)注量相對(duì)比較少,采用了具有大量先驗(yàn)知識(shí)的BERT模型。同時(shí),為了更好的符合當(dāng)前業(yè)務(wù)場(chǎng)景的需求,我們結(jié)合業(yè)務(wù)中POI的數(shù)據(jù)集合,在原來Google官方提供的預(yù)訓(xùn)練模型基礎(chǔ)上繼續(xù)pre-training,得到新的模型BERT-POI。

      預(yù)訓(xùn)練的POI文本語料沒有太多的上下文環(huán)境,在構(gòu)造樣本時(shí),我們將兩個(gè)POI名稱串起來或是同一個(gè)POI隨機(jī)切分,中間都用SEP隔開,進(jìn)行多任務(wù)學(xué)習(xí):缺字補(bǔ)全和預(yù)測(cè)兩個(gè)文本行是否屬于同一POI。經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn),在POI數(shù)據(jù)上預(yù)訓(xùn)練模型BERT-POI 比Google發(fā)布模型BERT-Google,缺字補(bǔ)全和同一POI判定兩項(xiàng)任務(wù)上名,正確率高20%左右。

      此外,將預(yù)訓(xùn)練的模型用于下游屬性識(shí)別任務(wù)上,BERT-POI與BERT-Google相比,提升主名稱,分店名,營業(yè)范圍的召回3%~6%。

      下圖展示了我們預(yù)訓(xùn)練的過程圖:

      隨后,我們對(duì)預(yù)訓(xùn)練好的BERT-POI在進(jìn)行了finetune,提取出sentence leve層的特征。

      2.1.2 Stage-Two 文本相互關(guān)系提取

      Stage One提取到了單文本行的特征,那如何去實(shí)現(xiàn)上下文的關(guān)聯(lián),我們加入了Stage Two的模塊,模型結(jié)構(gòu)如下:

      Stage Two最主要是用BILSTM(Bidirectional LSTM)處理stage one輸出特征,能夠?qū)?dāng)前文本特征和牌匾內(nèi)其他文本特征進(jìn)行學(xué)習(xí),消除歧義。

      三、業(yè)務(wù)效果

      牌匾通過語義理解后,會(huì)根據(jù)具體的輸出類型來制定名稱生成的策略。例如:對(duì)于單主+噪聲牌匾,我們直接將主名稱作為POI名稱,而對(duì)于單主+分店名+經(jīng)營性質(zhì)+噪聲的牌匾,我們會(huì)分析主名稱的結(jié)構(gòu),看是否需要拼接經(jīng)營性質(zhì)。

      下圖展示了當(dāng)前我們牌匾語義理解和名稱的部分拼接策略:

      圖3.1單主+噪聲場(chǎng)景

      圖3.2 單主+分店名場(chǎng)景

      圖3.3單主+經(jīng)營性質(zhì)場(chǎng)景(主名稱中有經(jīng)營性質(zhì))

      圖3.4 單主+經(jīng)營性質(zhì)場(chǎng)景(主名稱中無經(jīng)營性質(zhì))

      四、小結(jié)

      目前商戶牌匾語義理解模塊的準(zhǔn)確率在95%以上,在POI的名稱自動(dòng)生成中起到的重要的作用。商戶牌匾的語義理解模塊只是POI名稱自動(dòng)化的一部分內(nèi)容,在POI名稱自動(dòng)化中還會(huì)涉及到噪聲牌匾過濾、牌匾是否依附建筑物、敏感類別、文本的缺失、名稱生成、名稱糾錯(cuò)等模塊。我們會(huì)在圖文多模態(tài)這塊更深入的探索,更多地應(yīng)用于我們現(xiàn)實(shí)場(chǎng)景中,生產(chǎn)更多、更高質(zhì)量的數(shù)據(jù)。

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多