
如今,多模態(tài)、預(yù)訓(xùn)練排序堪稱是未來金融行業(yè)的主流技術(shù)方向之一。而作為一家關(guān)注前沿科技的創(chuàng)新型金融技術(shù)企業(yè),度小滿早已提前布局多模態(tài)、預(yù)訓(xùn)練排序,并取得了出色的成果。近期,由度小滿數(shù)據(jù)智能應(yīng)用部AI-Lab撰寫的兩篇關(guān)于多模態(tài)、預(yù)訓(xùn)練排序的論文,還入選了國際頂級會議。
度小滿深耕人工智能前沿技術(shù),技術(shù)實力獲國際認(rèn)可
度小滿數(shù)據(jù)智能應(yīng)用部AI-Lab的兩篇論文分別入選ACM MM和CIKM國際頂級會議。兩篇論文分別就多模態(tài)和預(yù)訓(xùn)練排序等多個熱門話題提出了新穎的算法,并在相關(guān)任務(wù)上達(dá)到了國際頂尖水平,獲得了審稿人的一致好評并最終錄用。這標(biāo)志著度小滿在自然語言處理和計算機(jī)視覺等人工智能前沿領(lǐng)域的研究得到了國際同行的認(rèn)可。
其中,論述具有實體對齊網(wǎng)格的位置增強(qiáng)Transformer的論文被ACM MM錄用。
據(jù)了解,許多圖像除了實際的物體和背景等信息外,通常還包含著很有價值的文本信息,這對于理解圖像場景是十分重要的。因此該論文主要研究基于文本的視覺問答任務(wù),這項任務(wù)要求機(jī)器可以理解圖像場景并閱讀圖像中的文本來回答相應(yīng)的問題。然而之前的大多數(shù)工作往往需要設(shè)計復(fù)雜的圖結(jié)構(gòu)和利用人工指定的特征來構(gòu)建圖像中視覺實體和文本之間的位置關(guān)系。為了直觀有效地解決這些問題,度小滿的科研人員提出了具有實體對齊網(wǎng)格的位置增強(qiáng)Transformer。
該模型能夠整合目標(biāo)檢測、OCR以及基于Transformer的文本表示等多種方法的優(yōu)勢,增強(qiáng)算法對于圖像中場景信息的理解,更精準(zhǔn)的融合圖像與文本多模態(tài)的信息,進(jìn)一步助力證件識別、人臉與活體檢測等業(yè)務(wù)場景,提升度小滿在視覺風(fēng)控方面的技術(shù)能力。
度小滿加強(qiáng)創(chuàng)新技術(shù)探索,讓科技賦能金融各大場景
另外一篇基于BERT的動態(tài)多粒度排序模型的論文則被CIKM錄用。
近年來,預(yù)訓(xùn)練的語言模型廣泛應(yīng)用于文本的檢索排序任務(wù)中。然而,在真實場景中,用戶的行為往往受到選擇或曝光偏差的影響,這可能會導(dǎo)致錯誤的標(biāo)簽進(jìn)而引入額外噪聲。而對于不同候選文檔,以往的訓(xùn)練優(yōu)化目標(biāo)通常使用單一粒度和靜態(tài)權(quán)重。這使得排序模型的性能更容易受到上述問題的影響。因此,在該論文中度小滿科研人員重點研究了基于BERT的文檔重排序任務(wù),開創(chuàng)性地提出了動態(tài)多粒度學(xué)習(xí)方法。此外,該方法還同時考慮了文檔粒度和實例粒度來平衡候選文檔的相對關(guān)系和絕對分?jǐn)?shù)。
該模型有效地提升了長文本理解與排序任務(wù)的性能,特別是其中所用到的預(yù)訓(xùn)練語言模型已經(jīng)成為度小滿在自然語言處理方面的基礎(chǔ)架構(gòu),在獲客、信貸等業(yè)務(wù)場景被廣泛地使用,為業(yè)務(wù)模型提供了更加豐富的文本表示和精準(zhǔn)的文本特征,在保障業(yè)務(wù)穩(wěn)健發(fā)展中起到了十分重要的作用。
度小滿數(shù)據(jù)智能應(yīng)用部AI-Lab撰寫的兩篇論文,為業(yè)界深入研究多模態(tài)和預(yù)訓(xùn)練排序提供了良好的借鑒作用。在科學(xué)技術(shù)快速發(fā)展的大環(huán)境下,加強(qiáng)技術(shù)研究探索,將推動金融產(chǎn)業(yè)創(chuàng)新發(fā)展。未來,有了多模態(tài)、預(yù)訓(xùn)練排序等各種創(chuàng)新技術(shù)的加持,金融服務(wù)行業(yè)也將迎來更多變革。

