国产精品999,99热在线观看,99国产精品99久久久久久,欧美性猛交99久久久久99按摩

值得收藏!速看(知識(shí)圖譜 智能問(wèn)答)知識(shí)圖譜 問(wèn)題-知識(shí)圖譜構(gòu)建下的自動(dòng)問(wèn)答KBQA系統(tǒng)實(shí)戰(zhàn)-文輝

知識(shí)圖譜問(wèn)答系統(tǒng)任務(wù)和意義

問(wèn)答系統(tǒng)(Qusstion Answering System,QA System)在大家的日常生活中隨處可見(jiàn),2014年微軟率先推出了小冰智能聊天機(jī)器人,直至現(xiàn)在越來(lái)越多如siri移動(dòng)生活助手和智能音箱等的面市,問(wèn)答作為一種信息獲取方式愈發(fā)受到大眾和廠商的關(guān)注和投入。問(wèn)答系統(tǒng)能夠接受用戶(hù)以自然語(yǔ)言形式描述的提問(wèn),并從大量的異構(gòu)數(shù)據(jù)中查到或者推理出用戶(hù)想要的答案。相比傳統(tǒng)的信息檢索系統(tǒng),問(wèn)答系統(tǒng)場(chǎng)景的核心在于用戶(hù)的信息需求相對(duì)比較明確,而系統(tǒng)直接輸出用戶(hù)想要的答案,這個(gè)答案的形式可能是文檔、結(jié)構(gòu)化的表格或者推理加工的自然語(yǔ)言文本。

問(wèn)答示例:

問(wèn)題:阿根廷的首都在哪里 => 答案:阿根廷共和國(guó)的首都為布宜諾斯艾利斯。

問(wèn)題:兒童安全鎖怎么設(shè)置 => 答案:兒童安全鎖位于各后車(chē)門(mén)的后邊緣,各車(chē)門(mén)的兒童安全鎖必須單獨(dú)設(shè)置。

設(shè)置:

左側(cè):逆時(shí)針轉(zhuǎn)動(dòng)鎖定,順時(shí)針轉(zhuǎn)動(dòng)解鎖。

右側(cè):順時(shí)針轉(zhuǎn)動(dòng)鎖定,逆時(shí)針轉(zhuǎn)動(dòng)解鎖。

知識(shí)問(wèn)答相比文本檢索,減少了用戶(hù)對(duì)檢索文檔內(nèi)容的二次提取和推理的過(guò)程,會(huì)顯著提升用戶(hù)知識(shí)獲取的體驗(yàn)。根據(jù)問(wèn)答底層技術(shù)的差異,目前工程落地實(shí)現(xiàn)問(wèn)答的技術(shù)路線基本分為基于知識(shí)圖譜的問(wèn)答(KBQA)、基于閱讀理解的問(wèn)答(MRC)和常見(jiàn)問(wèn)題問(wèn)答(FAQ)三種模式。三種問(wèn)答的對(duì)比如下:

表1 常見(jiàn)的知識(shí)問(wèn)答技術(shù)路線對(duì)比

FAQ和MRC不是本文介紹的重點(diǎn),這里簡(jiǎn)要介紹。在FAQ中,重點(diǎn)是文本語(yǔ)義匹配的精度,如 用戶(hù)的問(wèn)題是“怎么加玻璃水”,而問(wèn)答對(duì)庫(kù)中的標(biāo)準(zhǔn)問(wèn)句為“添加玻璃清潔液”,類(lèi)似的泛化問(wèn)題決定了常見(jiàn)的字符串相似度匹配無(wú)法解決,STS模型比如sentence-bert等雙編碼模型或者蘇劍林老師的sim-bert等模型或者通過(guò)領(lǐng)域詞典都可以解決類(lèi)似泛化問(wèn)題。MRC方面,基于百度dureader等中文閱讀理解數(shù)據(jù),在通用領(lǐng)域可以快速搭建一個(gè)MRC問(wèn)答服務(wù),但是垂直領(lǐng)域仍然需要標(biāo)注數(shù)據(jù)來(lái)讓模型的性能達(dá)到一個(gè)可以接受的水平。在垂直領(lǐng)域,針對(duì)MRC訓(xùn)練數(shù)據(jù)稀少的問(wèn)題,可以從非結(jié)構(gòu)化文本三元組標(biāo)注的數(shù)據(jù)得到補(bǔ)充。如對(duì)于文本“北京,簡(jiǎn)稱(chēng)‘京’,是中華人民共和國(guó)的首都,是全國(guó)的政治中心、文化中心,是世界著名古都和現(xiàn)代化國(guó)際城市。”,圖譜構(gòu)建過(guò)程中標(biāo)注的三元組為(中國(guó),首都,北京),構(gòu)造的MRC問(wèn)題即“中國(guó)的首都在哪里”,答案SPAN為“北京”的index位置。

KBQA(Knowledge Base Question Answering)作為一種底層基于知識(shí)圖譜的問(wèn)答技術(shù),相比傳統(tǒng)的文本檢索問(wèn)答和FAQ(Frequently Asked Questions),基于垂直領(lǐng)域相對(duì)固定邊界的知識(shí)圖譜,可以結(jié)合業(yè)務(wù)提供一種高級(jí)的信息服務(wù)形式,通過(guò)確認(rèn)、反饋等操作完成信息獲取?,F(xiàn)階段下,無(wú)論是通用圖譜還是領(lǐng)域圖譜,業(yè)界對(duì)簡(jiǎn)單問(wèn)答的效果都達(dá)到了一個(gè)比較好的水平,而在特定場(chǎng)景的領(lǐng)域圖譜中,經(jīng)過(guò)梳理,復(fù)雜問(wèn)答特別是推理形式的問(wèn)答也是可以達(dá)到一個(gè)比較可以好的效果。

基于知識(shí)圖譜結(jié)構(gòu)化關(guān)聯(lián)知識(shí)的問(wèn)答系統(tǒng)的業(yè)務(wù)價(jià)值包括:

知識(shí)的沉淀和高效復(fù)用,知識(shí)梳理更加明確直接,實(shí)現(xiàn)知識(shí)的瘦身和標(biāo)準(zhǔn)化;

返回的答案更能精準(zhǔn)理解用戶(hù)的意圖,答案更加直接高效,避免二次推理加工;

對(duì)知識(shí)管理的維護(hù)更加方便,實(shí)體-屬性-關(guān)系自然,方便增刪改查;

特定業(yè)務(wù)場(chǎng)景下基于專(zhuān)家經(jīng)驗(yàn)的復(fù)雜推理成為可能

智能問(wèn)答系統(tǒng)技術(shù)架構(gòu)

智能問(wèn)答系統(tǒng)的整體基礎(chǔ)框架圖所示,一共分為據(jù)預(yù)處理模塊、問(wèn)句分析、 知識(shí)檢索和答案生成四個(gè)部分。下面介紹達(dá)觀知識(shí)圖譜平臺(tái)問(wèn)答系統(tǒng)的一些具體的實(shí)踐經(jīng)驗(yàn)。

圖1 智能問(wèn)答系統(tǒng)的整體基礎(chǔ)框架

01問(wèn)句預(yù)處理

除了常見(jiàn)的分詞和詞性標(biāo)注外,還可以根據(jù)知識(shí)圖譜中已有的模式、實(shí)體名稱(chēng)、關(guān)鍵屬性值對(duì)問(wèn)句進(jìn)行糾錯(cuò)。如圖所示,根據(jù)產(chǎn)品的別名就可以對(duì)問(wèn)句中的產(chǎn)品別名進(jìn)行糾錯(cuò)。

圖2 基于知識(shí)圖譜實(shí)體鏈接的Query糾錯(cuò)

實(shí)際場(chǎng)景下的領(lǐng)域知識(shí)圖譜,更多的構(gòu)建的是知識(shí)點(diǎn)的關(guān)聯(lián),即實(shí)體作為一個(gè)知識(shí)點(diǎn),可能是一個(gè)短語(yǔ)或者一個(gè)語(yǔ)言片段,而在系統(tǒng)冷啟動(dòng)下,面對(duì)領(lǐng)域數(shù)據(jù),通過(guò)句法分析提取出query中的短語(yǔ),該候選短語(yǔ)也可以作為實(shí)體提及方便后續(xù)進(jìn)行實(shí)體鏈接。通過(guò)中文樹(shù)庫(kù)(Chinese Tree Bank,Zhang Y., Zhou H., & Li Z. Fast and accurate neural crf constituency parsing,2020)限制短語(yǔ)的詞性過(guò)濾重要的短語(yǔ),如保留名詞短語(yǔ),通過(guò)短語(yǔ)提取可以避免單詞、或者Ngram作為實(shí)體提及檢索帶來(lái)的巨大開(kāi)銷(xiāo)。我們采用HanLP自然語(yǔ)言處理包中的短語(yǔ)提取接口對(duì)query提取名詞短語(yǔ)。

02實(shí)體鏈接和詞槽提取

實(shí)體鏈接(entity linking)就是將問(wèn)句文本的某些字符串映射到知識(shí)庫(kù)中對(duì)應(yīng)的實(shí)體上。實(shí)體鏈接是問(wèn)答系統(tǒng)的核心問(wèn)題之一,實(shí)際應(yīng)用中問(wèn)答中的大部分badcase可能都是實(shí)體鏈接出現(xiàn)了問(wèn)題,如果實(shí)體識(shí)別一旦出錯(cuò),答案就很容易出現(xiàn)完全不相關(guān)。為了解決垂直行業(yè)數(shù)據(jù)冷啟動(dòng)的問(wèn)題,我們結(jié)合精確鏈和模糊鏈接相結(jié)合的方式來(lái)提高實(shí)體鏈接的精度。

實(shí)體精確鏈接利用知識(shí)庫(kù)中已有的知識(shí)點(diǎn),將模式(schema)名稱(chēng)、實(shí)體名稱(chēng)、可遍歷的枚舉屬性值集合構(gòu)建字典樹(shù)(即Trie樹(shù)),通過(guò)Trie前綴樹(shù)提取查詢(xún)中的精確實(shí)體名稱(chēng)。

我們?cè)趯?shí)際使用的Trie樹(shù)的過(guò)程中,也做了若干優(yōu)化:

以query分詞結(jié)果token作為基本粒度構(gòu)建Trie樹(shù),即命中的實(shí)體提及必須是由1個(gè)或者多個(gè)token組成的,比如對(duì)于query“中國(guó)平安”,Trie樹(shù)種存在人物名稱(chēng)“國(guó)平”,分詞結(jié)果為[中國(guó),平安],可以避免提取出 “國(guó)平”的情況。

我們對(duì)Trie進(jìn)行了性能優(yōu)化,通用的Trie都是以一個(gè)字典的嵌套層級(jí)結(jié)構(gòu),這種情況下往往存在數(shù)據(jù)稀疏的現(xiàn)象,即造成了內(nèi)存消耗比較大,另一方面也降低遍歷查詢(xún)的效率,針對(duì)這些問(wèn)題業(yè)界也有很多Trie樹(shù)的變種,如DATrie(雙數(shù)組字典樹(shù))、Radix Tree(基數(shù)樹(shù)),我們使用Radix和普通Trie做了性能對(duì)比,在200萬(wàn)實(shí)體名稱(chēng)的數(shù)據(jù)規(guī)模情況下,Radix相比Trie可以減少一半的內(nèi)存占用。

圖3 Trie樹(shù)和Radix壓縮字符串對(duì)比

Trie樹(shù)只能實(shí)現(xiàn)精確的根據(jù)實(shí)體名稱(chēng)的實(shí)體提及召回,而實(shí)際問(wèn)答中用戶(hù)的問(wèn)題可能不包含完整的實(shí)體名稱(chēng),這種情況下,需要根據(jù)NER模型抽取出Query中的實(shí)體,NER模型的候選結(jié)果和句法分析的候選名詞短語(yǔ)構(gòu)成模糊鏈接的詞匯來(lái)源,并據(jù)此到ElasticSearch中進(jìn)行檢索,通過(guò)Es的文件檢索,可以找到大部分具備和Query實(shí)體字符串相似的候選實(shí)體,通過(guò)可以對(duì)檢索結(jié)果進(jìn)行覆蓋率、差異度、緊密度等各個(gè)維度對(duì)候選的結(jié)果進(jìn)行相似性結(jié)果判斷和過(guò)濾。除了使用NER去檢索,業(yè)界也存在直接對(duì)圖譜中的實(shí)體(描述)進(jìn)行編碼,使用向量檢索去找到最相近的鏈接實(shí)體,感興趣的讀者可以參考相關(guān)文獻(xiàn)和實(shí)踐,在此就不再贅述。

表2 模糊鏈接相似性判斷規(guī)則

除了實(shí)體鏈接,還需要對(duì)提取Query中其他的槽信息,具體的槽位信息和意圖相關(guān),比如對(duì)于“查詢(xún)實(shí)體類(lèi)型的總數(shù)”這個(gè)統(tǒng)計(jì)意圖,槽位信息需要具體的實(shí)體類(lèi)型(網(wǎng)點(diǎn))、統(tǒng)計(jì)謂詞(總數(shù))。槽位從類(lèi)型上可以分為模式槽信息(實(shí)體類(lèi)型、關(guān)系類(lèi)型、屬性名)、屬性條件槽(屬性名、條件、條件值)、統(tǒng)計(jì)條件槽(統(tǒng)計(jì)謂語(yǔ):總數(shù)、最大、最小、平均等)。屬性條件槽、統(tǒng)計(jì)條件槽一般都屬于復(fù)雜問(wèn)題情形。對(duì)于類(lèi)型名稱(chēng)、統(tǒng)計(jì)謂詞,因?yàn)橄鄬?duì)比較可枚舉,也可以以類(lèi)似字典樹(shù)的方式從Query中提取。因?yàn)橹R(shí)圖譜中實(shí)體知識(shí)點(diǎn)粒度和相關(guān)組合等問(wèn)題,會(huì)導(dǎo)致候選鏈接的結(jié)果會(huì)互相重疊。一般而言,鏈接到的實(shí)體提及越長(zhǎng),其語(yǔ)義也就越明確,可靠性也更高。因此我們采用最大區(qū)間覆蓋優(yōu)先的篩選方法,優(yōu)先保留鏈接更大的結(jié)果。如下圖所示,有限保留“Aegis分叉型覆膜支架及輸送系統(tǒng)”的鏈接結(jié)果,而忽略“支架”、“覆膜”鏈接結(jié)果。

圖4 多粒度下的實(shí)體提及識(shí)別

鏈接到多個(gè)實(shí)體提及或者槽需要進(jìn)一步去除其中的歧義信息,例如Query:“平安銀行的董事”,該問(wèn)題為查詢(xún)實(shí)體一度到達(dá)實(shí)體的問(wèn)題,問(wèn)題中的“董事”鏈接到董事(關(guān)系名稱(chēng),企業(yè)->人物)和董事(人物名稱(chēng))兩個(gè)實(shí)體,對(duì)實(shí)體消岐的問(wèn)題可以借助分類(lèi)模型對(duì)Query 上下文進(jìn)行分類(lèi)判斷,也可以借助知識(shí)圖譜通過(guò)子圖匹配的方法消除歧義。平安銀行作為一個(gè)企業(yè),通過(guò)董事關(guān)系可以查詢(xún)一度實(shí)體;而董事作為一個(gè)人物,其一度的企業(yè)中無(wú)平安銀行。通過(guò)槽位到子圖的相關(guān)性打分,槽位組合[平安銀行(企業(yè)),董事(關(guān)系名稱(chēng))]比[平安銀行(企業(yè)),董事(人物)]更加合理,優(yōu)先選擇更相關(guān)的組合作為槽提取的結(jié)果。

03問(wèn)答意圖識(shí)別

KBQA的意圖相比傳統(tǒng)檢索意圖會(huì)更加的復(fù)雜,實(shí)際應(yīng)用中,文本檢索的意圖一般定義為搜什么,可能會(huì)采用“玩具”、“外賣(mài)”、“電影”這種類(lèi)別體系來(lái)區(qū)分, 比如“變形金剛的票價(jià)”其實(shí)搜的就是變形金剛的電影,而KBQA的意圖因?yàn)榇鸢傅木珳?zhǔn)、直接特點(diǎn),注定了KBQA的意圖的粒度會(huì)更細(xì)、維度會(huì)更多,例如查詢(xún)實(shí)體的屬性、條件過(guò)濾的實(shí)體、統(tǒng)計(jì)類(lèi)查詢(xún)、對(duì)比查詢(xún)等。

表3 常見(jiàn)的KBQA問(wèn)答意圖

問(wèn)答意圖可以通過(guò)模板匹配和基于神經(jīng)網(wǎng)絡(luò)的判別模型來(lái)識(shí)別。模板匹配通過(guò)系統(tǒng)內(nèi)置的固定模板和自定義模板可以保證系統(tǒng)冷啟動(dòng)的基礎(chǔ)問(wèn)答效果。基于神經(jīng)網(wǎng)絡(luò)的意圖判別模型需要在特定的圖譜下大量的訓(xùn)練樣本,例如使用fasttext等常見(jiàn)文本分類(lèi)模型對(duì)Query進(jìn)行意圖分類(lèi)。在垂直領(lǐng)域下,特別是用戶(hù)的特定場(chǎng)景中,訓(xùn)練樣本的生成和構(gòu)造一直是一個(gè)較大的挑戰(zhàn),一種常見(jiàn)的方法就是配置問(wèn)題模板,自動(dòng)生成訓(xùn)練樣本問(wèn)題。比如對(duì)于意圖“疾病的癥狀”,可以使用“${疾病名稱(chēng)|別名}的[癥狀|表現(xiàn)|癥候]”模板,使用圖譜的疾病實(shí)體,批量生成樣本。分類(lèi)模型相比模板匹配可以一定程度解決SPO一度問(wèn)答問(wèn)題的泛化問(wèn)題。

結(jié)合問(wèn)句分析的結(jié)果,從技術(shù)路線上主要可以分為基于檢索排序的問(wèn)答策略和基于語(yǔ)法解析的問(wèn)答,基于排序檢索的問(wèn)答結(jié)合Query和問(wèn)句分析的結(jié)果,找到圖譜中若干個(gè)子圖,然后對(duì)這些子圖進(jìn)行排序,返回Top結(jié)果作為答案;基于語(yǔ)法解析的策略則將Query轉(zhuǎn)成成一個(gè)完成圖查詢(xún)語(yǔ)句,將執(zhí)行該圖查詢(xún)語(yǔ)句的結(jié)果作為答案。

基于檢索排序的問(wèn)答策略

類(lèi)似推薦系統(tǒng)的召回-排序兩段策略,KBQA我們也可以利用問(wèn)句分析的結(jié)果召回子圖,然后計(jì)算Query和每個(gè)子圖的相關(guān)性,返回Top子圖??梢钥闯龌跈z索排序的問(wèn)答策略回避了語(yǔ)法解析的難題,一般只需要問(wèn)答-答案的標(biāo)注數(shù)據(jù)采用端到端的訓(xùn)練即可,泛化能力較強(qiáng)。其中比較核心的問(wèn)題在于檔答案的表示形式。達(dá)觀知識(shí)圖譜問(wèn)答系統(tǒng)結(jié)合知識(shí)圖譜的模式,生成特定的答案文本形式。

基本的主要流程如下:

使用問(wèn)句分析的實(shí)體,如“陸德明”,查詢(xún)?cè)搶?shí)體的一度屬性、一度實(shí)體、一度關(guān)系屬性等三元組信息,謂詞的判斷特別重要,因此我們考慮生成只包含實(shí)體和謂詞的候選三元組,即將O置空,(“陸德明出生日期”、“陸德明就職”);

將候選三元組信息作為整個(gè)文本串進(jìn)行語(yǔ)義編碼,如“陸德明出生日期”、“陸德明就職浦東支行”,因?yàn)檎麄€(gè)三元組JOIN成了一個(gè)字符串,所以對(duì)圖譜的模式設(shè)計(jì)也至關(guān)重要,對(duì)于[陸德明,就職,浦東支行]這個(gè)SPO,如果將關(guān)系設(shè)計(jì)的開(kāi)始結(jié)束實(shí)體顛倒過(guò)來(lái),則生成的候選串就缺乏語(yǔ)義了(浦東支行就職陸德明語(yǔ)法明顯不合理);

將Query同樣進(jìn)行編碼,計(jì)算向量距離作為相關(guān)性打分的判斷依據(jù)。對(duì)于Query的編碼同樣也需要考慮鏈接的實(shí)體和實(shí)體提及的差異,如“Aegis的工序”,需要將Aegis替換成知識(shí)庫(kù)中的實(shí)體名稱(chēng),如“Aegis分叉型覆膜支架和輸送系統(tǒng)的工序”,其和候選串“Aegis分叉型覆膜支架和輸送系統(tǒng)工藝”的相似度更高,不容易被拒識(shí)。

圖5 候選答案SPO生成

在實(shí)際的SPO一度問(wèn)答應(yīng)用中,謂詞即是最核心意圖。對(duì)于“陸德明的生日是哪天”,陸德明的屬性謂詞“出生日期”作為正樣本,其他實(shí)體屬性”家庭住址”、關(guān)系屬性“就職”等都可以作為負(fù)樣本,標(biāo)簽為0。如此在足夠的樣本情況下,可以訓(xùn)練一個(gè)分類(lèi)模型,作為上述第3)步中的匹配模型。

以上策略降低了工程上實(shí)現(xiàn)的復(fù)雜度,但是因?yàn)樾枰幋a和存儲(chǔ)候選答案的語(yǔ)義編碼,同時(shí)可能還需要費(fèi)力收集負(fù)樣本去構(gòu)建一個(gè)文本語(yǔ)義匹配模型,因此還有一種有意思的策略是基于Seq2Seq + True(前綴樹(shù),壓縮知識(shí)庫(kù)的答案集合,約束Seq2Seq編碼)的實(shí)現(xiàn)方式,可以避免語(yǔ)義編碼和文本意義匹配模型的訓(xùn)練步驟。

基本步驟包括:

使用Trie樹(shù)壓縮存儲(chǔ)三元組;

構(gòu)造訓(xùn)練集,訓(xùn)練Seq2Seq模型,下圖是基于roformer-sim

(參考:https://github.com/ZhuiyiTechnology/roformer-sim)的Seq2Seq架構(gòu)

圖6 基于reformer-sim的seq2seq框架

最后在解碼的過(guò)程中,通過(guò)Trie限定decode的輸出范圍,從而保證輸出的三元組答案一定在庫(kù)中。關(guān)于Seq2Seq + Trie的具體實(shí)現(xiàn)方式可以參看KgClue的一個(gè)baseline實(shí)現(xiàn)(https://github.com/bojone/KgCLUE-bert4keras)。

基于語(yǔ)法解析的問(wèn)答策略

復(fù)雜問(wèn)句因?yàn)橥枰獜囊粋€(gè)多實(shí)體多關(guān)系的子圖推理而來(lái),因此一般采用將問(wèn)句通過(guò)語(yǔ)法分析的方式轉(zhuǎn)換成特定的查詢(xún)語(yǔ)句或者查詢(xún)解析樹(shù)(原理類(lèi)似SQL的執(zhí)行計(jì)劃)。相比簡(jiǎn)單的一度屬性關(guān)系查詢(xún),復(fù)雜的問(wèn)答包括多跳問(wèn)題、約束問(wèn)題、統(tǒng)計(jì)問(wèn)題等。

表4 復(fù)雜KBQA類(lèi)型示例

因?yàn)槭切枰獙uery轉(zhuǎn)成查詢(xún)語(yǔ)句,一般深度學(xué)習(xí)的做法是使用如BART等生成模型,生成對(duì)應(yīng)的查詢(xún)語(yǔ)句。這里介紹一下史佳欣團(tuán)隊(duì)KQA Pro(https://github.com/shijx12)的處理思路。通過(guò)將自然語(yǔ)言問(wèn)題表示為基本函數(shù)組合而成的KoPL函數(shù),函數(shù)運(yùn)行的結(jié)果即為答案。KoPL中的函數(shù)包含F(xiàn)indALL、FilterSTR、Count等函數(shù),函數(shù)存在相互輸入輸出的依賴(lài),一個(gè)KoPL程序就是一個(gè)有向無(wú)環(huán)圖。整個(gè)推理過(guò)程分為生成骨架和生成參數(shù)兩個(gè)部分。骨架指定了執(zhí)行的類(lèi)型和順序,參數(shù)指定了每個(gè)函數(shù)具體操作的輸入?;贐ART的KQA Pro的baseline目前可以達(dá)到90%左右,人類(lèi)是97%。

圖7 骨架解析器和參數(shù)解析器

基于Seq2Seq的生成查詢(xún)語(yǔ)句實(shí)際落地過(guò)程中,往往由于人力、算力、可維護(hù)等各個(gè)角度,圖譜的完整性剛開(kāi)始階段不是特別的好,缺乏足夠多質(zhì)量較高的訓(xùn)練樣本,因此基于深度學(xué)習(xí)的方法很難直接就可以發(fā)揮作用。對(duì)于復(fù)雜推理問(wèn)答仍然需要一套靈活可配置的接口定義,可以方便對(duì)規(guī)則和模板等進(jìn)行管理。參考KoPL的設(shè)計(jì),將基礎(chǔ)查詢(xún)封裝成基礎(chǔ)算子,可以快速配置出如下圖所示的一個(gè)復(fù)雜意圖。

垂直領(lǐng)域的問(wèn)答應(yīng)用

01基于概念知識(shí)圖譜的使用手冊(cè)問(wèn)答

概念圖譜與實(shí)體圖譜不同,它的實(shí)體是由一個(gè)個(gè)概念組成的,相應(yīng)的概念和概念之間存在一定的語(yǔ)義關(guān)系。對(duì)于制度、手冊(cè)類(lèi)的場(chǎng)景,層次分明但很難提煉具體實(shí)例的場(chǎng)景比較適合構(gòu)建概念圖譜。概念圖譜是將隱形的知識(shí)體系化、鮮明化,更好地捕捉到用戶(hù)搜索的隱含意圖,從而達(dá)到更精準(zhǔn)反饋用戶(hù)想要知識(shí)的目的。如下是將汽車(chē)使用手冊(cè)拆分成分類(lèi)層、原始概念、組合概念、意圖層,實(shí)現(xiàn)知識(shí)最小粒度拆分的同時(shí),滿(mǎn)足復(fù)雜組合的意圖解析。最后通過(guò)達(dá)觀自然語(yǔ)言處理技術(shù)將手冊(cè)進(jìn)行知識(shí)結(jié)構(gòu)化,并構(gòu)建知識(shí)圖譜。

圖8 基于組合概念的汽車(chē)手冊(cè)知識(shí)圖譜

在知識(shí)問(wèn)答處理過(guò)程中,根據(jù)用戶(hù)輸入問(wèn)句,解析原子級(jí)最小顆粒度的概念,逐層推理出最可能的組合概念,也就是用戶(hù)的真實(shí)意圖,從而實(shí)現(xiàn)更加精準(zhǔn)的意圖分析和答案推薦。

02基于失效知識(shí)圖譜的根因關(guān)聯(lián)

達(dá)觀工業(yè)知識(shí)圖譜從“人機(jī)料法環(huán)”等角度,將設(shè)備、人員、故障案例、工藝工序等數(shù)據(jù)構(gòu)建知識(shí)圖譜。輸入失效模式、位置、現(xiàn)象等信息,通過(guò)智能問(wèn)答語(yǔ)義分析引擎,可以將查詢(xún)生成與之最匹配的子圖,通過(guò)子圖可以匹配到根本原因?qū)嶓w,如果子圖鏈接不精準(zhǔn),支持對(duì)子圖進(jìn)行修改,子圖越豐富,鏈接到的原因也就越精準(zhǔn)。同時(shí)可以返回圖譜關(guān)聯(lián)的案例相關(guān)人員、相關(guān)排查解決措施等快速提高解決故障的效率。

知識(shí)圖譜問(wèn)答系統(tǒng)面臨的困難

知識(shí)圖譜問(wèn)答系統(tǒng)總體上可以分為Pipeline和端到端兩種方案,端到端的深度學(xué)習(xí)模型首先需要一個(gè)足夠完整的圖譜和基于這個(gè)圖譜產(chǎn)生足夠多的樣本數(shù)據(jù),而在實(shí)際項(xiàng)目中比較困難。相比較而言,實(shí)際落地過(guò)程中,Pipeline的方式會(huì)更可行,可以方便對(duì)每個(gè)過(guò)程或者步驟進(jìn)行控制和定向優(yōu)化,如添加業(yè)務(wù)詞典去提高實(shí)體鏈接的精度等等。

中文知識(shí)圖譜復(fù)雜問(wèn)答目前很難自動(dòng)化就獲得一個(gè)較好的base效果,目前業(yè)界或多或少都會(huì)采用模板庫(kù)的方式來(lái)解決特定問(wèn)題。在垂直領(lǐng)域特定的圖譜模式下,通過(guò)KBQA和推理可以體現(xiàn)出足夠深度的專(zhuān)家經(jīng)驗(yàn),同時(shí)輔助一定結(jié)構(gòu)化的數(shù)據(jù)降低圖譜構(gòu)建和維護(hù)的成本,這會(huì)是體現(xiàn)知識(shí)圖譜問(wèn)答價(jià)值的方式之一。

參考文章:

https://huggingface.co/uer/roberta-base-chinese-extractive-qa

https://zhuanlan.zhihu.com/kb-qa

https://mp.weixin.qq.com/s/nN0aSXQN_IyjIJ1mRT5s3w

https://mp.weixin.qq.com/s/8vz32-tLU6U1oYPErhbW0Q

https://www.infoq.cn/article/ochiwf5rkuabdxm5s28x

https://www.kexue.fm/archives/7427

http://thukeg.gitee.io/kqa-pro/

https://mp.weixin.qq.com/s/F-_qyHTsPtlrK77JgWidoA

作者簡(jiǎn)介

文輝,達(dá)觀數(shù)據(jù)聯(lián)合創(chuàng)始人,主要負(fù)責(zé)達(dá)觀數(shù)據(jù)知識(shí)圖譜方向產(chǎn)品和技術(shù)研發(fā)。同濟(jì)大學(xué)計(jì)算機(jī)應(yīng)用技術(shù)專(zhuān)業(yè)碩士,曾任職盛大文學(xué)數(shù)據(jù)中心和閱讀集團(tuán)數(shù)據(jù)中心核心研發(fā)工程師,負(fù)責(zé)智能推薦系統(tǒng)、數(shù)據(jù)挖掘和分析、分布式大數(shù)據(jù)平臺(tái)、分布式爬蟲(chóng)系統(tǒng)的研發(fā)工作,在知識(shí)圖譜、搜索推薦、自然語(yǔ)言處理、分布式平臺(tái)架構(gòu)設(shè)計(jì)等方面具備充足的研發(fā)和實(shí)踐經(jīng)驗(yàn)。

舉報(bào)/反饋

以上就是【值得收藏!速看(知識(shí)圖譜 智能問(wèn)答)知識(shí)圖譜 問(wèn)題-知識(shí)圖譜構(gòu)建下的自動(dòng)問(wèn)答KBQA系統(tǒng)實(shí)戰(zhàn)-文輝】的全部?jī)?nèi)容。

微信:N915888888
(歡迎您前來(lái)咨詢(xún))

評(píng)論

留下您的評(píng)論

發(fā) 表
微信:N915888888

微信:N915888888
(歡迎您前來(lái)咨詢(xún))

微信:N915888888
本溪| 博乐市| 新郑市| 定安县| 牟定县| 鄂托克旗| 金川县| 南陵县| 贺州市| 元阳县| 兴海县| 宜良县| 浪卡子县| 凤庆县| 道孚县| 吉林省| 耿马| 平舆县| 望奎县| 固安县| 大兴区| 镇平县| 太仆寺旗| 岐山县| 白山市| 富宁县| 拜泉县| 威海市| 泸水县| 赤城县| 万载县| 雷波县| 龙游县| 洛浦县| 楚雄市| 筠连县| 英山县| 扶沟县| 麦盖提县| 独山县| 武宣县|