有一個產(chǎn)品明細表,數(shù)據(jù)10萬條,帶價格,現(xiàn)在有一個1000條產(chǎn)品的表格,需要到10萬條數(shù)據(jù)里面找最相似的,并將價格列出來,同一產(chǎn)品名稱不同,比如數(shù)據(jù)庫里有大竹桿,大掃把,竹掃把1.9米,大掃帚等,我們查的產(chǎn)品可能是芨芨草掃把,需要從里面找到最相似的,我們現(xiàn)在的做法是系統(tǒng)一個字符一個字符去比對,找到比對上最多的,列出來,人工判定,今天通過大模型比對了一些案例,感覺效果很好,
主要體現(xiàn)在:一、分詞很好,能找出一條數(shù)據(jù)里面的關鍵詞,能識別規(guī)格型號,材質(zhì)、工藝、品牌等等,都能識別出來;
二、有邏輯,比如,燒杯有50ml、100ml、500ml,能找到最接近的;
三、能根據(jù)邏輯判斷哪個最相似,
如,玻璃燒杯/100ml?高型燒杯|50ml?高型燒杯|3000ml,這三個最接近的是哪兩個,大模型給出的回答是:我們可以設定一個簡單的評分系統(tǒng),其中每個匹配的特征得到一定的分數(shù),不匹配的特征得0分。假設滿分為3分(每項1分),
我們可以這樣計算:1.關鍵名詞:燒杯與高型燒杯在功能上相似,但高型燒杯更具體,考慮到這一點,我們可以給“燒杯”與“高型燒杯”之間相似度評分為0.5分(因為高型燒杯是燒杯的一種,但不是所有燒杯都是高型的)。
2.3.材質(zhì):“玻璃”在第一個描述中出現(xiàn),而在后兩個描述中未提及。但由于燒杯通常默認為玻璃材質(zhì),我們可以假設相似度為1分,除非有相反的證據(jù)。
4.5.規(guī)格尺寸:容量不同,這意味著在這一項上沒有相似性,得分為0分。
6.基于以上,我們可以計算兩兩之間的相似度得分:?玻璃燒杯/100ml 與 高型燒杯|50ml?o名稱相似度 = 0.5分o材質(zhì)相似度 = 1分o規(guī)格尺寸相似度 = 0分o總相似度 = 1.5分?玻璃燒杯/100ml 與 高型燒杯|3000ml?o名稱相似度 = 0.5分o材質(zhì)相似度 = 1分o規(guī)格尺寸相似度 = 0分o總相似度 = 1.5分?高型燒杯|50ml 與 高型燒杯|3000ml?o名稱相似度 = 1分(因為兩者都是高型燒杯)o材質(zhì)相似度 = 1分(假設兩者都是玻璃材質(zhì))o規(guī)格尺寸相似度 = 0分o總相似度 = 2分如果將總分3分視為完全相同,那么可以認為:?“玻璃燒杯/100ml”與另外兩種燒杯的相似度為50%(1.5/3)。?“高型燒杯|50ml”與“高型燒杯|3000ml”的相似度為66.67%(2/3)。
但是,大模型只能一個一個去問,如果我有一個數(shù)據(jù)庫,存了10萬條數(shù)據(jù),現(xiàn)在有1000條數(shù)據(jù)去一條一條找10萬條數(shù)據(jù)里面最相似的,用什么樣的方法更好呢?
假設我們現(xiàn)在有”關鍵名詞、型號、尺寸及規(guī)格、材質(zhì)、工藝、重量、標準號、外觀顏色、包裝、其他技術要求”這些屬性,我們對10萬條基礎數(shù)據(jù)進行處理,讓大模型先分詞,然后導出存到本地查詢數(shù)據(jù)庫里,若每次查詢的時候就先導入大模型,分詞完以后,到本地查詢數(shù)據(jù)庫,用常規(guī)模糊查詢,但是,這里面有個特別關鍵的問題,外面的系統(tǒng)查詢能不能做的更像大模型,比如,導出一個燒杯75ml,分詞以后,燒杯,75ml,但是系統(tǒng)只有50ml和100ml的,還有其他的250ml的,等等,能不能導出最接近的價格略高的那個尺寸,如這幾個里面最優(yōu)解就是100ml,這種怎么實現(xiàn),這種例子很多,再比如,系統(tǒng)存了單位是公斤,如果大模型,天然的知道和kg是一個東西,然而,導出以后,沒有大模型的幫助,這些都很難判斷,類似的例子太多了。
誰有更好的辦法解決這個問題,可以聯(lián)系我,價格面議。
途傲科技為中小企業(yè)提供網(wǎng)站制作、網(wǎng)站建設、微信H5、微信小程序,多商戶平臺,多級分銷系統(tǒng),APP開發(fā),手機網(wǎng)站,HTML5多端自適應網(wǎng)站,營銷型企業(yè)站建設,及對技術人才的培養(yǎng)等都積累與沉淀了豐富的心得和實戰(zhàn)經(jīng)驗。
如果您想定制同款軟件,可以將需求提交給我們【免費提交需求,獲取解決方案】
免責聲明:文章部分內(nèi)容收集于互聯(lián)網(wǎng),不代表本站的觀點和立場,如有侵權請聯(lián)系刪除。