色噜噜人体337p人体 I 超碰97观看 I 91久久香蕉国产日韩欧美9色 I 色婷婷我要去我去也 I 日本午夜a I 国产av高清怡春院 I 桃色精品 I 91香蕉国产 I 另类小说第一页 I 日操夜夜操 I 久久性色 I 日韩欧在线 I 国产深夜在线观看 I 免费的av I 18在线观看视频 I 他也色在线视频 I 亚洲熟女中文字幕男人总站 I 亚洲国产综合精品中文第一 I 人妻丰满熟av无码区hd I 新黄色网址 I 国产精品真实灌醉女在线播放 I 欧美巨大荫蒂茸毛毛人妖 I 国产一区欧美 I 欧洲亚洲1卡二卡三卡2021 I 国产亚洲欧美在线观看三区 I 97精品无人区乱码在线观看 I 欧美妇人 I 96精品在线视频 I 国产人免费视频在线观看 I 91麻豆国产福利在线观看

基于可擴展的網(wǎng)頁關(guān)鍵信息抽取研究論文

時間:2021-04-14 16:23:04 論文 我要投稿

基于可擴展的網(wǎng)頁關(guān)鍵信息抽取研究論文

  1 引言

基于可擴展的網(wǎng)頁關(guān)鍵信息抽取研究論文

  網(wǎng)頁的關(guān)鍵信息是網(wǎng)頁的最基本的信息,它體現(xiàn)了該網(wǎng)頁和其他網(wǎng)頁的差別。常見的關(guān)鍵信息有正文、作者、來源、發(fā)布時間等。在網(wǎng)絡(luò)輿情監(jiān)控、網(wǎng)絡(luò)情報分析、搜索引擎等重大網(wǎng)絡(luò)應(yīng)用中,這些關(guān)鍵信息都是后期分析挖掘必不可少的基礎(chǔ)數(shù)據(jù)。需要利用網(wǎng)絡(luò)信息抽取技術(shù)從網(wǎng)頁中抽取出這些關(guān)鍵信息。從某種角度上講,關(guān)鍵信息的抽取質(zhì)量直接決定了網(wǎng)絡(luò)應(yīng)用服務(wù)的效果。因此,網(wǎng)頁的關(guān)鍵信息抽取研究具有重大的應(yīng)用價值。

  隨著網(wǎng)頁規(guī)模呈指數(shù)級增長,在網(wǎng)絡(luò)應(yīng)用中,模板無關(guān)的全自動信息抽取算法和基于模板的信息抽取算法以其特有的優(yōu)勢成為信息抽取環(huán)節(jié)的主流算法。該算法通常針對特定需求,利用一些經(jīng)驗規(guī)則處理特定領(lǐng)域或特定格式的網(wǎng)頁。因為抽取過程無需人工干預(yù),所以此類算法越來越多地應(yīng)用于實際網(wǎng)絡(luò)環(huán)境中。基于模板的信息抽取算法充分利用了動態(tài)網(wǎng)頁的規(guī)律:網(wǎng)頁是由同一個模板生成的,屬于模板的符號不會變化,變化的只是模板中填充的數(shù)據(jù)。因此,該算法在對動態(tài)網(wǎng)頁進行抽取時能夠取得較高的精度。

  但是,這兩類抽取算法也存在著其固有的缺陷。模板無關(guān)的全自動抽取算法通常基于過強的假設(shè)。在處理多樣性日益顯著的網(wǎng)頁時,常常因為某些網(wǎng)頁不符合假設(shè),而導(dǎo)致出現(xiàn)抽取精度不能滿足需求的情況;并且由于使用過多規(guī)則,導(dǎo)致抽取效率低的情況。使用基于模板的信息抽取算法進行抽取時,需先針對某類網(wǎng)頁學(xué)習(xí)出模板,后人工標(biāo)注。面對日益增多的數(shù)據(jù)源,會導(dǎo)致網(wǎng)絡(luò)應(yīng)用的運維代價過大;同時日益復(fù)雜的網(wǎng)頁使得模板的準(zhǔn)確性下降,從而導(dǎo)致抽取精度下降。

  針對上述模板無關(guān)的全自動信息抽取算法和基于模板的信息抽取算法的缺陷,本文進行了深入研究。本文的貢獻主要有以下兩點。首先,提出了一種可擴展的網(wǎng)頁關(guān)鍵信息抽取框架。該框架通過輸入訓(xùn)練網(wǎng)頁或其他算法的抽取結(jié)果,生成關(guān)鍵信息模板集。再通過模板的正交過濾算法,生成候選的關(guān)鍵信息模板。最后通過模板的特征過濾算法,生成最終的關(guān)鍵信息模板。利用該模板可快速、準(zhǔn)確地從同類型網(wǎng)頁中抽取關(guān)鍵信息。該框架很好地融合了模板無關(guān)的全自動信息抽取算法和基于模板的信息抽取算法,使得兩類算法能夠充分發(fā)揮各自的優(yōu)點,并在缺點方面互相彌補。實驗結(jié)果表明,該框架能夠在抽取精度、抽取效率方面有本質(zhì)上的提高。此外,該框架具有很好的可擴展性,框架中的一些關(guān)鍵環(huán)節(jié)可根據(jù)需求進行替換。其次,本文提出了模板的正交過濾算法,該算法將訓(xùn)練網(wǎng)頁或其他算法的抽取結(jié)果分成若干份,生成若干個模板,再通過模板的正交過濾算法,過濾掉模板中的噪音部分,得到候選模板。將該算法引入基于模板的抽取算法中,能夠從本質(zhì)上提高生成的模板的準(zhǔn)確性,最后的實驗結(jié)果也充分驗證了這一結(jié)論。

  2 相關(guān)工作

  網(wǎng)頁信息抽取是一種針對網(wǎng)絡(luò)數(shù)據(jù)源和網(wǎng)頁進行深度處理和加工的過程。由于網(wǎng)頁的復(fù)雜性和多樣性,使得網(wǎng)頁信息抽取算法也越來越多。常見的網(wǎng)頁信息抽取算法主要可分為4類:包裝器語言、包裝器歸納、基于模板的信息抽取和模板無關(guān)的全自動信息抽取。由于包裝器語言和包裝器歸納都需要過多的人工干預(yù),所以在實際的工程應(yīng)用中,基于模板的信息抽取算法和模板無關(guān)的全自動信息抽取算法以其較強的實用性占據(jù)了主流的位置。基于模板的信息抽取通常基于這樣的假設(shè):待抽取的網(wǎng)頁是由同一個模板生成的,屬于模板的'符號不會變化,變化的只是模板中填充的數(shù)據(jù)。符合這種生成模型的網(wǎng)頁都可以利用網(wǎng)頁模板分析方法來抽取。互聯(lián)網(wǎng)上大量存在的動態(tài)網(wǎng)頁是由機器生成的(例如論壇)網(wǎng)頁。基于模板的信息抽取的工作流程是:

  1)利用多個同類型網(wǎng)頁中具有共性的不變的部分生成一個模板;

  2)根據(jù)模板對同類型網(wǎng)頁進行抽取。因為此類算法過濾了網(wǎng)頁中的大量模板,只留下了數(shù)據(jù),同時自動還原出了數(shù)據(jù)的結(jié)構(gòu),使得用戶在付出較小人工代價的同時,能夠獲得較為準(zhǔn)確的關(guān)鍵信息。因此此類算法一直都是網(wǎng)絡(luò)應(yīng)用中的主流算法。但是該類算法具有這樣的缺陷:首先需要針對同類型的網(wǎng)頁生成一個模板。模板的準(zhǔn)確性直接決定了后續(xù)信息抽取的精確度。隨著網(wǎng)頁復(fù)雜性以及同一類型網(wǎng)頁的差異性的增大,生成的模板準(zhǔn)確性隨之降低。模板無關(guān)的全自動信息抽取算法進一步提高了信息抽取的自動化程度。此類算法通常利用一些經(jīng)驗規(guī)則處理特定領(lǐng)域或特定格式的網(wǎng)頁,例如,經(jīng)典的全自動信息抽取算法MDR。該算法的缺陷在于通常基于過強的假設(shè)。以網(wǎng)頁正文抽取為例。網(wǎng)頁的正文往往是各大網(wǎng)絡(luò)應(yīng)用都需要的關(guān)鍵信息,有不少針對正文抽取的模板無關(guān)的全自動抽取算法。CoreEx是通過計算DOM 樹中的鏈接文本比來確定正文所在的范圍。CETR是通過標(biāo)簽的密度來確定正文所在的范圍。CETD結(jié)合了二者優(yōu)點。這些算法自動化程度高,通用性強,但是效率較低,且假設(shè)過強,精確度不如基于模板的算法。VIPS是一種通用性較強的算法,但是它需要渲染網(wǎng)頁。因此這種方法的效率較低。

  在以往的文獻中,較少看到將模板無關(guān)的全自動信息抽取算法和基于模板的信息抽取算法結(jié)合使用的相關(guān)研究。在本文提出的框架中,巧妙地將這兩種算法有機地結(jié)合起來,使得二者能夠取長補短,從本質(zhì)上提高信息抽取的質(zhì)量。

【基于可擴展的網(wǎng)頁關(guān)鍵信息抽取研究論文】相關(guān)文章:

基于數(shù)據(jù)抽取與訂閱實現(xiàn)數(shù)據(jù)共享分析及研究論文10-30

合理定價評審抽取研究論文03-30

有關(guān)合理定價評審抽取的研究論文04-03

基于多單片機的串口擴展設(shè)計論文11-17

基于科技信息共享云服務(wù)機制研究論文11-02

基于Web的農(nóng)機推廣信息系統(tǒng)的研究與設(shè)計論文11-02

基于GIS的農(nóng)業(yè)動態(tài)信息共享網(wǎng)絡(luò)平臺研究論文11-07

基于CDI0理念下的《網(wǎng)頁設(shè)計》教學(xué)思考與研究的論文01-11

基于視覺搜索因素的網(wǎng)頁設(shè)計論文11-15

主站蜘蛛池模板: 亚洲图区欧美 | 精品国产美女福到在线 | 亚洲内射少妇av影院 | 国产豪妇荡乳1—35 yy成人免费一区二区 | 毛片av免费在线观看 | 日韩高清在线观看永久 | 欧美a级网站| 欧美 日韩 三区 | 一个人在线观看免费视频www | 97超级碰碰碰精品色视频在线观看 | 在线播放偷拍一区精品 | 日韩av一国产av一中文字慕 | 国产嫩草影院久久久 | 亚洲成人日本 | 最新在线精品国产福利 | 三级不卡 | 少妇视频一区二区三区 | 亚洲女人初尝黑人巨大 | 午夜剧场午夜剧场 | 免费观看添你到高潮视频 | 亚洲精品国产aⅴ成拍色拍 老司机深夜18禁污污网站 | 久久人人97超碰爱香蕉 | 国产成人牲交在线观看视频 | 看黄a大片爽爽影院免费无码 | 久久先锋男人av资源网站 | 成人黄色网址在线观看 | 日韩在线视频你懂的 | 国产三级a三级三级 | 国产免费嫩草影院 | 九九久久精品国产 | 欧美色图第一页 | 亚洲精品一区二区三区大桥未久 | 一区日韩 | 玖玖爱视频在线观看 | 黄色日韩网站 | 国产成人无码精品久久久性色 | 视频一区中文字幕 | jlzzjizz在线播放观看 | 色丁香婷婷综合久久 | 中文字幕人妻被公上司喝醉 | 亚洲淫男的高潮合集 | 亚洲成av人在线视猫咪 | 在线精品一区 | 一级特黄生活片 | 午夜爽爽爽羞羞视频影院 | 97亚色| 网站av| 亚洲一区二区三区在线视频 | 无码国产精品一区二区vr | 亚洲精品无码成人a片在 | 少妇被粗大猛进进出出 | 免费人妻无码不卡中文字幕18禁 | 国产美女无遮挡免费 | 久久99久久99精品中文字幕 | 天天舔天天爱 | 中文字幕+乱码+中文乱码www | 日韩高清在线免费观看 | 欧美国产成人久久精品 | 日韩激情中文字幕 | 日本亚洲vr欧美不卡高清专区 | 国内外精品成人免费视频 | 午夜成人无码免费看试看 | 国产成人免费ā片在线观看 | 国产精品一区二区av日韩在线 | 久久国产午夜精品理论片推荐 | 久草日b视频一二三区 | 成年人视频在线免费观看 | 大奶一区二区 | 色拍综合 | 精品视频在线观自拍自拍 | 亚洲欧洲自拍偷拍 | 男人天堂av影院 | 人人爱人人艹 | av潮喷大喷水系列无码 | 视频丨9l丨白浆 | 国产成人无码va在线观看 | 亚洲国产精品一区二区成人片 | 色窝窝色蝌蚪在线视频 | 色吊丝最新永久免费观看网址 | 日韩一级特黄aa大片99视频 | 欧美日韩免费在线 | 欧美一级日韩三级 | 欧美日韩国产一级片 | 国产免费一级特黄录像 | 日本α片| 国产人与禽zoz0性伦多活几年 | 中文字幕第一页在线播放 | 山外人精品影院 | 久久俺也去丁香综合色 | 国产日本高清电视 | 国产又粗又硬又爽又黄的视频 | 西西人体www44rt大胆高清 | 日本小视频网站 | 国产无遮挡18禁网站免费 | 69国产成人综合久久精品欧美 | 伊人久久大香线蕉av最新午夜 | 人人妻人人澡人人爽欧美一区九九 | 久爱精品视频在线播放 | 丰满的少妇xxxxx人伦理 |