色噜噜人体337p人体 I 超碰97观看 I 91久久香蕉国产日韩欧美9色 I 色婷婷我要去我去也 I 日本午夜a I 国产av高清怡春院 I 桃色精品 I 91香蕉国产 I 另类小说第一页 I 日操夜夜操 I 久久性色 I 日韩欧在线 I 国产深夜在线观看 I 免费的av I 18在线观看视频 I 他也色在线视频 I 亚洲熟女中文字幕男人总站 I 亚洲国产综合精品中文第一 I 人妻丰满熟av无码区hd I 新黄色网址 I 国产精品真实灌醉女在线播放 I 欧美巨大荫蒂茸毛毛人妖 I 国产一区欧美 I 欧洲亚洲1卡二卡三卡2021 I 国产亚洲欧美在线观看三区 I 97精品无人区乱码在线观看 I 欧美妇人 I 96精品在线视频 I 国产人免费视频在线观看 I 91麻豆国产福利在线观看

基于可擴展的網(wǎng)頁關(guān)鍵信息抽取研究論文

時間:2021-04-14 16:23:04 論文 我要投稿

基于可擴展的網(wǎng)頁關(guān)鍵信息抽取研究論文

  1 引言

基于可擴展的網(wǎng)頁關(guān)鍵信息抽取研究論文

  網(wǎng)頁的關(guān)鍵信息是網(wǎng)頁的最基本的信息,它體現(xiàn)了該網(wǎng)頁和其他網(wǎng)頁的差別。常見的關(guān)鍵信息有正文、作者、來源、發(fā)布時間等。在網(wǎng)絡(luò)輿情監(jiān)控、網(wǎng)絡(luò)情報分析、搜索引擎等重大網(wǎng)絡(luò)應(yīng)用中,這些關(guān)鍵信息都是后期分析挖掘必不可少的基礎(chǔ)數(shù)據(jù)。需要利用網(wǎng)絡(luò)信息抽取技術(shù)從網(wǎng)頁中抽取出這些關(guān)鍵信息。從某種角度上講,關(guān)鍵信息的抽取質(zhì)量直接決定了網(wǎng)絡(luò)應(yīng)用服務(wù)的效果。因此,網(wǎng)頁的關(guān)鍵信息抽取研究具有重大的應(yīng)用價值。

  隨著網(wǎng)頁規(guī)模呈指數(shù)級增長,在網(wǎng)絡(luò)應(yīng)用中,模板無關(guān)的全自動信息抽取算法和基于模板的信息抽取算法以其特有的優(yōu)勢成為信息抽取環(huán)節(jié)的主流算法。該算法通常針對特定需求,利用一些經(jīng)驗規(guī)則處理特定領(lǐng)域或特定格式的網(wǎng)頁。因為抽取過程無需人工干預(yù),所以此類算法越來越多地應(yīng)用于實際網(wǎng)絡(luò)環(huán)境中。基于模板的信息抽取算法充分利用了動態(tài)網(wǎng)頁的規(guī)律:網(wǎng)頁是由同一個模板生成的,屬于模板的符號不會變化,變化的只是模板中填充的數(shù)據(jù)。因此,該算法在對動態(tài)網(wǎng)頁進行抽取時能夠取得較高的精度。

  但是,這兩類抽取算法也存在著其固有的缺陷。模板無關(guān)的全自動抽取算法通常基于過強的假設(shè)。在處理多樣性日益顯著的網(wǎng)頁時,常常因為某些網(wǎng)頁不符合假設(shè),而導(dǎo)致出現(xiàn)抽取精度不能滿足需求的情況;并且由于使用過多規(guī)則,導(dǎo)致抽取效率低的情況。使用基于模板的信息抽取算法進行抽取時,需先針對某類網(wǎng)頁學(xué)習(xí)出模板,后人工標(biāo)注。面對日益增多的數(shù)據(jù)源,會導(dǎo)致網(wǎng)絡(luò)應(yīng)用的運維代價過大;同時日益復(fù)雜的網(wǎng)頁使得模板的準(zhǔn)確性下降,從而導(dǎo)致抽取精度下降。

  針對上述模板無關(guān)的全自動信息抽取算法和基于模板的信息抽取算法的缺陷,本文進行了深入研究。本文的貢獻主要有以下兩點。首先,提出了一種可擴展的網(wǎng)頁關(guān)鍵信息抽取框架。該框架通過輸入訓(xùn)練網(wǎng)頁或其他算法的抽取結(jié)果,生成關(guān)鍵信息模板集。再通過模板的正交過濾算法,生成候選的關(guān)鍵信息模板。最后通過模板的特征過濾算法,生成最終的關(guān)鍵信息模板。利用該模板可快速、準(zhǔn)確地從同類型網(wǎng)頁中抽取關(guān)鍵信息。該框架很好地融合了模板無關(guān)的全自動信息抽取算法和基于模板的信息抽取算法,使得兩類算法能夠充分發(fā)揮各自的優(yōu)點,并在缺點方面互相彌補。實驗結(jié)果表明,該框架能夠在抽取精度、抽取效率方面有本質(zhì)上的提高。此外,該框架具有很好的可擴展性,框架中的一些關(guān)鍵環(huán)節(jié)可根據(jù)需求進行替換。其次,本文提出了模板的正交過濾算法,該算法將訓(xùn)練網(wǎng)頁或其他算法的抽取結(jié)果分成若干份,生成若干個模板,再通過模板的正交過濾算法,過濾掉模板中的噪音部分,得到候選模板。將該算法引入基于模板的抽取算法中,能夠從本質(zhì)上提高生成的模板的準(zhǔn)確性,最后的實驗結(jié)果也充分驗證了這一結(jié)論。

  2 相關(guān)工作

  網(wǎng)頁信息抽取是一種針對網(wǎng)絡(luò)數(shù)據(jù)源和網(wǎng)頁進行深度處理和加工的過程。由于網(wǎng)頁的復(fù)雜性和多樣性,使得網(wǎng)頁信息抽取算法也越來越多。常見的網(wǎng)頁信息抽取算法主要可分為4類:包裝器語言、包裝器歸納、基于模板的信息抽取和模板無關(guān)的全自動信息抽取。由于包裝器語言和包裝器歸納都需要過多的人工干預(yù),所以在實際的工程應(yīng)用中,基于模板的信息抽取算法和模板無關(guān)的全自動信息抽取算法以其較強的實用性占據(jù)了主流的位置。基于模板的信息抽取通常基于這樣的假設(shè):待抽取的網(wǎng)頁是由同一個模板生成的,屬于模板的'符號不會變化,變化的只是模板中填充的數(shù)據(jù)。符合這種生成模型的網(wǎng)頁都可以利用網(wǎng)頁模板分析方法來抽取。互聯(lián)網(wǎng)上大量存在的動態(tài)網(wǎng)頁是由機器生成的(例如論壇)網(wǎng)頁。基于模板的信息抽取的工作流程是:

  1)利用多個同類型網(wǎng)頁中具有共性的不變的部分生成一個模板;

  2)根據(jù)模板對同類型網(wǎng)頁進行抽取。因為此類算法過濾了網(wǎng)頁中的大量模板,只留下了數(shù)據(jù),同時自動還原出了數(shù)據(jù)的結(jié)構(gòu),使得用戶在付出較小人工代價的同時,能夠獲得較為準(zhǔn)確的關(guān)鍵信息。因此此類算法一直都是網(wǎng)絡(luò)應(yīng)用中的主流算法。但是該類算法具有這樣的缺陷:首先需要針對同類型的網(wǎng)頁生成一個模板。模板的準(zhǔn)確性直接決定了后續(xù)信息抽取的精確度。隨著網(wǎng)頁復(fù)雜性以及同一類型網(wǎng)頁的差異性的增大,生成的模板準(zhǔn)確性隨之降低。模板無關(guān)的全自動信息抽取算法進一步提高了信息抽取的自動化程度。此類算法通常利用一些經(jīng)驗規(guī)則處理特定領(lǐng)域或特定格式的網(wǎng)頁,例如,經(jīng)典的全自動信息抽取算法MDR。該算法的缺陷在于通常基于過強的假設(shè)。以網(wǎng)頁正文抽取為例。網(wǎng)頁的正文往往是各大網(wǎng)絡(luò)應(yīng)用都需要的關(guān)鍵信息,有不少針對正文抽取的模板無關(guān)的全自動抽取算法。CoreEx是通過計算DOM 樹中的鏈接文本比來確定正文所在的范圍。CETR是通過標(biāo)簽的密度來確定正文所在的范圍。CETD結(jié)合了二者優(yōu)點。這些算法自動化程度高,通用性強,但是效率較低,且假設(shè)過強,精確度不如基于模板的算法。VIPS是一種通用性較強的算法,但是它需要渲染網(wǎng)頁。因此這種方法的效率較低。

  在以往的文獻中,較少看到將模板無關(guān)的全自動信息抽取算法和基于模板的信息抽取算法結(jié)合使用的相關(guān)研究。在本文提出的框架中,巧妙地將這兩種算法有機地結(jié)合起來,使得二者能夠取長補短,從本質(zhì)上提高信息抽取的質(zhì)量。

【基于可擴展的網(wǎng)頁關(guān)鍵信息抽取研究論文】相關(guān)文章:

基于數(shù)據(jù)抽取與訂閱實現(xiàn)數(shù)據(jù)共享分析及研究論文10-30

合理定價評審抽取研究論文03-30

有關(guān)合理定價評審抽取的研究論文04-03

基于多單片機的串口擴展設(shè)計論文11-17

基于科技信息共享云服務(wù)機制研究論文11-02

基于Web的農(nóng)機推廣信息系統(tǒng)的研究與設(shè)計論文11-02

基于GIS的農(nóng)業(yè)動態(tài)信息共享網(wǎng)絡(luò)平臺研究論文11-07

基于CDI0理念下的《網(wǎng)頁設(shè)計》教學(xué)思考與研究的論文01-11

基于視覺搜索因素的網(wǎng)頁設(shè)計論文11-15

主站蜘蛛池模板: 国产亚洲精品久久精品6 | 亚洲资源在线观看 | 无码精品一区二区三区在线 | 中国产xxxxa片在线观看 | 97无码免费人妻超级碰碰碰 | www.av小视频 | 久一精品| 六月天丁香婷婷 | 波多野结衣av高清一区二区三区 | 一本色道久久88一综合免费 | 日本激情视频在线 | 不卡久久 | 超碰人人艹| 131美女爱做视频 | 久久香综合精品久久伊人 | 福利毛片 | 久久成人中文字幕 | 国产模特嫩模私拍视频在线 | 亚洲国产欧美另类 | 久久五月精品中文字幕 | 在线观看黄色小视频 | 又粗又大又黄又硬又爽免费看 | 一级在线视频 | 精品国产乱码久久久久久蜜臀网站 | 国产精品精品久久久久久甜蜜软件 | 岛国成人在线 | 亚洲中文字幕人成影院 | 涩涩的网址 | 任我爽精品视频在线观看 | 精品国产乱码一区二区三区四区 | 操女人的网站 | 亚洲欧美韩日 | 婷婷综合少妇啪啪喷水 | 夜色视频网 | 男人边吃奶边做好爽视频 | 中文字幕淫 | 制服丝袜美腿一区二区 | 韩国伦理电影免费在线 | 香蕉蕉亚亚洲aav综合 | 日韩经典一区二区 | 日韩欧美在线番号 | 狼群精品一卡二卡3卡四卡网站 | 在线观看免费观 | 另类专区av | 日本特黄特色大片免费视频老年人 | 91超碰在线观看 | 日韩欧美视频免费观看 | 8x8x成人永久免费视频 | 亚洲国产色播av在线 | 一本之道2022 | 亚洲国产精品久久艾草纯爱 | 97精品一区二区视频在线观看 | 国产日韩精品视频无码 | 男人猛躁进女人免费视频看n | 中文字幕www | 台湾黄三级高清在线观看播放 | 果冻传媒少妇借种av剧情在线 | 成人免费一区二区三区视频软件 | 韩日产理伦片在线观看 | 国产成人看片一区二三区 | 无码国产精品一区二区免费模式 | 天堂婷婷| 在线播放免费播放av片 | 精品国产鲁一鲁一区二区三区 | 色一情一区二 | 学生妹亚洲一区二区 | 欧美日韩国产影院 | 久久综合伊人一区二区三 | 国产亚洲日韩欧美另类第八页 | av在线1区2区 | 交换配乱吟粗大农村大坑性事视频 | 久久一日本道色综合久久 | 亚洲xxxx18 | 青青草视频官网 | 天天干视频在线观看 | 成人av一区二区兰花在线播放 | 国产成人午夜福利在线视频 | 天堂爱情岛论坛亚洲福利在线看 | 国产精品福利一区二区 | 二区视频在线 | 久久99国产精品久久久久久久久 | 亚洲免费观看av | 国产成人无码18禁午夜福利网址 | 中文字幕黄色大片 | 中文字幕亚洲欧美在线不卡 | 国产狂做受xxxxx高潮 | 成人免费看片'在线观看 | 6969成人亚洲婷婷 | 黄色网址你懂得 | 亚洲人成色44444在线观看 | 精品视频久久 | f抽搐出入又大又黄 | 成人爽a毛片一区二区免费 久久精品毛片基地 | 中文字幕精品一区二区三区在线 | 国产免费av片在线鞠婧祎 | 国产日产高清欧美一区 | 国产探花在线看 | 中文字幕在线视频观看 | 国产免费久久 |