在自動描述抽取過程中,文本中的一些內容和對象非常重要,這將直接影響摘要的質量。如關鍵詞、詞頻、詞位、句長、句子結構、排版特點等。在自動生成描述的過程中,它們在抽象句的選擇和抽象句的組織上起著重要的作用。我們必須深刻理解和分析它們。
詞頻是指詞在文本中出現的頻率。具有標引價值的詞多為中頻詞,一般為反映句子語法結構的虛詞,低頻詞不宜標引。同樣,在摘要中起重要作用的詞也是高頻關鍵詞(重要詞),在整篇文章中屬于中頻詞。根據中頻詞的個數,計算句子的權重,確定候選句子。
文本信息的標題是文本內容的重要體現。各級文本的標題在不同程度上反映了文本的主要內容。因此,標題中的詞匯是摘要的重要素材,其中的關鍵詞和原文的內容往往與討論的話題密切相關。除題名中的虛詞外,其余關鍵字可作為抽象句中的“重要詞”。
有許多短語(詞)用來擴展概括句,反映課文的內容。這些短語或單詞被稱為指示語。這種指示語有以下幾種形式:“本文討論”、“本文目的”、“總結”等。這些指示語后的句子往往高度概括了文學的主題。因此,這些句子很有可能被選為摘要的候選句子。
網站seo中的網頁描述與內容優化要點
不同位置的句子對文章和段落主題的貢獻是不同的。商企云對此做了一些研究。我們認為,該段首句成為該段主題句的概率為85%,該段結尾句的概率為7%。因此,這些句子很有可能成為總結句。在自動摘要過程中,需要提高這些特殊位置的句子權重。
文章中有多種句式,如陳述句、疑問句、感嘆句等。然而,陳述句是真正反映文章主題的主要陳述句,這也說明文章的摘要大多由陳述句構成。因此,在選擇總結句時,應盡量提取陳述句,避免疑問句、感嘆句等形式的句子進入總結句。
摘要短小精悍,即用簡短的文字概括文章的主要內容。因此,在選擇抽象句時,要選擇更簡潔、更短小的句子,而過長的句子通常不適合抽象。
隨著網頁設計軟件的發展,對機讀文獻的排版格式也提出了更高的要求。編輯經常通過特殊的格式突出文學的主題內容,如增加字體大小、改變粗體或特殊字體、下劃線、中間文字、標記、增加縮進、陰影、邊框、超鏈接等。應考慮這些特殊的格式特征,適當增加權重。
站點優化對于整個SEO項目來說,占據了非常大的比重。外部鏈接只能在內部優化的基礎上起到錦上添花的作用。商企云的觀點是:SEO的重點是考慮如何在網站上做好工作,迎合搜索引擎的規則,避免違反搜索算法。