seo入門級教程收錄(頁面抓取過程簡述-小小課堂SEO培訓教程)
2023-04-15 16:43:37 3
url,即統一資源定位符,通過對url的分析,我們可以更好地理解頁面抓取過程。
今天,小小課堂SEO學網帶來的是《頁面抓取過程簡述》。希望本次的SEO技術培訓對大家有所幫助。
URL,英文全稱為「uniform resource locator」,中文譯為「統一資源定位符」。
在網站優化中要求每一個頁面有且僅有一個唯一的統一資源定位符(URL),但往往很多網站同一頁面對應了很多個URL,如果都被搜尋引擎收錄且未做URL轉向,就會產生權重不集中的情況,通常稱為URL不規範。
二、url的組成統一資源定位符(URL),由三部分組成:協議方案、主機名和資源名。
例如:
HTTPS:// www.xxkt.org /11806
其中https為協議方案,www.xxkt.org 為主機名 ,11806為資源,不過這個資源不太明顯,一般資源後綴為.html,當然還可以是.pdf、.php、.word等格式。
三、頁面抓取過程簡述無論是我們平時用的網際網路瀏覽器,還是網絡爬蟲,雖然是兩種不同的客戶端,但獲取頁面的方式卻是相同的。頁面抓取過程如下:
① 連接DNS域名系統伺服器
客戶端都會先連接到DNS域名伺服器上,DNS伺服器將主機名( www.xxkt.org )轉換為IP位址,並反饋給客戶端。
PS:本來我們通過111.152 . 151.45 的地址來訪問某網站,為了方便記憶和使用,才利用DNS域名系統轉換為了 www.xxkt.org 。這也就是DNS域名系統的作用。
② 連接IP位址伺服器
該IP伺服器下可能會有很多程序(網站),可以通過埠號來做區分,同時每個程序(網站)都會監聽埠是否有新的連接請求,HTTP網站默認為80,HTTPS網站默認為443。
不過通常情況下,埠號80和443是默認不出現的。
舉例來講:
https://www.xxkt.org:443/ = https://www.xxkt.org/
http://www.xxkt.org:80/ = http://www.xxkt.org/
③ 建立連接並發送頁面請求
客戶端與伺服器建立連接後,會發送頁面請求,通常為get,也可以是post。
get 11806 HTTPS/1.0
獲取HTTPS協議下的頁面11806 返回給客戶端。之後如需繼續獲取更多頁面,則發送其他請求,否則將關閉該連接。
PS:通常情況下 ,/seo/11806.html 可能會更清晰。也就是發送 https://www.xxkt.org/ 下的 seo文件夾下的 11806.html 的頁面請求。
以上就是小小課堂SEO自學網帶來的是《頁面抓取過程簡述》。感謝您的觀看。網絡營銷培訓認準小小課堂!SEO培訓認準小小課堂!
更多seo教程搜索小小課堂。原創文章歡迎轉載並保留版權:https://www.xxkt.org/ 小小課堂SEO自學網,每天發布原創SEO與IT教程,喜歡記得,點讚,打賞。別忘了關注哦~
,