影音網站網址特性....

前一篇有提到要抓網站來分析出 pattern :
http://slimetw.blogspot.com/2018/06/pattern.html

既然要分析, 就要把資料存在合適的地方, 現在關聯式資料庫很容易取得跟安裝, 就分析的網頁結構來說, 不存整部影片的話, 硬碟記憶體空間也很大.

既然要存 資料 , 就要大約知道有哪些資料, 要如何分類, 正規化才能依這些特性進行.

回到原本的主題: 影音網站的自動抓取. 因為不是抓影片本身, 而是抓連結, 再從連結內容分析出 pattern , 再找出可能相關的連結, 排除廣告, 再給程式繼續抓.

所以最關鍵的就是網站連結, 一般會使用 URL 規格, 雖然 URL 基本上不會重複, 但是對影音網站來說, 常常會有配合廣告商, 在連結後面加上廣告商或某些分析用的變數, 例如: /?ref=2397 或 /embedded=xvideo

所以連結可能看起來好幾個, 卻都是同一個影片, 或者同一個業者用了多個 Domain Name , 其實結構都是一樣的, 或者新廠商 A 向廠商 B 致敬, 網址結構相同, 而內容卻不同.

因為這種特性, 所以網址本身必須"純化", 包括幾個步驟:
1. 去除 URL 多餘的變數.
2. 影音網站的網址結構區分:
a. 單一影片.
b. 影片組 ( playlist 或 favorite )
c. 網站整理好的如: 依女優或其他類型列表.
d. 搜尋類型.
3. 再依上面的結構, 分別拆出不同的資料:
a. 影片在該網站內的序號(必存), 影片名稱( 8 成有, 但很多名稱是亂打的), 番號( 3 成有)
b. 通常只有 playlist 名稱或 tag .
c. 這部份不同網站有不同的方式, 有些會編序號, 有些網站只用羅馬拼音, 如果是羅馬拼音就要再加工.
d. 有些網站會故意把影片切短, 然後用影片名稱去搜尋, 屬於影音網站特有的方式.

所以要分析網址, 就要先知道這些分類, 網址的 pattern 才有意義.