Wednesday, June 27, 2018

影片網站pattern初步分析

要做網站分析, 網站就要分析出結構, 找到 pattern .

而從單純到複雜的程度, 大約是:
1. 政府網站: 基本上不會有廣告, 結構也最單純.
2. 製造業的公司網站: 產品可能會變化, 但基本上不會有廣告, 結構也不太會變.
3. 遊戲網站: 雖然動畫可能很多, 廣告則大多是自家的.
4. Blog 等互動網站: 廣告很多, 大多是別人家的, 結構反而單純.
5. 影音網站: 別人家的廣告多, 自家的廣告也多, 彈跳視窗多.

既然要分析網站的 pattern , 抓取網站內容才能分析, 不過要分析之前, 就要先思考網站裡面有什麼東西.

以影音網站而言, 最重要的影片只會有一個, 就是正準備播放的影片.
但是超多廣告, 所以廣告也要分類, 如果連結是同一個網站, 那可能是自家的.
連結是不同網站則可能是別人家的.

但是這樣並不容易找到影片的本體, 所以還是要試著分開, 例如:

標題: 影片 A ; 影片 ; 影片簡介或分組 g1 ; 廣告(自家) * n1 ; 廣告(他家) * n2
標題: 影片 B ; 影片 ; 影片簡介或分組 g2 ; 廣告(自家) * n3 ; 廣告(他家) * n4

因為廣告可能有數量上的不同, 但仍有一些共通的特性, 就是標題通常是唯一且跟影片最接近的, 所以拆 pattern 時, 就可以先從標題下手, 找出標題大約被包在哪個 div 內.

而影音網站的廣告(自家), 往往就是其他的影片連結, 所以這邊抓出 pattern 後, 就有機會透過程式自動去把所有的連結找出來.