之前用了兩個帖子去介紹社會網絡分析:
@rayccy/social-network-analysis
@rayccy/social-network-analysis-gephi
說過會拿Steemit的數據來試試應用,終於有空把它弄出來了~
數據準備
針對7月份所有有cn標籤的帖子,以及用cn為主要標籤的帖子中的留言
提取了所有對於這些帖子的投票(upvote)資料(只限於在7月期間投的票)
篩選了「投票次數」跟「被投票次數」均大於10的人作研究對象,只有這些人所投的票才會算為有效,此舉是想要把一些curation-trail或在cn版極度不活躍的人從分析中去掉
針對這些研究對象,把每個人對其他人的投票加權(voting weight) 加起來作為連結加權(edge weight)。比如A跟B都是研究對象,A向B的三個不同的帖子各投了30%、50%跟90%的票 ,那麼A指向B的連結加權為0.3 + 0.5 + 0.9 = 1.7。連結加權跟投票所值的金額是沒有關係的
Gephi的處理
把數據導進了Gephi以後,作了以下處理以製出有向圖:
用了K-core的篩選方法把比較不重要的個體拿掉,用的K值為45
用了Degree去決定個體的大小跟顏色 (Degree的定義在上一篇有提及到),Degree愈大個體愈大且顏色愈深
用了連結加權去決定連結(跟箭頭)的粗幼度,加權愈大連結愈粗
用了force atlas作佈圖(layout),基本上關係強度愈大的個體會愈近,關係強度愈少則愈遠
結果
結果圖在這裡有點不清楚,建議用新分頁把圖片打開,放大會明顯清楚些(抱歉我不太會弄圖片大小 lol)
如果你有仔細留意,且對cn版的人有一定程度的熟識,你會發現其實這個社會網絡主要可以分成兩個群體:在圖的左上方的多是來自香港(大概以 @kitcat為軸心),右下方的則多來自內地(大概以1號用戶為軸心)。我用紅線把2個群體區分出來:
而整個社會網絡的軸心大概是2號用戶了。
有獎比賽
但是,為什麼結果中有1、2、3號跟一些問號呢?為了鼓勵大家試一下數據分析,我把一些人名都隱藏了,讓大家從數據中自行找答案,或是猜出答案~
題目是:圖中的1、2、3號分別是什麼人?
他們都是cn版常客不會覺得陌生的人,為了增加難度我把部份其他名人也用問號代替了
提示:
- 1、2、3號的Degree為整個社會網絡的榜首,其中1號的Degree最大
- 2號跟3號雖然Degree差不多,但2號與其他人的連結加權明顯大很多
- @abit在圖中下方
這個帖文的SBD金額將會分給得獎者,分獎規則如下:
- 得獎名額每5 SBD收益增加一個,最少為一。如最後SBD收益為31,則得獎名額為int(31 / 5) = 6。如最後收益不足5 SBD的話我也會提供5 SBD為獎金。
- 每個正確答案可獲一個得獎名額,1、2、3號的答案分別計算,所以一個人最多可獲3個得獎名額。
- SBD收益會平均分配於已獲的得獎名額,每個得獎者按照得獎名額的數量分獎。
- 分獎順序會先按正確答案數量,再按提交答案時間分先後。
說的有點複雜,舉個例子好了 :
假設最後SBD收益為37,則得獎名額為7個。
例子1:假設根據時間順序,A答對了1個答案,B答對了2個答案,其餘沒有人答對。總共已獲的得獎名額為3,每個名額會獲分配37 / 3 = 12.33 SBD。根據已獲名額數量:
- A能分得12.33 SBD
- B能分得24.67 SBD
例子2:假設根據時間順序,A答對了1個答案,B答對了2個答案,C全答對,D答對了2個答案,其餘沒人答對。7個得獎名額會優先分配3個給C,再分配2個給B、2個給D,A就沒有得獎名額了。每個名額會獲分配37 / 7 = 5.29 SBD,根據已獲名額數量:
- A沒能分到SBD
- B能分到10.57 SBD
- C能分到15.86 SBD
- D能分到10.57 SBD
參賽規則
- 參賽請upvote這個帖子,並於https://goo.gl/forms/Dd9niEEKlAMF00PU2 提交答案
- 你可以重複提交答案,但只會以最後提交的答案為準
- 8月15號或以前提交的答案才為有效
- 請勿以留言方式提交答案
答案與得者獎會於一星期後公佈,希望大家能upvote支持一下~
歡迎follow我 @rayccy :)