说说 cn 区的垃圾帖清洁工作: 1934 篇垃圾帖灰名单共享 | Spam posts in CN category

世界上总有一些事情,发生的时候默默无闻,直到多年之后回顾历史,人们才发现其中的意义。写本文的时候,steemit 的cn 区就有这么一件事情,不仅没有引起任何人的注意,甚至连当事人都没有察觉。幸好,此事被“大鹏观察”极其偶然地捕捉到了,想在这里跟大家分享:

steemit cn 区清洁工程 cn-abuse 报告发布 100 期。


Image credit: pixabay.com

可能很多新人不知道 cn 区清洁工程,这里以我有限的了解做个简单介绍。

steemit 像个广场,上面的垃圾帖对市容市貌影响恶劣,但是又没法删除。广场太大没法管,但某个角落,例如 cn 区,是有可能清扫的。

于是,小猎豹 @incrediblesnow 志愿发起和从事了这个清洁工作,遇见抄袭、机器翻译、标签用错等情况,就留言警告或者踩灰,并把情况以帖子的形式发布在 cn-abuse 子区,每天一期。你打开 cn 区,会看到有些帖子是灰色的,表示垃圾帖。点开后,提示该帖子评价很低已折叠,嗯,多半就是小猎豹踩的。

当然,据我所知,在小猎豹之前, @carinewhy 也做过这样的报告, @tumutanzi 等大鲸们也会出手清理垃圾——但是我很心疼,因为踩会损失大鲸的VP,本来是可以转化成钱的呀。

我跟小猎豹并无私交,真实生活里并不认识,只是从她的帖子得知,她是在新加坡读书的大学生,前不久刚过完 19 岁生日

在 steemit 这块广场上,每个人都在选择自己的角色和定位。作为一个海外读书的年轻女孩,无论是晒照片还是写游记或者拍美食,都会更吸引眼球,小猎豹却志愿选择做清洁工,拿起扫把在广场的一角打扫卫生,然后默默看着别人在干净的地面上大跳广场舞。这不得不让我肃然起敬。

清洁做到了 100 期,小猎豹丝毫没声张。


虽然每个人都享受着清洁工带来的清洁环境,但清洁工的工作却常常受到非难。

读一下 cn-abuse 早期的报告,从一开始就饱受质疑。例如,有人认为 cn 帖子不一定非用中文,跟中国有关的帖子都可以用。类似的事情我在 deutsch 标签下遇见过,而我就是被踩的那个,换位思考一下,就明白矛盾在哪里了。另外,还有人认为机器翻译的帖子可以宽容,因为 cn 区有些帖子写得还不如机器翻译。

都有道理。我每天发布的”历史上的今天“,就得到了不同的反馈。有人觉得很有用,可以弥补自己错过的精彩,可以重温故人,可以看到即使甜心当年的文章收益也不过 20 SBD,甚至可以看到那时就有垃圾帖了;也有人觉得,”历史上的今天“里列出的帖子,应该把垃圾帖过滤,不然”历史上的今天“本身就成了刷屏骗钱的垃圾帖。

这些不同的意见都属于个人偏好,不触及原则。“历史上的今天”因为是展示历史,所以我希望原汁原味再现,就像广场的昔日老照片,广场上有垃圾就老老实实展示垃圾好了,PS 掉的话,貌似清洁,实则污秽——“秽史”。当然,谁都有选择读“秽史”的自由,有选择认为我是刷屏骗钱的自由。我没法让我的帖子取悦所有人,但是只要帖子对一部分人有益,就是有价值的。由于 steem 历史不满两年,“历史上的今天”目前就等于“去年今天”,但是等 steem 年数多了,再把过去不同年份同一天的事情拿出来看,“历史上的今天”就会更有趣一些。

瞧,大家对垃圾的定义是不同的。由于 steem 的去中心化,每个人心里都有一个自己的汉姆雷特,想达成一个”什么是垃圾帖“的共识,说起来容易,但实际操作起来,分寸极难把握。 deutsch 区踩我,虽然粗暴,但清扫效率高;而小猎豹经常先留言沟通警告,拒不悔改的才下脚踩,虽然宽厚,但需要她付出更多精力。

除了众口难调之外,踩帖是要付出很大代价的。不知道大家踩没踩过别人。我踩过那么几次,就立刻知道这是件多么耗神的事儿了。

sp 不够或声望不够的话,你踩了也白踩;踩了之后可能会遭到对方的报复,你反被对方踩;还得防止误踩,对此一般先留言警告,对方回复了还好,在 reply 里能看到,万一对方不理,你说不定就把这回事儿给忘了,还得去自己的 comments 里翻……

清洁 100 期,我粗略统计了一下,小猎豹经手的帖子是 1934 个,大约是 CN 区此期间全部帖子的 10%。付出这么多,你觉得她应该得到多少回报?

每天人工逐个读 cn 区的 200 个新帖,筛选辨别出其中的 20 个,留言,踩,跟被踩者解释,误踩的话还得道歉,募捐和租借踩帖用的 SP ,整理报告…… 从工作量来说,我觉得保底工资应该是每天至少 20 SBD。上不封顶。

然而,小猎豹最初的报告经常每帖不到 10 SBD。最近好多了,收益上去了,我由衷地为此高兴。所谓除恶扬善,光口头呼吁是没用的。只有落实到行动,让作恶的人吃亏,让行善的人得利,并且公布于众,才能形成示范效应,才有更多人愿意加入到正义的队伍里。


跟小猎豹的互动,是从我发布文章Steemit 新人流失到底有多严重开始的。为了留住新人,几乎同步地,小猎豹开始筹募”新人委员会“,而我发起了”希望工程“。

希望工程列出的新人帖子和排行榜,需要对垃圾帖进行过滤,于是跟 cn-abuse 有了交集。商量之后,现在,小猎豹每天把有劣迹的 id,按我要求的格式附加在 cn-abuse 报告末尾,我稍后将这些 id 添加到黑名单里,并且共享出来给大家参考。经过黑名单过滤后,无论是新人帖还是排行榜,都比以前清爽多了。

然而,这样仍然不能完全杜绝噪音。我曾经想过,是不是只选择第一标签为 cn 的帖子,这样肯定能过滤掉那些顺便标个 cn 来蹭赞的。但是很快我就打消了这个念头。很多人,例如我们的人气明星甜心,很多中文帖子第一标签都不是 cn。万一我误伤了未来的另一个甜心呢?

百分之百杜绝噪音是不可能的,除非实行“白名单”制度:凡是白名单之外的 id,统统赶出 cn 区。但是,这样 cn 区就成了封闭的小圈子,跟垃圾帖相比,代价可能会更大。

所以,在黑白名单之间,我想了一个新主意:灰名单。

cn-abuse 报告里被踩被警告的帖子列表,每天过去就过去了,没有被进一步采用,挺可惜的。于是,我把 cn-abuse 报告里出现过的1934个帖子整理出来,跟大家共享这个灰名单(点击查看),并且跟小猎豹每天发布的新报告同步更新。出现在这个灰名单里的帖子,将不出现在希望工程的统计数据里;在灰名单里出现 5 次以上的账号,进入黑名单。

然而,我知道,仅凭一两个志愿者之力,保证社区的清洁是不可能的。小猎豹可能会休假,可能会偶尔上不了网。在steem 这个公共广场,cn 这个角落里,只有大家人人出力,看见垃圾随手清理,看见志愿者就帮一把,才能最大程度上排除噪音,建设一个清洁的社区环境。

对此,你是怎么看的?欢迎留言讨论。

PS. cn 社区有很多厉害的程序员,大家有没有可能开发个程序,把 cn-abuse 的工作自动化或半自动化,减轻一下人工的工作量呢?

dapeng

H2
H3
H4
3 columns
2 columns
1 column
11 Comments