Skip to content

关于域名分类数据的讨论 #28

Open
@IceCodeNew

Description

@IceCodeNew

geolocation-cn 文件里有这么一段话:

# The following domains are carried over from geosite:cn.
# TODO: Decide how to deal with these domains

这下面的域名没有分类,只是按照字典序排列在一起,其实是非常不利于利用和维护的。

首先很多时候数个域名其实都归属于同一个平台,硬按照字典序打乱了夹在其他域名中间——不利于阅读分析,且在这个服务/平台下线的时候可能会删不干净,这是维护上的困难(本来这么庞大的列表就应该包含了很多访问量极小的站点,里面有些站也许只是昙花一现)

其次现在 @attr 还没有得到充分的应用,未来如果这个数据库进一步扩展,那这里提到的未分类域名都将非常不适合就地添加上 @attr(试想当你只想屏蔽某一特定平台的广告,结果这个平台的域名放在了 geolocation-cn 下,和其他被打了 @ads 属性的未分类域名混在一起)——这是利用上的困难

所以我觉得让 geolocation-cn 下尽量多一些 include:,少一些未分类域名,是最好的发展方向——而这就是我希望拿出来讨论的点了,因为其实就在刚才我的一个 PR#25 才得到了滥用分类的评价,所以这里一定是有协作者之间的看法差异的。

希望能早点讨论出一个共识,避免在需要拐弯的时候给已经十分庞大的历史遗留问题进一步「添砖加瓦」。

Metadata

Metadata

Assignees

No one assigned

    Labels

    data structureDiscussion about format of directories and files

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions