Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

中文代码搜索引擎 #80

Closed
nobodxbodon opened this issue Aug 19, 2018 · 4 comments
Closed

中文代码搜索引擎 #80

nobodxbodon opened this issue Aug 19, 2018 · 4 comments
Labels
想法 +思路/观点
Milestone

Comments

@nobodxbodon
Copy link
Member

类似searchcode/Sourcegraph, 不同处是针对中文命名的源代码进行索引. 主要目的是促进源码交流和再利用. 暂时想到的相比英文代码搜索引擎的额外问题:

技术:

  • 中文分词. 比如在github搜索"简繁体互转"就无法找到这个源码, 而搜索"确认简繁体互转"就可以.

非技术:

  • 找到合适的代码库, 并定期更新

做了一点初步调研, 参考这帖, 只找到这个开源的可供参考(还未细看许可证): https://github.com/boyter/searchcode-server
看起来多数此类英文代码搜索引擎项目都已废止. 相信除了本身投入较大之外, 面向人群有限也是个因素(相对一般搜索引擎的用户量, 对编程有兴趣群体应该是个零头). 中文代码总量仍极少, 初期硬件投入会较小.

@nobodxbodon nobodxbodon added the 想法 +思路/观点 label Aug 19, 2018
@4b5ent1
Copy link
Member

4b5ent1 commented Aug 19, 2018

个人的思路,关于这块大致有以下想法:

  1. 做一个共享词库,类GitHub,可以把各类属于归纳起来。方便输入法调用
  2. 整理中文编程/信息化相关的开源项目。比如rime这种做开源输入法的。
  3. 搜索引擎本质上也是一个信息索引,以人力维护的信息目录似乎也可以达到相近的效果。当然这个是社区化运作的方向。

关于第二点和第三点,在GitHub上很常见一类repo就是一个readme,然后整理了一个相关的目录供人参考。然后再结合GitHub和Google本身的搜索功能,也挺方便的。


参考:

https://github.com/xuxiaodong/chinese-independent-developer
https://github.com/vinta/awesome-python

@nobodxbodon
Copy link
Member Author

做一个共享词库,类GitHub,可以把各类属于归纳起来。方便输入法调用

听起来和 #54 (comment) 有些类似?

2/3 确实需要建立源码库索引. 顶楼主要关注的是使用中文命名的代码库.

@4b5ent1
Copy link
Member

4b5ent1 commented Aug 20, 2018

@nobodxbodon 我看了下#54 稍微有点相关,但不是一个思路。

顶楼所述的问题,同样也值得关注。只是现在资源分散,整合起来也不容易。

@4b5ent1 4b5ent1 added this to the 2018戊戌 milestone Aug 21, 2018
@nobodxbodon
Copy link
Member Author

短期内仍以推广中文命名为主要方向. 毕竟没有相当数量中文命名的代码库, 搜索引擎也没有很大意义.
另外, #97 的知识库建设和查询/搜索功能也许更有价值.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
想法 +思路/观点
Projects
None yet
Development

No branches or pull requests

2 participants