來,我們一起打造一款程式碼命名工具

你是否還在為程式碼命名而糾結不已?

here are only two hard things in Computer Science: cache invalidation and naming things.– Phil Karlton

程式碼命名

那麼如何更好的命名呢? 是否有好的工具可以支援我們命名呢?網上搜索一圈沒有發現滿意的,於是自己動手豐衣足食,//jadepeng.gitee.io/code-naming-tool/。

使用方法: 打開網頁後,在中文輸入框中輸入 中文命名,然後回車即可。也可以直接在英文輸入框輸入英文,搜索候選。

現有的工具

unbug.github.io/codelf/ 提供了一個選擇,作者先調用有道、百度等翻譯,然後調用searchcode搜索程式碼,從搜索的程式碼中提取變數名。

codeif

介面做的很酷,但是推薦出來的變數名稱品質參差不齊,失去了參考意義。

新的思路

我們常說以史為鑒,換一個思路,我們可以從優秀的開源庫中去吸收他們命名的經驗,看看他們是如何命名的,來供我們參考。

實現思路:
1. 從spring、apache等程式碼庫,讀取變數、方法、類名稱
2. 根據關鍵詞匹配出候選命名
3. 候選結果排序

工具

獲取優秀命名

要獲取命名,首先想到的是讀取程式碼庫,需要先下載程式碼,然後解析 ———— 工作量巨大,PASS。

那怎麼做呢,換個角度,可以通過java的反射來實現。

首先添加一個輔助庫:

<dependency>
            <groupId>org.reflections</groupId>
            <artifactId>reflections</artifactId>
            <version>0.9.12</version>
        </dependency>

然後初始化Reflections,FilterBuilder可以用來過濾類庫,我們設置”org”,”javax”,”com”,”io”, 基本上囊庫了主要的開源類庫,比如spring,apache等.

 List<ClassLoader> classLoadersList = new LinkedList<ClassLoader>();
        classLoadersList.add(ClasspathHelper.contextClassLoader());
        classLoadersList.add(ClasspathHelper.staticClassLoader());

        Reflections reflections = new Reflections(new ConfigurationBuilder()
                .setScanners(new SubTypesScanner(false), new ResourcesScanner())
                .setUrls(ClasspathHelper.forClassLoader(classLoadersList.toArray(new ClassLoader[0])))
                .filterInputsBy(new FilterBuilder().includePackage("org","javax","com","io")));

然後,可以通過reflections.getSubTypesOf(Object.class);來獲取相關的class了,注意,我們初始化一個 Map<String, Integer> name2count = new HashMap<String, Integer>();用來存儲程式碼命名以及對應的出現次數。

Set<Class<? extends Object>> allClasses =
                reflections.getSubTypesOf(Object.class);
        Map<String, Integer> name2count = new HashMap<String, Integer>();
        for (Class<?> clazz : allClasses) {
            System.out.println(clazz.getName());
            try {
                appendToNameMap(name2count, clazz.getSimpleName());

                Field[] fields = clazz.getDeclaredFields();
                for (Field field : fields) {
                    String name = field.getName();
                    appendToNameMap(name2count, name);
                }
                Method[] methods = clazz.getMethods();
                for (Method method : methods) {
                    String name = method.getName();
                    appendToNameMap(name2count, name);
                    // parameters
                    Parameter[] parameters =  method.getParameters();
                    for (Parameter param : parameters) {
                        name = param.getName();
                        appendToNameMap(name2count, name);
                    }
                }
            }catch(Throwable t)
            { }

其中appendToNameMap:

 private static void appendToNameMap(Map<String, Integer> name2count, String name) {
        // filter
        if(name.contains("-") || name.contains("_")|| name.contains("$")){
            return;
        }

        if (!name2count.containsKey(name)) {
            name2count.put(name, 1);
        } else {
            name2count.put(name, name2count.get(name) +1);
        }
    }

最後把結果存儲到文件,作為我們的資源。

FileUtils.writeAllText(JSON.toJSONString(name2count), new File("name2count.txt"));

可以到//gitee.com/jadepeng/code-naming-tool/blob/master/vars.js查看結果。

命名推薦

命名推薦,還是遵循,先翻譯,然後根據翻譯結果搜索並召回。

其中翻譯直接調用網易有道的,但是搜索如何搞定呢?

最簡單的方法,肯定是分詞,然後建立索引,lucene是標配。但是上lucene就要上伺服器,PASS!

我們來找一個瀏覽器端的lucene,google 後選定flexsearch.

flexsearch

flexsearch github上有6.5k star,因此優先選擇。

下面來看具體的實現。

建立索引

初始化FlexSearch,然後將之前獲取的程式碼命名建立索引。

 var index = new FlexSearch({
            encode: "advanced",
            tokenize: "reverse",
            suggest: true,
            cache: true
        })
        var data = []
        var i = 0
        for (var name in names) {
            var indexName = name.replace(/([A-Z])/g, " $1")
            data[i] = {
                "name": name,
                "count": names[name]
            }
            index.add(i++, indexName)
        }

這裡有個小技巧,name.replace(/([A-Z])/g, " $1") 可以將駝峰命名拆分成單詞。
同時data數組會保存所有的命名和響應的出現次數。

搜索候選

先翻譯,然後將翻譯結果給FlexSearch搜索。

function searchFromIndex(value) {
        var results = index.search(value, 25)
    
        results = results.map(function (i) {
            return data[i]
        })
    
        results = results.sort(function (a, b) {
            return b.count - a.count
        })
        return results
    }

先搜索,出來的結果是data中的index序號,轉換為list對象,然後按照count倒排。

tips: 理論上,翻譯的結果可以去除一些停用詞,搜索效果應該更好,這裡先放著。

顯示結果

對結果進行格式化:

function formatSuggestion(item){
    return `${item.name} <span class='tips'>程式碼庫共出現${item.count}次 (相關搜索: <a target='_blank' href='//unbug.github.io/codelf/#${item.name}'>codelf</a> &nbsp; <a target='_blank' href='//searchcode.com/?q=${item.name}&lan=23'>searchcode</a>)</span>`;
}

增加到codelf 和 searchcode的鏈接,顯示結果如下:

顯示結果

開源地址

命名工具地址: //jadepeng.gitee.io/code-naming-tool/

歡迎大家體驗使用,歡迎fork並貢獻程式碼。

後續展望

當前僅僅用到了翻譯+搜索,還有很多可以優化的地方:

  • 搜索去停用詞
  • 從文本語義相似度層面去推薦
  • 專業術語支援

作者:Jadepeng
出處:jqpeng的技術記事本–//www.cnblogs.com/xiaoqi
您的支援是對部落客最大的鼓勵,感謝您的認真閱讀。
本文版權歸作者所有,歡迎轉載,但未經作者同意必須保留此段聲明,且在文章頁面明顯位置給出原文連接,否則保留追究法律責任的權利。