codefuse-ai
diff --git a/‎language/sql/extractor/BUILD
Lines changed: 100 additions & 0 deletions b/‎language/sql/extractor/BUILD
Lines changed: 100 additions & 0 deletions
diff --git a/‎language/sql/extractor/README.md
Lines changed: 48 additions & 0 deletions b/‎language/sql/extractor/README.md
Lines changed: 48 additions & 0 deletions
diff --git a/‎language/sql/extractor/README_cn.md
Lines changed: 45 additions & 0 deletions b/‎language/sql/extractor/README_cn.md
Lines changed: 45 additions & 0 deletions
@@ -0,0 +1,100 @@
+load("//:junit5.bzl", "java_junit5_test")
+
+# add lombok annotation processor
+java_import(
+    name = "lombok_jar",
+    jars = [
+        "@maven//:v1/http/mvn.dev.alipay.net/artifactory/content/groups/public/org/projectlombok/lombok/1.18.16/lombok-1.18.16.jar",
+    ],
+)
+
+java_plugin(
+    name = "lombok_processor",
+    # should be specified
+    processor_class = "lombok.launch.AnnotationProcessorHider$AnnotationProcessor",
+    deps = [
+        ":lombok_jar",
+    ],
+)
+
+# add picocli annotation processor
+java_import(
+    name = "picocli_jar",
+    jars = [
+        "@maven//:v1/http/mvn.dev.alipay.net/artifactory/content/groups/public/info/picocli/picocli/4.6.1/picocli-4.6.1.jar",
+        "@maven//:v1/http/mvn.dev.alipay.net/artifactory/content/groups/public/info/picocli/picocli-codegen/4.6.1/picocli-codegen-4.6.1.jar",
+    ],
+)
+
+java_plugin(
+    name = "picocli_processor",
+    processor_class = "picocli.codegen.aot.graalvm.processor.NativeImageConfigGeneratorProcessor",
+    #    processor_class = "picocli.codegen.aot.graalvm.processor.AbstractCompositeGeneratorProcessor",
+    deps = [
+        ":picocli_jar",
+    ],
+)
+
+# all in one exported processors library
+java_library(
+    name = "all_processors",
+    exported_plugins = [
+        ":lombok_processor",
+        ":picocli_processor",
+    ],
+    tags = ["maven:compile_only"],
+    exports = [
+        "@maven//:info_picocli_picocli_codegen",
+        "@maven//:org_projectlombok_lombok",
+    ],
+)
+
+java_library(
+    name = "util",
+    srcs = glob(["src/main/java/com/alipay/codequery/util/*.java"]),
+    deps = [
+        "@maven//:org_apache_commons_commons_lang3",
+        "@maven//:org_apache_logging_log4j_log4j_api",
+        "@maven//:org_apache_logging_log4j_log4j_core",
+        "@maven//:org_apache_logging_log4j_log4j_slf4j_impl",
+        "@maven//:org_jetbrains_annotations",
+        "@maven//:org_slf4j_slf4j_api",
+    ],
+)
+
+java_binary(
+    name = "coref-sql-src-extractor",
+    srcs = glob(["src/main/java/**/*.java"]),
+    main_class = "com.alipay.codequery.coref.sql.Extractor",
+    resources = glob(["src/main/resources/**/*"]),
+    visibility = ["//visibility:public"],
+    deps = [
+        ":all_processors",
+        ":util",
+        "@maven//:com_alibaba_druid",
+        "@maven//:com_google_code_gson_gson",
+        "@maven//:com_google_guava_guava",
+        "@maven//:com_google_re2j_re2j",
+        "@maven//:com_ibm_icu_icu4j",
+        "@maven//:commons_codec_commons_codec",
+        "@maven//:commons_io_commons_io",
+        "@maven//:info_picocli_picocli",
+        "@maven//:javax_annotation_javax_annotation_api",
+        "@maven//:me_tongfei_progressbar",
+        "@maven//:net_java_dev_jna_jna",
+        "@maven//:org_apache_commons_commons_lang3",
+        "@maven//:org_apache_logging_log4j_log4j_api",
+        "@maven//:org_apache_logging_log4j_log4j_core",
+        "@maven//:org_apache_logging_log4j_log4j_slf4j_impl",
+        "@maven//:org_hamcrest_hamcrest_all",
+        "@maven//:org_ini4j_ini4j",
+        "@maven//:org_jetbrains_annotations",
+        "@maven//:org_mybatis_dynamic_sql_mybatis_dynamic_sql",
+        "@maven//:org_mybatis_mybatis",
+        "@maven//:org_projectlombok_lombok",
+        "@maven//:org_slf4j_slf4j_api",
+        "@maven//:org_xerial_sqlite_jdbc",
+        "@maven//:tk_mybatis_mapper",
+        "@maven//:uk_com_robust_it_cloning",
+    ],
+)
@@ -0,0 +1,48 @@
+# CodeFuse-Query SQL Extractor
+
+The CodeFuse-Query SQL Extractor converts the source code of SQL files into standardized coref-sql data, which is then used for further analysis by codefuse-query. 
+
+## Quick Start
+
+1. Set up JAVA_HOME. Run `echo $JAVA_HOME` to display the current setting. If it shows nothing, it means it hasn't been configured yet.
+2. Build. Run `mvn clean install`.
+3. Run. Execute the following command:
+   ```bash
+   java -jar target/coref-sql-src-extractor-0.0.1-jar-with-dependencies.jar ${YOUR_REPO} ./db
+   ```
+   After execution, a file named coref_sql_src.db will be generated in the ./db directory.
+
+## How to Develop
+
+`coref-sql-src-extractor` uses Sparrow to analyze Druid source code and extract SQL AST information. It then uses jinja2 template generation tools to produce the required code and configurations, including Java code, PlantUML diagrams, Mybatis XML configuration files, COREF table creation SQL statements, and the Godel library.
+
+Therefore, the development process requires modifying the relevant jinja2 templates and then applying the corresponding changes as follows:
+
+1. Extract Druid AST node information. (If there are no changes needed for the Druid AST node information, this step can be skipped). Use Sparrow to query all Druid SQL AST node information and their available methods for extraction (e.g., Getter, isXXX methods).
+   ```bash
+   # Assuming Druid's COREF information has been extracted to <path-to-druid-repo>/db
+   # The output path must be language/sql/extractor/utils/code_generator/FindDruidSqlAstAllPublicGetterMethods.json, as step 2 will use this location by default
+   sparrow query run <path-to-sparrow-cli-repo>/language/sql/extractor/utils/code_generator/FindDruidSqlAstAllPublicGetterMethods.gdl -f json -o <path-to-sparrow-cli-repo>/language/sql/extractor/utils/code_generator -d <path-to-druid-repo>/db
+   ```
+
+2. Generate the SQL Extractor's code based on the extracted Druid AST information.
+   ```bash 
+   # This will generate a series of files based on the json file `language/sql/extractor/utils/code_generator/FindDruidSqlAstAllPublicGetterMethods.json` from step 1.
+   bash <path-to-sparrow-cli-repo>/language/sql/extractor/utils/generate_all_code.sh
+   ```
+
+## How to Generate SQL AST Nodes Class Diagram
+
+```bash
+# Clone the Druid repository and switch to the corresponding release version
+git clone https://github.com/alibaba/druid
+# <druid-release-version> refers to the version specified in pom.xml
+git checkout tags/<druid-release-version>
+cd druid
+# Extract Java source information from Druid
+sparrow database create -lang java -s . ./db
+# Output the Druid SQL AST node relationships
+sparrow query run <path-to-sparrow-cli-repo>/language/sql/extractor/utils/druid_sql_ast_nodes/FindDruidSqlAstNodes.gdl -f json -o <path-to-sparrow-cli-repo>/language/sql/extractor/utils/druid_sql_ast_nodes -d ./db
+# Analyze the Sparrow output data and generate a class diagram in Dot format
+python3 <path-to-sparrow-cli-repo>/language/sql/extractor/utils/druid_sql_ast_nodes/generate_dot_diagram.py 
+``` 
@@ -0,0 +1,45 @@
+# CodeFuse-Query SQL 抽取器
+CodeFuse-Query SQL 提取器将 SQL 文件的源代码转换为标准化的 coref-sql 数据，这些数据用于 codefuse-query 进行进一步分析。
+
+# 快速开始
+1. 设置 JAVA_HOME。执行 `echo $JAVA_HOME` 来显示当前的设置。如果显示为空，则表示尚未配置。
+2. 构建。执行 `mvn clean install`。
+3. 运行。执行如下命令
+   ```bash
+   java -jar target/coref-sql-src-extractor-0.0.1-jar-with-dependencies.jar ${YOUR_REPO} ./db
+   ```
+执行后，一个名为 coref_sql_src.db 的文件将生成在 ./db 目录下。
+
+
+# 如何开发
+`coref-sql-src-extractor` 采用Sparrow来分析Druid源码并分析SQL AST信息，再通过jinja2模版生成工具来生成所需代码和配置，
+包括Java代码、PlantUML图、Mybatis XML配置文件、COREF建表SQL语句、Godel库。
+
+因此开发流程需要修改相应jinja2模版然后再通过以下方法进行对应的修改：
+1. 提取Druid AST节点信息。（如果Druid AST节点信息无需修改，此步骤可跳过）通过Sparrow查询出所有Druid SQL AST节点信息以及它们的所有可用于抽取的方法（例如Getter，isXXX等方法）
+   ```bash
+   # 假设Druid的COREF信息已抽取到 <path-to-druid-repo>/db 
+   # 输出路径必须为 language/sql/extractor/utils/code_generator/FindDruidSqlAstAllPublicGetterMethods.json，步骤2会默认使用该位置
+   sparrow query run <path-to-sparrow-cli-repo>/language/sql/extractor/utils/code_generator/FindDruidSqlAstAllPublicGetterMethods.gdl -f json -o <path-to-sparrow-cli-repo>/language/sql/extractor/utils/code_generator -d <path-to-druid-repo>/db
+   ```
+
+2. 按提取的Druid AST信息生成SQL抽取器的代码。 
+   ```bash 
+   # 会依据步骤1生成的json文件 `language/sql/extractor/utils/code_generator/FindDruidSqlAstAllPublicGetterMethods.json` 来生成一系列文件。
+    bash <path-to-sparrow-cli-repo>/language/sql/extractor/utils/generate_all_code.sh
+    ```
+
+# 如何生成SQL AST节点类图
+```bash
+# Clone Druid仓库并切换对应release版本
+git clone https://github.com/alibaba/druid
+# <druid-release-version>看pom.xm指定的版本
+git checkout tags/<druid-release-version>
+cd druid
+# 抽取Druid的Java源码信息
+sparrow database create -lang java -s . ./db
+# 输出Druid SQL AST 节点关系
+sparrow query run <path-to-sparrow-cli-repo>/language/sql/extractor/utils/druid_sql_ast_nodes/FindDruidSqlAstNodes.gdl -f json -o <path-to-sparrow-cli-repo>/language/sql/extractor/utils/druid_sql_ast_nodes -d ./db
+# 分析Sparrow输出数据并生成Dot格式的类图
+python3 <path-to-sparrow-cli-repo>/language/sql/extractor/utils/druid_sql_ast_nodes/generate_dot_diagram.py 
+```