update names

shujingyang-db · shujingyang-db · commit ac0e63f8019d · 2025-08-04T15:07:13.000-07:00
diff --git a/README.md b/README.md
@@ -46,7 +46,7 @@ spark.readStream.format("fake").load().writeStream.format("console").start()
 | [KaggleDataSource](pyspark_datasources/kaggle.py)                      | `kaggle`       | Read datasets from Kaggle                    | `kagglehub`, `pandas` |
 | [SimpleJsonDataSource](pyspark_datasources/simplejson.py)              | `simplejson`   | Write JSON data to Databricks DBFS                 | `databricks-sdk`      |
 | [OpenSkyDataSource](pyspark_datasources/opensky.py)                 | `opensky`      | Read from OpenSky Network.                   | None                  |
-| [SalesforceDataSource](pyspark_datasources/salesforce.py)              | `salesforce`   | Streaming sink for writing data to Salesforce | `simple-salesforce`   |
+| [SalesforceDataSource](pyspark_datasources/salesforce.py)              | `pyspark.datasource.salesforce`   | Streaming datasource for writing data to Salesforce | `simple-salesforce`   |
 
 See more here: https://allisonwang-db.github.io/pyspark-data-sources/.
 
diff --git a/docs/index.md b/docs/index.md
@@ -38,6 +38,6 @@ spark.readStream.format("fake").load().writeStream.format("console").start()
 | [HuggingFaceDatasets](./datasources/huggingface.md)     | `huggingface`  | Read datasets from the HuggingFace Hub        | `datasets`            |
 | [StockDataSource](./datasources/stock.md)               | `stock`        | Read stock data from Alpha Vantage            | None                  |
 | [SimpleJsonDataSource](./datasources/simplejson.md)     | `simplejson`   | Write JSON data to Databricks DBFS            | `databricks-sdk`      |
-| [SalesforceDataSource](./datasources/salesforce.md)     | `salesforce`   | Write streaming data to Salesforce objects    |`simple-salesforce`    |
+| [SalesforceDataSource](./datasources/salesforce.md)     | `pyspark.datasource.salesforce`   | Write streaming data to Salesforce objects    |`simple-salesforce`    |
 | [GoogleSheetsDataSource](./datasources/googlesheets.md) | `googlesheets` | Read table from public Google Sheets document | None                  |
 | [KaggleDataSource](./datasources/kaggle.md)             | `kaggle`       | Read datasets from Kaggle                     | `kagglehub`, `pandas` |
diff --git a/examples/salesforce_example.py b/examples/salesforce_example.py
@@ -1,9 +1,9 @@
 #!/usr/bin/env python3
 # -*- coding: utf-8 -*-
 """
-Salesforce Sink Example
+Salesforce Datasource Example
 
-This example demonstrates how to use the SalesforceDataSource as a streaming sink
+This example demonstrates how to use the SalesforceDataSource as a streaming datasource
 to write data from various sources to Salesforce objects.
 
 Requirements:
@@ -61,10 +61,10 @@ def example_1_rate_source_to_accounts():
         .getOrCreate()
     
     try:
-        # Register Salesforce sink
+        # Register Salesforce Datasource
         from pyspark_datasources.salesforce import SalesforceDataSource
         spark.dataSource.register(SalesforceDataSource)
-        print("✅ Salesforce sink registered")
+        print("✅ Salesforce datasource registered")
         
         # Create streaming data from rate source
         streaming_df = spark.readStream \
@@ -131,7 +131,7 @@ def example_2_csv_to_contacts():
         .getOrCreate()
     
     try:
-        # Register Salesforce sink
+        # Register Salesforce datasource
         from pyspark_datasources.salesforce import SalesforceDataSource
         spark.dataSource.register(SalesforceDataSource)
         
@@ -426,8 +426,8 @@ def example_4_custom_object():
 
 def main():
     """Run all examples"""
-    print("🚀 Salesforce Sink Examples")
-    print("This demonstrates various ways to use the Salesforce streaming sink")
+    print("🚀 Salesforce Datasource Examples")
+    print("This demonstrates various ways to use the Salesforce streaming datasource")
     
     try:
         # Run examples
@@ -440,7 +440,7 @@ def main():
         print("✅ All examples completed!")
         print("="*60)
         print("\n💡 Key takeaways:")
-        print("   - Salesforce sink supports various input sources (rate, CSV, etc.)")
+        print("   - Salesforce datasource supports various input sources (rate, CSV, etc.)")
         print("   - Checkpoint functionality enables exactly-once processing")
         print("   - Custom schemas allow flexibility for different Salesforce objects")
         print("   - Batch processing optimizes Salesforce API usage")
diff --git a/pyspark_datasources/salesforce.py b/pyspark_datasources/salesforce.py
@@ -17,20 +17,20 @@ class SalesforceCommitMessage(WriterCommitMessage):
 
 class SalesforceDataSource(DataSource):
     """
-    A Salesforce streaming sink for PySpark to write data to Salesforce objects.
+    A Salesforce streaming datasource for PySpark to write data to Salesforce objects.
 
-    This data sink enables writing streaming data from Spark to Salesforce using the
+    This datasource enables writing streaming data from Spark to Salesforce using the
     Salesforce REST API. It supports common Salesforce objects like Account, Contact,
     Opportunity, and custom objects.
 
-    Note: This is a write-only sink, not a full bidirectional data source.
+    Note: This is a write-only datasource, not a full bidirectional data source.
 
     Name: `salesforce`
 
     Notes
     -----
     - Requires the `simple-salesforce` library for Salesforce API integration
-    - **Write-only sink**: Only supports streaming write operations (no read operations)
+    - **Write-only datasource**: Only supports streaming write operations (no read operations)
     - Uses Salesforce username/password/security token authentication
     - Supports batch writing with Salesforce Composite Tree API for efficient processing
     - Implements exactly-once semantics through Spark's checkpoint mechanism
@@ -61,7 +61,7 @@ class SalesforceDataSource(DataSource):
 
     Examples
     --------
-    Register the Salesforce sink:
+    Register the Salesforce Datasource:
 
     >>> from pyspark_datasources import SalesforceDataSource
     >>> spark.dataSource.register(SalesforceDataSource)
@@ -82,9 +82,9 @@ class SalesforceDataSource(DataSource):
     ...     (col("value") * 100000).cast("double").alias("AnnualRevenue")
     ... )
     >>> 
-    >>> # Write to Salesforce using the sink
+    >>> # Write to Salesforce using the datasource
     >>> query = account_data.writeStream \\
-    ...     .format("salesforce") \\
+    ...     .format("pyspark.datasource.salesforce") \\
     ...     .option("username", "your-username@company.com") \\
     ...     .option("password", "your-password") \\
     ...     .option("security_token", "your-security-token") \\
@@ -102,7 +102,7 @@ class SalesforceDataSource(DataSource):
     ... )
     >>> 
     >>> query = contact_data.writeStream \\
-    ...     .format("salesforce") \\
+    ...     .format("pyspark.datasource.salesforce") \\
     ...     .option("username", "your-username@company.com") \\
     ...     .option("password", "your-password") \\
     ...     .option("security_token", "your-security-token") \\
@@ -118,7 +118,7 @@ class SalesforceDataSource(DataSource):
     ... )
     >>> 
     >>> query = custom_data.writeStream \\
-    ...     .format("salesforce") \\
+    ...     .format("pyspark.datasource.salesforce") \\
     ...     .option("username", "your-username@company.com") \\
     ...     .option("password", "your-password") \\
     ...     .option("security_token", "your-security-token") \\
@@ -132,7 +132,7 @@ class SalesforceDataSource(DataSource):
     >>> contact_schema = "FirstName STRING NOT NULL, LastName STRING NOT NULL, Email STRING, Phone STRING"
     >>>
     >>> query = contact_data.writeStream \\
-    ...     .format("salesforce") \\
+    ...     .format("pyspark.datasource.salesforce") \\
     ...     .option("username", "your-username@company.com") \\
     ...     .option("password", "your-password") \\
     ...     .option("security_token", "your-security-token") \\
@@ -152,7 +152,7 @@ class SalesforceDataSource(DataSource):
     ... )
     >>> 
     >>> query = opportunity_data.writeStream \\
-    ...     .format("salesforce") \\
+    ...     .format("pyspark.datasource.salesforce") \\
     ...     .option("username", "your-username@company.com") \\
     ...     .option("password", "your-password") \\
     ...     .option("security_token", "your-security-token") \\
@@ -163,7 +163,7 @@ class SalesforceDataSource(DataSource):
     
     Key Features:
     
-    - **Write-only sink**: Designed specifically for writing data to Salesforce
+    - **Write-only datasource**: Designed specifically for writing data to Salesforce
     - **Batch processing**: Uses Salesforce Composite Tree API for efficient bulk writes
     - **Exactly-once semantics**: Integrates with Spark's checkpoint mechanism
     - **Error handling**: Graceful fallback to individual record creation if batch fails
@@ -172,7 +172,7 @@ class SalesforceDataSource(DataSource):
 
     @classmethod
     def name(cls) -> str:
-        """Return the short name for this Salesforce sink."""
+        """Return the short name for this Salesforce datasource."""
         return "pyspark.datasource.salesforce"
 
     def schema(self) -> str:
@@ -200,12 +200,12 @@ def schema(self) -> str:
         """
 
     def streamWriter(self, schema: StructType, overwrite: bool) -> "SalesforceStreamWriter":
-        """Create a stream writer for Salesforce sink integration."""
+        """Create a stream writer for Salesforce datasource integration."""
         return SalesforceStreamWriter(schema, self.options)
 
 
 class SalesforceStreamWriter(DataSourceStreamWriter):
-    """Stream writer implementation for Salesforce sink integration."""
+    """Stream writer implementation for Salesforce datasource integration."""
 
     def __init__(self, schema: StructType, options: Dict[str, str]):
         self.schema = schema