Skip to content

Commit

Permalink
[Doc] update toc&export.md&etl&stream load&loadingIntro in 2.2 (StarR…
Browse files Browse the repository at this point in the history
…ocks#1742)

* add flowchart to broker load v2.2

* Update Spark_connector.md

* Update Spark_connector.md2

* Update 导入通用-stream load-broker load-faq

* Update 导入通用-stream load-broker load-faq

* Update data sources in Loading_intro.md

* Add v2.0.9 release notes

* Modify descriptions of "load modes" in Loading_intro.md

* Update Flink-connector-starrocks.md

* Modify descriptions about job creation in Loading_intro.md

* Modify descriptions about job creation in Loading_intro.md-2

* Update loading overview

* Update data sources in routine load

* Update Loading_intro.md

* Update Loading_intro.md

* Update Loading_intro.md

* Update Loading_intro.md

* Update Loading_intro.md

* Update Loading_intro.md

* Update Loading_intro.md

* Update Loading_intro.md

* Update Loading_intro.md

* Update Loading_intro.md

* update loading overview 0818

* update loading overview 0818-2

* minor modifications 0818

* minor modifications -2

* minor modification -3

* minor modifications 0818

* minor modifications -2

* minor modification -3

* update title names

* Update Loading_intro.md

* delete broker from loading_intro

* move parquet in loading_intro

* remove OOM in loading_intro

* modify hdfs in loading_intro

* update ingestion methods in loading_intro

* add gcs to loading_intro.md

* update stream load

* update broker load

* Update Etl_in_loading.md

* Update PrimaryKeyLoad.md

* update sort keys

* update Sort_key-shortdesc

* Update Sort_key-shortdesc-2

* update Sort_key-shortdesc

* modify li&ul in BrokerLoad&Loading_intro

* modify li&ul in BrokerLoad&Loading_intro

* Update SR_table_design& fiveLoading&TOC

* Update Sort_key-shortdesc-2

* update doc formats in BrokerLoad and TOC

* update toc&export.md&etl&stream load&loadingIntro
  • Loading branch information
amber-create authored Sep 13, 2022
1 parent f5e444e commit 583a1b3
Show file tree
Hide file tree
Showing 5 changed files with 20 additions and 20 deletions.
8 changes: 4 additions & 4 deletions TOC.md
Original file line number Diff line number Diff line change
Expand Up @@ -17,13 +17,13 @@
+ [导入总览](/loading/Loading_intro.md)
+ [通过 HTTP Push 从本地文件系统或流式数据源导入](/loading/StreamLoad.md)
+ [从 HDFS 或外部云存储系统导入](/loading/BrokerLoad.md)
+ [从 Apache Kafka® 导入](/loading/RoutineLoad.md)
+ [Spark Load](/loading/SparkLoad.md)
+ [INSERT 导入](/loading/InsertInto.md)
+ [从 Apache Kafka® 持续导入](/loading/RoutineLoad.md)
+ [使用 Apache Spark™ 批量导入和数据转换](/loading/SparkLoad.md)
+ [使用 INSERT 导入](/loading/InsertInto.md)
+ [通过导入实现数据变更](/loading/PrimaryKeyLoad.md)
+ [导入过程中实现数据转换](/loading/Etl_in_loading.md)
+ [MySQL 实时同步](/loading/Flink_cdc_load.md)
+ [使用 flink-connector-starrocks 导入](/loading/Flink-connector-starrocks.md)
+ [使用 Apache Flink® 导入](/loading/Flink-connector-starrocks.md)
+ [使用 DataX 导入](/loading/DataX-starrocks-writer.md)
+ [使用 CloudCanal 导入](/loading/CloudCanal_loading.md)
+ 数据导出
Expand Down
22 changes: 11 additions & 11 deletions loading/Etl_in_loading.md
Original file line number Diff line number Diff line change
Expand Up @@ -83,7 +83,7 @@ StarRocks 支持在导入数据的过程中实现数据转换。
2020-05-23
```

3.`file1.csv``file2.csv` 文件上传到 HDFS 集群的 `/user/starRocks/data/input/` 路径下,并把 `file1.csv``file2.csv` 文件的数据分别传入 Apache Kafka® 集群的 `topic1``topic2` 中。
3.`file1.csv``file2.csv` 文件上传到 HDFS 集群的 `/user/starrocks/data/input/` 路径下,并把 `file1.csv``file2.csv` 文件的数据分别传入 Apache Kafka® 集群的 `topic1``topic2` 中。

## 跳过不需要导入的列

Expand Down Expand Up @@ -133,7 +133,7 @@ curl --location-trusted -u root: \
```SQL
LOAD LABEL test_db.label1
(
DATA INFILE("hdfs://<hdfs_host>:<hdfs_port>/user/starRocks/data/input/file1.csv")
DATA INFILE("hdfs://<hdfs_host>:<hdfs_port>/user/starrocks/data/input/file1.csv")
INTO TABLE `table1`
FORMAT AS "csv"
COLUMNS TERMINATED BY ","
Expand Down Expand Up @@ -222,7 +222,7 @@ curl --location-trusted -u root: \
```SQL
LOAD LABEL test_db.label2
(
DATA INFILE("hdfs://<hdfs_host>:<hdfs_port>/user/starRocks/data/input/file1.csv")
DATA INFILE("hdfs://<hdfs_host>:<hdfs_port>/user/starrocks/data/input/file1.csv")
INTO TABLE `table1`
FORMAT AS "csv"
COLUMNS TERMINATED BY ","
Expand Down Expand Up @@ -312,7 +312,7 @@ curl --location-trusted -u root: \
```SQL
LOAD LABEL test_db.label3
(
DATA INFILE("hdfs://<hdfs_host>:<hdfs_port>/user/starRocks/data/input/file2.csv")
DATA INFILE("hdfs://<hdfs_host>:<hdfs_port>/user/starrocks/data/input/file2.csv")
INTO TABLE `table2`
FORMAT AS "csv"
COLUMNS TERMINATED BY ","
Expand Down Expand Up @@ -367,27 +367,27 @@ MySQL [test_db]> SELECT * FROM table2;

当指定的文件路径中存在分区字段时,StarRocks 支持您使用 `COLUMNS FROM PATH AS` 参数指定要提取文件路径中哪些分区字段的信息,相当于待导入数据文件中的列。该参数只有在从 HDFS 导入数据时可用。

例如,要导入 Hive 生成的四个数据文件,这些文件存储在 HDFS 上的 `/user/starRocks/data/input/` 路径下,每个数据文件都按照 `date` 分区字段进行分区,并且每个数据文件都只包含两列,分别代表事件类型和用户 ID,如下所示:
例如,要导入 Hive 生成的四个数据文件,这些文件存储在 HDFS 上的 `/user/starrocks/data/input/` 路径下,每个数据文件都按照 `date` 分区字段进行分区,并且每个数据文件都只包含两列,分别代表事件类型和用户 ID,如下所示:

```Plain
/user/starRocks/data/input/date=2020-05-20/data
/user/starrocks/data/input/date=2020-05-20/data
1,354
/user/starRocks/data/input/date=2020-05-21/data
/user/starrocks/data/input/date=2020-05-21/data
2,465
/user/starRocks/data/input/date=2020-05-22/data
/user/starrocks/data/input/date=2020-05-22/data
1,576
/user/starRocks/data/input/date=2020-05-23/data
/user/starrocks/data/input/date=2020-05-23/data
2,687
```

### 导入数据

可以通过如下语句,创建 [Broker Load](/loading/BrokerLoad.md) 导入作业,获取文件路径 `/user/starRocks/data/input/` 中分区字段 `date` 的信息,并通过使用通配符 (*) 指定将该文件路径下所有数据文件都导入到 `table1` 表中:
可以通过如下语句,创建 [Broker Load](/loading/BrokerLoad.md) 导入作业,获取文件路径 `/user/starrocks/data/input/` 中分区字段 `date` 的信息,并通过使用通配符 (*) 指定将该文件路径下所有数据文件都导入到 `table1` 表中:

```SQL
LOAD LABEL test_db.label4
(
DATA INFILE("hdfs://<fe_host>:<fe_http_port>/user/starRocks/data/input/date=*/*")
DATA INFILE("hdfs://<fe_host>:<fe_http_port>/user/starrocks/data/input/date=*/*")
INTO TABLE `table1`
FORMAT AS "csv"
COLUMNS TERMINATED BY ","
Expand Down
6 changes: 3 additions & 3 deletions loading/Loading_intro.md
Original file line number Diff line number Diff line change
Expand Up @@ -22,7 +22,7 @@ StarRocks 支持两种导入模式:同步导入和异步导入。

同步导入是指您创建导入作业以后,StarRocks 同步执行作业,并在作业执行完成以后返回导入结果。您可以通过返回的导入结果判断导入作业是否成功。

支持同步模式的导入方式有 Stream Load 和 INSERT INTO
支持同步模式的导入方式有 Stream Load 和 INSERT。

导入过程如下:

Expand Down Expand Up @@ -77,7 +77,7 @@ StarRocks 支持两种导入模式:同步导入和异步导入。

## 导入方式

StarRocks 提供 [Stream Load](/loading/StreamLoad.md)[Broker Load](/loading/BrokerLoad.md)[Routine Load](/loading/RoutineLoad.md)[Spark Load](/loading/SparkLoad.md)[INSERT INTO](/loading/InsertInto.md) 多种导入方式,满足您在不同业务场景下的数据导入需求。
StarRocks 提供 [Stream Load](/loading/StreamLoad.md)[Broker Load](/loading/BrokerLoad.md)[Routine Load](/loading/RoutineLoad.md)[Spark Load](/loading/SparkLoad.md)[INSERT](/loading/InsertInto.md) 多种导入方式,满足您在不同业务场景下的数据导入需求。

| 导入方式 | 协议 | 业务场景 | 数据量(单作业) | 数据源 | 数据格式 | 同步模式 |
| ------------------ | ----- | ------------------------------------------------------------ | -------------------- | -------------------------------------------- | --------------------- | -------- |
Expand Down Expand Up @@ -106,7 +106,7 @@ StarRocks 提供 [Stream Load](/loading/StreamLoad.md)、[Broker Load](/loading/

您可以通过设置参数来限制单个导入作业的内存使用,以防止导入作业占用过多内存,特别是在导入并发较高的情况下。同时,您也需要注意避免设置过小的内存使用上限,因为内存使用上限过小,导入过程中可能会因为内存使用量达到上限而频繁地将内存中的数据刷出到磁盘,进而可能影响导入效率。建议您根据具体的业务场景要求,合理地设置内存使用上限。

不同的导入方式限制内存的方式略有不同,具体请参见 [Stream Load](/loading/StreamLoad.md)[Broker Load](/loading/BrokerLoad.md)[Routine Load](/loading/RoutineLoad.md)[Spark Load](/loading/SparkLoad.md)[INSERT INTO](/loading/InsertInto.md)。需要注意的是,一个导入作业通常都会分布在多个 BE 上执行,这些内存参数限制的是一个导入作业在单个 BE 上的内存使用,而不是在整个集群上的内存使用总和。
不同的导入方式限制内存的方式略有不同,具体请参见 [Stream Load](/loading/StreamLoad.md)[Broker Load](/loading/BrokerLoad.md)[Routine Load](/loading/RoutineLoad.md)[Spark Load](/loading/SparkLoad.md)[INSERT](/loading/InsertInto.md)。需要注意的是,一个导入作业通常都会分布在多个 BE 上执行,这些内存参数限制的是一个导入作业在单个 BE 上的内存使用,而不是在整个集群上的内存使用总和。

您还可以通过设置一些参数来限制在单个 BE 上运行的所有导入作业的总的内存使用上限。可参考本文“[系统配置](/loading/Loading_intro.md#系统配置)”章节。

Expand Down
2 changes: 1 addition & 1 deletion loading/StreamLoad.md
Original file line number Diff line number Diff line change
Expand Up @@ -191,7 +191,7 @@ curl -v --location-trusted -u root: -H "strict_mode: true" \

> 说明:上述示例中,在导入过程中先将 `example2.json` 文件中 `code` 键对应的值乘以 100,然后再落入到 `table2` 表的 `id` 中。

有关导入 JSON 数据时 `jsonpaths``columns` 和 StarRocks 表中的字段之间的对应关系,请参见 STREAM LOAD 文档中“[使用说明](/sql-reference/sql-statements/data-manipulation/STREAM%20LOAD.md#使用说明)”章节。
有关导入 JSON 数据时 `jsonpaths``columns` 和 StarRocks 表中的字段之间的对应关系,请参见 STREAM LOAD 文档中“[列映射](/sql-reference/sql-statements/data-manipulation/STREAM%20LOAD.md#列映射)”章节。

##### 查询数据

Expand Down
2 changes: 1 addition & 1 deletion unloading/Export.md
Original file line number Diff line number Diff line change
Expand Up @@ -8,7 +8,7 @@ StarRocks 提供的数据导出功能。您可以使用该功能将指定表或

Broker Load 需要借助 Broker 程序程访问外部云存储系统。因此,使用 Broker Load 前,需要提前部署好 Broker 程序。

有关如何部署 Broker 程序的信息,请参见[部署 Broker 节点](/quick_start/Deploy.md)
有关如何部署 Broker 程序的信息,请参见[部署 Broker 节点](/administration/deploy_broker.md)

## 注意事项

Expand Down

0 comments on commit 583a1b3

Please sign in to comment.