Skip to content
Closed
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
10 changes: 5 additions & 5 deletions ai/vector-search-changelogs.md
Original file line number Diff line number Diff line change
@@ -1,18 +1,18 @@
---
title: Vector Search Changelogs
title: 向量检索变更日志
summary: 了解 TiDB 向量检索功能的新特性、兼容性变更、改进和缺陷修复。
---

# Vector Search Changelogs <!-- Draft translated by AI -->
# 向量检索变更日志

## 2025 年 7 月 15 日

- TiDB Vector Search(测试版)现已支持 TiDB Cloud DedicatedTiDB >= v8.4集群。
- TiDB 向量检索 (Vector Search)(测试版)现已支持 TiDB Cloud Dedicated (TiDB >= v8.4) 集群。

## 2024 年 6 月 25 日

- TiDB Vector Search(测试版)现已在所有区域的 TiDB Cloud Serverless 集群对所有用户开放。
- TiDB 向量检索 (Vector Search)(测试版)现已在所有区域的 TiDB Cloud Starter 集群对所有用户开放。

## 2024 年 4 月 1 日

- TiDB Vector Search(测试版)现已在欧盟区域的 TiDB Cloud Serverless 集群对受邀用户开放。
- TiDB 向量检索 (Vector Search)(测试版)现已在欧盟区域的 TiDB Cloud Starter 集群对受邀用户开放。
70 changes: 30 additions & 40 deletions ai/vector-search-full-text-search-python.md
Original file line number Diff line number Diff line change
Expand Up @@ -4,33 +4,33 @@ summary: 全文检索允许你根据精确的关键词检索文档。在 RAG(
aliases: ['/tidb/stable/vector-search-full-text-search-python']
---

# 使用 Python 进行全文检索 <!-- Draft translated by AI -->
# 使用 Python 进行全文检索

与关注语义相似度的 [向量检索](/vector-search/vector-search-overview.md) 不同,全文检索允许你根据精确的关键词检索文档。在 RAG(检索增强生成)场景中,你可以将全文检索与向量检索结合使用,以提升检索质量。
与关注语义相似度的[向量检索](/vector-search/vector-search-overview.md)不同,全文检索允许你根据精确的关键词检索文档。在 RAG(检索增强生成)场景中,你可以将全文检索与向量检索结合使用,以提升检索质量。

TiDB 的全文检索功能提供以下能力:

- **直接查询文本数据**:你可以直接在任意字符串列上进行检索,无需进行嵌入处理。

- **多语言支持**:无需指定语言即可获得高质量检索。TiDB 支持在同一张表中存储多种语言的文档,并会为每个文档自动选择最佳的文本分析器。

- **按相关性排序**:检索结果可以使用被广泛采用的 [BM25 排序](https://en.wikipedia.org/wiki/Okapi_BM25) 算法按相关性排序。
- **按相关性排序**:检索结果可以使用被广泛采用的 [BM25 排序](https://en.wikipedia.org/wiki/Okapi_BM25)算法按相关性排序。

- **完全兼容 SQL**:所有 SQL 功能,如预过滤、后过滤、分组和关联查询,都可以与全文检索结合使用。

> **提示:**
>
> 有关 SQL 用法,参见 [使用 SQL 进行全文检索](/ai/vector-search-full-text-search-sql.md)。
> 有关 SQL 用法,参见[使用 SQL 进行全文检索](/ai/vector-search-full-text-search-sql.md)。
>
> 如需在 AI 应用中同时使用全文检索和向量检索,参见 [混合检索](/ai/vector-search-hybrid-search.md)。
> 如需在 AI 应用中同时使用全文检索和向量检索,参见[混合检索](/ai/vector-search-hybrid-search.md)。

## 前提条件

全文检索目前仍处于早期阶段,我们正在持续向更多用户开放。目前,全文检索仅在以下区域的 TiDB Cloud Starter 和 TiDB Cloud Essential 上可用:

- AWS:`法兰克福 (eu-central-1)` 和 `新加坡 (ap-southeast-1)`
- AWS:`Frankfurt (eu-central-1)` 和 `Singapore (ap-southeast-1)`

要完成本教程,请确保你在支持的区域拥有一个 TiDB Cloud Starter 集群。如果还没有,请按照 [创建 TiDB Cloud Starter 集群](/develop/dev-guide-build-cluster-in-cloud.md) 创建。
要完成本教程,请确保你在支持的区域拥有一个 TiDB Cloud Starter 集群。如果还没有,请按照[创建 TiDB Cloud Starter 集群](/develop/dev-guide-build-cluster-in-cloud.md)创建。

## 快速开始

Expand Down Expand Up @@ -64,36 +64,36 @@ db = TiDBClient.connect(
)
```

你可以在 [TiDB Cloud 控制台](https://tidbcloud.com) 获取这些连接参数:
你可以在 [TiDB Cloud 控制台](https://tidbcloud.com)获取这些连接参数:

1. 进入 [**Clusters**](https://tidbcloud.com/project/clusters) 页面,点击目标集群名称进入集群概览页。

2. 点击右上角的 **Connect**。此时会弹出连接对话框,显示连接参数。

例如,连接参数如下所示:
例如,连接参数如下所示:

```text
HOST: gateway01.us-east-1.prod.shared.aws.tidbcloud.com
PORT: 4000
USERNAME: 4EfqPF23YKBxaQb.root
PASSWORD: abcd1234
DATABASE: test
CA: /etc/ssl/cert.pem
```
```text
HOST: gateway01.us-east-1.prod.shared.aws.tidbcloud.com
PORT: 4000
USERNAME: 4EfqPF23YKBxaQb.root
PASSWORD: abcd1234
DATABASE: test
CA: /etc/ssl/cert.pem
```

对应的 Python 代码如下:
对应的 Python 代码如下:

```python
db = TiDBClient.connect(
host="gateway01.us-east-1.prod.shared.aws.tidbcloud.com",
port=4000,
username="4EfqPF23YKBxaQb.root",
password="abcd1234",
database="test",
)
```
```python
db = TiDBClient.connect(
host="gateway01.us-east-1.prod.shared.aws.tidbcloud.com",
port=4000,
username="4EfqPF23YKBxaQb.root",
password="abcd1234",
database="test",
)
```

注意,上述示例仅用于演示。你需要使用自己的参数,并妥善保管。
注意,上述示例仅用于演示。你需要使用自己的参数,并妥善保管。

### 步骤 3. 创建表和全文索引

Expand Down Expand Up @@ -159,15 +159,5 @@ df = (

全文检索目前仍处于早期阶段,开放范围有限。如果你希望在尚未开放的区域体验全文检索,或有任何反馈和帮助需求,欢迎联系我们:

<CustomContent platform="tidb">

- [加入我们的 Discord](https://discord.gg/zcqexutz2R)

</CustomContent>

<CustomContent platform="tidb-cloud">

- [加入我们的 Discord](https://discord.gg/zcqexutz2R)
- [访问我们的支持门户](https://tidb.support.pingcap.com/)

</CustomContent>
- 在 [AskTUG](https://asktug.com/?utm_source=docs-cn-dev-guide) 上进行提问
- [提交 TiDB Cloud 工单](https://tidb.support.pingcap.com/servicedesk/customer/portals)
28 changes: 9 additions & 19 deletions ai/vector-search-full-text-search-sql.md
Original file line number Diff line number Diff line change
Expand Up @@ -4,33 +4,33 @@ summary: 全文检索允许你根据精确关键词检索文档。在 RAG(检
aliases: ['/tidb/stable/vector-search-full-text-search-sql']
---

# 使用 SQL 进行全文检索 <!-- Draft translated by AI -->
# 使用 SQL 进行全文检索

[向量检索](/vector-search/vector-search-overview.md) 侧重于语义相似性不同,全文检索允许你根据精确关键词检索文档。RAG(检索增强生成)场景中,你可以将全文检索与向量检索结合使用,以提升检索质量。
与[向量检索](/vector-search/vector-search-overview.md)侧重于语义相似性不同,全文检索允许你根据精确关键词检索文档。在检索增强生成 (Retrieval-Augmented Generation, RAG) 场景中,你可以将全文检索与向量检索结合使用,以提升检索质量。

TiDB 的全文检索功能提供以下能力:

- **直接查询文本数据**:你可以直接在任意字符串列上进行检索,无需进行嵌入处理。

- **支持多语言**:无需指定语言即可获得高质量检索。TiDB 的文本分析器支持同一张表中多种语言混合的文档,并会自动为每个文档选择最佳分析器。

- **按相关性排序**:检索结果可以通过广泛采用的 [BM25 排序](https://en.wikipedia.org/wiki/Okapi_BM25) 算法按相关性排序。
- **按相关性排序**:检索结果可以通过广泛采用的 [BM25 排序](https://en.wikipedia.org/wiki/Okapi_BM25)算法按相关性排序。

- **与 SQL 完全兼容**:所有 SQL 特性,如预过滤、后过滤、分组和关联查询等,都可以与全文检索结合使用。

> **提示:**
>
> 关于 Python 的用法,请参见 [使用 Python 进行全文检索](/ai/vector-search-full-text-search-python.md)。
> 关于 Python 的用法,请参见[使用 Python 进行全文检索](/ai/vector-search-full-text-search-python.md)。
>
> 如需在 AI 应用中同时使用全文检索和向量检索,请参见 [混合检索](/ai/vector-search-hybrid-search.md)。
> 如需在 AI 应用中同时使用全文检索和向量检索,请参见[混合检索](/ai/vector-search-hybrid-search.md)。

## 快速开始

全文检索目前仍处于早期阶段,我们正在持续向更多用户开放。目前,全文检索仅在以下区域的 TiDB Cloud Starter 和 TiDB Cloud Essential 上可用:

- AWS:`法兰克福 (eu-central-1)` 和 `新加坡 (ap-southeast-1)`
- AWS:`Frankfurt (eu-central-1)` 和 `Singapore (ap-southeast-1)`

在使用全文检索前,请确保你的 TiDB Cloud Starter 集群已创建在支持的区域。如果还没有,请按照 [创建 TiDB Cloud Starter 集群](/develop/dev-guide-build-cluster-in-cloud.md) 进行创建。
在使用全文检索前,请确保你的 TiDB Cloud Starter 集群已创建在支持的区域。如果还没有,请按照[创建 TiDB Cloud Starter 集群](/develop/dev-guide-build-cluster-in-cloud.md)进行创建。

要执行全文检索,请按照以下步骤操作:

Expand Down Expand Up @@ -206,15 +206,5 @@ WHERE t.author_id IN

全文检索目前仍处于早期阶段,开放范围有限。如果你希望在尚未开放的区域体验全文检索,或有任何反馈与帮助需求,欢迎联系我们:

<CustomContent platform="tidb">

- [加入我们的 Discord](https://discord.gg/zcqexutz2R)

</CustomContent>

<CustomContent platform="tidb-cloud">

- [加入我们的 Discord](https://discord.gg/zcqexutz2R)
- [访问我们的支持门户](https://tidb.support.pingcap.com/)

</CustomContent>
- 在 [AskTUG](https://asktug.com/?utm_source=docs-cn-dev-guide) 上进行提问
- [提交 TiDB Cloud 工单](https://tidb.support.pingcap.com/servicedesk/customer/portals)
28 changes: 9 additions & 19 deletions ai/vector-search-hybrid-search.md
Original file line number Diff line number Diff line change
@@ -1,29 +1,29 @@
---
title: Hybrid Search
title: 混合检索
summary: 同时使用全文检索和向量检索以提升检索质量。
aliases: ['/tidb/stable/vector-search-hybrid-search']
---

# Hybrid Search <!-- Draft translated by AI -->
# 混合检索

通过使用全文检索,你可以基于精确关键词检索文档。通过使用向量检索,你可以基于语义相似度检索文档。那么,我们能否将这两种检索方式结合起来,以提升检索质量并覆盖更多场景?答案是可以,这种方法被称为混合检索(hybrid search),并且在 AI 应用中被广泛使用。
通过使用全文检索,你可以基于精确关键词检索文档。通过使用向量检索,你可以基于语义相似度检索文档。那么,我们能否将这两种检索方式结合起来,以提升检索质量并覆盖更多场景?答案是可以,这种方法被称为混合检索 (Hybrid Search),并且在 AI 应用中被广泛使用。

在 TiDB 中,混合检索的一般流程如下:

1. 使用 TiDB 进行 **全文检索****向量检索**。
1. 使用 TiDB 进行**全文检索****向量检索**。
2. 使用 **reranker**(重排序器)对两种检索结果进行融合。

![Hybrid Search](/media/vector-search/hybrid-search-overview.svg)

本教程演示了如何在 TiDB 中使用 [pytidb](https://github.com/pingcap/pytidb) Python SDK 实现混合检索,该 SDK 内置了 embedding 和 reranking 支持。使用 pytidb 并非强制要求 —— 你也可以直接使用 SQL 进行检索,并根据需要使用自定义的 reranking 模型。
本教程演示了如何在 TiDB 中使用 [pytidb](https://github.com/pingcap/pytidb) Python SDK 实现混合检索,该 SDK 内置了 embedding 和 reranking 支持。使用 pytidb 并非强制要求你也可以直接使用 SQL 进行检索,并根据需要使用自定义的 reranking 模型。

## 前置条件

全文检索目前仍处于早期阶段,我们正在持续向更多用户开放。目前,全文检索仅在以下区域的 TiDB Cloud Starter 和 TiDB Cloud Essential 上可用:

- AWS: `Frankfurt (eu-central-1)` 和 `Singapore (ap-southeast-1)`

要完成本教程,请确保你在支持的区域拥有一个 TiDB Cloud Starter 集群。如果还没有,请参考 [创建 TiDB Cloud Starter 集群](/develop/dev-guide-build-cluster-in-cloud.md) 进行创建。
要完成本教程,请确保你在支持的区域拥有一个 TiDB Cloud Starter 集群。如果还没有,请参考[创建 TiDB Cloud Starter 集群](/develop/dev-guide-build-cluster-in-cloud.md)进行创建。

## 快速开始

Expand Down Expand Up @@ -53,7 +53,7 @@ db = TiDBClient.connect(
)
```

你可以在 [TiDB Cloud 控制台](https://tidbcloud.com) 获取这些连接参数:
你可以在 [TiDB Cloud 控制台](https://tidbcloud.com)获取这些连接参数:

1. 进入 [**Clusters**](https://tidbcloud.com/project/clusters) 页面,点击目标集群名称进入集群概览页。

Expand Down Expand Up @@ -153,15 +153,5 @@ df = (

全文检索目前仍处于早期阶段,开放范围有限。如果你希望在尚未开放的区域体验全文检索,或有任何反馈与帮助需求,欢迎联系我们:

<CustomContent platform="tidb">

- [加入我们的 Discord](https://discord.gg/zcqexutz2R)

</CustomContent>

<CustomContent platform="tidb-cloud">

- [加入我们的 Discord](https://discord.gg/zcqexutz2R)
- [访问我们的支持门户](https://tidb.support.pingcap.com/)

</CustomContent>
- 在 [AskTUG](https://asktug.com/?utm_source=docs-cn-dev-guide) 上进行提问
- [提交 TiDB Cloud 工单](https://tidb.support.pingcap.com/servicedesk/customer/portals)
Loading