milvus+minio批量初始化大量数据的时候minio崩了快400g内存 #46190

aicoderhefei · 2025-12-08T09:17:59Z

aicoderhefei
Dec 8, 2025

后期重新初始化发现批量500份占用桶50g，一个礼拜后回复3个g，想咨询一下这个是什么机制或者有什么配置嘛，支持大批量灌库

yhmo · 2025-12-08T10:31:55Z

yhmo
Dec 8, 2025
Collaborator

insert的数据经过proxy先进入pulsar/kafka，然后再从pulsar/kafka流向datanode，如果collection是loaded，则pulsar/kafka的数据也同时流向querynode。datanode把数据持久化到minio，大约每拿到100MB就会存为一个segment。随着segment数量增多，datanode再把100MB的那些segment合并成为1GB左右的segment。同时indexnode积极地给各个segment建索引，有的100MB的segment 也会被建索引。当若干个100MB的segment合并成1GB的segment之后，indexnode又会给这个1GB的segment建索引。于是这里就会有很多写放大，一般3到5倍这样。也就是说当你连续insert了50GB数据之后，写入minio的最终可能有200GB之多。

如果collection是loaded状态，那么这些数据会被querynode加载到内存。如果你是standalone milvus，由于datnode，indexnode也在使用内存，所以加在一起的内存用量就会高于数据量的大小。

一般的缓解方式是：

批量插入，比如每个insert请求插入5MB数据
大批量插入数据的时候先不要load collection，甚至先别建索引，直到数据全部插入后，通过Attu观察那些compaction任务都做完后再建索引
通过bulkimport导入数据文件

1 reply

xiaofan-luan Dec 9, 2025
Maintainer

另一个方式：你可以降低gc的周期，比如改成1小时。如果导入大量小文件导致的compaction可以通过这个方式环节。
另外，存储不值钱，一般建议多给一些，避免一些不必要的麻烦

aicoderhefei · 2025-12-10T01:33:30Z

aicoderhefei
Dec 10, 2025
Author

好的，谢谢

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

milvus+minio批量初始化大量数据的时候minio崩了快400g内存 #46190

Uh oh!

{{title}}

Uh oh!

Replies: 2 comments 1 reply

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

milvus+minio批量初始化大量数据的时候minio崩了快400g内存 #46190

Uh oh!

aicoderhefei Dec 8, 2025

Replies: 2 comments · 1 reply

Uh oh!

yhmo Dec 8, 2025 Collaborator

Uh oh!

xiaofan-luan Dec 9, 2025 Maintainer

Uh oh!

aicoderhefei Dec 10, 2025 Author

aicoderhefei
Dec 8, 2025

Replies: 2 comments 1 reply

yhmo
Dec 8, 2025
Collaborator

xiaofan-luan Dec 9, 2025
Maintainer

aicoderhefei
Dec 10, 2025
Author