Upload NeuroScan AI code

35b365b verified 4 months ago

5.23 kB

	# NeuroScan AI 性能基准测试

	## 🔬 性能基准测试报告

	> 测试时间: 2026-01-28 17:16:29

	### 测试环境

	\| 组件 \| 配置 \|
	\|------\|------\|
	\| CPU \| Intel(R) Xeon(R) Platinum 8350C CPU @ 2.60GHz \|
	\| CPU核心 \| 64 物理核 / 128 逻辑核 \|
	\| 内存 \| 2014 GB \|
	\| GPU \| NVIDIA A800-SXM4-80GB \|
	\| GPU显存 \| 80 GB \|
	\| Python \| 3.11.11 \|
	\| PyTorch \| 2.8.0+cu129 \|
	\| CUDA \| 12.9 \|
	\| MONAI \| 1.5.2 \|
	\| SimpleITK \| 2.4.1 \|

	### 测试数据

	\| 属性 \| 值 \|
	\|------\|------\|
	\| 数据集 \| Learn2Reg Lung CT \|
	\| 样本数量 \| 20 对 (吸气/呼气配对) \|
	\| 输入尺寸 \| 192 × 192 × 208 体素 \|
	\| 体素间距 \| 1.0 × 1.0 × 1.0 mm \|
	\| 数据类型 \| float32 \|
	\| 单卷大小 \| 58.5 MB \|
	\| 单卷体素数 \| 7,667,712 \|

	---

	## CPU 并发基准测试

	### 测试任务: 配准 + 变化检测流程

	1. 数据加载: NIfTI 格式加载
	2. 刚性配准: 6DOF 仿射变换 (SimpleITK)
	3. 非刚性配准: B-spline 形变场 (SimpleITK)
	4. 变化检测: 体素级差异计算

	### 测试结果

	\| 并发数 \| 总耗时 \| 吞吐量 \| CPU峰值 \| CPU均值 \| 内存峰值 \| 内存增量 \| 并行效率 \|
	\|--------\|--------\|--------\|---------\|---------\|----------\|----------\|----------\|
	\| 1 \| 7.38s \| 8.1/min \| 10.3% \| 1.9% \| 39.1 GB \| +1.0 GB \| 100% \|
	\| 2 \| 7.68s \| 15.6/min \| 38.8% \| 5.4% \| 40.0 GB \| +2.0 GB \| 192% \|
	\| 3 \| 8.44s \| 21.3/min \| 39.2% \| 7.4% \| 40.8 GB \| +3.0 GB \| 262% \|
	\| 4 \| 9.07s \| 26.5/min \| 42.6% \| 9.5% \| 41.8 GB \| +4.0 GB \| 325% \|
	\| 5 \| 9.60s \| 31.2/min \| 42.0% \| 11.3% \| 42.5 GB \| +5.0 GB \| 384% \|

	### 单任务耗时分解

	\| 阶段 \| 耗时 \| 占比 \| 说明 \|
	\|------\|------\|------\|------\|
	\| 数据加载 \| 0.08s \| 1% \| NIfTI 读取 + 预处理 \|
	\| 刚性配准 \| 1.10s \| 15% \| 6DOF 仿射变换优化 \|
	\| 非刚性配准 \| 6.20s \| 84% \| B-spline 形变场优化 \|
	\| 变化检测 \| 0.02s \| <1% \| NumPy 差异计算 \|
	\| 总计 \| 7.40s \| 100% \| - \|

	### CPU 利用率分析

	```
	并发数: 1 ▓░░░░░░░░░░░░░░░░░░░ 10.3%
	并发数: 2 ▓▓▓▓▓▓▓░░░░░░░░░░░░░ 38.8%
	并发数: 3 ▓▓▓▓▓▓▓░░░░░░░░░░░░░ 39.2%
	并发数: 4 ▓▓▓▓▓▓▓▓░░░░░░░░░░░░ 42.6%
	并发数: 5 ▓▓▓▓▓▓▓▓░░░░░░░░░░░░ 42.0%
	```

	> 📊 结论: CPU 利用率在 5 并发时仅达到 42%，说明还有很大的并发扩展空间。

	---

	## GPU 并发基准测试

	### 测试任务: MONAI 器官分割

	- 模型: TotalSegmentator (104 类器官)
	- 推理方式: Sliding Window (滑动窗口)
	- 窗口大小: 96 × 96 × 96
	- 重叠率: 50%

	### 测试结果

	\| 并发数 \| 总耗时 \| GPU显存峰值 \| GPU利用率峰值 \| CPU峰值 \| 内存峰值 \|
	\|--------\|--------\|-------------\|---------------\|---------\|----------\|
	\| 1 \| 8.19s \| 9.0 GB \| 100% \| 37.5% \| 42.1 GB \|
	\| 2 \| 8.50s \| 15.0 GB \| 100% \| 5.8% \| 43.2 GB \|

	### 单任务耗时分解

	\| 阶段 \| 耗时 \| 占比 \| 说明 \|
	\|------\|------\|------\|------\|
	\| 数据加载 \| 0.11s \| 1% \| NIfTI → Tensor \|
	\| 模型推理 \| 8.08s \| 99% \| Sliding Window \|
	\| 总计 \| 8.19s \| 100% \| - \|
	\| GPU显存 \| 7.32 GB \| - \| PyTorch allocated \|
	\| GPU显存 (系统) \| 9.0 GB \| - \| nvidia-smi 报告 \|

	### GPU 显存分析

	```
	单任务: ▓▓▓▓▓▓▓▓▓░░░░░░░░░░░░░░░░░░░░░░░ 9.0 GB / 80 GB (11%)
	双任务: ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓░░░░░░░░░░░░░░░░░ 15.0 GB / 80 GB (19%)
	```

	> 📊 结论: 单任务分割需要约 9 GB GPU显存，双任务需要约 15 GB。RTX 3060 (12GB) 可运行单任务，RTX 4090 (24GB) 可运行 2 并发。

	---

	## 资源需求总结

	### 最小配置估算

	基于测试数据，各场景的最小资源需求：

	\| 场景 \| CPU \| 内存 \| GPU显存 \| 备注 \|
	\|------\|-----\|------\|---------\|------\|
	\| 仅配准 (单任务) \| 2 核 \| 2 GB \| 无需 \| CPU密集型 \|
	\| 仅配准 (5并发) \| 8 核 \| 6 GB \| 无需 \| 线性扩展 \|
	\| 分割 (单任务) \| 4 核 \| 4 GB \| 9 GB \| GPU密集型 \|
	\| 分割 (双任务) \| 4 核 \| 6 GB \| 15 GB \| 显存瓶颈 \|
	\| 完整流程 \| 8 核 \| 8 GB \| 12 GB \| 配准+分割+LLM \|

	### 推荐配置方案

	\| 部署场景 \| CPU \| 内存 \| GPU \| 预估并发能力 \| 参考月费 \|
	\|----------\|-----\|------\|-----\|--------------\|----------\|
	\| 最低配置 \| 4核 \| 8 GB \| 无 \| 1 任务 (仅配准) \| ~¥100 \|
	\| 推荐配置 \| 8核 \| 16 GB \| RTX 3060 12GB \| 2-3 任务 \| ~¥800 \|
	\| 专业配置 \| 16核 \| 32 GB \| RTX 4090 24GB \| 5+ 任务 \| ~¥2000 \|
	\| 服务器配置 \| 32核+ \| 64 GB+ \| A100 40GB+ \| 10+ 任务 \| ~¥8000 \|

	---

	## 运行基准测试

	```bash
	# 运行完整基准测试
	python scripts/benchmark.py

	# 运行快速压力测试
	python scripts/stress_test.py
	```

	---

	## 附录: 测试脚本

	- `scripts/benchmark.py` - 完整基准测试，生成详细报告
	- `scripts/stress_test.py` - 快速压力测试，显示资源峰值

	---

	报告生成时间: 2026-01-28 17:16:29

	# NeuroScan AI 性能基准测试

	## 🔬 性能基准测试报告

	> 测试时间: 2026-01-28 17:16:29

	### 测试环境

	\| 组件 \| 配置 \|
	\|------\|------\|
	\| CPU \| Intel(R) Xeon(R) Platinum 8350C CPU @ 2.60GHz \|
	\| CPU核心 \| 64 物理核 / 128 逻辑核 \|
	\| 内存 \| 2014 GB \|
	\| GPU \| NVIDIA A800-SXM4-80GB \|
	\| GPU显存 \| 80 GB \|
	\| Python \| 3.11.11 \|
	\| PyTorch \| 2.8.0+cu129 \|
	\| CUDA \| 12.9 \|
	\| MONAI \| 1.5.2 \|
	\| SimpleITK \| 2.4.1 \|

	### 测试数据

	\| 属性 \| 值 \|
	\|------\|------\|
	\| 数据集 \| Learn2Reg Lung CT \|
	\| 样本数量 \| 20 对 (吸气/呼气配对) \|
	\| 输入尺寸 \| 192 × 192 × 208 体素 \|
	\| 体素间距 \| 1.0 × 1.0 × 1.0 mm \|
	\| 数据类型 \| float32 \|
	\| 单卷大小 \| 58.5 MB \|
	\| 单卷体素数 \| 7,667,712 \|

	---

	## CPU 并发基准测试

	### 测试任务: 配准 + 变化检测流程

	1. 数据加载: NIfTI 格式加载
	2. 刚性配准: 6DOF 仿射变换 (SimpleITK)
	3. 非刚性配准: B-spline 形变场 (SimpleITK)
	4. 变化检测: 体素级差异计算

	### 测试结果

	\| 并发数 \| 总耗时 \| 吞吐量 \| CPU峰值 \| CPU均值 \| 内存峰值 \| 内存增量 \| 并行效率 \|
	\|--------\|--------\|--------\|---------\|---------\|----------\|----------\|----------\|
	\| 1 \| 7.38s \| 8.1/min \| 10.3% \| 1.9% \| 39.1 GB \| +1.0 GB \| 100% \|
	\| 2 \| 7.68s \| 15.6/min \| 38.8% \| 5.4% \| 40.0 GB \| +2.0 GB \| 192% \|
	\| 3 \| 8.44s \| 21.3/min \| 39.2% \| 7.4% \| 40.8 GB \| +3.0 GB \| 262% \|
	\| 4 \| 9.07s \| 26.5/min \| 42.6% \| 9.5% \| 41.8 GB \| +4.0 GB \| 325% \|
	\| 5 \| 9.60s \| 31.2/min \| 42.0% \| 11.3% \| 42.5 GB \| +5.0 GB \| 384% \|

	### 单任务耗时分解

	\| 阶段 \| 耗时 \| 占比 \| 说明 \|
	\|------\|------\|------\|------\|
	\| 数据加载 \| 0.08s \| 1% \| NIfTI 读取 + 预处理 \|
	\| 刚性配准 \| 1.10s \| 15% \| 6DOF 仿射变换优化 \|
	\| 非刚性配准 \| 6.20s \| 84% \| B-spline 形变场优化 \|
	\| 变化检测 \| 0.02s \| <1% \| NumPy 差异计算 \|
	\| 总计 \| 7.40s \| 100% \| - \|

	### CPU 利用率分析

	```
	并发数: 1 ▓░░░░░░░░░░░░░░░░░░░ 10.3%
	并发数: 2 ▓▓▓▓▓▓▓░░░░░░░░░░░░░ 38.8%
	并发数: 3 ▓▓▓▓▓▓▓░░░░░░░░░░░░░ 39.2%
	并发数: 4 ▓▓▓▓▓▓▓▓░░░░░░░░░░░░ 42.6%
	并发数: 5 ▓▓▓▓▓▓▓▓░░░░░░░░░░░░ 42.0%
	```

	> 📊 结论: CPU 利用率在 5 并发时仅达到 42%，说明还有很大的并发扩展空间。

	---

	## GPU 并发基准测试

	### 测试任务: MONAI 器官分割

	- 模型: TotalSegmentator (104 类器官)
	- 推理方式: Sliding Window (滑动窗口)
	- 窗口大小: 96 × 96 × 96
	- 重叠率: 50%

	### 测试结果

	\| 并发数 \| 总耗时 \| GPU显存峰值 \| GPU利用率峰值 \| CPU峰值 \| 内存峰值 \|
	\|--------\|--------\|-------------\|---------------\|---------\|----------\|
	\| 1 \| 8.19s \| 9.0 GB \| 100% \| 37.5% \| 42.1 GB \|
	\| 2 \| 8.50s \| 15.0 GB \| 100% \| 5.8% \| 43.2 GB \|

	### 单任务耗时分解

	\| 阶段 \| 耗时 \| 占比 \| 说明 \|
	\|------\|------\|------\|------\|
	\| 数据加载 \| 0.11s \| 1% \| NIfTI → Tensor \|
	\| 模型推理 \| 8.08s \| 99% \| Sliding Window \|
	\| 总计 \| 8.19s \| 100% \| - \|
	\| GPU显存 \| 7.32 GB \| - \| PyTorch allocated \|
	\| GPU显存 (系统) \| 9.0 GB \| - \| nvidia-smi 报告 \|

	### GPU 显存分析

	```
	单任务: ▓▓▓▓▓▓▓▓▓░░░░░░░░░░░░░░░░░░░░░░░ 9.0 GB / 80 GB (11%)
	双任务: ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓░░░░░░░░░░░░░░░░░ 15.0 GB / 80 GB (19%)
	```

	> 📊 结论: 单任务分割需要约 9 GB GPU显存，双任务需要约 15 GB。RTX 3060 (12GB) 可运行单任务，RTX 4090 (24GB) 可运行 2 并发。

	---

	## 资源需求总结

	### 最小配置估算

	基于测试数据，各场景的最小资源需求：

	\| 场景 \| CPU \| 内存 \| GPU显存 \| 备注 \|
	\|------\|-----\|------\|---------\|------\|
	\| 仅配准 (单任务) \| 2 核 \| 2 GB \| 无需 \| CPU密集型 \|
	\| 仅配准 (5并发) \| 8 核 \| 6 GB \| 无需 \| 线性扩展 \|
	\| 分割 (单任务) \| 4 核 \| 4 GB \| 9 GB \| GPU密集型 \|
	\| 分割 (双任务) \| 4 核 \| 6 GB \| 15 GB \| 显存瓶颈 \|
	\| 完整流程 \| 8 核 \| 8 GB \| 12 GB \| 配准+分割+LLM \|

	### 推荐配置方案

	\| 部署场景 \| CPU \| 内存 \| GPU \| 预估并发能力 \| 参考月费 \|
	\|----------\|-----\|------\|-----\|--------------\|----------\|
	\| 最低配置 \| 4核 \| 8 GB \| 无 \| 1 任务 (仅配准) \| ~¥100 \|
	\| 推荐配置 \| 8核 \| 16 GB \| RTX 3060 12GB \| 2-3 任务 \| ~¥800 \|
	\| 专业配置 \| 16核 \| 32 GB \| RTX 4090 24GB \| 5+ 任务 \| ~¥2000 \|
	\| 服务器配置 \| 32核+ \| 64 GB+ \| A100 40GB+ \| 10+ 任务 \| ~¥8000 \|

	---

	## 运行基准测试

	```bash
	# 运行完整基准测试
	python scripts/benchmark.py

	# 运行快速压力测试
	python scripts/stress_test.py
	```

	---

	## 附录: 测试脚本

	- `scripts/benchmark.py` - 完整基准测试，生成详细报告
	- `scripts/stress_test.py` - 快速压力测试，显示资源峰值

	---

	报告生成时间: 2026-01-28 17:16:29