coralbay / swin_unetr.py

Upload 11 files

17825b3 verified about 23 hours ago

8.6 kB

	"""Encoder based on Swin UNETR."""

	from typing import List, Literal, Tuple

	import torch
	from monai.inferers.inferer import Inferer
	from monai.networks.blocks import unetr_block
	from monai.networks.nets import swin_unetr
	from monai.utils import misc
	from torch import nn

	from huggingface_hub import PyTorchModelHubMixin


	class SwinUNETREncoder(nn.Module, PyTorchModelHubMixin):
	"""Swin transformer encoder based on UNETR [0].

	- [0] UNETR: Transformers for 3D Medical Image Segmentation
	https://arxiv.org/pdf/2103.10504
	"""

	def __init__(
	self,
	in_channels: int = 1,
	feature_size: int = 48,
	spatial_dims: int = 3,
	out_indices: int \| None = None,
	inferer: Inferer \| None = None,
	embeddings_type: Literal["multiscale", "head"] = "multiscale",
	use_v2: bool = True,
	) -> None:
	"""Build the UNETR encoder.

	Args:
	in_channels: Number of input channels.
	feature_size: The dimension of network feature size.
	spatial_dims: Number of spatial dimensions.
	out_indices: Number of feature outputs. If None,
	the aggregated feature vector is returned.
	inferer: An optional MONAI `Inferer` for efficient
	inference during evaluation.
	embeddings_type: Whether to use aggregated or head embeddings:
	- `multiscale`: multi-scale aggregated representation
	- `head`: last-stage (head) pooled representation
	use_v2: Whether to use SwinTransformerV2.
	"""
	super().__init__()

	self._in_channels = in_channels
	self._feature_size = feature_size
	self._spatial_dims = spatial_dims
	self._out_indices = out_indices
	self._inferer = inferer
	self._embeddings_type = embeddings_type
	self._use_v2 = use_v2

	self._window_size = misc.ensure_tuple_rep(7, spatial_dims)
	self._patch_size = misc.ensure_tuple_rep(2, spatial_dims)

	self.swinViT = swin_unetr.SwinTransformer(
	in_chans=in_channels,
	embed_dim=feature_size,
	window_size=self._window_size,
	patch_size=self._patch_size,
	depths=(2, 2, 2, 2),
	num_heads=(3, 6, 12, 24),
	mlp_ratio=4.0,
	qkv_bias=True,
	drop_rate=0.0,
	attn_drop_rate=0.0,
	drop_path_rate=0.0,
	norm_layer=torch.nn.LayerNorm,
	spatial_dims=spatial_dims,
	use_v2=use_v2,
	)
	self.encoder1 = unetr_block.UnetrBasicBlock(
	spatial_dims=spatial_dims,
	in_channels=in_channels,
	out_channels=feature_size,
	kernel_size=3,
	stride=1,
	norm_name="instance",
	res_block=True,
	)
	self.encoder2 = unetr_block.UnetrBasicBlock(
	spatial_dims=spatial_dims,
	in_channels=feature_size,
	out_channels=feature_size,
	kernel_size=3,
	stride=1,
	norm_name="instance",
	res_block=True,
	)
	self.encoder3 = unetr_block.UnetrBasicBlock(
	spatial_dims=spatial_dims,
	in_channels=2 * feature_size,
	out_channels=2 * feature_size,
	kernel_size=3,
	stride=1,
	norm_name="instance",
	res_block=True,
	)
	self.encoder4 = unetr_block.UnetrBasicBlock(
	spatial_dims=spatial_dims,
	in_channels=4 * feature_size,
	out_channels=4 * feature_size,
	kernel_size=3,
	stride=1,
	norm_name="instance",
	res_block=True,
	)
	self.encoder10 = unetr_block.UnetrBasicBlock(
	spatial_dims=spatial_dims,
	in_channels=16 * feature_size,
	out_channels=16 * feature_size,
	kernel_size=3,
	stride=1,
	norm_name="instance",
	res_block=True,
	)
	self._pool_op = (
	nn.AdaptiveAvgPool3d(output_size=(1, 1, 1))
	if spatial_dims == 3
	else nn.AdaptiveAvgPool2d(output_size=(1, 1))
	)

	def _forward_features(self, tensor: torch.Tensor) -> List[torch.Tensor]:
	"""Extracts feature maps from the Swin Transformer and encoder blocks.

	Args:
	tensor: Input tensor of shape (B, C, T, H, W).

	Returns:
	List of feature maps from encoder stages.
	"""
	hidden_states = self.swinViT(tensor)
	enc0 = self.encoder1(tensor)
	enc1 = self.encoder2(hidden_states[0])
	enc2 = self.encoder3(hidden_states[1])
	enc3 = self.encoder4(hidden_states[2])
	dec4 = self.encoder10(hidden_states[4])
	return [enc0, enc1, enc2, enc3, hidden_states[3], dec4]

	def forward_features(self, tensor: torch.Tensor) -> List[torch.Tensor]:
	"""Computes feature maps using either standard forward pass or inference mode.

	If in inference mode (`self.training` is False) and an inference method
	(`self._inferer`) is available, the `_inferer` is used to extract features.
	Otherwise, `_forward_features` is called directly.

	Args:
	tensor: Input tensor of shape (B, C, T, H, W).

	Returns:
	List of feature maps from encoder stages.
	"""
	if not self.training and self._inferer:
	return self._inferer(inputs=tensor, network=self._forward_features)

	return self._forward_features(tensor)

	def forward_encoders(self, features: List[torch.Tensor]) -> torch.Tensor:
	"""Aggregates encoder features into a single feature vector.

	Args:
	features: List of feature maps from encoder stages.

	Returns:
	Aggregated feature vector (B, C').
	"""
	batch_size = features[0].shape[0]
	reduced_features = []
	for patch_features in features[:4] + features[5:]:
	hidden_features = self._pool_op(patch_features)
	hidden_features_reduced = hidden_features.view(batch_size, -1)
	reduced_features.append(hidden_features_reduced)
	return torch.cat(reduced_features, dim=1)

	def forward_head(self, features: List[torch.Tensor]) -> torch.Tensor:
	"""Casts last feature map into a single feature vector.

	Args:
	features: List of encoder feature maps.

	Returns:
	Aggregated feature vector (B, C').
	"""
	last_feature_map = features[-1]
	pooled_features = self._pool_op(last_feature_map)
	return torch.flatten(pooled_features, 1)

	def forward_embeddings(self, tensor: torch.Tensor) -> torch.Tensor:
	"""Computes the final aggregated feature vector.

	Args:
	tensor: Input tensor of shape (B, C, T, H, W).

	Returns:
	Aggregated feature vector of shape (B, C').
	"""
	embeddings_to_forward_methods = {
	"multiscale": self.forward_encoders,
	"head": self.forward_head,
	}
	forward_method = embeddings_to_forward_methods.get(self._embeddings_type)
	if forward_method is None:
	raise ValueError(f"Unknown embeddings_type: {self._embeddings_type}")

	intermediates = self.forward_features(tensor)
	return forward_method(intermediates)

	def forward_intermediates(
	self, tensor: torch.Tensor
	) -> Tuple[torch.Tensor, List[torch.Tensor]]:
	"""Computes encoder features and their embeddings.

	Args:
	tensor: Input tensor of shape (B, C, T, H, W).

	Returns:
	Aggregated feature vector and list of intermediate features.
	"""
	features = self.forward_features(tensor)
	embeddings = self.forward_encoders(features)
	return embeddings, features

	def forward(self, tensor: torch.Tensor) -> torch.Tensor \| List[torch.Tensor]:
	"""Forward pass through the encoder.

	If `self._out_indices` is None, it returns the aggregated feature vector.
	Otherwise, it returns the intermediate feature maps up to the specified index.

	Args:
	tensor: Input tensor of shape (B, C, T, H, W).

	Returns:
	Aggregated feature vector or intermediate features.
	"""
	if self._out_indices is None:
	return self.forward_embeddings(tensor)

	intermediates = self.forward_features(tensor)
	return intermediates[-1 * self._out_indices :]