2 18 5

zhangtao

zhangtao-whu

https://github.com/zhang-tao-whu

zhang-tao-whu

AI & ML interests

segmentation

Recent Activity

upvoted a paper 7 days ago

OmniDirector: General Multi-Shot Camera Cloning without Cross-Paired Data

upvoted a paper 8 days ago

Skill-3D: Evolving Scene-Aware Skills for Agentic 3D Spatial Reasoning

upvoted a paper 14 days ago

Towards One-to-Many Temporal Grounding

View all activity

Organizations

upvoted a paper 7 days ago

OmniDirector: General Multi-Shot Camera Cloning without Cross-Paired Data

Paper • 2606.13432 • Published 8 days ago • 99

upvoted a paper 8 days ago

Skill-3D: Evolving Scene-Aware Skills for Agentic 3D Spatial Reasoning

Paper • 2606.07436 • Published 13 days ago • 24

upvoted a paper 14 days ago

Towards One-to-Many Temporal Grounding

Paper • 2606.06294 • Published 15 days ago • 7

published a model 3 months ago

zhangtao-whu/vectorllm-hf

Updated Mar 27

upvoted a paper 5 months ago

SAMTok: Representing Any Mask with Two Words

Paper • 2601.16093 • Published Jan 22 • 44

liked a model 5 months ago

stepfun-ai/Step3-VL-10B

Image-Text-to-Text • 10B • Updated Feb 4 • 447k • 409

upvoted a paper 8 months ago

Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence

Paper • 2510.20579 • Published Oct 23, 2025 • 56

published a dataset 8 months ago

zhangtao-whu/coconut

Updated Oct 23, 2025 • 4

upvoted 2 papers 8 months ago

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

Paper • 2510.18876 • Published Oct 21, 2025 • 37

DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training

Paper • 2510.11712 • Published Oct 13, 2025 • 31

liked a dataset 9 months ago

LucasFang/FLUX-Reason-6M

Viewer • Updated Feb 2 • 5.89M • 7.81k • 96

liked a dataset 10 months ago

cyberalchemist/PixelWeb

Updated May 21, 2025 • 255 • 5

updated 2 datasets 11 months ago

zhangtao-whu/DW

Updated Jul 27, 2025 • 130 • 1

zhangtao-whu/sft_parquet

Viewer • Updated Jul 23, 2025 • 10.2M • 73

published a dataset 11 months ago

zhangtao-whu/sft_parquet

Viewer • Updated Jul 23, 2025 • 10.2M • 73

updated a dataset 11 months ago

zhangtao-whu/sam_tfrecords

Updated Jul 16, 2025 • 3.92k

published a dataset 11 months ago

zhangtao-whu/sam_tfrecords

Updated Jul 16, 2025 • 3.92k

upvoted a paper 11 months ago

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

Paper • 2507.07999 • Published Jul 10, 2025 • 51

published a model 12 months ago

zhangtao-whu/DW

Updated Jul 8, 2025

upvoted a paper about 1 year ago

VGR: Visual Grounded Reasoning

Paper • 2506.11991 • Published Jun 13, 2025 • 21

zhangtao

AI & ML interests

Recent Activity

Organizations

zhangtao-whu's activity