作者你好,拜读了你的文章,我对训练推理过程有几个问题: 1. 训练是用 concat[x, x_m, z_t] 来预测 z_t 的 noise,这样理解对吗 ? 2. 推理的时候输入是 concat[x, x_m, z_T], 那么这一过程是对谁去噪呢 ? 是对 z_T 还是对 concat[x, x_m, z_T] 3. 一般 SD 是直接采样一个噪声作为初始输入,我推理的时候直接把 z_T 换成一个随机噪声,还能达到原来的效果吗 (按我的理解 z_T 应该等价于完全噪声吧)