vmovups zmm31, [rcx] // vbroadcastss zmm17, [rcx + 4 * 0] // vbroadcastss zmm18, [rcx + 4 * 1] // vbroadcastss zmm19, [rcx + 4 * 2] // vbroadcastss zmm20, [rcx + 4 * 3] // vbroadcastss zmm21, [rcx + 4 * 4] // vbroadcastss zmm22, [rcx + 4 * 5] // vbroadcastss zmm23, [rcx + 4 * 6] // vbroadcastss zmm24, [rcx + 4 * 7] // vbroadcastss zmm25, [rcx + 4 * 8] // vbroadcastss zmm26, [rcx + 4 * 9] // vbroadcastss zmm27, [rcx + 4 * 10] // vbroadcastss zmm28, [rcx + 4 * 11] // vbroadcastss zmm29, [rcx + 4 * 12] // vbroadcastss zmm30, [rcx + 4 * 13] // vbroadcastss zmm31, [rcx + 4 * 14] vbroadcastss zmm16, xmm31 valignd zmm17, zmm31, zmm31, 1 vbroadcastss zmm17, xmm17 valignd zmm18, zmm31, zmm31, 2 vbroadcastss zmm18, xmm18 valignd zmm19, zmm31, zmm31, 3 vbroadcastss zmm19, xmm19 valignd zmm20, zmm31, zmm31, 4 vbroadcastss zmm20, xmm20 valignd zmm21, zmm31, zmm31, 5 vbroadcastss zmm21, xmm21 valignd zmm22, zmm31, zmm31, 6 vbroadcastss zmm22, xmm22 valignd zmm23, zmm31, zmm31, 7 vbroadcastss zmm23, xmm23 valignd zmm24, zmm31, zmm31, 8 vbroadcastss zmm24, xmm24 valignd zmm25, zmm31, zmm31, 9 vbroadcastss zmm25, xmm25 valignd zmm26, zmm31, zmm31, 10 vbroadcastss zmm26, xmm26 valignd zmm27, zmm31, zmm31, 11 vbroadcastss zmm27, xmm27 valignd zmm28, zmm31, zmm31, 12 vbroadcastss zmm28, xmm28 valignd zmm29, zmm31, zmm31, 13 vbroadcastss zmm29, xmm29 valignd zmm30, zmm31, zmm31, 14 vbroadcastss zmm30, xmm30 valignd zmm31, zmm31, zmm31, 15 vbroadcastss zmm31, xmm31 vfmadd231ps zmm0, zmm16, [rax + 0] vfmadd231ps zmm1, zmm17, [rax + 64] vfmadd231ps zmm2, zmm18, [rax + 128] vfmadd231ps zmm3, zmm19, [rax + 192] vfmadd231ps zmm4, zmm20, [rax + 256] vfmadd231ps zmm5, zmm21, [rax + 320] vfmadd231ps zmm6, zmm22, [rax + 384] vfmadd231ps zmm7, zmm23, [rax + 448] vfmadd231ps zmm8, zmm24, [rax + 512] vfmadd231ps zmm9, zmm25, [rax + 576] vfmadd231ps zmm10, zmm26, [rax + 640] vfmadd231ps zmm11, zmm27, [rax + 704] vfmadd231ps zmm12, zmm28, [rax + 768] vfmadd231ps zmm13, zmm29, [rax + 832] vfmadd231ps zmm14, zmm30, [rax + 896] vfmadd231ps zmm15, zmm31, [rax + 960] add rcx, 64 add rax, 1024