// Tile size: 8x2 // Accumulators: 0-15 // Col regs: 16-23 // Row regs: 24-25 vmovaps zmm16, [rax + 0] vbroadcastss zmm24, dword ptr [rcx + 0] vbroadcastss zmm25, dword ptr [rcx + 4] vfmadd231ps zmm0, zmm16, zmm24 vfmadd231ps zmm8, zmm16, zmm25 vmovaps zmm17, [rax + 64] vfmadd231ps zmm1, zmm17, zmm24 vfmadd231ps zmm9, zmm17, zmm25 vmovaps zmm18, [rax + 128] vfmadd231ps zmm2, zmm18, zmm24 vfmadd231ps zmm10, zmm18, zmm25 vmovaps zmm19, [rax + 192] vfmadd231ps zmm3, zmm19, zmm24 vfmadd231ps zmm11, zmm19, zmm25 vmovaps zmm20, [rax + 256] vfmadd231ps zmm4, zmm20, zmm24 vfmadd231ps zmm12, zmm20, zmm25 vmovaps zmm21, [rax + 320] vfmadd231ps zmm5, zmm21, zmm24 vfmadd231ps zmm13, zmm21, zmm25 vmovaps zmm22, [rax + 384] vfmadd231ps zmm6, zmm22, zmm24 vfmadd231ps zmm14, zmm22, zmm25 vmovaps zmm23, [rax + 448] vfmadd231ps zmm7, zmm23, zmm24 vfmadd231ps zmm15, zmm23, zmm25 add rax, 512 add rcx, 8