// Tile size: 5x2 // Accumulators: 0-9 // Col regs: zmm10-14 // Row regs: zmm15-16 vmovaps zmm10, [rax] vbroadcastss zmm15, dword ptr [rcx + 0] vbroadcastss zmm16, dword ptr [rcx + 4] vmovaps zmm11, [rax + 64] // NB stepping column-wise vfmadd231ps zmm0, zmm10, zmm15 vfmadd231ps zmm5, zmm10, zmm16 vmovaps zmm12, [rax + 128] vfmadd231ps zmm1, zmm11, zmm15 vfmadd231ps zmm6, zmm11, zmm16 vmovaps zmm13, [rax + 192] vfmadd231ps zmm2, zmm12, zmm15 vfmadd231ps zmm7, zmm12, zmm16 vmovaps zmm14, [rax + 256] vfmadd231ps zmm3, zmm13, zmm15 vfmadd231ps zmm8, zmm13, zmm16 vfmadd231ps zmm4, zmm14, zmm15 vfmadd231ps zmm9, zmm14, zmm16 add rax, 320 add rcx, 8