// Tile size: 6x2 // Accumulators: 0-9 // Col regs: zmm10-13 // Row regs: zmm14-15 vmovaps zmm12, [rax] vbroadcastss zmm14, dword ptr [rcx + 0] vbroadcastss zmm15, dword ptr [rcx + 4] vmovaps zmm13, [rax + 64] vfmadd231ps zmm0, zmm12, zmm14 vfmadd231ps zmm6, zmm12, zmm15 vmovaps zmm12, [rax + 128] vfmadd231ps zmm1, zmm13, zmm14 vfmadd231ps zmm7, zmm13, zmm15 vmovaps zmm13, [rax + 192] vfmadd231ps zmm2, zmm12, zmm14 vfmadd231ps zmm8, zmm12, zmm15 vmovaps zmm12, [rax + 256] vfmadd231ps zmm3, zmm13, zmm14 vfmadd231ps zmm9, zmm13, zmm15 vmovaps zmm13, [rax + 320] vfmadd231ps zmm4, zmm12, zmm14 vfmadd231ps zmm10, zmm12, zmm15 vmovaps zmm12, [rax + 384] vbroadcastss zmm14, dword ptr [rcx + 8] vfmadd231ps zmm5, zmm13, zmm14 vfmadd231ps zmm11, zmm13, zmm15 vbroadcastss zmm15, dword ptr [rcx + 12] vmovaps zmm13, [rax + 448] vfmadd231ps zmm0, zmm12, zmm14 vfmadd231ps zmm6, zmm12, zmm15 vmovaps zmm12, [rax + 512] vfmadd231ps zmm1, zmm13, zmm14 vfmadd231ps zmm7, zmm13, zmm15 vmovaps zmm13, [rax + 576] vfmadd231ps zmm2, zmm12, zmm14 vfmadd231ps zmm8, zmm12, zmm15 vmovaps zmm12, [rax + 640] vfmadd231ps zmm3, zmm13, zmm14 vfmadd231ps zmm9, zmm13, zmm15 vmovaps zmm13, [rax + 704] vfmadd231ps zmm4, zmm12, zmm14 vfmadd231ps zmm10, zmm12, zmm15 vfmadd231ps zmm5, zmm13, zmm14 vfmadd231ps zmm11, zmm13, zmm15 add rax, 768 add rcx, 16