#include "QuEST.h"
#include "QuEST_precision.h"
#include "QuEST_internal.h"
#include "mt19937ar.h"
#include <stdlib.h>
#include <stdio.h>
#include <math.h>

Macros
#define	DEBUG 0

#define	REDUCE_SHARED_SIZE 512

Functions
DiagonalOp	agnostic_createDiagonalOp (int numQubits, QuESTEnv env)

void	agnostic_destroyDiagonalOp (DiagonalOp op)

void	agnostic_initDiagonalOpFromPauliHamil (DiagonalOp op, PauliHamil hamil)

__global__ void	agnostic_initDiagonalOpFromPauliHamilKernel (DiagonalOp op, enum pauliOpType pauliCodes, qreal termCoeffs, int numSumTerms)

void	agnostic_setDiagonalOpElems (DiagonalOp op, long long int startInd, qreal real, qreal imag, long long int numElems)

void	agnostic_syncDiagonalOp (DiagonalOp op)

__global__ void	copySharedReduceBlock (qreal arrayIn, qreal reducedArray, int length)

void	copyStateFromGPU (Qureg qureg)
	In GPU mode, this copies the state-vector (or density matrix) from GPU memory (qureg.deviceStateVec) to RAM (qureg.stateVec), where it can be accessed/modified by the user. More...

void	copyStateToGPU (Qureg qureg)
	In GPU mode, this copies the state-vector (or density matrix) from RAM (qureg.stateVec) to VRAM / GPU-memory (qureg.deviceStateVec), which is the version operated upon by other calls to the API. More...

QuESTEnv	createQuESTEnv (void)
	Create the QuEST execution environment. More...

void	densmatr_applyDiagonalOp (Qureg qureg, DiagonalOp op)

__global__ void	densmatr_applyDiagonalOpKernel (Qureg qureg, DiagonalOp op)

Complex	densmatr_calcExpecDiagonalOp (Qureg qureg, DiagonalOp op)

__global__ void	densmatr_calcExpecDiagonalOpKernel (int getRealComp, qreal matReal, qreal matImag, qreal opReal, qreal opImag, int numQubits, long long int numTermsToSum, qreal *reducedArray)

qreal	densmatr_calcFidelity (Qureg qureg, Qureg pureState)

__global__ void	densmatr_calcFidelityKernel (Qureg dens, Qureg vec, long long int dim, qreal *reducedArray)
	computes one term of (vec^T) dens vec More...

qreal	densmatr_calcHilbertSchmidtDistance (Qureg a, Qureg b)

__global__ void	densmatr_calcHilbertSchmidtDistanceSquaredKernel (qreal aRe, qreal aIm, qreal bRe, qreal bIm, long long int numAmpsToSum, qreal *reducedArray)

qreal	densmatr_calcInnerProduct (Qureg a, Qureg b)

__global__ void	densmatr_calcInnerProductKernel (Qureg a, Qureg b, long long int numTermsToSum, qreal *reducedArray)
	computes Tr(conjTrans(a) b) = sum of (a_ij^* b_ij), which is a real number More...

void	densmatr_calcProbOfAllOutcomes (qreal outcomeProbs, Qureg qureg, int qubits, int numQubits)

__global__ void	densmatr_calcProbOfAllOutcomesKernel (qreal outcomeProbs, Qureg qureg, int qubits, int numQubits)

qreal	densmatr_calcProbOfOutcome (Qureg qureg, int measureQubit, int outcome)

qreal	densmatr_calcPurity (Qureg qureg)
	Computes the trace of the density matrix squared. More...

__global__ void	densmatr_calcPurityKernel (qreal vecReal, qreal vecImag, long long int numAmpsToSum, qreal *reducedArray)

qreal	densmatr_calcTotalProb (Qureg qureg)

void	densmatr_collapseToKnownProbOutcome (Qureg qureg, int measureQubit, int outcome, qreal outcomeProb)
	This involves finding \|...i...><...j...\| states and killing those where i!=j. More...

__global__ void	densmatr_collapseToKnownProbOutcomeKernel (qreal outcomeProb, qreal vecReal, qreal vecImag, long long int numBasesToVisit, long long int part1, long long int part2, long long int part3, long long int rowBit, long long int colBit, long long int desired, long long int undesired)
	Maps thread ID to a \|..0..><..0..\| state and then locates \|0><1\|, \|1><0\| and \|1><1\|. More...

qreal	densmatr_findProbabilityOfZero (Qureg qureg, int measureQubit)

__global__ void	densmatr_findProbabilityOfZeroKernel (Qureg qureg, int measureQubit, qreal *reducedArray)

void	densmatr_initClassicalState (Qureg qureg, long long int stateInd)

__global__ void	densmatr_initClassicalStateKernel (long long int densityNumElems, qreal densityReal, qreal densityImag, long long int densityInd)

void	densmatr_initPlusState (Qureg qureg)

__global__ void	densmatr_initPlusStateKernel (long long int stateVecSize, qreal probFactor, qreal stateVecReal, qreal stateVecImag)

void	densmatr_initPureState (Qureg targetQureg, Qureg copyQureg)

__global__ void	densmatr_initPureStateKernel (long long int numPureAmps, qreal targetVecReal, qreal targetVecImag, qreal copyVecReal, qreal copyVecImag)

void	densmatr_mixDamping (Qureg qureg, int targetQubit, qreal damping)

__global__ void	densmatr_mixDampingKernel (qreal damping, qreal vecReal, qreal vecImag, long long int numAmpsToVisit, long long int part1, long long int part2, long long int part3, long long int bothBits)
	Works like mixDephasing but modifies every other element, and elements are averaged in pairs. More...

void	densmatr_mixDensityMatrix (Qureg combineQureg, qreal otherProb, Qureg otherQureg)

__global__ void	densmatr_mixDensityMatrixKernel (Qureg combineQureg, qreal otherProb, Qureg otherQureg, long long int numAmpsToVisit)

void	densmatr_mixDephasing (Qureg qureg, int targetQubit, qreal dephase)

__global__ void	densmatr_mixDephasingKernel (qreal fac, qreal vecReal, qreal vecImag, long long int numAmpsToVisit, long long int part1, long long int part2, long long int part3, long long int colBit, long long int rowBit)
	Called once for every 4 amplitudes in density matrix Works by establishing the \|..0..><..0..\| state (for its given index) then visiting \|..1..><..0..\| and \|..0..><..1..\|. More...

void	densmatr_mixDepolarising (Qureg qureg, int targetQubit, qreal depolLevel)

__global__ void	densmatr_mixDepolarisingKernel (qreal depolLevel, qreal vecReal, qreal vecImag, long long int numAmpsToVisit, long long int part1, long long int part2, long long int part3, long long int bothBits)
	Works like mixDephasing but modifies every other element, and elements are averaged in pairs. More...

void	densmatr_mixTwoQubitDephasing (Qureg qureg, int qubit1, int qubit2, qreal dephase)

__global__ void	densmatr_mixTwoQubitDephasingKernel (qreal fac, qreal vecReal, qreal vecImag, long long int numBackgroundStates, long long int numAmpsToVisit, long long int part1, long long int part2, long long int part3, long long int part4, long long int part5, long long int colBit1, long long int rowBit1, long long int colBit2, long long int rowBit2)
	Called 12 times for every 16 amplitudes in density matrix Each sums from the \|..0..0..><..0..0..\| index to visit either \|..0..0..><..0..1..\|, \|..0..0..><..1..0..\|, \|..0..0..><..1..1..\|, \|..0..1..><..0..0..\| etc and so on to \|..1..1..><..1..0\|. More...

void	densmatr_mixTwoQubitDepolarising (Qureg qureg, int qubit1, int qubit2, qreal depolLevel)

__global__ void	densmatr_mixTwoQubitDepolarisingKernel (qreal depolLevel, qreal vecReal, qreal vecImag, long long int numAmpsToVisit, long long int part1, long long int part2, long long int part3, long long int part4, long long int part5, long long int rowCol1, long long int rowCol2)
	Called once for every 16 amplitudes. More...

void	densmatr_oneQubitDegradeOffDiagonal (Qureg qureg, int targetQubit, qreal dephFac)

void	destroyQuESTEnv (QuESTEnv env)
	Destroy the QuEST environment. More...

__forceinline__ __device__ int	extractBit (const int locationOfBitFromRight, const long long int theEncodedNumber)

__forceinline__ __device__ long long int	flipBit (const long long int number, const int bitInd)

__forceinline__ __device__ int	getBitMaskParity (long long int mask)

void	getEnvironmentString (QuESTEnv env, char str[200])
	Sets `str` to a string containing information about the runtime environment, including whether simulation is using CUDA (for GPU), OpenMP (for multithreading) and/or MPI (for distribution). More...

int	getNumReductionLevels (long long int numValuesToReduce, int numReducedPerLevel)

int	GPUExists (void)

__forceinline__ __device__ long long int	insertTwoZeroBits (const long long int number, const int bit1, const int bit2)

__forceinline__ __device__ long long int	insertZeroBit (const long long int number, const int index)

__forceinline__ __device__ long long int	insertZeroBits (long long int number, int *inds, const int numInds)

__device__ __host__ unsigned int	log2Int (unsigned int x)

__device__ void	reduceBlock (qreal arrayIn, qreal reducedArray, int length)

void	reportQuESTEnv (QuESTEnv env)
	Report information about the QuEST environment. More...

void	seedQuEST (QuESTEnv env, unsigned long int seedArray, int numSeeds)
	Seeds the random number generator with a custom array of key(s), overriding the default keys. More...

void	statevec_applyDiagonalOp (Qureg qureg, DiagonalOp op)

__global__ void	statevec_applyDiagonalOpKernel (Qureg qureg, DiagonalOp op)

void	statevec_applyMultiVarPhaseFuncOverrides (Qureg qureg, int qubits, int numQubitsPerReg, int numRegs, enum bitEncoding encoding, qreal coeffs, qreal exponents, int numTermsPerReg, long long int overrideInds, qreal *overridePhases, int numOverrides, int conj)

__global__ void	statevec_applyMultiVarPhaseFuncOverridesKernel (Qureg qureg, int qubits, int numQubitsPerReg, int numRegs, enum bitEncoding encoding, qreal coeffs, qreal exponents, int numTermsPerReg, long long int overrideInds, qreal overridePhases, int numOverrides, long long int phaseInds, int conj)

void	statevec_applyParamNamedPhaseFuncOverrides (Qureg qureg, int qubits, int numQubitsPerReg, int numRegs, enum bitEncoding encoding, enum phaseFunc phaseFuncName, qreal params, int numParams, long long int overrideInds, qreal *overridePhases, int numOverrides, int conj)

__global__ void	statevec_applyParamNamedPhaseFuncOverridesKernel (Qureg qureg, int qubits, int numQubitsPerReg, int numRegs, enum bitEncoding encoding, enum phaseFunc phaseFuncName, qreal params, int numParams, long long int overrideInds, qreal overridePhases, int numOverrides, long long int phaseInds, int conj)

void	statevec_applyPhaseFuncOverrides (Qureg qureg, int qubits, int numQubits, enum bitEncoding encoding, qreal coeffs, qreal exponents, int numTerms, long long int overrideInds, qreal *overridePhases, int numOverrides, int conj)

__global__ void	statevec_applyPhaseFuncOverridesKernel (Qureg qureg, int qubits, int numQubits, enum bitEncoding encoding, qreal coeffs, qreal exponents, int numTerms, long long int overrideInds, qreal *overridePhases, int numOverrides, int conj)

Complex	statevec_calcExpecDiagonalOp (Qureg qureg, DiagonalOp op)

__global__ void	statevec_calcExpecDiagonalOpKernel (int getRealComp, qreal vecReal, qreal vecImag, qreal opReal, qreal opImag, long long int numTermsToSum, qreal *reducedArray)
	computes either a real or imag term of \|vec_i\|^2 op_i More...

Complex	statevec_calcInnerProduct (Qureg bra, Qureg ket)
	Terrible code which unnecessarily individually computes and sums the real and imaginary components of the inner product, so as to not have to worry about keeping the sums separated during reduction. More...

__global__ void	statevec_calcInnerProductKernel (int getRealComp, qreal vecReal1, qreal vecImag1, qreal vecReal2, qreal vecImag2, long long int numTermsToSum, qreal *reducedArray)
	computes either a real or imag term in the inner product More...

void	statevec_calcProbOfAllOutcomes (qreal outcomeProbs, Qureg qureg, int qubits, int numQubits)

__global__ void	statevec_calcProbOfAllOutcomesKernel (qreal outcomeProbs, Qureg qureg, int qubits, int numQubits)

qreal	statevec_calcProbOfOutcome (Qureg qureg, int measureQubit, int outcome)

qreal	statevec_calcTotalProb (Qureg qureg)

void	statevec_cloneQureg (Qureg targetQureg, Qureg copyQureg)
	works for both statevectors and density matrices More...

void	statevec_collapseToKnownProbOutcome (Qureg qureg, int measureQubit, int outcome, qreal outcomeProb)

__global__ void	statevec_collapseToKnownProbOutcomeKernel (Qureg qureg, int measureQubit, int outcome, qreal totalProbability)

void	statevec_compactUnitary (Qureg qureg, int targetQubit, Complex alpha, Complex beta)

__global__ void	statevec_compactUnitaryKernel (Qureg qureg, int rotQubit, Complex alpha, Complex beta)

int	statevec_compareStates (Qureg mq1, Qureg mq2, qreal precision)

void	statevec_controlledCompactUnitary (Qureg qureg, int controlQubit, int targetQubit, Complex alpha, Complex beta)

__global__ void	statevec_controlledCompactUnitaryKernel (Qureg qureg, int controlQubit, int targetQubit, Complex alpha, Complex beta)

void	statevec_controlledNot (Qureg qureg, int controlQubit, int targetQubit)

__global__ void	statevec_controlledNotKernel (Qureg qureg, int controlQubit, int targetQubit)

void	statevec_controlledPauliY (Qureg qureg, int controlQubit, int targetQubit)

void	statevec_controlledPauliYConj (Qureg qureg, int controlQubit, int targetQubit)

__global__ void	statevec_controlledPauliYKernel (Qureg qureg, int controlQubit, int targetQubit, int conjFac)

void	statevec_controlledPhaseFlip (Qureg qureg, int idQubit1, int idQubit2)

__global__ void	statevec_controlledPhaseFlipKernel (Qureg qureg, int idQubit1, int idQubit2)

void	statevec_controlledPhaseShift (Qureg qureg, int idQubit1, int idQubit2, qreal angle)

__global__ void	statevec_controlledPhaseShiftKernel (Qureg qureg, int idQubit1, int idQubit2, qreal cosAngle, qreal sinAngle)

void	statevec_controlledUnitary (Qureg qureg, int controlQubit, int targetQubit, ComplexMatrix2 u)

__global__ void	statevec_controlledUnitaryKernel (Qureg qureg, int controlQubit, int targetQubit, ArgMatrix2 u)

void	statevec_createQureg (Qureg *qureg, int numQubits, QuESTEnv env)

void	statevec_destroyQureg (Qureg qureg, QuESTEnv env)

qreal	statevec_findProbabilityOfZero (Qureg qureg, int measureQubit)

__global__ void	statevec_findProbabilityOfZeroKernel (Qureg qureg, int measureQubit, qreal *reducedArray)

qreal	statevec_getImagAmp (Qureg qureg, long long int index)

qreal	statevec_getRealAmp (Qureg qureg, long long int index)

void	statevec_hadamard (Qureg qureg, int targetQubit)

__global__ void	statevec_hadamardKernel (Qureg qureg, int targetQubit)

void	statevec_initBlankState (Qureg qureg)

__global__ void	statevec_initBlankStateKernel (long long int stateVecSize, qreal stateVecReal, qreal stateVecImag)

void	statevec_initClassicalState (Qureg qureg, long long int stateInd)

__global__ void	statevec_initClassicalStateKernel (long long int stateVecSize, qreal stateVecReal, qreal stateVecImag, long long int stateInd)

void	statevec_initDebugState (Qureg qureg)
	Initialise the state vector of probability amplitudes to an (unphysical) state with each component of each probability amplitude a unique floating point value. More...

__global__ void	statevec_initDebugStateKernel (long long int stateVecSize, qreal stateVecReal, qreal stateVecImag)

void	statevec_initPlusState (Qureg qureg)

__global__ void	statevec_initPlusStateKernel (long long int stateVecSize, qreal stateVecReal, qreal stateVecImag)

int	statevec_initStateFromSingleFile (Qureg *qureg, char filename[200], QuESTEnv env)

void	statevec_initStateOfSingleQubit (Qureg *qureg, int qubitId, int outcome)
	Initialise the state vector of probability amplitudes such that one qubit is set to 'outcome' and all other qubits are in an equal superposition of zero and one. More...

__global__ void	statevec_initStateOfSingleQubitKernel (long long int stateVecSize, qreal stateVecReal, qreal stateVecImag, int qubitId, int outcome)

void	statevec_initZeroState (Qureg qureg)

__global__ void	statevec_initZeroStateKernel (long long int stateVecSize, qreal stateVecReal, qreal stateVecImag)

void	statevec_multiControlledMultiQubitNot (Qureg qureg, int ctrlMask, int targMask)

__global__ void	statevec_multiControlledMultiQubitNotKernel (Qureg qureg, int ctrlMask, int targMask)

void	statevec_multiControlledMultiQubitUnitary (Qureg qureg, long long int ctrlMask, int *targs, int numTargs, ComplexMatrixN u)
	This calls swapQubitAmps only when it would involve a distributed communication; if the qubit chunks already fit in the node, it operates the unitary direct. More...

__global__ void	statevec_multiControlledMultiQubitUnitaryKernel (Qureg qureg, long long int ctrlMask, int targs, int numTargs, qreal uRe, qreal uIm, long long int ampInds, qreal reAmps, qreal imAmps, long long int numTargAmps)

void	statevec_multiControlledMultiRotateZ (Qureg qureg, long long int ctrlMask, long long int targMask, qreal angle)

__global__ void	statevec_multiControlledMultiRotateZKernel (Qureg qureg, long long int ctrlMask, long long int targMask, qreal cosAngle, qreal sinAngle)

void	statevec_multiControlledPhaseFlip (Qureg qureg, int *controlQubits, int numControlQubits)

__global__ void	statevec_multiControlledPhaseFlipKernel (Qureg qureg, long long int mask)

void	statevec_multiControlledPhaseShift (Qureg qureg, int *controlQubits, int numControlQubits, qreal angle)

__global__ void	statevec_multiControlledPhaseShiftKernel (Qureg qureg, long long int mask, qreal cosAngle, qreal sinAngle)

void	statevec_multiControlledTwoQubitUnitary (Qureg qureg, long long int ctrlMask, int q1, int q2, ComplexMatrix4 u)
	This calls swapQubitAmps only when it would involve a distributed communication; if the qubit chunks already fit in the node, it operates the unitary direct. More...

__global__ void	statevec_multiControlledTwoQubitUnitaryKernel (Qureg qureg, long long int ctrlMask, int q1, int q2, ArgMatrix4 u)

void	statevec_multiControlledUnitary (Qureg qureg, long long int ctrlQubitsMask, long long int ctrlFlipMask, int targetQubit, ComplexMatrix2 u)

__global__ void	statevec_multiControlledUnitaryKernel (Qureg qureg, long long int ctrlQubitsMask, long long int ctrlFlipMask, int targetQubit, ArgMatrix2 u)

void	statevec_multiRotateZ (Qureg qureg, long long int mask, qreal angle)

__global__ void	statevec_multiRotateZKernel (Qureg qureg, long long int mask, qreal cosAngle, qreal sinAngle)

void	statevec_pauliX (Qureg qureg, int targetQubit)

__global__ void	statevec_pauliXKernel (Qureg qureg, int targetQubit)

void	statevec_pauliY (Qureg qureg, int targetQubit)

void	statevec_pauliYConj (Qureg qureg, int targetQubit)

__global__ void	statevec_pauliYKernel (Qureg qureg, int targetQubit, int conjFac)

void	statevec_phaseShiftByTerm (Qureg qureg, int targetQubit, Complex term)

__global__ void	statevec_phaseShiftByTermKernel (Qureg qureg, int targetQubit, qreal cosAngle, qreal sinAngle)

void	statevec_reportStateToScreen (Qureg qureg, QuESTEnv env, int reportRank)
	Print the current state vector of probability amplitudes for a set of qubits to standard out. More...

void	statevec_setAmps (Qureg qureg, long long int startInd, qreal reals, qreal imags, long long int numAmps)

void	statevec_setWeightedQureg (Complex fac1, Qureg qureg1, Complex fac2, Qureg qureg2, Complex facOut, Qureg out)

__global__ void	statevec_setWeightedQuregKernel (Complex fac1, Qureg qureg1, Complex fac2, Qureg qureg2, Complex facOut, Qureg out)

void	statevec_swapQubitAmps (Qureg qureg, int qb1, int qb2)

__global__ void	statevec_swapQubitAmpsKernel (Qureg qureg, int qb1, int qb2)

void	statevec_unitary (Qureg qureg, int targetQubit, ComplexMatrix2 u)

__global__ void	statevec_unitaryKernel (Qureg qureg, int targetQubit, ArgMatrix2 u)

void	swapDouble (qreal a, qreal b)

void	syncQuESTEnv (QuESTEnv env)
	Guarantees that all code up to the given point has been executed on all nodes (if running in distributed mode) More...

int	syncQuESTSuccess (int successCode)
	Performs a logical AND on all successCodes held by all processes. More...

Detailed Description

An implementation of the backend in ../QuEST_internal.h for a GPU environment.

Author: Ania Brown; Tyson Jones

Definition in file QuEST_gpu.cu.

Macro Definition Documentation

◆ DEBUG

#define DEBUG 0

Definition at line 20 of file QuEST_gpu.cu.

◆ REDUCE_SHARED_SIZE

#define REDUCE_SHARED_SIZE 512

Definition at line 19 of file QuEST_gpu.cu.

Function Documentation

◆ agnostic_createDiagonalOp()

DiagonalOp agnostic_createDiagonalOp	(	int	numQubits,
		QuESTEnv	env
	)

Definition at line 338 of file QuEST_gpu.cu.

                                                                   {
  
     DiagonalOp op;
     op.numQubits = numQubits;
     op.numElemsPerChunk = (1LL << numQubits) / env.numRanks;
     op.chunkId = env.rank;
     op.numChunks = env.numRanks;
  
     // allocate CPU memory (initialised to zero)
     op.real = (qreal*) calloc(op.numElemsPerChunk, sizeof(qreal));
     op.imag = (qreal*) calloc(op.numElemsPerChunk, sizeof(qreal));
     // @TODO no handling of rank>1 allocation (no distributed GPU)
  
     // check cpu memory allocation was successful
     if ( !op.real || !op.imag ) {
         printf("Could not allocate memory!\n");
         exit(EXIT_FAILURE);
     }
  
     // allocate GPU memory
     size_t arrSize = op.numElemsPerChunk * sizeof(qreal);
     cudaMalloc(&(op.deviceOperator.real), arrSize);
     cudaMalloc(&(op.deviceOperator.imag), arrSize);
  
     // check gpu memory allocation was successful
     if (!op.deviceOperator.real || !op.deviceOperator.imag) {
         printf("Could not allocate memory on GPU!\n");
         exit(EXIT_FAILURE);
     }
  
     // initialise GPU memory to zero
     cudaMemset(op.deviceOperator.real, 0, arrSize);
     cudaMemset(op.deviceOperator.imag, 0, arrSize);
  
     return op;
 }

References DiagonalOp::chunkId, DiagonalOp::deviceOperator, DiagonalOp::imag, DiagonalOp::numChunks, DiagonalOp::numElemsPerChunk, DiagonalOp::numQubits, QuESTEnv::numRanks, qreal, QuESTEnv::rank, and DiagonalOp::real.

Referenced by createDiagonalOp(), and createDiagonalOpFromPauliHamilFile().

◆ agnostic_destroyDiagonalOp()

void agnostic_destroyDiagonalOp ( DiagonalOp op )

Definition at line 375 of file QuEST_gpu.cu.

                                                {
     free(op.real);
     free(op.imag);
     cudaFree(op.deviceOperator.real);
     cudaFree(op.deviceOperator.imag);
 }

References DiagonalOp::deviceOperator, DiagonalOp::imag, and DiagonalOp::real.

Referenced by destroyDiagonalOp().

◆ agnostic_initDiagonalOpFromPauliHamil()

void agnostic_initDiagonalOpFromPauliHamil	(	DiagonalOp	op,
		PauliHamil	hamil
	)

Definition at line 418 of file QuEST_gpu.cu.

                                                                             {
     
     // copy args intop GPU memory
     enum pauliOpType* d_pauliCodes;
     size_t mem_pauliCodes = hamil.numSumTerms * op.numQubits * sizeof *d_pauliCodes;
     cudaMalloc(&d_pauliCodes, mem_pauliCodes);
     cudaMemcpy(d_pauliCodes, hamil.pauliCodes, mem_pauliCodes, cudaMemcpyHostToDevice);
     
     qreal* d_termCoeffs;
     size_t mem_termCoeffs = hamil.numSumTerms * sizeof *d_termCoeffs;
     cudaMalloc(&d_termCoeffs, mem_termCoeffs);
     cudaMemcpy(d_termCoeffs, hamil.termCoeffs, mem_termCoeffs, cudaMemcpyHostToDevice);
     
     int numThreadsPerBlock = 128;
     int numBlocks = ceil(op.numElemsPerChunk / (qreal) numThreadsPerBlock);
     agnostic_initDiagonalOpFromPauliHamilKernel<<<numBlocks, numThreadsPerBlock>>>(
         op, d_pauliCodes, d_termCoeffs, hamil.numSumTerms);
     
     // copy populated operator into to RAM
     cudaDeviceSynchronize();
     size_t mem_elems = op.numElemsPerChunk * sizeof *op.real;
     cudaMemcpy(op.real, op.deviceOperator.real, mem_elems, cudaMemcpyDeviceToHost);
     cudaMemcpy(op.imag, op.deviceOperator.imag, mem_elems, cudaMemcpyDeviceToHost);
  
     cudaFree(d_pauliCodes);
     cudaFree(d_termCoeffs);
 }

References DiagonalOp::numElemsPerChunk, DiagonalOp::numQubits, PauliHamil::numSumTerms, PauliHamil::pauliCodes, qreal, and PauliHamil::termCoeffs.

Referenced by createDiagonalOpFromPauliHamilFile(), and initDiagonalOpFromPauliHamil().

◆ agnostic_initDiagonalOpFromPauliHamilKernel()

__global__ void agnostic_initDiagonalOpFromPauliHamilKernel	(	DiagonalOp	op,
		enum pauliOpType *	pauliCodes,
		qreal *	termCoeffs,
		int	numSumTerms
	)

Definition at line 389 of file QuEST_gpu.cu.

   {    
     // each thread processes one diagonal element
     long long int elemInd = blockIdx.x*blockDim.x + threadIdx.x;
     if (elemInd >= op.numElemsPerChunk)
         return;
  
     qreal elem = 0;
     
     // elem is (+-) every coefficient, with sign determined by parity
     for (int t=0; t<numSumTerms; t++) {
         
         // determine the parity of the Z-targeted qubits in the element's corresponding state
         int isOddNumOnes = 0;
         for (int q=0; q<op.numQubits; q++)
             if (pauliCodes[q + t*op.numQubits] == PAULI_Z)
                 if (extractBit(q, elemInd))
                     isOddNumOnes = !isOddNumOnes;
         
         // avoid warp divergence
         int sign = 1 - 2*isOddNumOnes; // (-1 if isOddNumOnes, else +1)
         elem += termCoeffs[t] * sign;
     }
     
     op.deviceOperator.real[elemInd] = elem;
     op.deviceOperator.imag[elemInd] = 0;
 }

References DiagonalOp::deviceOperator, extractBit(), DiagonalOp::numElemsPerChunk, DiagonalOp::numQubits, PAULI_Z, and qreal.

◆ agnostic_setDiagonalOpElems()

void agnostic_setDiagonalOpElems	(	DiagonalOp	op,
		long long int	startInd,
		qreal *	real,
		qreal *	imag,
		long long int	numElems
	)

Definition at line 3503 of file QuEST_gpu.cu.

                                                                                                                           {
  
     // update both RAM and VRAM, for consistency
     memcpy(&op.real[startInd], real, numElems * sizeof(qreal));
     memcpy(&op.imag[startInd], imag, numElems * sizeof(qreal));
  
     cudaDeviceSynchronize();
     cudaMemcpy(
         op.deviceOperator.real + startInd, 
         real,
         numElems * sizeof(*(op.deviceOperator.real)), 
         cudaMemcpyHostToDevice);
     cudaMemcpy(
         op.deviceOperator.imag + startInd,
         imag,
         numElems * sizeof(*(op.deviceOperator.imag)), 
         cudaMemcpyHostToDevice);
 }

References DiagonalOp::deviceOperator, DiagonalOp::imag, qreal, and DiagonalOp::real.

Referenced by initDiagonalOp(), and setDiagonalOpElems().

◆ agnostic_syncDiagonalOp()

void agnostic_syncDiagonalOp ( DiagonalOp op )

Definition at line 382 of file QuEST_gpu.cu.

                                             {
     cudaDeviceSynchronize();
     size_t mem_elems = op.numElemsPerChunk * sizeof *op.real;
     cudaMemcpy(op.deviceOperator.real, op.real, mem_elems, cudaMemcpyHostToDevice);
     cudaMemcpy(op.deviceOperator.imag, op.imag, mem_elems, cudaMemcpyHostToDevice);
 }

References DiagonalOp::deviceOperator, DiagonalOp::imag, DiagonalOp::numElemsPerChunk, and DiagonalOp::real.

Referenced by syncDiagonalOp().

◆ copySharedReduceBlock()

__global__ void copySharedReduceBlock	(	qreal *	arrayIn,
		qreal *	reducedArray,
		int	length
	)

Definition at line 1951 of file QuEST_gpu.cu.

                                                                                      {
     extern __shared__ qreal tempReductionArray[];
     int blockOffset = blockIdx.x*length;
     tempReductionArray[threadIdx.x*2] = arrayIn[blockOffset + threadIdx.x*2];
     tempReductionArray[threadIdx.x*2+1] = arrayIn[blockOffset + threadIdx.x*2+1];
     __syncthreads();
     reduceBlock(tempReductionArray, reducedArray, length);
 }

References qreal, and reduceBlock().

Referenced by densmatr_calcExpecDiagonalOp(), densmatr_calcFidelity(), densmatr_calcHilbertSchmidtDistance(), densmatr_calcInnerProduct(), densmatr_calcPurity(), densmatr_findProbabilityOfZero(), statevec_calcExpecDiagonalOp(), statevec_calcInnerProduct(), and statevec_findProbabilityOfZero().

◆ densmatr_applyDiagonalOp()

void densmatr_applyDiagonalOp	(	Qureg	qureg,
		DiagonalOp	op
	)

Definition at line 3240 of file QuEST_gpu.cu.

                                                           {
     
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk)/threadsPerCUDABlock);
     densmatr_applyDiagonalOpKernel<<<CUDABlocks, threadsPerCUDABlock>>>(qureg, op);
 }

References Qureg::numAmpsPerChunk, and qreal.

Referenced by applyDiagonalOp().

◆ densmatr_applyDiagonalOpKernel()

__global__ void densmatr_applyDiagonalOpKernel	(	Qureg	qureg,
		DiagonalOp	op
	)

Definition at line 3217 of file QuEST_gpu.cu.

                                                                            {
  
     // each thread modifies one value; a wasteful and inefficient strategy
     long long int numTasks = qureg.numAmpsPerChunk;
     long long int thisTask = blockIdx.x*blockDim.x + threadIdx.x;
     if (thisTask >= numTasks) return;
  
     qreal* stateRe = qureg.deviceStateVec.real;
     qreal* stateIm = qureg.deviceStateVec.imag;
     qreal* opRe = op.deviceOperator.real;
     qreal* opIm = op.deviceOperator.imag;
  
     int opDim = (1 << op.numQubits);
     qreal a = stateRe[thisTask];
     qreal b = stateIm[thisTask];
     qreal c = opRe[thisTask % opDim];
     qreal d = opIm[thisTask % opDim];
  
     // (a + b i)(c + d i) = (a c - b d) + i (a d + b c)
     stateRe[thisTask] = a*c - b*d;
     stateIm[thisTask] = a*d + b*c;
 }

References DiagonalOp::deviceOperator, Qureg::deviceStateVec, Qureg::numAmpsPerChunk, DiagonalOp::numQubits, and qreal.

◆ densmatr_calcExpecDiagonalOp()

Complex densmatr_calcExpecDiagonalOp	(	Qureg	qureg,
		DiagonalOp	op
	)

Definition at line 3412 of file QuEST_gpu.cu.

                                                                  {
     
     /* @TODO: remove all this reduction boilerplate from QuEST GPU 
      * (e.g. a func which accepts a pointer to do every-value reduction?)
      */
  
     qreal expecReal, expecImag;
     
     int getRealComp;
     long long int numValuesToReduce;
     int valuesPerCUDABlock, numCUDABlocks, sharedMemSize;
     int maxReducedPerLevel;
     int firstTime;
     
     // compute real component of inner product
     getRealComp = 1;
     numValuesToReduce = qureg.numAmpsPerChunk;
     maxReducedPerLevel = REDUCE_SHARED_SIZE;
     firstTime = 1;
     while (numValuesToReduce > 1) {
         if (numValuesToReduce < maxReducedPerLevel) {
             valuesPerCUDABlock = numValuesToReduce;
             numCUDABlocks = 1;
         }
         else {
             valuesPerCUDABlock = maxReducedPerLevel;
             numCUDABlocks = ceil((qreal)numValuesToReduce/valuesPerCUDABlock);
         }
         sharedMemSize = valuesPerCUDABlock*sizeof(qreal);
         if (firstTime) {
             densmatr_calcExpecDiagonalOpKernel<<<numCUDABlocks, valuesPerCUDABlock, sharedMemSize>>>(
                 getRealComp,
                 qureg.deviceStateVec.real, qureg.deviceStateVec.imag, 
                 op.deviceOperator.real, op.deviceOperator.imag, 
                 op.numQubits, numValuesToReduce, 
                 qureg.firstLevelReduction);
             firstTime = 0;
         } else {
             cudaDeviceSynchronize();    
             copySharedReduceBlock<<<numCUDABlocks, valuesPerCUDABlock/2, sharedMemSize>>>(
                     qureg.firstLevelReduction, 
                     qureg.secondLevelReduction, valuesPerCUDABlock); 
             cudaDeviceSynchronize();    
             swapDouble(&(qureg.firstLevelReduction), &(qureg.secondLevelReduction));
         }
         numValuesToReduce = numValuesToReduce/maxReducedPerLevel;
     }
     cudaMemcpy(&expecReal, qureg.firstLevelReduction, sizeof(qreal), cudaMemcpyDeviceToHost);
     
     // compute imag component of inner product
     getRealComp = 0;
     numValuesToReduce = qureg.numAmpsPerChunk;
     maxReducedPerLevel = REDUCE_SHARED_SIZE;
     firstTime = 1;
     while (numValuesToReduce > 1) {
         if (numValuesToReduce < maxReducedPerLevel) {
             valuesPerCUDABlock = numValuesToReduce;
             numCUDABlocks = 1;
         }
         else {
             valuesPerCUDABlock = maxReducedPerLevel;
             numCUDABlocks = ceil((qreal)numValuesToReduce/valuesPerCUDABlock);
         }
         sharedMemSize = valuesPerCUDABlock*sizeof(qreal);
         if (firstTime) {
             densmatr_calcExpecDiagonalOpKernel<<<numCUDABlocks, valuesPerCUDABlock, sharedMemSize>>>(
                 getRealComp,
                 qureg.deviceStateVec.real, qureg.deviceStateVec.imag, 
                 op.deviceOperator.real, op.deviceOperator.imag, 
                 op.numQubits, numValuesToReduce, 
                 qureg.firstLevelReduction);
             firstTime = 0;
         } else {
             cudaDeviceSynchronize();    
             copySharedReduceBlock<<<numCUDABlocks, valuesPerCUDABlock/2, sharedMemSize>>>(
                     qureg.firstLevelReduction, 
                     qureg.secondLevelReduction, valuesPerCUDABlock); 
             cudaDeviceSynchronize();    
             swapDouble(&(qureg.firstLevelReduction), &(qureg.secondLevelReduction));
         }
         numValuesToReduce = numValuesToReduce/maxReducedPerLevel;
     }
     cudaMemcpy(&expecImag, qureg.firstLevelReduction, sizeof(qreal), cudaMemcpyDeviceToHost);
     
     // return complex
     Complex expecVal;
     expecVal.real = expecReal;
     expecVal.imag = expecImag;
     return expecVal;
 }

References copySharedReduceBlock(), DiagonalOp::deviceOperator, Qureg::deviceStateVec, Qureg::firstLevelReduction, Complex::imag, Qureg::numAmpsPerChunk, DiagonalOp::numQubits, qreal, Complex::real, REDUCE_SHARED_SIZE, Qureg::secondLevelReduction, and swapDouble().

Referenced by calcExpecDiagonalOp().

◆ densmatr_calcExpecDiagonalOpKernel()

__global__ void densmatr_calcExpecDiagonalOpKernel	(	int	getRealComp,
		qreal *	matReal,
		qreal *	matImag,
		qreal *	opReal,
		qreal *	opImag,
		int	numQubits,
		long long int	numTermsToSum,
		qreal *	reducedArray
	)

if the thread represents a diagonal op, then it computes either a real or imag term of matr_{ii} op_i. Otherwise, it writes a 0 to the reduction array

Definition at line 3367 of file QuEST_gpu.cu.

 {
     // index will identy one of the 2^Q diagonals to be summed
     long long int matInd = blockIdx.x*blockDim.x + threadIdx.x;
     if (matInd >= numTermsToSum) return;
     
     long long int diagSpacing = (1LL << numQubits) + 1LL;
     int isDiag = ((matInd % diagSpacing) == 0);
     
     long long int opInd = matInd / diagSpacing;
     
     qreal val = 0;
     if (isDiag) {
         
         qreal matRe = matReal[matInd];
         qreal matIm = matImag[matInd];
         qreal opRe = opReal[opInd];
         qreal opIm = opImag[opInd];
         
         // (matRe + matIm i)(opRe + opIm i) = 
         //      (matRe opRe - matIm opIm) + i (matRe opIm + matIm opRe)
         if (getRealComp)
             val = matRe * opRe - matIm * opIm;
         else 
             val = matRe * opIm + matIm * opRe;
     }
     
     // array of each thread's collected sum term, to be summed
     extern __shared__ qreal tempReductionArray[];
     tempReductionArray[threadIdx.x] = val;
     __syncthreads();
     
     // every second thread reduces
     if (threadIdx.x<blockDim.x/2)
         reduceBlock(tempReductionArray, reducedArray, blockDim.x);
 }

References qreal, and reduceBlock().

◆ densmatr_calcFidelity()

qreal densmatr_calcFidelity	(	Qureg	qureg,
		Qureg	pureState
	)

Definition at line 2519 of file QuEST_gpu.cu.

                                                           {
     
     // we're summing the square of every term in the density matrix
     long long int densityDim = 1LL << qureg.numQubitsRepresented;
     long long int numValuesToReduce = densityDim;
     
     int valuesPerCUDABlock, numCUDABlocks, sharedMemSize;
     int maxReducedPerLevel = REDUCE_SHARED_SIZE;
     int firstTime = 1;
     
     while (numValuesToReduce > 1) {
         
         // need less than one CUDA-BLOCK to reduce
         if (numValuesToReduce < maxReducedPerLevel) {
             valuesPerCUDABlock = numValuesToReduce;
             numCUDABlocks = 1;
         }
         // otherwise use only full CUDA-BLOCKS
         else {
             valuesPerCUDABlock = maxReducedPerLevel; // constrained by shared memory
             numCUDABlocks = ceil((qreal)numValuesToReduce/valuesPerCUDABlock);
         }
         // dictates size of reduction array
         sharedMemSize = valuesPerCUDABlock*sizeof(qreal);
         
         // spawn threads to sum the probs in each block
         // store the reduction in the pureState array
         if (firstTime) {
              densmatr_calcFidelityKernel<<<numCUDABlocks, valuesPerCUDABlock, sharedMemSize>>>(
                  qureg, pureState, densityDim, pureState.firstLevelReduction);
             firstTime = 0;
             
         // sum the block probs
         } else {
             cudaDeviceSynchronize();    
             copySharedReduceBlock<<<numCUDABlocks, valuesPerCUDABlock/2, sharedMemSize>>>(
                     pureState.firstLevelReduction, 
                     pureState.secondLevelReduction, valuesPerCUDABlock); 
             cudaDeviceSynchronize();    
             swapDouble(&(pureState.firstLevelReduction), &(pureState.secondLevelReduction));
         }
         
         numValuesToReduce = numValuesToReduce/maxReducedPerLevel;
     }
     
     qreal fidelity;
     cudaMemcpy(&fidelity, pureState.firstLevelReduction, sizeof(qreal), cudaMemcpyDeviceToHost);
     return fidelity;
 }

References copySharedReduceBlock(), Qureg::firstLevelReduction, Qureg::numQubitsRepresented, qreal, REDUCE_SHARED_SIZE, Qureg::secondLevelReduction, and swapDouble().

Referenced by calcFidelity().

◆ densmatr_calcFidelityKernel()

__global__ void densmatr_calcFidelityKernel	(	Qureg	dens,
		Qureg	vec,
		long long int	dim,
		qreal *	reducedArray
	)

computes one term of (vec^*T) dens * vec

Definition at line 2481 of file QuEST_gpu.cu.

                                                                                                            {
  
     // figure out which density matrix row to consider
     long long int col;
     long long int row = blockIdx.x*blockDim.x + threadIdx.x;
     if (row >= dim) return;
     
     qreal* densReal = dens.deviceStateVec.real;
     qreal* densImag = dens.deviceStateVec.imag;
     qreal* vecReal  = vec.deviceStateVec.real;
     qreal* vecImag  = vec.deviceStateVec.imag;
     
     // compute the row-th element of the product dens*vec
     qreal prodReal = 0;
     qreal prodImag = 0;
     for (col=0LL; col < dim; col++) {
         qreal densElemReal = densReal[dim*col + row];
         qreal densElemImag = densImag[dim*col + row];
         
         prodReal += densElemReal*vecReal[col] - densElemImag*vecImag[col];
         prodImag += densElemReal*vecImag[col] + densElemImag*vecReal[col];
     }
     
     // multiply with row-th elem of (vec^*)
     qreal termReal = prodImag*vecImag[row] + prodReal*vecReal[row];
     
     // imag of every term should be zero, because each is a valid fidelity calc of an eigenstate
     //qreal termImag = prodImag*vecReal[row] - prodReal*vecImag[row];
     
     extern __shared__ qreal tempReductionArray[];
     tempReductionArray[threadIdx.x] = termReal;
     __syncthreads();
     
     // every second thread reduces
     if (threadIdx.x<blockDim.x/2)
         reduceBlock(tempReductionArray, reducedArray, blockDim.x);
 }

References Qureg::deviceStateVec, qreal, and reduceBlock().

◆ densmatr_calcHilbertSchmidtDistance()

qreal densmatr_calcHilbertSchmidtDistance	(	Qureg	a,
		Qureg	b
	)

Definition at line 2593 of file QuEST_gpu.cu.

                                                             {
     
     // we're summing the square of every term in (a-b)
     long long int numValuesToReduce = a.numAmpsPerChunk;
     
     int valuesPerCUDABlock, numCUDABlocks, sharedMemSize;
     int maxReducedPerLevel = REDUCE_SHARED_SIZE;
     int firstTime = 1;
     
     while (numValuesToReduce > 1) {
         
         // need less than one CUDA-BLOCK to reduce
         if (numValuesToReduce < maxReducedPerLevel) {
             valuesPerCUDABlock = numValuesToReduce;
             numCUDABlocks = 1;
         }
         // otherwise use only full CUDA-BLOCKS
         else {
             valuesPerCUDABlock = maxReducedPerLevel; // constrained by shared memory
             numCUDABlocks = ceil((qreal)numValuesToReduce/valuesPerCUDABlock);
         }
         // dictates size of reduction array
         sharedMemSize = valuesPerCUDABlock*sizeof(qreal);
         
         // spawn threads to sum the probs in each block (store reduction temp values in a's reduction array)
         if (firstTime) {
              densmatr_calcHilbertSchmidtDistanceSquaredKernel<<<numCUDABlocks, valuesPerCUDABlock, sharedMemSize>>>(
                  a.deviceStateVec.real, a.deviceStateVec.imag, 
                  b.deviceStateVec.real, b.deviceStateVec.imag, 
                  numValuesToReduce, a.firstLevelReduction);
             firstTime = 0;
             
         // sum the block probs
         } else {
             cudaDeviceSynchronize();    
             copySharedReduceBlock<<<numCUDABlocks, valuesPerCUDABlock/2, sharedMemSize>>>(
                     a.firstLevelReduction, 
                     a.secondLevelReduction, valuesPerCUDABlock); 
             cudaDeviceSynchronize();    
             swapDouble(&(a.firstLevelReduction), &(a.secondLevelReduction));
         }
         
         numValuesToReduce = numValuesToReduce/maxReducedPerLevel;
     }
     
     qreal trace;
     cudaMemcpy(&trace, a.firstLevelReduction, sizeof(qreal), cudaMemcpyDeviceToHost);
     
     qreal sqrtTrace = sqrt(trace);
     return sqrtTrace;
 }

References copySharedReduceBlock(), Qureg::deviceStateVec, Qureg::firstLevelReduction, Qureg::numAmpsPerChunk, qreal, REDUCE_SHARED_SIZE, Qureg::secondLevelReduction, and swapDouble().

Referenced by calcHilbertSchmidtDistance().

◆ densmatr_calcHilbertSchmidtDistanceSquaredKernel()

__global__ void densmatr_calcHilbertSchmidtDistanceSquaredKernel	(	qreal *	aRe,
		qreal *	aIm,
		qreal *	bRe,
		qreal *	bIm,
		long long int	numAmpsToSum,
		qreal *	reducedArray
	)

Definition at line 2569 of file QuEST_gpu.cu.

   {
     // figure out which density matrix term this thread is assigned
     long long int index = blockIdx.x*blockDim.x + threadIdx.x;
     if (index >= numAmpsToSum) return;
     
     // compute this thread's sum term
     qreal difRe = aRe[index] - bRe[index];
     qreal difIm = aIm[index] - bIm[index];
     qreal term = difRe*difRe + difIm*difIm;
     
     // array of each thread's collected term, to be summed
     extern __shared__ qreal tempReductionArray[];
     tempReductionArray[threadIdx.x] = term;
     __syncthreads();
     
     // every second thread reduces
     if (threadIdx.x<blockDim.x/2)
         reduceBlock(tempReductionArray, reducedArray, blockDim.x);
 }

References qreal, and reduceBlock().

◆ densmatr_calcInnerProduct()

qreal densmatr_calcInnerProduct	(	Qureg	a,
		Qureg	b
	)

Definition at line 2313 of file QuEST_gpu.cu.

                                                   {
     
     // we're summing the square of every term in the density matrix
     long long int numValuesToReduce = a.numAmpsTotal;
     
     int valuesPerCUDABlock, numCUDABlocks, sharedMemSize;
     int maxReducedPerLevel = REDUCE_SHARED_SIZE;
     int firstTime = 1;
     
     while (numValuesToReduce > 1) {
         
         // need less than one CUDA-BLOCK to reduce
         if (numValuesToReduce < maxReducedPerLevel) {
             valuesPerCUDABlock = numValuesToReduce;
             numCUDABlocks = 1;
         }
         // otherwise use only full CUDA-BLOCKS
         else {
             valuesPerCUDABlock = maxReducedPerLevel; // constrained by shared memory
             numCUDABlocks = ceil((qreal)numValuesToReduce/valuesPerCUDABlock);
         }
         // dictates size of reduction array
         sharedMemSize = valuesPerCUDABlock*sizeof(qreal);
         
         // spawn threads to sum the terms in each block
         // arbitrarily store the reduction in the b qureg's array
         if (firstTime) {
              densmatr_calcInnerProductKernel<<<numCUDABlocks, valuesPerCUDABlock, sharedMemSize>>>(
                  a, b, a.numAmpsTotal, b.firstLevelReduction);
             firstTime = 0;
         }    
         // sum the block terms
         else {
             cudaDeviceSynchronize();    
             copySharedReduceBlock<<<numCUDABlocks, valuesPerCUDABlock/2, sharedMemSize>>>(
                     b.firstLevelReduction, 
                     b.secondLevelReduction, valuesPerCUDABlock); 
             cudaDeviceSynchronize();    
             swapDouble(&(b.firstLevelReduction), &(b.secondLevelReduction));
         }
         
         numValuesToReduce = numValuesToReduce/maxReducedPerLevel;
     }
     
     qreal innerprod;
     cudaMemcpy(&innerprod, b.firstLevelReduction, sizeof(qreal), cudaMemcpyDeviceToHost);
     return innerprod;
 }

References copySharedReduceBlock(), Qureg::firstLevelReduction, Qureg::numAmpsTotal, qreal, REDUCE_SHARED_SIZE, Qureg::secondLevelReduction, and swapDouble().

Referenced by calcDensityInnerProduct().

◆ densmatr_calcInnerProductKernel()

__global__ void densmatr_calcInnerProductKernel	(	Qureg	a,
		Qureg	b,
		long long int	numTermsToSum,
		qreal *	reducedArray
	)

computes Tr(conjTrans(a) b) = sum of (a_ij^* b_ij), which is a real number

Definition at line 2292 of file QuEST_gpu.cu.

   {    
     long long int index = blockIdx.x*blockDim.x + threadIdx.x;
     if (index >= numTermsToSum) return;
     
     // Re{ conj(a) b } = Re{ (aRe - i aIm)(bRe + i bIm) } = aRe bRe + aIm bIm
     qreal prod = (
           a.deviceStateVec.real[index]*b.deviceStateVec.real[index] 
         + a.deviceStateVec.imag[index]*b.deviceStateVec.imag[index]);
     
     // array of each thread's collected sum term, to be summed
     extern __shared__ qreal tempReductionArray[];
     tempReductionArray[threadIdx.x] = prod;
     __syncthreads();
     
     // every second thread reduces
     if (threadIdx.x<blockDim.x/2)
         reduceBlock(tempReductionArray, reducedArray, blockDim.x);
 }

References Qureg::deviceStateVec, qreal, and reduceBlock().

◆ densmatr_calcProbOfAllOutcomes()

void densmatr_calcProbOfAllOutcomes	(	qreal *	outcomeProbs,
		Qureg	qureg,
		int *	qubits,
		int	numQubits
	)

Definition at line 2259 of file QuEST_gpu.cu.

                                                                                                   {
  
     // copy qubits to GPU memory
     int* d_qubits;
     size_t mem_qubits = numQubits * sizeof *d_qubits;
     cudaMalloc(&d_qubits, mem_qubits);
     cudaMemcpy(d_qubits, qubits, mem_qubits, cudaMemcpyHostToDevice);
     
     // create global array, with per-block subarrays
     int numThreadsPerBlock = 128;
     int numDiags = (1LL << qureg.numQubitsRepresented);
     int numBlocks = ceil(numDiags / (qreal) numThreadsPerBlock);
         
     // create global GPU array for outcomeProbs
     qreal* d_outcomeProbs;
     long long int numOutcomes = (1LL << numQubits);
     size_t mem_outcomeProbs = numOutcomes * sizeof *d_outcomeProbs;
     cudaMalloc(&d_outcomeProbs, mem_outcomeProbs);
     cudaMemset(d_outcomeProbs, 0, mem_outcomeProbs);
     
     // populate per-block subarrays
     densmatr_calcProbOfAllOutcomesKernel<<<numBlocks, numThreadsPerBlock>>>(
         d_outcomeProbs, qureg, d_qubits, numQubits);
         
     // copy outcomeProbs from GPU memory
     cudaMemcpy(outcomeProbs, d_outcomeProbs, mem_outcomeProbs, cudaMemcpyDeviceToHost);
     
     // free GPU memory
     cudaFree(d_qubits);
     cudaFree(d_outcomeProbs);
 }

References Qureg::numQubitsRepresented, and qreal.

Referenced by calcProbOfAllOutcomes().

◆ densmatr_calcProbOfAllOutcomesKernel()

__global__ void densmatr_calcProbOfAllOutcomesKernel	(	qreal *	outcomeProbs,
		Qureg	qureg,
		int *	qubits,
		int	numQubits
	)

Definition at line 2238 of file QuEST_gpu.cu.

   {
     // each thread handles one diagonal amplitude
     long long int diagInd = blockIdx.x*blockDim.x + threadIdx.x;
     long long int numDiags = (1LL << qureg.numQubitsRepresented);
     if (diagInd >= numDiags) return;
     
     long long int flatInd = (1 + numDiags)*diagInd;
     qreal prob = qureg.deviceStateVec.real[flatInd];   // im[flatInd] assumed ~ 0
     
     // each diagonal amplitude contributes to one outcome
     long long int outcomeInd = 0;
     for (int q=0; q<numQubits; q++)
         outcomeInd += extractBit(qubits[q], diagInd) * (1LL << q);
     
     // each thread atomically writes directly to the global output.
     // this beat block-heirarchal atomic reductions in both global and shared memory!
     atomicAdd(&outcomeProbs[outcomeInd], prob);
 }

References Qureg::deviceStateVec, extractBit(), Qureg::numQubitsRepresented, and qreal.

◆ densmatr_calcProbOfOutcome()

qreal densmatr_calcProbOfOutcome	(	Qureg	qureg,
		int	measureQubit,
		int	outcome
	)

Definition at line 2158 of file QuEST_gpu.cu.

 {
     qreal outcomeProb = densmatr_findProbabilityOfZero(qureg, measureQubit);
     if (outcome==1) 
         outcomeProb = 1.0 - outcomeProb;
     return outcomeProb;
 }

References densmatr_findProbabilityOfZero(), and qreal.

Referenced by calcProbOfOutcome(), collapseToOutcome(), and densmatr_measureWithStats().

◆ densmatr_calcPurity()

qreal densmatr_calcPurity ( Qureg qureg )

Computes the trace of the density matrix squared.

Definition at line 2664 of file QuEST_gpu.cu.

                                        {
     
     // we're summing the square of every term in the density matrix
     long long int numValuesToReduce = qureg.numAmpsPerChunk;
     
     int valuesPerCUDABlock, numCUDABlocks, sharedMemSize;
     int maxReducedPerLevel = REDUCE_SHARED_SIZE;
     int firstTime = 1;
     
     while (numValuesToReduce > 1) {
         
         // need less than one CUDA-BLOCK to reduce
         if (numValuesToReduce < maxReducedPerLevel) {
             valuesPerCUDABlock = numValuesToReduce;
             numCUDABlocks = 1;
         }
         // otherwise use only full CUDA-BLOCKS
         else {
             valuesPerCUDABlock = maxReducedPerLevel; // constrained by shared memory
             numCUDABlocks = ceil((qreal)numValuesToReduce/valuesPerCUDABlock);
         }
         // dictates size of reduction array
         sharedMemSize = valuesPerCUDABlock*sizeof(qreal);
         
         // spawn threads to sum the probs in each block
         if (firstTime) {
              densmatr_calcPurityKernel<<<numCUDABlocks, valuesPerCUDABlock, sharedMemSize>>>(
                  qureg.deviceStateVec.real, qureg.deviceStateVec.imag, 
                  numValuesToReduce, qureg.firstLevelReduction);
             firstTime = 0;
             
         // sum the block probs
         } else {
             cudaDeviceSynchronize();    
             copySharedReduceBlock<<<numCUDABlocks, valuesPerCUDABlock/2, sharedMemSize>>>(
                     qureg.firstLevelReduction, 
                     qureg.secondLevelReduction, valuesPerCUDABlock); 
             cudaDeviceSynchronize();    
             swapDouble(&(qureg.firstLevelReduction), &(qureg.secondLevelReduction));
         }
         
         numValuesToReduce = numValuesToReduce/maxReducedPerLevel;
     }
     
     qreal traceDensSquared;
     cudaMemcpy(&traceDensSquared, qureg.firstLevelReduction, sizeof(qreal), cudaMemcpyDeviceToHost);
     return traceDensSquared;
 }

References copySharedReduceBlock(), Qureg::deviceStateVec, Qureg::firstLevelReduction, Qureg::numAmpsPerChunk, qreal, REDUCE_SHARED_SIZE, Qureg::secondLevelReduction, and swapDouble().

Referenced by calcPurity().

◆ densmatr_calcPurityKernel()

__global__ void densmatr_calcPurityKernel	(	qreal *	vecReal,
		qreal *	vecImag,
		long long int	numAmpsToSum,
		qreal *	reducedArray
	)

Definition at line 2645 of file QuEST_gpu.cu.

                                                                                                                            {
     
     // figure out which density matrix term this thread is assigned
     long long int index = blockIdx.x*blockDim.x + threadIdx.x;
     if (index >= numAmpsToSum) return;
     
     qreal term = vecReal[index]*vecReal[index] + vecImag[index]*vecImag[index];
     
     // array of each thread's collected probability, to be summed
     extern __shared__ qreal tempReductionArray[];
     tempReductionArray[threadIdx.x] = term;
     __syncthreads();
     
     // every second thread reduces
     if (threadIdx.x<blockDim.x/2)
         reduceBlock(tempReductionArray, reducedArray, blockDim.x);
 }

References qreal, and reduceBlock().

◆ densmatr_calcTotalProb()

qreal densmatr_calcTotalProb ( Qureg qureg )

Definition at line 1632 of file QuEST_gpu.cu.

                                           {
     
     // computes the trace using Kahan summation
     qreal pTotal=0;
     qreal y, t, c;
     c = 0;
     
     long long int numCols = 1LL << qureg.numQubitsRepresented;
     long long diagIndex;
     
     copyStateFromGPU(qureg);
     
     for (int col=0; col< numCols; col++) {
         diagIndex = col*(numCols + 1);
         y = qureg.stateVec.real[diagIndex] - c;
         t = pTotal + y;
         c = ( t - pTotal ) - y; // brackets are important
         pTotal = t;
     }
     
     return pTotal;
 }

References copyStateFromGPU(), Qureg::numQubitsRepresented, qreal, and Qureg::stateVec.

Referenced by calcTotalProb(), and statevec_calcExpecPauliProd().

◆ densmatr_collapseToKnownProbOutcome()

void densmatr_collapseToKnownProbOutcome	(	Qureg	qureg,
		int	measureQubit,
		int	outcome,
		qreal	outcomeProb
	)

This involves finding |...i...><...j...| states and killing those where i!=j.

Renorms (/prob) every | * outcome * >< * outcome * | state, setting all others to zero.

Definition at line 2805 of file QuEST_gpu.cu.

                                                                                                         {
     
         int rowQubit = measureQubit + qureg.numQubitsRepresented;
     
     int colBit = 1LL << measureQubit;
     int rowBit = 1LL << rowQubit;
  
     long long int numBasesToVisit = qureg.numAmpsPerChunk/4;
         long long int part1 = colBit -1;        
         long long int part2 = (rowBit >> 1) - colBit;
         long long int part3 = numBasesToVisit - (rowBit >> 1);
     
     long long int desired, undesired;
     if (outcome == 0) {
         desired = 0;
         undesired = colBit | rowBit;
     } else {
         desired = colBit | rowBit;
         undesired = 0;
     }
     
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil(numBasesToVisit / (qreal) threadsPerCUDABlock);
     densmatr_collapseToKnownProbOutcomeKernel<<<CUDABlocks, threadsPerCUDABlock>>>(
         outcomeProb, qureg.deviceStateVec.real, qureg.deviceStateVec.imag, numBasesToVisit,
         part1, part2, part3, rowBit, colBit, desired, undesired);
 }

References Qureg::deviceStateVec, Qureg::numAmpsPerChunk, Qureg::numQubitsRepresented, and qreal.

Referenced by applyProjector(), collapseToOutcome(), and densmatr_measureWithStats().

◆ densmatr_collapseToKnownProbOutcomeKernel()

__global__ void densmatr_collapseToKnownProbOutcomeKernel	(	qreal	outcomeProb,
		qreal *	vecReal,
		qreal *	vecImag,
		long long int	numBasesToVisit,
		long long int	part1,
		long long int	part2,
		long long int	part3,
		long long int	rowBit,
		long long int	colBit,
		long long int	desired,
		long long int	undesired
	)

Maps thread ID to a |..0..><..0..| state and then locates |0><1|, |1><0| and |1><1|.

Definition at line 2779 of file QuEST_gpu.cu.

 {
     long long int scanInd = blockIdx.x*blockDim.x + threadIdx.x;
     if (scanInd >= numBasesToVisit) return;
     
     long long int base = (scanInd&part1) + ((scanInd&part2)<<1) + ((scanInd&part3)<<2);
     
     // renormalise desired outcome
     vecReal[base + desired] /= outcomeProb;
     vecImag[base + desired] /= outcomeProb;
     
     // kill undesired outcome
     vecReal[base + undesired] = 0;
     vecImag[base + undesired] = 0;
     
     // kill |..0..><..1..| states
     vecReal[base + colBit] = 0;
     vecImag[base + colBit] = 0;
     vecReal[base + rowBit] = 0;
     vecImag[base + rowBit] = 0;
 }

◆ densmatr_findProbabilityOfZero()

qreal densmatr_findProbabilityOfZero	(	Qureg	qureg,
		int	measureQubit
	)

Definition at line 2064 of file QuEST_gpu.cu.

 {
     long long int densityDim = 1LL << qureg.numQubitsRepresented;
     long long int numValuesToReduce = densityDim >> 1;  // half of the diagonal has measureQubit=0
     
     int valuesPerCUDABlock, numCUDABlocks, sharedMemSize;
     int maxReducedPerLevel = REDUCE_SHARED_SIZE;
     int firstTime = 1;
     
     while (numValuesToReduce > 1) {
         
         // need less than one CUDA-BLOCK to reduce
         if (numValuesToReduce < maxReducedPerLevel) {
             valuesPerCUDABlock = numValuesToReduce;
             numCUDABlocks = 1;
         }
         // otherwise use only full CUDA-BLOCKS
         else {
             valuesPerCUDABlock = maxReducedPerLevel; // constrained by shared memory
             numCUDABlocks = ceil((qreal)numValuesToReduce/valuesPerCUDABlock);
         }
         
         sharedMemSize = valuesPerCUDABlock*sizeof(qreal);
         
         // spawn threads to sum the probs in each block
         if (firstTime) {
             densmatr_findProbabilityOfZeroKernel<<<numCUDABlocks, valuesPerCUDABlock, sharedMemSize>>>(
                 qureg, measureQubit, qureg.firstLevelReduction);
             firstTime = 0;
             
         // sum the block probs
         } else {
             cudaDeviceSynchronize();    
             copySharedReduceBlock<<<numCUDABlocks, valuesPerCUDABlock/2, sharedMemSize>>>(
                     qureg.firstLevelReduction, 
                     qureg.secondLevelReduction, valuesPerCUDABlock); 
             cudaDeviceSynchronize();    
             swapDouble(&(qureg.firstLevelReduction), &(qureg.secondLevelReduction));
         }
         
         numValuesToReduce = numValuesToReduce/maxReducedPerLevel;
     }
     
     qreal zeroProb;
     cudaMemcpy(&zeroProb, qureg.firstLevelReduction, sizeof(qreal), cudaMemcpyDeviceToHost);
     return zeroProb;
 }

References copySharedReduceBlock(), Qureg::firstLevelReduction, Qureg::numQubitsRepresented, qreal, REDUCE_SHARED_SIZE, Qureg::secondLevelReduction, and swapDouble().

Referenced by densmatr_calcProbOfOutcome().

◆ densmatr_findProbabilityOfZeroKernel()

__global__ void densmatr_findProbabilityOfZeroKernel	(	Qureg	qureg,
		int	measureQubit,
		qreal *	reducedArray
	)

Definition at line 1960 of file QuEST_gpu.cu.

   {
     // run by each thread
     // use of block here refers to contiguous amplitudes where measureQubit = 0, 
     // (then =1) and NOT the CUDA block, which is the partitioning of CUDA threads
     
     long long int densityDim    = 1LL << qureg.numQubitsRepresented;
     long long int numTasks      = densityDim >> 1;
     long long int sizeHalfBlock = 1LL << (measureQubit);
     long long int sizeBlock     = 2LL * sizeHalfBlock;
     
     long long int thisBlock;    // which block this thread is processing
     long long int thisTask;     // which part of the block this thread is processing
     long long int basisIndex;   // index of this thread's computational basis state
     long long int densityIndex; // " " index of |basis><basis| in the flat density matrix
     
     // array of each thread's collected probability, to be summed
     extern __shared__ qreal tempReductionArray[];
     
     // figure out which density matrix prob that this thread is assigned
     thisTask = blockIdx.x*blockDim.x + threadIdx.x;
     if (thisTask>=numTasks) return;
     thisBlock = thisTask / sizeHalfBlock;
     basisIndex = thisBlock*sizeBlock + thisTask%sizeHalfBlock;
     densityIndex = (densityDim + 1) * basisIndex;
     
     // record the probability in the CUDA-BLOCK-wide array
     qreal prob = qureg.deviceStateVec.real[densityIndex];   // im[densityIndex] assumed ~ 0
     tempReductionArray[threadIdx.x] = prob;
     
     // sum the probs collected by this CUDA-BLOCK's threads into a per-CUDA-BLOCK array
     __syncthreads();
     if (threadIdx.x<blockDim.x/2){
         reduceBlock(tempReductionArray, reducedArray, blockDim.x);
     }
 }

References Qureg::deviceStateVec, Qureg::numQubitsRepresented, qreal, and reduceBlock().

◆ densmatr_initClassicalState()

void densmatr_initClassicalState	(	Qureg	qureg,
		long long int	stateInd
	)

Definition at line 258 of file QuEST_gpu.cu.

 {
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk)/threadsPerCUDABlock);
     
     // index of the desired state in the flat density matrix
     long long int densityDim = 1LL << qureg.numQubitsRepresented;
     long long int densityInd = (densityDim + 1)*stateInd;
     
     // identical to pure version
     densmatr_initClassicalStateKernel<<<CUDABlocks, threadsPerCUDABlock>>>(
         qureg.numAmpsPerChunk, 
         qureg.deviceStateVec.real, 
         qureg.deviceStateVec.imag, densityInd);
 }

References Qureg::deviceStateVec, Qureg::numAmpsPerChunk, Qureg::numQubitsRepresented, and qreal.

Referenced by initClassicalState().

◆ densmatr_initClassicalStateKernel()

__global__ void densmatr_initClassicalStateKernel	(	long long int	densityNumElems,
		qreal *	densityReal,
		qreal *	densityImag,
		long long int	densityInd
	)

Definition at line 239 of file QuEST_gpu.cu.

 {
     // initialise the state to all zeros
     long long int index = blockIdx.x*blockDim.x + threadIdx.x;
     if (index >= densityNumElems) return;
     
     densityReal[index] = 0.0;
     densityImag[index] = 0.0;
     
     if (index==densityInd){
         // classical state has probability 1
         densityReal[densityInd] = 1.0;
         densityImag[densityInd] = 0.0;
     }
 }

◆ densmatr_initPlusState()

void densmatr_initPlusState ( Qureg qureg )

Definition at line 226 of file QuEST_gpu.cu.

 {
     qreal probFactor = 1.0/((qreal) (1LL << qureg.numQubitsRepresented));
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk)/threadsPerCUDABlock);
     densmatr_initPlusStateKernel<<<CUDABlocks, threadsPerCUDABlock>>>(
         qureg.numAmpsPerChunk, 
         probFactor,
         qureg.deviceStateVec.real, 
         qureg.deviceStateVec.imag);
 }

References Qureg::deviceStateVec, Qureg::numAmpsPerChunk, Qureg::numQubitsRepresented, and qreal.

Referenced by initPlusState().

◆ densmatr_initPlusStateKernel()

__global__ void densmatr_initPlusStateKernel	(	long long int	stateVecSize,
		qreal	probFactor,
		qreal *	stateVecReal,
		qreal *	stateVecImag
	)

Definition at line 216 of file QuEST_gpu.cu.

                                                                                                                                     {
     long long int index;
  
     index = blockIdx.x*blockDim.x + threadIdx.x;
     if (index>=stateVecSize) return;
  
     stateVecReal[index] = probFactor;
     stateVecImag[index] = 0.0;
 }

◆ densmatr_initPureState()

void densmatr_initPureState	(	Qureg	targetQureg,
		Qureg	copyQureg
	)

Definition at line 205 of file QuEST_gpu.cu.

 {
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(copyQureg.numAmpsPerChunk)/threadsPerCUDABlock);
     densmatr_initPureStateKernel<<<CUDABlocks, threadsPerCUDABlock>>>(
         copyQureg.numAmpsPerChunk,
         targetQureg.deviceStateVec.real, targetQureg.deviceStateVec.imag,
         copyQureg.deviceStateVec.real,   copyQureg.deviceStateVec.imag);
 }

References Qureg::deviceStateVec, Qureg::numAmpsPerChunk, and qreal.

Referenced by initPureState().

◆ densmatr_initPureStateKernel()

__global__ void densmatr_initPureStateKernel	(	long long int	numPureAmps,
		qreal *	targetVecReal,
		qreal *	targetVecImag,
		qreal *	copyVecReal,
		qreal *	copyVecImag
	)

Definition at line 186 of file QuEST_gpu.cu.

 {
     // this is a particular index of the pure copyQureg
     long long int index = blockIdx.x*blockDim.x + threadIdx.x;
     if (index>=numPureAmps) return;
     
     qreal realRow = copyVecReal[index];
     qreal imagRow = copyVecImag[index];
     for (long long int col=0; col < numPureAmps; col++) {
         qreal realCol =   copyVecReal[col];
         qreal imagCol = - copyVecImag[col]; // minus for conjugation
         targetVecReal[col*numPureAmps + index] = realRow*realCol - imagRow*imagCol;
         targetVecImag[col*numPureAmps + index] = realRow*imagCol + imagRow*realCol;
     }
 }

References qreal.

◆ densmatr_mixDamping()

void densmatr_mixDamping	(	Qureg	qureg,
		int	targetQubit,
		qreal	damping
	)

Definition at line 3048 of file QuEST_gpu.cu.

                                                                       {
     
     if (damping == 0)
         return;
     
     qreal dephase = sqrt(1-damping);
     densmatr_oneQubitDegradeOffDiagonal(qureg, targetQubit, dephase);
     
     long long int numAmpsToVisit = qureg.numAmpsPerChunk/4;
     int rowQubit = targetQubit + qureg.numQubitsRepresented;
     
     long long int colBit = 1LL << targetQubit;
     long long int rowBit = 1LL << rowQubit;
     long long int bothBits = colBit | rowBit;
     
     long long int part1 = colBit - 1;
     long long int part2 = (rowBit >> 1) - colBit;
     long long int part3 = numAmpsToVisit - (rowBit >> 1);
     
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil(numAmpsToVisit / (qreal) threadsPerCUDABlock);
     densmatr_mixDampingKernel<<<CUDABlocks, threadsPerCUDABlock>>>(
         damping, qureg.deviceStateVec.real, qureg.deviceStateVec.imag, numAmpsToVisit,
         part1, part2, part3, bothBits);
 }

References densmatr_oneQubitDegradeOffDiagonal(), Qureg::deviceStateVec, Qureg::numAmpsPerChunk, Qureg::numQubitsRepresented, and qreal.

Referenced by mixDamping().

◆ densmatr_mixDampingKernel()

__global__ void densmatr_mixDampingKernel	(	qreal	damping,
		qreal *	vecReal,
		qreal *	vecImag,
		long long int	numAmpsToVisit,
		long long int	part1,
		long long int	part2,
		long long int	part3,
		long long int	bothBits
	)

Works like mixDephasing but modifies every other element, and elements are averaged in pairs.

Definition at line 3001 of file QuEST_gpu.cu.

 {
     long long int scanInd = blockIdx.x*blockDim.x + threadIdx.x;
     if (scanInd >= numAmpsToVisit) return;
     
     long long int baseInd = (scanInd&part1) + ((scanInd&part2)<<1) + ((scanInd&part3)<<2);
     long long int targetInd = baseInd + bothBits;
     
     qreal realAvDepol = damping  * ( vecReal[targetInd]);
     qreal imagAvDepol = damping  * ( vecImag[targetInd]);
     
     vecReal[targetInd] *= 1 - damping;
     vecImag[targetInd] *= 1 - damping;
     
     vecReal[baseInd]   += realAvDepol;
     vecImag[baseInd]   += imagAvDepol;
 }

References qreal.

◆ densmatr_mixDensityMatrix()

void densmatr_mixDensityMatrix	(	Qureg	combineQureg,
		qreal	otherProb,
		Qureg	otherQureg
	)

Definition at line 2846 of file QuEST_gpu.cu.

                                                                                       {
     
     long long int numAmpsToVisit = combineQureg.numAmpsPerChunk;
     
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil(numAmpsToVisit / (qreal) threadsPerCUDABlock);
     densmatr_mixDensityMatrixKernel<<<CUDABlocks, threadsPerCUDABlock>>>(
         combineQureg, otherProb, otherQureg, numAmpsToVisit
     );
 }

References Qureg::numAmpsPerChunk, and qreal.

Referenced by mixDensityMatrix().

◆ densmatr_mixDensityMatrixKernel()

__global__ void densmatr_mixDensityMatrixKernel	(	Qureg	combineQureg,
		qreal	otherProb,
		Qureg	otherQureg,
		long long int	numAmpsToVisit
	)

Definition at line 2834 of file QuEST_gpu.cu.

                                                                                                                                      {
     
     long long int ampInd = blockIdx.x*blockDim.x + threadIdx.x;
     if (ampInd >= numAmpsToVisit) return;
     
     combineQureg.deviceStateVec.real[ampInd] *= 1-otherProb;
     combineQureg.deviceStateVec.imag[ampInd] *= 1-otherProb;
   
     combineQureg.deviceStateVec.real[ampInd] += otherProb*otherQureg.deviceStateVec.real[ampInd];
     combineQureg.deviceStateVec.imag[ampInd] += otherProb*otherQureg.deviceStateVec.imag[ampInd];
 }

References Qureg::deviceStateVec.

◆ densmatr_mixDephasing()

void densmatr_mixDephasing	(	Qureg	qureg,
		int	targetQubit,
		qreal	dephase
	)

Definition at line 2899 of file QuEST_gpu.cu.

                                                                         {
     
     if (dephase == 0)
         return;
     
     qreal dephFac = 1 - dephase;
     densmatr_oneQubitDegradeOffDiagonal(qureg, targetQubit, dephFac);
 }

References densmatr_oneQubitDegradeOffDiagonal(), and qreal.

Referenced by densmatr_mixDepolarising(), and mixDephasing().

◆ densmatr_mixDephasingKernel()

__global__ void densmatr_mixDephasingKernel	(	qreal	fac,
		qreal *	vecReal,
		qreal *	vecImag,
		long long int	numAmpsToVisit,
		long long int	part1,
		long long int	part2,
		long long int	part3,
		long long int	colBit,
		long long int	rowBit
	)

Called once for every 4 amplitudes in density matrix Works by establishing the |..0..><..0..| state (for its given index) then visiting |..1..><..0..| and |..0..><..1..|.

Labels |part1 X pa><rt2 NOT(X) part3| From the brain of Simon Benjamin

Definition at line 2863 of file QuEST_gpu.cu.

 {
     long long int scanInd = blockIdx.x*blockDim.x + threadIdx.x;
     if (scanInd >= numAmpsToVisit) return;
     
     long long int ampInd = (scanInd&part1) + ((scanInd&part2)<<1) + ((scanInd&part3)<<2);
     vecReal[ampInd + colBit] *= fac;
     vecImag[ampInd + colBit] *= fac;
     vecReal[ampInd + rowBit] *= fac;
     vecImag[ampInd + rowBit] *= fac;
 }

◆ densmatr_mixDepolarising()

void densmatr_mixDepolarising	(	Qureg	qureg,
		int	targetQubit,
		qreal	depolLevel
	)

Definition at line 3022 of file QuEST_gpu.cu.

                                                                               {
     
     if (depolLevel == 0)
         return;
     
     densmatr_mixDephasing(qureg, targetQubit, depolLevel);
     
     long long int numAmpsToVisit = qureg.numAmpsPerChunk/4;
     int rowQubit = targetQubit + qureg.numQubitsRepresented;
     
     long long int colBit = 1LL << targetQubit;
     long long int rowBit = 1LL << rowQubit;
     long long int bothBits = colBit | rowBit;
     
     long long int part1 = colBit - 1;
     long long int part2 = (rowBit >> 1) - colBit;
     long long int part3 = numAmpsToVisit - (rowBit >> 1);
     
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil(numAmpsToVisit / (qreal) threadsPerCUDABlock);
     densmatr_mixDepolarisingKernel<<<CUDABlocks, threadsPerCUDABlock>>>(
         depolLevel, qureg.deviceStateVec.real, qureg.deviceStateVec.imag, numAmpsToVisit,
         part1, part2, part3, bothBits);
 }

References densmatr_mixDephasing(), Qureg::deviceStateVec, Qureg::numAmpsPerChunk, Qureg::numQubitsRepresented, and qreal.

Referenced by mixDepolarising().

◆ densmatr_mixDepolarisingKernel()

__global__ void densmatr_mixDepolarisingKernel	(	qreal	depolLevel,
		qreal *	vecReal,
		qreal *	vecImag,
		long long int	numAmpsToVisit,
		long long int	part1,
		long long int	part2,
		long long int	part3,
		long long int	bothBits
	)

Works like mixDephasing but modifies every other element, and elements are averaged in pairs.

Definition at line 2975 of file QuEST_gpu.cu.

 {
     long long int scanInd = blockIdx.x*blockDim.x + threadIdx.x;
     if (scanInd >= numAmpsToVisit) return;
     
     long long int baseInd = (scanInd&part1) + ((scanInd&part2)<<1) + ((scanInd&part3)<<2);
     long long int targetInd = baseInd + bothBits;
     
     qreal realAvDepol = depolLevel * 0.5 * (vecReal[baseInd] + vecReal[targetInd]);
     qreal imagAvDepol = depolLevel * 0.5 * (vecImag[baseInd] + vecImag[targetInd]);
     
     vecReal[baseInd]   *= 1 - depolLevel;
     vecImag[baseInd]   *= 1 - depolLevel;
     vecReal[targetInd] *= 1 - depolLevel;
     vecImag[targetInd] *= 1 - depolLevel;
     
     vecReal[baseInd]   += realAvDepol;
     vecImag[baseInd]   += imagAvDepol;
     vecReal[targetInd] += realAvDepol;
     vecImag[targetInd] += imagAvDepol;
 }

References qreal.

◆ densmatr_mixTwoQubitDephasing()

void densmatr_mixTwoQubitDephasing	(	Qureg	qureg,
		int	qubit1,
		int	qubit2,
		qreal	dephase
	)

Definition at line 2938 of file QuEST_gpu.cu.

                                                                                        {
     
     if (dephase == 0)
         return;
     
     // assumes qubit2 > qubit1
     
     int rowQubit1 = qubit1 + qureg.numQubitsRepresented;
     int rowQubit2 = qubit2 + qureg.numQubitsRepresented;
     
     long long int colBit1 = 1LL << qubit1;
     long long int rowBit1 = 1LL << rowQubit1;
     long long int colBit2 = 1LL << qubit2;
     long long int rowBit2 = 1LL << rowQubit2;
     
     long long int part1 = colBit1 - 1;
     long long int part2 = (colBit2 >> 1) - colBit1;
     long long int part3 = (rowBit1 >> 2) - (colBit2 >> 1);
     long long int part4 = (rowBit2 >> 3) - (rowBit1 >> 2);
     long long int part5 = (qureg.numAmpsPerChunk/16) - (rowBit2 >> 3);
     qreal dephFac = 1 - dephase;
     
     // refers to states |a 0 b 0 c><d 0 e 0 f| (target qubits are fixed)
     long long int numBackgroundStates = qureg.numAmpsPerChunk/16;
     
     // 12 of these states experience dephasing
     long long int numAmpsToVisit = 12 * numBackgroundStates;
     
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil(numAmpsToVisit / (qreal) threadsPerCUDABlock);
     densmatr_mixTwoQubitDephasingKernel<<<CUDABlocks, threadsPerCUDABlock>>>(
         dephFac, qureg.deviceStateVec.real, qureg.deviceStateVec.imag, numBackgroundStates, numAmpsToVisit,
         part1, part2, part3, part4, part5, colBit1, rowBit1, colBit2, rowBit2);
 }

References Qureg::deviceStateVec, Qureg::numAmpsPerChunk, Qureg::numQubitsRepresented, and qreal.

Referenced by densmatr_mixTwoQubitDepolarising(), and mixTwoQubitDephasing().

◆ densmatr_mixTwoQubitDephasingKernel()

__global__ void densmatr_mixTwoQubitDephasingKernel	(	qreal	fac,
		qreal *	vecReal,
		qreal *	vecImag,
		long long int	numBackgroundStates,
		long long int	numAmpsToVisit,
		long long int	part1,
		long long int	part2,
		long long int	part3,
		long long int	part4,
		long long int	part5,
		long long int	colBit1,
		long long int	rowBit1,
		long long int	colBit2,
		long long int	rowBit2
	)

Called 12 times for every 16 amplitudes in density matrix Each sums from the |..0..0..><..0..0..| index to visit either |..0..0..><..0..1..|, |..0..0..><..1..0..|, |..0..0..><..1..1..|, |..0..1..><..0..0..| etc and so on to |..1..1..><..1..0|.

Labels |part1 0 part2 0 par><t3 0 part4 0 part5|. From the brain of Simon Benjamin

Definition at line 2914 of file QuEST_gpu.cu.

 {
     long long int outerInd = blockIdx.x*blockDim.x + threadIdx.x;
     if (outerInd >= numAmpsToVisit) return;
     
     // sets meta in 1...14 excluding 5, 10, creating bit string DCBA for |..D..C..><..B..A|
     int meta = 1 + (outerInd/numBackgroundStates);
     if (meta > 4) meta++;
     if (meta > 9) meta++;
     
     long long int shift = rowBit2*((meta>>3)%2) + rowBit1*((meta>>2)%2) + colBit2*((meta>>1)%2) + colBit1*(meta%2);
     long long int scanInd = outerInd % numBackgroundStates;
     long long int stateInd = (
         shift + 
         (scanInd&part1) + ((scanInd&part2)<<1) + ((scanInd&part3)<<2) + ((scanInd&part4)<<3) + ((scanInd&part5)<<4));
     
     vecReal[stateInd] *= fac;
     vecImag[stateInd] *= fac;
 }

◆ densmatr_mixTwoQubitDepolarising()

void densmatr_mixTwoQubitDepolarising	(	Qureg	qureg,
		int	qubit1,
		int	qubit2,
		qreal	depolLevel
	)

Definition at line 3108 of file QuEST_gpu.cu.

                                                                                              {
     
     if (depolLevel == 0)
         return;
     
     // assumes qubit2 > qubit1
     
     densmatr_mixTwoQubitDephasing(qureg, qubit1, qubit2, depolLevel);
     
     int rowQubit1 = qubit1 + qureg.numQubitsRepresented;
     int rowQubit2 = qubit2 + qureg.numQubitsRepresented;
     
     long long int colBit1 = 1LL << qubit1;
     long long int rowBit1 = 1LL << rowQubit1;
     long long int colBit2 = 1LL << qubit2;
     long long int rowBit2 = 1LL << rowQubit2;
     
     long long int rowCol1 = colBit1 | rowBit1;
     long long int rowCol2 = colBit2 | rowBit2;
     
     long long int numAmpsToVisit = qureg.numAmpsPerChunk/16;
     long long int part1 = colBit1 - 1;
     long long int part2 = (colBit2 >> 1) - colBit1;
     long long int part3 = (rowBit1 >> 2) - (colBit2 >> 1);
     long long int part4 = (rowBit2 >> 3) - (rowBit1 >> 2);
     long long int part5 = numAmpsToVisit - (rowBit2 >> 3);
     
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil(numAmpsToVisit / (qreal) threadsPerCUDABlock);
     densmatr_mixTwoQubitDepolarisingKernel<<<CUDABlocks, threadsPerCUDABlock>>>(
         depolLevel, qureg.deviceStateVec.real, qureg.deviceStateVec.imag, numAmpsToVisit,
         part1, part2, part3, part4, part5, rowCol1, rowCol2);
 }

References densmatr_mixTwoQubitDephasing(), Qureg::deviceStateVec, Qureg::numAmpsPerChunk, Qureg::numQubitsRepresented, and qreal.

Referenced by mixTwoQubitDepolarising().

◆ densmatr_mixTwoQubitDepolarisingKernel()

__global__ void densmatr_mixTwoQubitDepolarisingKernel	(	qreal	depolLevel,
		qreal *	vecReal,
		qreal *	vecImag,
		long long int	numAmpsToVisit,
		long long int	part1,
		long long int	part2,
		long long int	part3,
		long long int	part4,
		long long int	part5,
		long long int	rowCol1,
		long long int	rowCol2
	)

Called once for every 16 amplitudes.

Definition at line 3076 of file QuEST_gpu.cu.

 {
     long long int scanInd = blockIdx.x*blockDim.x + threadIdx.x;
     if (scanInd >= numAmpsToVisit) return;
     
     // index of |..0..0..><..0..0|
     long long int ind00 = (scanInd&part1) + ((scanInd&part2)<<1) + ((scanInd&part3)<<2) + ((scanInd&part4)<<3) + ((scanInd&part5)<<4);
     long long int ind01 = ind00 + rowCol1;
     long long int ind10 = ind00 + rowCol2;
     long long int ind11 = ind00 + rowCol1 + rowCol2;
     
     qreal realAvDepol = depolLevel * 0.25 * (
         vecReal[ind00] + vecReal[ind01] + vecReal[ind10] + vecReal[ind11]);
     qreal imagAvDepol = depolLevel * 0.25 * (
         vecImag[ind00] + vecImag[ind01] + vecImag[ind10] + vecImag[ind11]);
     
     qreal retain = 1 - depolLevel;
     vecReal[ind00] *= retain; vecImag[ind00] *= retain;
     vecReal[ind01] *= retain; vecImag[ind01] *= retain;
     vecReal[ind10] *= retain; vecImag[ind10] *= retain;
     vecReal[ind11] *= retain; vecImag[ind11] *= retain;
  
     vecReal[ind00] += realAvDepol; vecImag[ind00] += imagAvDepol;
     vecReal[ind01] += realAvDepol; vecImag[ind01] += imagAvDepol;
     vecReal[ind10] += realAvDepol; vecImag[ind10] += imagAvDepol;
     vecReal[ind11] += realAvDepol; vecImag[ind11] += imagAvDepol;
 }

References qreal.

◆ densmatr_oneQubitDegradeOffDiagonal()

void densmatr_oneQubitDegradeOffDiagonal	(	Qureg	qureg,
		int	targetQubit,
		qreal	dephFac
	)

Definition at line 2879 of file QuEST_gpu.cu.

                                                                                       {
     
     long long int numAmpsToVisit = qureg.numAmpsPerChunk/4;
     
     int rowQubit = targetQubit + qureg.numQubitsRepresented;
     long long int colBit = 1LL << targetQubit;
     long long int rowBit = 1LL << rowQubit;
     
     long long int part1 = colBit - 1;
     long long int part2 = (rowBit >> 1) - colBit;
     long long int part3 = numAmpsToVisit - (rowBit >> 1);
     
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil(numAmpsToVisit / (qreal) threadsPerCUDABlock);
     densmatr_mixDephasingKernel<<<CUDABlocks, threadsPerCUDABlock>>>(
         dephFac, qureg.deviceStateVec.real, qureg.deviceStateVec.imag, numAmpsToVisit,
         part1, part2, part3, colBit, rowBit);
 }

References Qureg::deviceStateVec, Qureg::numAmpsPerChunk, Qureg::numQubitsRepresented, and qreal.

Referenced by densmatr_mixDamping(), and densmatr_mixDephasing().

◆ extractBit()

__forceinline__ __device__ int extractBit	(	const int	locationOfBitFromRight,
		const long long int	theEncodedNumber
	)

Definition at line 82 of file QuEST_gpu.cu.

                                                                                                                    {
     return (theEncodedNumber & ( 1LL << locationOfBitFromRight )) >> locationOfBitFromRight;
 }

◆ flipBit()

__forceinline__ __device__ long long int flipBit	(	const long long int	number,
		const int	bitInd
	)

Definition at line 95 of file QuEST_gpu.cu.

                                                                                                {
     return (number ^ (1LL << bitInd));
 }

Referenced by getGlobalIndOfOddParityInChunk(), statevec_multiControlledMultiQubitUnitary(), statevec_multiControlledMultiQubitUnitaryKernel(), statevec_multiControlledMultiQubitUnitaryLocal(), statevec_multiControlledTwoQubitUnitary(), statevec_multiControlledTwoQubitUnitaryKernel(), statevec_multiControlledTwoQubitUnitaryLocal(), statevec_swapQubitAmps(), statevec_swapQubitAmpsDistributed(), statevec_swapQubitAmpsKernel(), and statevec_swapQubitAmpsLocal().

◆ getBitMaskParity()

__forceinline__ __device__ int getBitMaskParity ( long long int mask )

Definition at line 86 of file QuEST_gpu.cu.

                                                                     {
     int parity = 0;
     while (mask) {
         parity = !parity;
         mask = mask & (mask-1);
     }
     return parity;
 }

Referenced by statevec_multiControlledMultiRotateZKernel(), and statevec_multiRotateZKernel().

◆ getNumReductionLevels()

int getNumReductionLevels	(	long long int	numValuesToReduce,
		int	numReducedPerLevel
	)

Definition at line 2048 of file QuEST_gpu.cu.

                                                                                   {
     int levels=0;
     while (numValuesToReduce){
         numValuesToReduce = numValuesToReduce/numReducedPerLevel;
         levels++;
     }
     return levels;
 }

◆ GPUExists()

int GPUExists ( void )

Definition at line 446 of file QuEST_gpu.cu.

                    {
     int deviceCount, device;
     int gpuDeviceCount = 0;
     struct cudaDeviceProp properties;
     cudaError_t cudaResultCode = cudaGetDeviceCount(&deviceCount);
     if (cudaResultCode != cudaSuccess) deviceCount = 0;
     /* machines with no GPUs can still report one emulation device */
     for (device = 0; device < deviceCount; ++device) {
         cudaGetDeviceProperties(&properties, device);
         if (properties.major != 9999) { /* 9999 means emulation only */
             ++gpuDeviceCount;
         }
     }
     if (gpuDeviceCount) return 1;
     else return 0;
 }

Referenced by createQuESTEnv().

◆ insertTwoZeroBits()

__forceinline__ __device__ long long int insertTwoZeroBits	(	const long long int	number,
		const int	bit1,
		const int	bit2
	)

Definition at line 106 of file QuEST_gpu.cu.

                                                                                                                        {
     int small = (bit1 < bit2)? bit1 : bit2;
     int big = (bit1 < bit2)? bit2 : bit1;
     return insertZeroBit(insertZeroBit(number, small), big);
 }

References insertZeroBit().

Referenced by statevec_multiControlledTwoQubitUnitaryKernel(), statevec_multiControlledTwoQubitUnitaryLocal(), statevec_swapQubitAmpsKernel(), and statevec_swapQubitAmpsLocal().

◆ insertZeroBit()

__forceinline__ __device__ long long int insertZeroBit	(	const long long int	number,
		const int	index
	)

Definition at line 99 of file QuEST_gpu.cu.

                                                                                                     {
     long long int left, right;
     left = (number >> index) << index;
     right = number - left;
     return (left << 1) ^ right;
 }

Referenced by insertTwoZeroBits(), insertZeroBits(), and statevec_multiControlledMultiQubitUnitaryLocal().

◆ insertZeroBits()

__forceinline__ __device__ long long int insertZeroBits	(	long long int	number,
		int *	inds,
		const int	numInds
	)

Definition at line 112 of file QuEST_gpu.cu.

                                                                                                             {
     /* inserted bit inds must strictly increase, so that their final indices are correct.
      * in-lieu of sorting (avoided since no C++ variable-size arrays, and since we're already 
      * memory bottle-necked so overhead eats this slowdown), we find the next-smallest index each 
      * at each insert. recall every element of inds (a positive or zero number) is unique.
      * This function won't appear in the CPU code, which can use C99 variable-size arrays and 
      * ought to make a sorted array before threading
      */
      int curMin = inds[0];
      int prevMin = -1;
      for (int n=0; n < numInds; n++) {
          
          // find next min
          for (int t=0; t < numInds; t++)
             if (inds[t]>prevMin && inds[t]<curMin)
                 curMin = inds[t];
         
         number = insertZeroBit(number, curMin);
         
         // set curMin to an arbitrary non-visited elem
         prevMin = curMin;
         for (int t=0; t < numInds; t++)
             if (inds[t] > curMin) {
                 curMin = inds[t];
                 break;
             }
      }
      return number;
 }

References insertZeroBit().

Referenced by statevec_multiControlledMultiQubitUnitaryKernel().

◆ log2Int()

__device__ __host__ unsigned int log2Int ( unsigned int x )

Definition at line 1925 of file QuEST_gpu.cu.

 {
     unsigned int ans = 0 ;
     while( x>>=1 ) ans++;
     return ans ;
 }

Referenced by reduceBlock().

◆ reduceBlock()

__device__ void reduceBlock	(	qreal *	arrayIn,
		qreal *	reducedArray,
		int	length
	)

Definition at line 1932 of file QuEST_gpu.cu.

                                                                             {
     int i, l, r;
     int threadMax, maxDepth;
     threadMax = length/2;
     maxDepth = log2Int(length/2);
  
     for (i=0; i<maxDepth+1; i++){
         if (threadIdx.x<threadMax){
             l = threadIdx.x;
             r = l + threadMax;
             arrayIn[l] = arrayIn[r] + arrayIn[l];
         }
         threadMax = threadMax >> 1;
         __syncthreads(); // optimise -- use warp shuffle instead
     }
  
     if (threadIdx.x==0) reducedArray[blockIdx.x] = arrayIn[0];
 }

References log2Int().

Referenced by copySharedReduceBlock(), densmatr_calcExpecDiagonalOpKernel(), densmatr_calcFidelityKernel(), densmatr_calcHilbertSchmidtDistanceSquaredKernel(), densmatr_calcInnerProductKernel(), densmatr_calcPurityKernel(), densmatr_findProbabilityOfZeroKernel(), statevec_calcExpecDiagonalOpKernel(), statevec_calcInnerProductKernel(), and statevec_findProbabilityOfZeroKernel().

◆ statevec_applyDiagonalOp()

void statevec_applyDiagonalOp	(	Qureg	qureg,
		DiagonalOp	op
	)

Definition at line 3209 of file QuEST_gpu.cu.

 {
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk)/threadsPerCUDABlock);
     statevec_applyDiagonalOpKernel<<<CUDABlocks, threadsPerCUDABlock>>>(qureg, op);
 }

References Qureg::numAmpsPerChunk, and qreal.

Referenced by applyDiagonalOp().

◆ statevec_applyDiagonalOpKernel()

__global__ void statevec_applyDiagonalOpKernel	(	Qureg	qureg,
		DiagonalOp	op
	)

Definition at line 3187 of file QuEST_gpu.cu.

                                                                            {
  
     // each thread modifies one value; a wasteful and inefficient strategy
     long long int numTasks = qureg.numAmpsPerChunk;
     long long int thisTask = blockIdx.x*blockDim.x + threadIdx.x;
     if (thisTask >= numTasks) return;
  
     qreal* stateRe = qureg.deviceStateVec.real;
     qreal* stateIm = qureg.deviceStateVec.imag;
     qreal* opRe = op.deviceOperator.real;
     qreal* opIm = op.deviceOperator.imag;
  
     qreal a = stateRe[thisTask];
     qreal b = stateIm[thisTask];
     qreal c = opRe[thisTask];
     qreal d = opIm[thisTask];
  
     // (a + b i)(c + d i) = (a c - b d) + i (a d + b c)
     stateRe[thisTask] = a*c - b*d;
     stateIm[thisTask] = a*d + b*c;
 }

References DiagonalOp::deviceOperator, Qureg::deviceStateVec, Qureg::numAmpsPerChunk, and qreal.

◆ statevec_applyMultiVarPhaseFuncOverrides()

void statevec_applyMultiVarPhaseFuncOverrides	(	Qureg	qureg,
		int *	qubits,
		int *	numQubitsPerReg,
		int	numRegs,
		enum bitEncoding	encoding,
		qreal *	coeffs,
		qreal *	exponents,
		int *	numTermsPerReg,
		long long int *	overrideInds,
		qreal *	overridePhases,
		int	numOverrides,
		int	conj
	)

Definition at line 3695 of file QuEST_gpu.cu.

   {
     // determine size of arrays, for cloning into GPU memory
     size_t mem_numQubitsPerReg = numRegs * sizeof *numQubitsPerReg;
     size_t mem_numTermsPerReg = numRegs * sizeof *numTermsPerReg;
     size_t mem_overridePhases = numOverrides * sizeof *overridePhases;
     size_t mem_overrideInds = numOverrides * numRegs * sizeof *overrideInds;
     size_t mem_qubits = 0;
     size_t mem_coeffs = 0;  
     size_t mem_exponents = 0;
     for (int r=0; r<numRegs; r++) {
         mem_qubits += numQubitsPerReg[r] * sizeof *qubits;
         mem_coeffs += numTermsPerReg[r] * sizeof *coeffs;
         mem_exponents += numTermsPerReg[r] * sizeof *exponents;
     }
  
     // allocate global GPU memory
     int* d_qubits;                  cudaMalloc(&d_qubits,           mem_qubits);
     qreal* d_coeffs;                cudaMalloc(&d_coeffs,           mem_coeffs);
     qreal* d_exponents;             cudaMalloc(&d_exponents,        mem_exponents);
     int* d_numQubitsPerReg;         cudaMalloc(&d_numQubitsPerReg,  mem_numQubitsPerReg);
     int* d_numTermsPerReg;          cudaMalloc(&d_numTermsPerReg,   mem_numTermsPerReg);
     long long int* d_overrideInds;  cudaMalloc(&d_overrideInds,     mem_overrideInds);
     qreal* d_overridePhases;        cudaMalloc(&d_overridePhases,   mem_overridePhases);
  
     // copy function args into GPU memory
     cudaMemcpy(d_qubits, qubits,                    mem_qubits,             cudaMemcpyHostToDevice);
     cudaMemcpy(d_coeffs, coeffs,                    mem_coeffs,             cudaMemcpyHostToDevice);
     cudaMemcpy(d_exponents, exponents,              mem_exponents,          cudaMemcpyHostToDevice);
     cudaMemcpy(d_numQubitsPerReg, numQubitsPerReg,  mem_numQubitsPerReg,    cudaMemcpyHostToDevice);
     cudaMemcpy(d_numTermsPerReg, numTermsPerReg,    mem_numTermsPerReg,     cudaMemcpyHostToDevice);
     cudaMemcpy(d_overrideInds, overrideInds,        mem_overrideInds,       cudaMemcpyHostToDevice);
     cudaMemcpy(d_overridePhases, overridePhases,    mem_overridePhases,     cudaMemcpyHostToDevice);
  
     int threadsPerCUDABlock = 128;
     int CUDABlocks = ceil((qreal) qureg.numAmpsPerChunk / threadsPerCUDABlock);
  
     // allocate thread-local working space {phaseInds}
     long long int *d_phaseInds;
     size_t gridSize = (size_t) threadsPerCUDABlock * CUDABlocks;
     cudaMalloc(&d_phaseInds, numRegs*gridSize * sizeof *d_phaseInds);
  
     // call kernel
     statevec_applyMultiVarPhaseFuncOverridesKernel<<<CUDABlocks,threadsPerCUDABlock>>>(
         qureg, d_qubits, d_numQubitsPerReg, numRegs, encoding,
         d_coeffs, d_exponents, d_numTermsPerReg, 
         d_overrideInds, d_overridePhases, numOverrides,
         d_phaseInds, 
         conj);
  
     // free device memory
     cudaFree(d_qubits);
     cudaFree(d_coeffs);
     cudaFree(d_exponents);
     cudaFree(d_numQubitsPerReg);
     cudaFree(d_numTermsPerReg);
     cudaFree(d_overrideInds);
     cudaFree(d_overridePhases);
     cudaFree(d_phaseInds);
 }

References Qureg::numAmpsPerChunk, and qreal.

Referenced by applyMultiVarPhaseFunc(), and applyMultiVarPhaseFuncOverrides().

◆ statevec_applyMultiVarPhaseFuncOverridesKernel()

__global__ void statevec_applyMultiVarPhaseFuncOverridesKernel	(	Qureg	qureg,
		int *	qubits,
		int *	numQubitsPerReg,
		int	numRegs,
		enum bitEncoding	encoding,
		qreal *	coeffs,
		qreal *	exponents,
		int *	numTermsPerReg,
		long long int *	overrideInds,
		qreal *	overridePhases,
		int	numOverrides,
		long long int *	phaseInds,
		int	conj
	)

Definition at line 3611 of file QuEST_gpu.cu.

   {
     long long int index = blockIdx.x*blockDim.x + threadIdx.x;
     if (index>=qureg.numAmpsPerChunk) return;
  
     // determine global amplitude index (non-distributed, so it's just local index)
     long long int globalAmpInd = index;
  
     /*
      * each thread needs to write to a local:
      *      long long int phaseInds[numRegs];
      * but instead has access to shared array phaseInds, with below stride and offset
     */
     size_t stride = gridDim.x*blockDim.x;
     size_t offset = blockIdx.x*blockDim.x + threadIdx.x;
  
     // determine phase indices
     int flatInd = 0;
     if (encoding == UNSIGNED) {
         for (int r=0; r<numRegs; r++) {
             phaseInds[r*stride+offset] = 0LL;
             for (int q=0; q<numQubitsPerReg[r]; q++)
                 phaseInds[r*stride+offset] += (1LL << q) * extractBit(qubits[flatInd++], globalAmpInd);
         }
     }
     else if  (encoding == TWOS_COMPLEMENT) {
         for (int r=0; r<numRegs; r++) {
             phaseInds[r*stride+offset] = 0LL;
             for (int q=0; q<numQubitsPerReg[r]-1; q++)  
                 phaseInds[r*stride+offset] += (1LL << q) * extractBit(qubits[flatInd++], globalAmpInd);
             // use final qubit to indicate sign
             if (extractBit(qubits[flatInd++], globalAmpInd) == 1)
                 phaseInds[r*stride+offset] -= (1LL << (numQubitsPerReg[r]-1)); 
         }
     }
  
     // determine if this phase index has an overriden value (i < numOverrides)
     int i;
     for (i=0; i<numOverrides; i++) {
         int found = 1;
         for (int r=0; r<numRegs; r++) {
             if (phaseInds[r*stride+offset] != overrideInds[i*numRegs+r]) {
                 found = 0;
                 break;
             }
         }
         if (found)
             break;
     }
  
     // compute the phase (unless overriden)
     qreal phase = 0;
     if (i < numOverrides)
         phase = overridePhases[i];
     else {
         flatInd = 0;
         for (int r=0; r<numRegs; r++) {
             for (int t=0; t<numTermsPerReg[r]; t++) {
                 phase += coeffs[flatInd] * pow(phaseInds[r*stride+offset], exponents[flatInd]);
                 flatInd++;
             }
         }
     }
     
     // negate phase to conjugate operator 
     if (conj)
         phase *= -1;
  
     // modify amp to amp * exp(i phase) 
     qreal c = cos(phase);
     qreal s = sin(phase);
     qreal re = qureg.deviceStateVec.real[index];
     qreal im = qureg.deviceStateVec.imag[index];
  
     // = {re[amp] cos(phase) - im[amp] sin(phase)} + i {re[amp] sin(phase) + im[amp] cos(phase)}
     qureg.deviceStateVec.real[index] = re*c - im*s;
     qureg.deviceStateVec.imag[index] = re*s + im*c;
 }

References Qureg::deviceStateVec, extractBit(), Qureg::numAmpsPerChunk, qreal, TWOS_COMPLEMENT, and UNSIGNED.

◆ statevec_applyParamNamedPhaseFuncOverrides()

void statevec_applyParamNamedPhaseFuncOverrides	(	Qureg	qureg,
		int *	qubits,
		int *	numQubitsPerReg,
		int	numRegs,
		enum bitEncoding	encoding,
		enum phaseFunc	phaseFuncName,
		qreal *	params,
		int	numParams,
		long long int *	overrideInds,
		qreal *	overridePhases,
		int	numOverrides,
		int	conj
	)

Definition at line 3909 of file QuEST_gpu.cu.

   {
     // determine size of arrays, for cloning into GPU memory
     size_t mem_numQubitsPerReg = numRegs * sizeof *numQubitsPerReg;
     size_t mem_overridePhases = numOverrides * sizeof *overridePhases;
     size_t mem_overrideInds = numOverrides * numRegs * sizeof *overrideInds;
     size_t mem_params = numParams * sizeof *params;
     size_t mem_qubits = 0;
     for (int r=0; r<numRegs; r++)
         mem_qubits += numQubitsPerReg[r] * sizeof *qubits;
  
     // allocate global GPU memory
     int* d_qubits;                  cudaMalloc(&d_qubits,           mem_qubits);
     int* d_numQubitsPerReg;         cudaMalloc(&d_numQubitsPerReg,  mem_numQubitsPerReg);
     long long int* d_overrideInds;  cudaMalloc(&d_overrideInds,     mem_overrideInds);
     qreal* d_overridePhases;        cudaMalloc(&d_overridePhases,   mem_overridePhases);
     qreal* d_params = NULL;         if (numParams > 0) cudaMalloc(&d_params, mem_params);
  
     // copy function args into GPU memory
     cudaMemcpy(d_qubits, qubits,                    mem_qubits,             cudaMemcpyHostToDevice);
     cudaMemcpy(d_numQubitsPerReg, numQubitsPerReg,  mem_numQubitsPerReg,    cudaMemcpyHostToDevice);
     cudaMemcpy(d_overrideInds, overrideInds,        mem_overrideInds,       cudaMemcpyHostToDevice);
     cudaMemcpy(d_overridePhases, overridePhases,    mem_overridePhases,     cudaMemcpyHostToDevice);
     if (numParams > 0)
         cudaMemcpy(d_params, params, mem_params, cudaMemcpyHostToDevice);
  
     int threadsPerCUDABlock = 128;
     int CUDABlocks = ceil((qreal) qureg.numAmpsPerChunk / threadsPerCUDABlock);
  
     // allocate thread-local working space {phaseInds}
     long long int *d_phaseInds;
     size_t gridSize = (size_t) threadsPerCUDABlock * CUDABlocks;
     cudaMalloc(&d_phaseInds, numRegs*gridSize * sizeof *d_phaseInds);
  
     // call kernel
     statevec_applyParamNamedPhaseFuncOverridesKernel<<<CUDABlocks,threadsPerCUDABlock>>>(
         qureg, d_qubits, d_numQubitsPerReg, numRegs, encoding,
         phaseFuncName, d_params, numParams,
         d_overrideInds, d_overridePhases, numOverrides,
         d_phaseInds,
         conj);
  
     // free device memory
     cudaFree(d_qubits);
     cudaFree(d_numQubitsPerReg);
     cudaFree(d_overrideInds);
     cudaFree(d_overridePhases);
     cudaFree(d_phaseInds);
     if (numParams > 0)
         cudaFree(d_params);
 }

References Qureg::numAmpsPerChunk, and qreal.

Referenced by agnostic_applyQFT(), applyNamedPhaseFunc(), applyNamedPhaseFuncOverrides(), applyParamNamedPhaseFunc(), and applyParamNamedPhaseFuncOverrides().

◆ statevec_applyParamNamedPhaseFuncOverridesKernel()

__global__ void statevec_applyParamNamedPhaseFuncOverridesKernel	(	Qureg	qureg,
		int *	qubits,
		int *	numQubitsPerReg,
		int	numRegs,
		enum bitEncoding	encoding,
		enum phaseFunc	phaseFuncName,
		qreal *	params,
		int	numParams,
		long long int *	overrideInds,
		qreal *	overridePhases,
		int	numOverrides,
		long long int *	phaseInds,
		int	conj
	)

Definition at line 3760 of file QuEST_gpu.cu.

   {
     long long int index = blockIdx.x*blockDim.x + threadIdx.x;
     if (index>=qureg.numAmpsPerChunk) return;
  
     // determine global amplitude index (non-distributed, so it's just local index)
     long long int globalAmpInd = index;
  
     /*
      * each thread needs to write to a local:
      *      long long int phaseInds[numRegs];
      * but instead has access to shared array phaseInds, with below stride and offset
     */
     size_t stride = gridDim.x*blockDim.x;
     size_t offset = blockIdx.x*blockDim.x + threadIdx.x;
  
     // determine phase indices
     if (encoding == UNSIGNED) {
         int flatInd = 0;
         for (int r=0; r<numRegs; r++) {
             phaseInds[r*stride+offset] = 0LL;
             for (int q=0; q<numQubitsPerReg[r]; q++)
                 phaseInds[r*stride+offset] += (1LL << q) * extractBit(qubits[flatInd++], globalAmpInd);
         }
     }
     else if  (encoding == TWOS_COMPLEMENT) {
         int flatInd = 0;
         for (int r=0; r<numRegs; r++) {
             phaseInds[r*stride+offset] = 0LL;
             for (int q=0; q<numQubitsPerReg[r]-1; q++)  
                 phaseInds[r*stride+offset] += (1LL << q) * extractBit(qubits[flatInd++], globalAmpInd);
             // use final qubit to indicate sign
             if (extractBit(qubits[flatInd++], globalAmpInd) == 1)
                 phaseInds[r*stride+offset] -= (1LL << (numQubitsPerReg[r]-1));
         }
     }
  
     // determine if this phase index has an overriden value (i < numOverrides)
     int i;
     for (i=0; i<numOverrides; i++) {
         int found = 1;
         for (int r=0; r<numRegs; r++) {
             if (phaseInds[r*stride+offset] != overrideInds[i*numRegs+r]) {
                 found = 0;
                 break;
             }
         }
         if (found)
             break;
     }
  
     // compute the phase (unless overriden)
     qreal phase = 0;
     if (i < numOverrides)
         phase = overridePhases[i];
     else {
         // compute norm related phases
         if (phaseFuncName == NORM || phaseFuncName == INVERSE_NORM ||
             phaseFuncName == SCALED_NORM || phaseFuncName == SCALED_INVERSE_NORM ||
             phaseFuncName == SCALED_INVERSE_SHIFTED_NORM) {
             qreal norm = 0;
             if (phaseFuncName == SCALED_INVERSE_SHIFTED_NORM) {
                 for (int r=0; r<numRegs; r++) {
                     qreal dif = phaseInds[r*stride+offset] - params[2+r];
                     norm += dif*dif;
                 }
             }
             else
                 for (int r=0; r<numRegs; r++)
                     norm += phaseInds[r*stride+offset]*phaseInds[r*stride+offset];
             norm = sqrt(norm);
  
             if (phaseFuncName == NORM)
                 phase = norm;
             else if (phaseFuncName == INVERSE_NORM)
                 phase = (norm == 0.)? params[0] : 1/norm; // smallest non-zero norm is 1
             else if (phaseFuncName == SCALED_NORM)
                 phase = params[0] * norm;
             else if (phaseFuncName == SCALED_INVERSE_NORM || phaseFuncName == SCALED_INVERSE_SHIFTED_NORM)
                 phase = (norm <= REAL_EPS)? params[1] : params[0] / norm; // unless shifted closer to zero
         }
         // compute product related phases
         else if (phaseFuncName == PRODUCT || phaseFuncName == INVERSE_PRODUCT ||
                  phaseFuncName == SCALED_PRODUCT || phaseFuncName == SCALED_INVERSE_PRODUCT) {
  
             qreal prod = 1;
             for (int r=0; r<numRegs; r++)
                 prod *= phaseInds[r*stride+offset];
  
             if (phaseFuncName == PRODUCT)
                 phase = prod;
             else if (phaseFuncName == INVERSE_PRODUCT)
                 phase = (prod == 0.)? params[0] : 1/prod; // smallest non-zero prod is +- 1
             else if (phaseFuncName == SCALED_PRODUCT)
                 phase = params[0] * prod;
             else if (phaseFuncName == SCALED_INVERSE_PRODUCT)
                 phase = (prod == 0.)? params[1] : params[0] / prod;
         }
         // compute Euclidean distance related phases 
         else if (phaseFuncName == DISTANCE || phaseFuncName == INVERSE_DISTANCE ||
                  phaseFuncName == SCALED_DISTANCE || phaseFuncName == SCALED_INVERSE_DISTANCE ||
                  phaseFuncName == SCALED_INVERSE_SHIFTED_DISTANCE) {
  
             qreal dist = 0;
             if (phaseFuncName == SCALED_INVERSE_SHIFTED_DISTANCE) {
                 for (int r=0; r<numRegs; r+=2) {
                     qreal dif = (phaseInds[r*stride+offset] - phaseInds[(r+1)*stride+offset] - params[2+r/2]);
                     dist += dif*dif;
                 }
             }
             else
                 for (int r=0; r<numRegs; r+=2) {
                     qreal dif = (phaseInds[(r+1)*stride+offset] - phaseInds[r*stride+offset]);
                     dist += dif*dif;
                 }
             dist = sqrt(dist);
  
             if (phaseFuncName == DISTANCE)
                 phase = dist;
             else if (phaseFuncName == INVERSE_DISTANCE)
                 phase = (dist == 0.)? params[0] : 1/dist; // smallest non-zero dist is 1
             else if (phaseFuncName == SCALED_DISTANCE)
                 phase = params[0] * dist;
             else if (phaseFuncName == SCALED_INVERSE_DISTANCE || phaseFuncName == SCALED_INVERSE_SHIFTED_DISTANCE)
                 phase = (dist <= REAL_EPS)? params[1] : params[0] / dist; // unless shifted closer
         }
     }
     
     
     // negate phase to conjugate operator 
     if (conj)
         phase *= -1;
  
     // modify amp to amp * exp(i phase) 
     qreal c = cos(phase);
     qreal s = sin(phase);
     qreal re = qureg.deviceStateVec.real[index];
     qreal im = qureg.deviceStateVec.imag[index];
  
     // = {re[amp] cos(phase) - im[amp] sin(phase)} + i {re[amp] sin(phase) + im[amp] cos(phase)}
     qureg.deviceStateVec.real[index] = re*c - im*s;
     qureg.deviceStateVec.imag[index] = re*s + im*c;
 }

References Qureg::deviceStateVec, DISTANCE, extractBit(), INVERSE_DISTANCE, INVERSE_NORM, INVERSE_PRODUCT, NORM, Qureg::numAmpsPerChunk, PRODUCT, qreal, SCALED_DISTANCE, SCALED_INVERSE_DISTANCE, SCALED_INVERSE_NORM, SCALED_INVERSE_PRODUCT, SCALED_INVERSE_SHIFTED_DISTANCE, SCALED_INVERSE_SHIFTED_NORM, SCALED_NORM, SCALED_PRODUCT, TWOS_COMPLEMENT, and UNSIGNED.

◆ statevec_applyPhaseFuncOverrides()

void statevec_applyPhaseFuncOverrides	(	Qureg	qureg,
		int *	qubits,
		int	numQubits,
		enum bitEncoding	encoding,
		qreal *	coeffs,
		qreal *	exponents,
		int	numTerms,
		long long int *	overrideInds,
		qreal *	overridePhases,
		int	numOverrides,
		int	conj
	)

Definition at line 3576 of file QuEST_gpu.cu.

    {
     // allocate device space for global list of {qubits}, {coeffs}, {exponents}, {overrideInds} and {overridePhases}
     int* d_qubits;                          size_t mem_qubits = numQubits * sizeof *d_qubits;
     qreal* d_coeffs;                        size_t mem_terms = numTerms * sizeof *d_coeffs;
     qreal* d_exponents;                 
     long long int* d_overrideInds;          size_t mem_inds = numOverrides * sizeof *d_overrideInds;
     qreal* d_overridePhases;                size_t mem_phas = numOverrides * sizeof *d_overridePhases;
     cudaMalloc(&d_qubits, mem_qubits);      cudaMemcpy(d_qubits, qubits, mem_qubits, cudaMemcpyHostToDevice);
     cudaMalloc(&d_coeffs, mem_terms);       cudaMemcpy(d_coeffs, coeffs, mem_terms, cudaMemcpyHostToDevice);
     cudaMalloc(&d_exponents, mem_terms);    cudaMemcpy(d_exponents, exponents, mem_terms, cudaMemcpyHostToDevice);
     cudaMalloc(&d_overrideInds, mem_inds);  cudaMemcpy(d_overrideInds, overrideInds, mem_inds, cudaMemcpyHostToDevice);
     cudaMalloc(&d_overridePhases,mem_phas); cudaMemcpy(d_overridePhases, overridePhases, mem_phas, cudaMemcpyHostToDevice);
  
     // call kernel
     int threadsPerCUDABlock = 128;
     int CUDABlocks = ceil((qreal) qureg.numAmpsPerChunk / threadsPerCUDABlock);
     statevec_applyPhaseFuncOverridesKernel<<<CUDABlocks,threadsPerCUDABlock>>>(
         qureg, d_qubits, numQubits, encoding, 
         d_coeffs, d_exponents, numTerms, 
         d_overrideInds, d_overridePhases, numOverrides,
         conj);
  
     // cleanup device memory 
     cudaFree(d_qubits);
     cudaFree(d_coeffs);
     cudaFree(d_exponents);
     cudaFree(d_overrideInds);
     cudaFree(d_overridePhases);
 }

References Qureg::numAmpsPerChunk, and qreal.

Referenced by applyPhaseFunc(), and applyPhaseFuncOverrides().

◆ statevec_applyPhaseFuncOverridesKernel()

__global__ void statevec_applyPhaseFuncOverridesKernel	(	Qureg	qureg,
		int *	qubits,
		int	numQubits,
		enum bitEncoding	encoding,
		qreal *	coeffs,
		qreal *	exponents,
		int	numTerms,
		long long int *	overrideInds,
		qreal *	overridePhases,
		int	numOverrides,
		int	conj
	)

Definition at line 3522 of file QuEST_gpu.cu.

   {
     long long int index = blockIdx.x*blockDim.x + threadIdx.x;
     if (index>=qureg.numAmpsPerChunk) return;
  
     // determine global amplitude index (non-distributed, so it's just local index)
     long long int globalAmpInd = index;
  
     // determine phase index of {qubits}
     long long int phaseInd = 0LL;
     if (encoding == UNSIGNED) {
         for (int q=0; q<numQubits; q++)
             phaseInd += (1LL << q) * extractBit(qubits[q], globalAmpInd);
     }
     else if (encoding == TWOS_COMPLEMENT) {
         for (int q=0; q<numQubits-1; q++) // use final qubit to indicate sign 
             phaseInd += (1LL << q) * extractBit(qubits[q], globalAmpInd);
         if (extractBit(qubits[numQubits-1], globalAmpInd) == 1)
             phaseInd -= (1LL << (numQubits-1));
     }
  
     // determine if this phase index has an overriden value (i < numOverrides)
     int i;
     for (i=0; i<numOverrides; i++)
         if (phaseInd == overrideInds[i])
             break;
  
     // determine phase from {coeffs}, {exponents} (unless overriden)
     qreal phase = 0;
     if (i < numOverrides)
         phase = overridePhases[i];
     else
         for (int t=0; t<numTerms; t++)
             phase += coeffs[t] * pow(phaseInd, exponents[t]);
             
     // negate phase to conjugate operator 
     if (conj)
         phase *= -1;
  
     // modify amp to amp * exp(i phase) 
     qreal c = cos(phase);
     qreal s = sin(phase);
     qreal re = qureg.deviceStateVec.real[index];
     qreal im = qureg.deviceStateVec.imag[index];
  
     // = {re[amp] cos(phase) - im[amp] sin(phase)} + i {re[amp] sin(phase) + im[amp] cos(phase)}
     qureg.deviceStateVec.real[index] = re*c - im*s;
     qureg.deviceStateVec.imag[index] = re*s + im*c;
 }

References Qureg::deviceStateVec, extractBit(), Qureg::numAmpsPerChunk, qreal, TWOS_COMPLEMENT, and UNSIGNED.

◆ statevec_calcExpecDiagonalOp()

Complex statevec_calcExpecDiagonalOp	(	Qureg	qureg,
		DiagonalOp	op
	)

Definition at line 3276 of file QuEST_gpu.cu.

                                                                  {
     
     /* @TODO: remove all this reduction boilerplate from QuEST GPU 
      * (e.g. a func which accepts a pointer to do every-value reduction?)
      */
  
     qreal expecReal, expecImag;
     
     int getRealComp;
     long long int numValuesToReduce;
     int valuesPerCUDABlock, numCUDABlocks, sharedMemSize;
     int maxReducedPerLevel;
     int firstTime;
     
     // compute real component of inner product
     getRealComp = 1;
     numValuesToReduce = qureg.numAmpsPerChunk;
     maxReducedPerLevel = REDUCE_SHARED_SIZE;
     firstTime = 1;
     while (numValuesToReduce > 1) {
         if (numValuesToReduce < maxReducedPerLevel) {
             valuesPerCUDABlock = numValuesToReduce;
             numCUDABlocks = 1;
         }
         else {
             valuesPerCUDABlock = maxReducedPerLevel;
             numCUDABlocks = ceil((qreal)numValuesToReduce/valuesPerCUDABlock);
         }
         sharedMemSize = valuesPerCUDABlock*sizeof(qreal);
         if (firstTime) {
             statevec_calcExpecDiagonalOpKernel<<<numCUDABlocks, valuesPerCUDABlock, sharedMemSize>>>(
                 getRealComp,
                 qureg.deviceStateVec.real, qureg.deviceStateVec.imag, 
                 op.deviceOperator.real, op.deviceOperator.imag, 
                 numValuesToReduce, 
                 qureg.firstLevelReduction);
             firstTime = 0;
         } else {
             cudaDeviceSynchronize();    
             copySharedReduceBlock<<<numCUDABlocks, valuesPerCUDABlock/2, sharedMemSize>>>(
                     qureg.firstLevelReduction, 
                     qureg.secondLevelReduction, valuesPerCUDABlock); 
             cudaDeviceSynchronize();    
             swapDouble(&(qureg.firstLevelReduction), &(qureg.secondLevelReduction));
         }
         numValuesToReduce = numValuesToReduce/maxReducedPerLevel;
     }
     cudaMemcpy(&expecReal, qureg.firstLevelReduction, sizeof(qreal), cudaMemcpyDeviceToHost);
     
     // compute imag component of inner product
     getRealComp = 0;
     numValuesToReduce = qureg.numAmpsPerChunk;
     maxReducedPerLevel = REDUCE_SHARED_SIZE;
     firstTime = 1;
     while (numValuesToReduce > 1) {
         if (numValuesToReduce < maxReducedPerLevel) {
             valuesPerCUDABlock = numValuesToReduce;
             numCUDABlocks = 1;
         }
         else {
             valuesPerCUDABlock = maxReducedPerLevel;
             numCUDABlocks = ceil((qreal)numValuesToReduce/valuesPerCUDABlock);
         }
         sharedMemSize = valuesPerCUDABlock*sizeof(qreal);
         if (firstTime) {
             statevec_calcExpecDiagonalOpKernel<<<numCUDABlocks, valuesPerCUDABlock, sharedMemSize>>>(
                 getRealComp,
                 qureg.deviceStateVec.real, qureg.deviceStateVec.imag, 
                 op.deviceOperator.real, op.deviceOperator.imag, 
                 numValuesToReduce, 
                 qureg.firstLevelReduction);
             firstTime = 0;
         } else {
             cudaDeviceSynchronize();    
             copySharedReduceBlock<<<numCUDABlocks, valuesPerCUDABlock/2, sharedMemSize>>>(
                     qureg.firstLevelReduction, 
                     qureg.secondLevelReduction, valuesPerCUDABlock); 
             cudaDeviceSynchronize();    
             swapDouble(&(qureg.firstLevelReduction), &(qureg.secondLevelReduction));
         }
         numValuesToReduce = numValuesToReduce/maxReducedPerLevel;
     }
     cudaMemcpy(&expecImag, qureg.firstLevelReduction, sizeof(qreal), cudaMemcpyDeviceToHost);
     
     // return complex
     Complex expecVal;
     expecVal.real = expecReal;
     expecVal.imag = expecImag;
     return expecVal;
 }

References copySharedReduceBlock(), DiagonalOp::deviceOperator, Qureg::deviceStateVec, Qureg::firstLevelReduction, Complex::imag, Qureg::numAmpsPerChunk, qreal, Complex::real, REDUCE_SHARED_SIZE, Qureg::secondLevelReduction, and swapDouble().

Referenced by calcExpecDiagonalOp().

◆ statevec_calcExpecDiagonalOpKernel()

__global__ void statevec_calcExpecDiagonalOpKernel	(	int	getRealComp,
		qreal *	vecReal,
		qreal *	vecImag,
		qreal *	opReal,
		qreal *	opImag,
		long long int	numTermsToSum,
		qreal *	reducedArray
	)

computes either a real or imag term of |vec_i|^2 op_i

Definition at line 3249 of file QuEST_gpu.cu.

 {
     long long int index = blockIdx.x*blockDim.x + threadIdx.x;
     if (index >= numTermsToSum) return;
     
     qreal vecAbs = vecReal[index]*vecReal[index] + vecImag[index]*vecImag[index];
     
     // choose whether to calculate the real or imaginary term of the expec term
     qreal expecVal;
     if (getRealComp)
         expecVal = vecAbs * opReal[index];
     else
         expecVal = vecAbs * opImag[index];
     
     // array of each thread's collected sum term, to be summed
     extern __shared__ qreal tempReductionArray[];
     tempReductionArray[threadIdx.x] = expecVal;
     __syncthreads();
     
     // every second thread reduces
     if (threadIdx.x<blockDim.x/2)
         reduceBlock(tempReductionArray, reducedArray, blockDim.x);
 }

References qreal, and reduceBlock().

◆ statevec_calcInnerProduct()

Complex statevec_calcInnerProduct	(	Qureg	bra,
		Qureg	ket
	)

Terrible code which unnecessarily individually computes and sums the real and imaginary components of the inner product, so as to not have to worry about keeping the sums separated during reduction.

Truly disgusting, probably doubles runtime, please fix.

Todo:: could even do the kernel twice, storing real in bra.reduc and imag in ket.reduc?

Definition at line 2393 of file QuEST_gpu.cu.

                                                         {
     
     qreal innerProdReal, innerProdImag;
     
     int getRealComp;
     long long int numValuesToReduce;
     int valuesPerCUDABlock, numCUDABlocks, sharedMemSize;
     int maxReducedPerLevel;
     int firstTime;
     
     // compute real component of inner product
     getRealComp = 1;
     numValuesToReduce = bra.numAmpsPerChunk;
     maxReducedPerLevel = REDUCE_SHARED_SIZE;
     firstTime = 1;
     while (numValuesToReduce > 1) {
         if (numValuesToReduce < maxReducedPerLevel) {
             valuesPerCUDABlock = numValuesToReduce;
             numCUDABlocks = 1;
         }
         else {
             valuesPerCUDABlock = maxReducedPerLevel;
             numCUDABlocks = ceil((qreal)numValuesToReduce/valuesPerCUDABlock);
         }
         sharedMemSize = valuesPerCUDABlock*sizeof(qreal);
         if (firstTime) {
              statevec_calcInnerProductKernel<<<numCUDABlocks, valuesPerCUDABlock, sharedMemSize>>>(
                  getRealComp,
                  bra.deviceStateVec.real, bra.deviceStateVec.imag, 
                  ket.deviceStateVec.real, ket.deviceStateVec.imag, 
                  numValuesToReduce, 
                  bra.firstLevelReduction);
             firstTime = 0;
         } else {
             cudaDeviceSynchronize();    
             copySharedReduceBlock<<<numCUDABlocks, valuesPerCUDABlock/2, sharedMemSize>>>(
                     bra.firstLevelReduction, 
                     bra.secondLevelReduction, valuesPerCUDABlock); 
             cudaDeviceSynchronize();    
             swapDouble(&(bra.firstLevelReduction), &(bra.secondLevelReduction));
         }
         numValuesToReduce = numValuesToReduce/maxReducedPerLevel;
     }
     cudaMemcpy(&innerProdReal, bra.firstLevelReduction, sizeof(qreal), cudaMemcpyDeviceToHost);
     
     // compute imag component of inner product
     getRealComp = 0;
     numValuesToReduce = bra.numAmpsPerChunk;
     maxReducedPerLevel = REDUCE_SHARED_SIZE;
     firstTime = 1;
     while (numValuesToReduce > 1) {
         if (numValuesToReduce < maxReducedPerLevel) {
             valuesPerCUDABlock = numValuesToReduce;
             numCUDABlocks = 1;
         }
         else {
             valuesPerCUDABlock = maxReducedPerLevel;
             numCUDABlocks = ceil((qreal)numValuesToReduce/valuesPerCUDABlock);
         }
         sharedMemSize = valuesPerCUDABlock*sizeof(qreal);
         if (firstTime) {
              statevec_calcInnerProductKernel<<<numCUDABlocks, valuesPerCUDABlock, sharedMemSize>>>(
                  getRealComp,
                  bra.deviceStateVec.real, bra.deviceStateVec.imag, 
                  ket.deviceStateVec.real, ket.deviceStateVec.imag, 
                  numValuesToReduce, 
                  bra.firstLevelReduction);
             firstTime = 0;
         } else {
             cudaDeviceSynchronize();    
             copySharedReduceBlock<<<numCUDABlocks, valuesPerCUDABlock/2, sharedMemSize>>>(
                     bra.firstLevelReduction, 
                     bra.secondLevelReduction, valuesPerCUDABlock); 
             cudaDeviceSynchronize();    
             swapDouble(&(bra.firstLevelReduction), &(bra.secondLevelReduction));
         }
         numValuesToReduce = numValuesToReduce/maxReducedPerLevel;
     }
     cudaMemcpy(&innerProdImag, bra.firstLevelReduction, sizeof(qreal), cudaMemcpyDeviceToHost);
     
     // return complex
     Complex innerProd;
     innerProd.real = innerProdReal;
     innerProd.imag = innerProdImag;
     return innerProd;
 }

References copySharedReduceBlock(), Qureg::deviceStateVec, Qureg::firstLevelReduction, Complex::imag, Qureg::numAmpsPerChunk, qreal, Complex::real, REDUCE_SHARED_SIZE, Qureg::secondLevelReduction, and swapDouble().

Referenced by calcInnerProduct(), statevec_calcExpecPauliProd(), and statevec_calcFidelity().

◆ statevec_calcInnerProductKernel()

__global__ void statevec_calcInnerProductKernel	(	int	getRealComp,
		qreal *	vecReal1,
		qreal *	vecImag1,
		qreal *	vecReal2,
		qreal *	vecImag2,
		long long int	numTermsToSum,
		qreal *	reducedArray
	)

computes either a real or imag term in the inner product

Definition at line 2363 of file QuEST_gpu.cu.

 {
     long long int index = blockIdx.x*blockDim.x + threadIdx.x;
     if (index >= numTermsToSum) return;
     
     // choose whether to calculate the real or imaginary term of the inner product
     qreal innerProdTerm;
     if (getRealComp)
         innerProdTerm = vecReal1[index]*vecReal2[index] + vecImag1[index]*vecImag2[index];
     else
         innerProdTerm = vecReal1[index]*vecImag2[index] - vecImag1[index]*vecReal2[index];
     
     // array of each thread's collected sum term, to be summed
     extern __shared__ qreal tempReductionArray[];
     tempReductionArray[threadIdx.x] = innerProdTerm;
     __syncthreads();
     
     // every second thread reduces
     if (threadIdx.x<blockDim.x/2)
         reduceBlock(tempReductionArray, reducedArray, blockDim.x);
 }

References qreal, and reduceBlock().

◆ statevec_calcProbOfAllOutcomes()

void statevec_calcProbOfAllOutcomes	(	qreal *	outcomeProbs,
		Qureg	qureg,
		int *	qubits,
		int	numQubits
	)

Definition at line 2207 of file QuEST_gpu.cu.

                                                                                                   {
  
     // copy qubits to GPU memory
     int* d_qubits;
     size_t mem_qubits = numQubits * sizeof *d_qubits;
     cudaMalloc(&d_qubits, mem_qubits);
     cudaMemcpy(d_qubits, qubits, mem_qubits, cudaMemcpyHostToDevice);
  
     // create one thread for every amplitude
     int numThreadsPerBlock = 128;
     int numBlocks = ceil(qureg.numAmpsPerChunk / (qreal) numThreadsPerBlock);
     
     // create global GPU array for outcomeProbs
     qreal* d_outcomeProbs;
     long long int numOutcomes = (1LL << numQubits);
     size_t mem_outcomeProbs = numOutcomes * sizeof *d_outcomeProbs;
     cudaMalloc(&d_outcomeProbs, mem_outcomeProbs);
     cudaMemset(d_outcomeProbs, 0, mem_outcomeProbs);
     
     // populate per-block subarrays
     statevec_calcProbOfAllOutcomesKernel<<<numBlocks, numThreadsPerBlock>>>(
         d_outcomeProbs, qureg, d_qubits, numQubits);
         
     // copy outcomeProbs from GPU memory
     cudaMemcpy(outcomeProbs, d_outcomeProbs, mem_outcomeProbs, cudaMemcpyDeviceToHost);
     
     // free GPU memory
     cudaFree(d_qubits);
     cudaFree(d_outcomeProbs);
 }

References Qureg::numAmpsPerChunk, and qreal.

Referenced by calcProbOfAllOutcomes().

◆ statevec_calcProbOfAllOutcomesKernel()

__global__ void statevec_calcProbOfAllOutcomesKernel	(	qreal *	outcomeProbs,
		Qureg	qureg,
		int *	qubits,
		int	numQubits
	)

Definition at line 2186 of file QuEST_gpu.cu.

   {
     // each thread handles one amplitude (all amplitudes are involved)
     long long int ampInd = blockIdx.x*blockDim.x + threadIdx.x;
     if (ampInd >= qureg.numAmpsTotal) return;
     
     qreal prob = (
         qureg.deviceStateVec.real[ampInd]*qureg.deviceStateVec.real[ampInd] + 
         qureg.deviceStateVec.imag[ampInd]*qureg.deviceStateVec.imag[ampInd]);
     
     // each amplitude contributes to one outcome
     long long int outcomeInd = 0;
     for (int q=0; q<numQubits; q++)
         outcomeInd += extractBit(qubits[q], ampInd) * (1LL << q);
     
     // each thread atomically writes directly to the global output.
     // this beat block-heirarchal atomic reductions in both global and shared memory!
     atomicAdd(&outcomeProbs[outcomeInd], prob);
 }

References Qureg::deviceStateVec, extractBit(), Qureg::numAmpsTotal, and qreal.

◆ statevec_calcProbOfOutcome()

qreal statevec_calcProbOfOutcome	(	Qureg	qureg,
		int	measureQubit,
		int	outcome
	)

Definition at line 2150 of file QuEST_gpu.cu.

 {
     qreal outcomeProb = statevec_findProbabilityOfZero(qureg, measureQubit);
     if (outcome==1)
         outcomeProb = 1.0 - outcomeProb;
     return outcomeProb;
 }

References qreal, and statevec_findProbabilityOfZero().

Referenced by calcProbOfOutcome(), collapseToOutcome(), and statevec_measureWithStats().

◆ statevec_calcTotalProb()

qreal statevec_calcTotalProb ( Qureg qureg )

Definition at line 1655 of file QuEST_gpu.cu.

                                          {
     /* IJB - implemented using Kahan summation for greater accuracy at a slight floating
        point operation overhead. For more details see https://en.wikipedia.org/wiki/Kahan_summation_algorithm */
     /* Don't change the bracketing in this routine! */
     qreal pTotal=0;
     qreal y, t, c;
     long long int index;
     long long int numAmpsPerRank = qureg.numAmpsPerChunk;
  
     copyStateFromGPU(qureg);
  
     c = 0.0;
     for (index=0; index<numAmpsPerRank; index++){
         /* Perform pTotal+=qureg.stateVec.real[index]*qureg.stateVec.real[index]; by Kahan */
         // pTotal+=qureg.stateVec.real[index]*qureg.stateVec.real[index];
         y = qureg.stateVec.real[index]*qureg.stateVec.real[index] - c;
         t = pTotal + y;
         c = ( t - pTotal ) - y;
         pTotal = t;
  
         /* Perform pTotal+=qureg.stateVec.imag[index]*qureg.stateVec.imag[index]; by Kahan */
         //pTotal+=qureg.stateVec.imag[index]*qureg.stateVec.imag[index];
         y = qureg.stateVec.imag[index]*qureg.stateVec.imag[index] - c;
         t = pTotal + y;
         c = ( t - pTotal ) - y;
         pTotal = t;
  
  
     }
     return pTotal;
 }

References copyStateFromGPU(), Qureg::numAmpsPerChunk, qreal, and Qureg::stateVec.

Referenced by calcTotalProb().

◆ statevec_cloneQureg()

void statevec_cloneQureg	(	Qureg	targetQureg,
		Qureg	copyQureg
	)

works for both statevectors and density matrices

Definition at line 170 of file QuEST_gpu.cu.

                                                              {
     
     // copy copyQureg's GPU statevec to targetQureg's GPU statevec
     cudaDeviceSynchronize();
     cudaMemcpy(
         targetQureg.deviceStateVec.real, 
         copyQureg.deviceStateVec.real, 
         targetQureg.numAmpsPerChunk*sizeof(*(targetQureg.deviceStateVec.real)), 
         cudaMemcpyDeviceToDevice);
     cudaMemcpy(
         targetQureg.deviceStateVec.imag, 
         copyQureg.deviceStateVec.imag, 
         targetQureg.numAmpsPerChunk*sizeof(*(targetQureg.deviceStateVec.imag)), 
         cudaMemcpyDeviceToDevice);
 }

References Qureg::deviceStateVec, and Qureg::numAmpsPerChunk.

Referenced by cloneQureg(), createCloneQureg(), initPureState(), and statevec_calcExpecPauliProd().

◆ statevec_collapseToKnownProbOutcome()

void statevec_collapseToKnownProbOutcome	(	Qureg	qureg,
		int	measureQubit,
		int	outcome,
		qreal	outcomeProb
	)

Definition at line 2770 of file QuEST_gpu.cu.

 {        
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk>>1)/threadsPerCUDABlock);
     statevec_collapseToKnownProbOutcomeKernel<<<CUDABlocks, threadsPerCUDABlock>>>(qureg, measureQubit, outcome, outcomeProb);
 }

References Qureg::numAmpsPerChunk, and qreal.

Referenced by applyProjector(), collapseToOutcome(), and statevec_measureWithStats().

◆ statevec_collapseToKnownProbOutcomeKernel()

__global__ void statevec_collapseToKnownProbOutcomeKernel	(	Qureg	qureg,
		int	measureQubit,
		int	outcome,
		qreal	totalProbability
	)

Definition at line 2713 of file QuEST_gpu.cu.

 {
     // ----- sizes
     long long int sizeBlock,                                           // size of blocks
          sizeHalfBlock;                                       // size of blocks halved
     // ----- indices
     long long int thisBlock,                                           // current block
          index;                                               // current index for first half block
     // ----- measured probability
     qreal   renorm;                                    // probability (returned) value
     // ----- temp variables
     long long int thisTask;                                   // task based approach for expose loop with small granularity
     // (good for shared memory parallelism)
     long long int numTasks=qureg.numAmpsPerChunk>>1;
  
     // ---------------------------------------------------------------- //
     //            dimensions                                            //
     // ---------------------------------------------------------------- //
     sizeHalfBlock = 1LL << (measureQubit);                       // number of state vector elements to sum,
     // and then the number to skip
     sizeBlock     = 2LL * sizeHalfBlock;                           // size of blocks (pairs of measure and skip entries)
  
     // ---------------------------------------------------------------- //
     //            find probability                                      //
     // ---------------------------------------------------------------- //
  
     //
     // --- task-based shared-memory parallel implementation
     //
     renorm=1/sqrt(totalProbability);
     qreal *stateVecReal = qureg.deviceStateVec.real;
     qreal *stateVecImag = qureg.deviceStateVec.imag;
  
     thisTask = blockIdx.x*blockDim.x + threadIdx.x;
     if (thisTask>=numTasks) return;
     thisBlock = thisTask / sizeHalfBlock;
     index     = thisBlock*sizeBlock + thisTask%sizeHalfBlock;
  
     if (outcome==0){
         stateVecReal[index]=stateVecReal[index]*renorm;
         stateVecImag[index]=stateVecImag[index]*renorm;
  
         stateVecReal[index+sizeHalfBlock]=0;
         stateVecImag[index+sizeHalfBlock]=0;
     } else if (outcome==1){
         stateVecReal[index]=0;
         stateVecImag[index]=0;
  
         stateVecReal[index+sizeHalfBlock]=stateVecReal[index+sizeHalfBlock]*renorm;
         stateVecImag[index+sizeHalfBlock]=stateVecImag[index+sizeHalfBlock]*renorm;
     }
 }

References Qureg::deviceStateVec, Qureg::numAmpsPerChunk, and qreal.

◆ statevec_compactUnitary()

void statevec_compactUnitary	(	Qureg	qureg,
		int	targetQubit,
		Complex	alpha,
		Complex	beta
	)

Definition at line 844 of file QuEST_gpu.cu.

 {
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk>>1)/threadsPerCUDABlock);
     statevec_compactUnitaryKernel<<<CUDABlocks, threadsPerCUDABlock>>>(qureg, targetQubit, alpha, beta);
 }

References Qureg::numAmpsPerChunk, and qreal.

Referenced by compactUnitary(), statevec_multiRotatePauli(), statevec_rotateAroundAxis(), and statevec_rotateAroundAxisConj().

◆ statevec_compactUnitaryKernel()

__global__ void statevec_compactUnitaryKernel	(	Qureg	qureg,
		int	rotQubit,
		Complex	alpha,
		Complex	beta
	)

fix – no necessary for GPU version

Definition at line 789 of file QuEST_gpu.cu.

                                                                                                       {
     // ----- sizes
     long long int sizeBlock,                                           // size of blocks
          sizeHalfBlock;                                       // size of blocks halved
     // ----- indices
     long long int thisBlock,                                           // current block
          indexUp,indexLo;                                     // current index and corresponding index in lower half block
  
     // ----- temp variables
     qreal   stateRealUp,stateRealLo,                             // storage for previous state values
            stateImagUp,stateImagLo;                             // (used in updates)
     // ----- temp variables
     long long int thisTask;                                   // task based approach for expose loop with small granularity
     long long int numTasks=qureg.numAmpsPerChunk>>1;
  
     sizeHalfBlock = 1LL << rotQubit;                               // size of blocks halved
     sizeBlock     = 2LL * sizeHalfBlock;                           // size of blocks
  
     // ---------------------------------------------------------------- //
     //            rotate                                                //
     // ---------------------------------------------------------------- //
  
     qreal *stateVecReal = qureg.deviceStateVec.real;
     qreal *stateVecImag = qureg.deviceStateVec.imag;
     qreal alphaImag=alpha.imag, alphaReal=alpha.real;
     qreal betaImag=beta.imag, betaReal=beta.real;
  
     thisTask = blockIdx.x*blockDim.x + threadIdx.x;
     if (thisTask>=numTasks) return;
  
     thisBlock   = thisTask / sizeHalfBlock;
     indexUp     = thisBlock*sizeBlock + thisTask%sizeHalfBlock;
     indexLo     = indexUp + sizeHalfBlock;
  
     // store current state vector values in temp variables
     stateRealUp = stateVecReal[indexUp];
     stateImagUp = stateVecImag[indexUp];
  
     stateRealLo = stateVecReal[indexLo];
     stateImagLo = stateVecImag[indexLo];
  
     // state[indexUp] = alpha * state[indexUp] - conj(beta)  * state[indexLo]
     stateVecReal[indexUp] = alphaReal*stateRealUp - alphaImag*stateImagUp 
         - betaReal*stateRealLo - betaImag*stateImagLo;
     stateVecImag[indexUp] = alphaReal*stateImagUp + alphaImag*stateRealUp 
         - betaReal*stateImagLo + betaImag*stateRealLo;
  
     // state[indexLo] = beta  * state[indexUp] + conj(alpha) * state[indexLo]
     stateVecReal[indexLo] = betaReal*stateRealUp - betaImag*stateImagUp 
         + alphaReal*stateRealLo + alphaImag*stateImagLo;
     stateVecImag[indexLo] = betaReal*stateImagUp + betaImag*stateRealUp 
         + alphaReal*stateImagLo - alphaImag*stateRealLo;
 }

References Qureg::deviceStateVec, Complex::imag, Qureg::numAmpsPerChunk, qreal, and Complex::real.

◆ statevec_compareStates()

int statevec_compareStates	(	Qureg	mq1,
		Qureg	mq2,
		qreal	precision
	)

Definition at line 771 of file QuEST_gpu.cu.

                                                                  {
     qreal diff;
     int chunkSize = mq1.numAmpsPerChunk;
  
     copyStateFromGPU(mq1);
     copyStateFromGPU(mq2);
  
     for (int i=0; i<chunkSize; i++){
         diff = mq1.stateVec.real[i] - mq2.stateVec.real[i];
         if (diff<0) diff *= -1;
         if (diff>precision) return 0;
         diff = mq1.stateVec.imag[i] - mq2.stateVec.imag[i];
         if (diff<0) diff *= -1;
         if (diff>precision) return 0;
     }
     return 1;
 }

References copyStateFromGPU(), Qureg::numAmpsPerChunk, qreal, and Qureg::stateVec.

Referenced by compareStates().

◆ statevec_controlledCompactUnitary()

void statevec_controlledCompactUnitary	(	Qureg	qureg,
		int	controlQubit,
		int	targetQubit,
		Complex	alpha,
		Complex	beta
	)

Definition at line 911 of file QuEST_gpu.cu.

 {
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk>>1)/threadsPerCUDABlock);
     statevec_controlledCompactUnitaryKernel<<<CUDABlocks, threadsPerCUDABlock>>>(qureg, controlQubit, targetQubit, alpha, beta);
 }

References Qureg::numAmpsPerChunk, and qreal.

Referenced by controlledCompactUnitary(), statevec_controlledRotateAroundAxis(), and statevec_controlledRotateAroundAxisConj().

◆ statevec_controlledCompactUnitaryKernel()

__global__ void statevec_controlledCompactUnitaryKernel	(	Qureg	qureg,
		int	controlQubit,
		int	targetQubit,
		Complex	alpha,
		Complex	beta
	)

fix – no necessary for GPU version

Definition at line 852 of file QuEST_gpu.cu.

                                                                                                                                      {
     // ----- sizes
     long long int sizeBlock,                                           // size of blocks
          sizeHalfBlock;                                       // size of blocks halved
     // ----- indices
     long long int thisBlock,                                           // current block
          indexUp,indexLo;                                     // current index and corresponding index in lower half block
  
     // ----- temp variables
     qreal   stateRealUp,stateRealLo,                             // storage for previous state values
            stateImagUp,stateImagLo;                             // (used in updates)
     // ----- temp variables
     long long int thisTask;                                   // task based approach for expose loop with small granularity
     long long int numTasks=qureg.numAmpsPerChunk>>1;
     int controlBit;
  
     sizeHalfBlock = 1LL << targetQubit;                               // size of blocks halved
     sizeBlock     = 2LL * sizeHalfBlock;                           // size of blocks
  
     // ---------------------------------------------------------------- //
     //            rotate                                                //
     // ---------------------------------------------------------------- //
  
     qreal *stateVecReal = qureg.deviceStateVec.real;
     qreal *stateVecImag = qureg.deviceStateVec.imag;
     qreal alphaImag=alpha.imag, alphaReal=alpha.real;
     qreal betaImag=beta.imag, betaReal=beta.real;
  
     thisTask = blockIdx.x*blockDim.x + threadIdx.x;
     if (thisTask>=numTasks) return;
  
     thisBlock   = thisTask / sizeHalfBlock;
     indexUp     = thisBlock*sizeBlock + thisTask%sizeHalfBlock;
     indexLo     = indexUp + sizeHalfBlock;
  
     controlBit = extractBit(controlQubit, indexUp);
     if (controlBit){
         // store current state vector values in temp variables
         stateRealUp = stateVecReal[indexUp];
         stateImagUp = stateVecImag[indexUp];
  
         stateRealLo = stateVecReal[indexLo];
         stateImagLo = stateVecImag[indexLo];
  
         // state[indexUp] = alpha * state[indexUp] - conj(beta)  * state[indexLo]
         stateVecReal[indexUp] = alphaReal*stateRealUp - alphaImag*stateImagUp 
             - betaReal*stateRealLo - betaImag*stateImagLo;
         stateVecImag[indexUp] = alphaReal*stateImagUp + alphaImag*stateRealUp 
             - betaReal*stateImagLo + betaImag*stateRealLo;
  
         // state[indexLo] = beta  * state[indexUp] + conj(alpha) * state[indexLo]
         stateVecReal[indexLo] = betaReal*stateRealUp - betaImag*stateImagUp 
             + alphaReal*stateRealLo + alphaImag*stateImagLo;
         stateVecImag[indexLo] = betaReal*stateImagUp + betaImag*stateRealUp 
             + alphaReal*stateImagLo - alphaImag*stateRealLo;
     }
 }

References Qureg::deviceStateVec, extractBit(), Complex::imag, Qureg::numAmpsPerChunk, qreal, and Complex::real.

◆ statevec_controlledNot()

void statevec_controlledNot	(	Qureg	qureg,
		int	controlQubit,
		int	targetQubit
	)

Definition at line 1873 of file QuEST_gpu.cu.

 {
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk)/threadsPerCUDABlock);
     statevec_controlledNotKernel<<<CUDABlocks, threadsPerCUDABlock>>>(qureg, controlQubit, targetQubit);
 }

References Qureg::numAmpsPerChunk, and qreal.

Referenced by controlledNot().

◆ statevec_controlledNotKernel()

__global__ void statevec_controlledNotKernel	(	Qureg	qureg,
		int	controlQubit,
		int	targetQubit
	)

Definition at line 1834 of file QuEST_gpu.cu.

 {
     long long int index;
     long long int sizeBlock,                                           // size of blocks
          sizeHalfBlock;                                       // size of blocks halved
     long long int stateVecSize;
     int controlBit;
  
     // ----- temp variables
     qreal   stateRealUp,                             // storage for previous state values
            stateImagUp;                             // (used in updates)
     long long int thisBlock,                                           // current block
          indexUp,indexLo;                                     // current index and corresponding index in lower half block
     sizeHalfBlock = 1LL << targetQubit;                               // size of blocks halved
     sizeBlock     = 2LL * sizeHalfBlock;                           // size of blocks
  
     stateVecSize = qureg.numAmpsPerChunk;
     qreal *stateVecReal = qureg.deviceStateVec.real;
     qreal *stateVecImag = qureg.deviceStateVec.imag;
  
     index = blockIdx.x*blockDim.x + threadIdx.x;
     if (index>=(stateVecSize>>1)) return;
     thisBlock   = index / sizeHalfBlock;
     indexUp     = thisBlock*sizeBlock + index%sizeHalfBlock;
     indexLo     = indexUp + sizeHalfBlock;
  
     controlBit = extractBit(controlQubit, indexUp);
     if (controlBit){
         stateRealUp = stateVecReal[indexUp];
         stateImagUp = stateVecImag[indexUp];
  
         stateVecReal[indexUp] = stateVecReal[indexLo];
         stateVecImag[indexUp] = stateVecImag[indexLo];
  
         stateVecReal[indexLo] = stateRealUp;
         stateVecImag[indexLo] = stateImagUp;
     }
 }

References Qureg::deviceStateVec, extractBit(), Qureg::numAmpsPerChunk, and qreal.

◆ statevec_controlledPauliY()

void statevec_controlledPauliY	(	Qureg	qureg,
		int	controlQubit,
		int	targetQubit
	)

Definition at line 1445 of file QuEST_gpu.cu.

 {
     int conjFactor = 1;
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk)/threadsPerCUDABlock);
     statevec_controlledPauliYKernel<<<CUDABlocks, threadsPerCUDABlock>>>(qureg, controlQubit, targetQubit, conjFactor);
 }

References Qureg::numAmpsPerChunk, and qreal.

Referenced by controlledPauliY().

◆ statevec_controlledPauliYConj()

void statevec_controlledPauliYConj	(	Qureg	qureg,
		int	controlQubit,
		int	targetQubit
	)

Definition at line 1454 of file QuEST_gpu.cu.

 {
     int conjFactor = -1;
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk)/threadsPerCUDABlock);
     statevec_controlledPauliYKernel<<<CUDABlocks, threadsPerCUDABlock>>>(qureg, controlQubit, targetQubit, conjFactor);
 }

References Qureg::numAmpsPerChunk, and qreal.

Referenced by controlledPauliY().

◆ statevec_controlledPauliYKernel()

__global__ void statevec_controlledPauliYKernel	(	Qureg	qureg,
		int	controlQubit,
		int	targetQubit,
		int	conjFac
	)

Definition at line 1409 of file QuEST_gpu.cu.

 {
     long long int index;
     long long int sizeBlock, sizeHalfBlock;
     long long int stateVecSize;
     int controlBit;
  
     qreal   stateRealUp, stateImagUp; 
     long long int thisBlock, indexUp, indexLo;                                     
     sizeHalfBlock = 1LL << targetQubit;
     sizeBlock     = 2LL * sizeHalfBlock;
  
     stateVecSize = qureg.numAmpsPerChunk;
     qreal *stateVecReal = qureg.deviceStateVec.real;
     qreal *stateVecImag = qureg.deviceStateVec.imag;
  
     index = blockIdx.x*blockDim.x + threadIdx.x;
     if (index>=(stateVecSize>>1)) return;
     thisBlock   = index / sizeHalfBlock;
     indexUp     = thisBlock*sizeBlock + index%sizeHalfBlock;
     indexLo     = indexUp + sizeHalfBlock;
  
     controlBit = extractBit(controlQubit, indexUp);
     if (controlBit){
  
         stateRealUp = stateVecReal[indexUp];
         stateImagUp = stateVecImag[indexUp];
  
         // update under +-{{0, -i}, {i, 0}}
         stateVecReal[indexUp] = conjFac * stateVecImag[indexLo];
         stateVecImag[indexUp] = conjFac * -stateVecReal[indexLo];
         stateVecReal[indexLo] = conjFac * -stateImagUp;
         stateVecImag[indexLo] = conjFac * stateRealUp;
     }
 }

References Qureg::deviceStateVec, extractBit(), Qureg::numAmpsPerChunk, and qreal.

◆ statevec_controlledPhaseFlip()

void statevec_controlledPhaseFlip	(	Qureg	qureg,
		int	idQubit1,
		int	idQubit2
	)

Definition at line 1708 of file QuEST_gpu.cu.

 {
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk)/threadsPerCUDABlock);
     statevec_controlledPhaseFlipKernel<<<CUDABlocks, threadsPerCUDABlock>>>(qureg, idQubit1, idQubit2);
 }

References Qureg::numAmpsPerChunk, and qreal.

Referenced by controlledPhaseFlip().

◆ statevec_controlledPhaseFlipKernel()

__global__ void statevec_controlledPhaseFlipKernel	(	Qureg	qureg,
		int	idQubit1,
		int	idQubit2
	)

Definition at line 1687 of file QuEST_gpu.cu.

 {
     long long int index;
     long long int stateVecSize;
     int bit1, bit2;
  
     stateVecSize = qureg.numAmpsPerChunk;
     qreal *stateVecReal = qureg.deviceStateVec.real;
     qreal *stateVecImag = qureg.deviceStateVec.imag;
  
     index = blockIdx.x*blockDim.x + threadIdx.x;
     if (index>=stateVecSize) return;
  
     bit1 = extractBit (idQubit1, index);
     bit2 = extractBit (idQubit2, index);
     if (bit1 && bit2) {
         stateVecReal [index] = - stateVecReal [index];
         stateVecImag [index] = - stateVecImag [index];
     }
 }

References Qureg::deviceStateVec, extractBit(), Qureg::numAmpsPerChunk, and qreal.

◆ statevec_controlledPhaseShift()

void statevec_controlledPhaseShift	(	Qureg	qureg,
		int	idQubit1,
		int	idQubit2,
		qreal	angle
	)

Definition at line 1527 of file QuEST_gpu.cu.

 {
     qreal cosAngle = cos(angle);
     qreal sinAngle = sin(angle);
     
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk)/threadsPerCUDABlock);
     statevec_controlledPhaseShiftKernel<<<CUDABlocks, threadsPerCUDABlock>>>(qureg, idQubit1, idQubit2, cosAngle, sinAngle);
 }

References Qureg::numAmpsPerChunk, and qreal.

Referenced by controlledPhaseShift().

◆ statevec_controlledPhaseShiftKernel()

__global__ void statevec_controlledPhaseShiftKernel	(	Qureg	qureg,
		int	idQubit1,
		int	idQubit2,
		qreal	cosAngle,
		qreal	sinAngle
	)

Definition at line 1502 of file QuEST_gpu.cu.

 {
     long long int index;
     long long int stateVecSize;
     int bit1, bit2;
     qreal stateRealLo, stateImagLo;
  
     stateVecSize = qureg.numAmpsPerChunk;
     qreal *stateVecReal = qureg.deviceStateVec.real;
     qreal *stateVecImag = qureg.deviceStateVec.imag;
  
     index = blockIdx.x*blockDim.x + threadIdx.x;
     if (index>=stateVecSize) return;
  
     bit1 = extractBit (idQubit1, index);
     bit2 = extractBit (idQubit2, index);
     if (bit1 && bit2) {
         stateRealLo = stateVecReal[index];
         stateImagLo = stateVecImag[index];
         
         stateVecReal[index] = cosAngle*stateRealLo - sinAngle*stateImagLo;
         stateVecImag[index] = sinAngle*stateRealLo + cosAngle*stateImagLo;
     }
 }

References Qureg::deviceStateVec, extractBit(), Qureg::numAmpsPerChunk, and qreal.

◆ statevec_controlledUnitary()

void statevec_controlledUnitary	(	Qureg	qureg,
		int	controlQubit,
		int	targetQubit,
		ComplexMatrix2	u
	)

Definition at line 1237 of file QuEST_gpu.cu.

 {
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk>>1)/threadsPerCUDABlock);
     statevec_controlledUnitaryKernel<<<CUDABlocks, threadsPerCUDABlock>>>(qureg, controlQubit, targetQubit, argifyMatrix2(u));
 }

References Qureg::numAmpsPerChunk, and qreal.

Referenced by controlledUnitary().

◆ statevec_controlledUnitaryKernel()

__global__ void statevec_controlledUnitaryKernel	(	Qureg	qureg,
		int	controlQubit,
		int	targetQubit,
		ArgMatrix2	u
	)

fix – no necessary for GPU version

Definition at line 1179 of file QuEST_gpu.cu.

                                                                                                               {
     // ----- sizes
     long long int sizeBlock,                                           // size of blocks
          sizeHalfBlock;                                       // size of blocks halved
     // ----- indices
     long long int thisBlock,                                           // current block
          indexUp,indexLo;                                     // current index and corresponding index in lower half block
  
     // ----- temp variables
     qreal   stateRealUp,stateRealLo,                             // storage for previous state values
            stateImagUp,stateImagLo;                             // (used in updates)
     // ----- temp variables
     long long int thisTask;                                   // task based approach for expose loop with small granularity
     long long int numTasks=qureg.numAmpsPerChunk>>1;
  
     int controlBit;
  
     sizeHalfBlock = 1LL << targetQubit;                               // size of blocks halved
     sizeBlock     = 2LL * sizeHalfBlock;                           // size of blocks
  
     // ---------------------------------------------------------------- //
     //            rotate                                                //
     // ---------------------------------------------------------------- //
  
     qreal *stateVecReal = qureg.deviceStateVec.real;
     qreal *stateVecImag = qureg.deviceStateVec.imag;
  
     thisTask = blockIdx.x*blockDim.x + threadIdx.x;
     if (thisTask>=numTasks) return;
  
     thisBlock   = thisTask / sizeHalfBlock;
     indexUp     = thisBlock*sizeBlock + thisTask%sizeHalfBlock;
     indexLo     = indexUp + sizeHalfBlock;
  
     // store current state vector values in temp variables
     stateRealUp = stateVecReal[indexUp];
     stateImagUp = stateVecImag[indexUp];
  
     stateRealLo = stateVecReal[indexLo];
     stateImagLo = stateVecImag[indexLo];
  
     controlBit = extractBit(controlQubit, indexUp);
     if (controlBit){
         // state[indexUp] = u00 * state[indexUp] + u01 * state[indexLo]
         stateVecReal[indexUp] = u.r0c0.real*stateRealUp - u.r0c0.imag*stateImagUp 
             + u.r0c1.real*stateRealLo - u.r0c1.imag*stateImagLo;
         stateVecImag[indexUp] = u.r0c0.real*stateImagUp + u.r0c0.imag*stateRealUp 
             + u.r0c1.real*stateImagLo + u.r0c1.imag*stateRealLo;
  
         // state[indexLo] = u10  * state[indexUp] + u11 * state[indexLo]
         stateVecReal[indexLo] = u.r1c0.real*stateRealUp  - u.r1c0.imag*stateImagUp 
             + u.r1c1.real*stateRealLo  -  u.r1c1.imag*stateImagLo;
         stateVecImag[indexLo] = u.r1c0.real*stateImagUp + u.r1c0.imag*stateRealUp 
             + u.r1c1.real*stateImagLo + u.r1c1.imag*stateRealLo;
     }
 }

References Qureg::deviceStateVec, extractBit(), Qureg::numAmpsPerChunk, and qreal.

◆ statevec_createQureg()

void statevec_createQureg	(	Qureg *	qureg,
		int	numQubits,
		QuESTEnv	env
	)

Definition at line 275 of file QuEST_gpu.cu.

 {   
     // allocate CPU memory
     long long int numAmps = 1L << numQubits;
     long long int numAmpsPerRank = numAmps/env.numRanks;
     qureg->stateVec.real = (qreal*) malloc(numAmpsPerRank * sizeof(qureg->stateVec.real));
     qureg->stateVec.imag = (qreal*) malloc(numAmpsPerRank * sizeof(qureg->stateVec.imag));
     if (env.numRanks>1){
         qureg->pairStateVec.real = (qreal*) malloc(numAmpsPerRank * sizeof(qureg->pairStateVec.real));
         qureg->pairStateVec.imag = (qreal*) malloc(numAmpsPerRank * sizeof(qureg->pairStateVec.imag));
     }
  
     // check cpu memory allocation was successful
     if ( (!(qureg->stateVec.real) || !(qureg->stateVec.imag))
             && numAmpsPerRank ) {
         printf("Could not allocate memory!\n");
         exit (EXIT_FAILURE);
     }
     if ( env.numRanks>1 && (!(qureg->pairStateVec.real) || !(qureg->pairStateVec.imag))
             && numAmpsPerRank ) {
         printf("Could not allocate memory!\n");
         exit (EXIT_FAILURE);
     }
  
     qureg->numQubitsInStateVec = numQubits;
     qureg->numAmpsPerChunk = numAmpsPerRank;
     qureg->numAmpsTotal = numAmps;
     qureg->chunkId = env.rank;
     qureg->numChunks = env.numRanks;
     qureg->isDensityMatrix = 0;
  
     // allocate GPU memory
     cudaMalloc(&(qureg->deviceStateVec.real), qureg->numAmpsPerChunk*sizeof(*(qureg->deviceStateVec.real)));
     cudaMalloc(&(qureg->deviceStateVec.imag), qureg->numAmpsPerChunk*sizeof(*(qureg->deviceStateVec.imag)));
     cudaMalloc(&(qureg->firstLevelReduction), ceil(qureg->numAmpsPerChunk/(qreal)REDUCE_SHARED_SIZE)*sizeof(qreal));
     cudaMalloc(&(qureg->secondLevelReduction), ceil(qureg->numAmpsPerChunk/(qreal)(REDUCE_SHARED_SIZE*REDUCE_SHARED_SIZE))*
             sizeof(qreal));
  
     // check gpu memory allocation was successful
     if (!(qureg->deviceStateVec.real) || !(qureg->deviceStateVec.imag)){
         printf("Could not allocate memory on GPU!\n");
         exit (EXIT_FAILURE);
     }
  
 }

References Qureg::chunkId, Qureg::deviceStateVec, Qureg::firstLevelReduction, Qureg::isDensityMatrix, Qureg::numAmpsPerChunk, Qureg::numAmpsTotal, Qureg::numChunks, Qureg::numQubitsInStateVec, QuESTEnv::numRanks, Qureg::pairStateVec, qreal, QuESTEnv::rank, REDUCE_SHARED_SIZE, Qureg::secondLevelReduction, and Qureg::stateVec.

Referenced by createCloneQureg(), createDensityQureg(), and createQureg().

◆ statevec_destroyQureg()

void statevec_destroyQureg	(	Qureg	qureg,
		QuESTEnv	env
	)

Definition at line 321 of file QuEST_gpu.cu.

 {
     // Free CPU memory
     free(qureg.stateVec.real);
     free(qureg.stateVec.imag);
     if (env.numRanks>1){
         free(qureg.pairStateVec.real);
         free(qureg.pairStateVec.imag);
     }
  
     // Free GPU memory
     cudaFree(qureg.deviceStateVec.real);
     cudaFree(qureg.deviceStateVec.imag);
     cudaFree(qureg.firstLevelReduction);
     cudaFree(qureg.secondLevelReduction);
 }

References Qureg::deviceStateVec, Qureg::firstLevelReduction, QuESTEnv::numRanks, Qureg::pairStateVec, Qureg::secondLevelReduction, and Qureg::stateVec.

Referenced by destroyQureg().

◆ statevec_findProbabilityOfZero()

qreal statevec_findProbabilityOfZero	(	Qureg	qureg,
		int	measureQubit
	)

Definition at line 2112 of file QuEST_gpu.cu.

 {
     long long int numValuesToReduce = qureg.numAmpsPerChunk>>1;
     int valuesPerCUDABlock, numCUDABlocks, sharedMemSize;
     qreal stateProb=0;
     int firstTime=1;
     int maxReducedPerLevel = REDUCE_SHARED_SIZE;
  
     while(numValuesToReduce>1){ 
         if (numValuesToReduce<maxReducedPerLevel){
             // Need less than one CUDA block to reduce values
             valuesPerCUDABlock = numValuesToReduce;
             numCUDABlocks = 1;
         } else {
             // Use full CUDA blocks, with block size constrained by shared mem usage
             valuesPerCUDABlock = maxReducedPerLevel;
             numCUDABlocks = ceil((qreal)numValuesToReduce/valuesPerCUDABlock);
         }
         sharedMemSize = valuesPerCUDABlock*sizeof(qreal);
  
         if (firstTime){
             statevec_findProbabilityOfZeroKernel<<<numCUDABlocks, valuesPerCUDABlock, sharedMemSize>>>(
                     qureg, measureQubit, qureg.firstLevelReduction);
             firstTime=0;
         } else {
             cudaDeviceSynchronize();    
             copySharedReduceBlock<<<numCUDABlocks, valuesPerCUDABlock/2, sharedMemSize>>>(
                     qureg.firstLevelReduction, 
                     qureg.secondLevelReduction, valuesPerCUDABlock); 
             cudaDeviceSynchronize();    
             swapDouble(&(qureg.firstLevelReduction), &(qureg.secondLevelReduction));
         }
         numValuesToReduce = numValuesToReduce/maxReducedPerLevel;
     }
     cudaMemcpy(&stateProb, qureg.firstLevelReduction, sizeof(qreal), cudaMemcpyDeviceToHost);
     return stateProb;
 }

References copySharedReduceBlock(), Qureg::firstLevelReduction, Qureg::numAmpsPerChunk, qreal, REDUCE_SHARED_SIZE, Qureg::secondLevelReduction, and swapDouble().

Referenced by statevec_calcProbOfOutcome().

◆ statevec_findProbabilityOfZeroKernel()

__global__ void statevec_findProbabilityOfZeroKernel	(	Qureg	qureg,
		int	measureQubit,
		qreal *	reducedArray
	)

Definition at line 1998 of file QuEST_gpu.cu.

   {
     // ----- sizes
     long long int sizeBlock,                                           // size of blocks
          sizeHalfBlock;                                       // size of blocks halved
     // ----- indices
     long long int thisBlock,                                           // current block
          index;                                               // current index for first half block
     // ----- temp variables
     long long int thisTask;                                   // task based approach for expose loop with small granularity
     long long int numTasks=qureg.numAmpsPerChunk>>1;
     // (good for shared memory parallelism)
  
     extern __shared__ qreal tempReductionArray[];
  
     // ---------------------------------------------------------------- //
     //            dimensions                                            //
     // ---------------------------------------------------------------- //
     sizeHalfBlock = 1LL << (measureQubit);                       // number of state vector elements to sum,
     // and then the number to skip
     sizeBlock     = 2LL * sizeHalfBlock;                           // size of blocks (pairs of measure and skip entries)
  
     // ---------------------------------------------------------------- //
     //            find probability                                      //
     // ---------------------------------------------------------------- //
  
     //
     // --- task-based shared-memory parallel implementation
     //
  
     qreal *stateVecReal = qureg.deviceStateVec.real;
     qreal *stateVecImag = qureg.deviceStateVec.imag;
  
     thisTask = blockIdx.x*blockDim.x + threadIdx.x;
     if (thisTask>=numTasks) return;
  
     thisBlock = thisTask / sizeHalfBlock;
     index     = thisBlock*sizeBlock + thisTask%sizeHalfBlock;
     qreal realVal, imagVal;
     realVal = stateVecReal[index];
     imagVal = stateVecImag[index];  
     tempReductionArray[threadIdx.x] = realVal*realVal + imagVal*imagVal;
     __syncthreads();
  
     if (threadIdx.x<blockDim.x/2){
         reduceBlock(tempReductionArray, reducedArray, blockDim.x);
     }
 }

References Qureg::deviceStateVec, Qureg::numAmpsPerChunk, qreal, and reduceBlock().

◆ statevec_getImagAmp()

qreal statevec_getImagAmp	(	Qureg	qureg,
		long long int	index
	)

Definition at line 576 of file QuEST_gpu.cu.

                                                            {
     qreal el=0;
     cudaMemcpy(&el, &(qureg.deviceStateVec.imag[index]), 
             sizeof(*(qureg.deviceStateVec.imag)), cudaMemcpyDeviceToHost);
     return el;
 }

References Qureg::deviceStateVec, and qreal.

Referenced by getAmp(), getDensityAmp(), getImagAmp(), and statevec_getProbAmp().

◆ statevec_getRealAmp()

qreal statevec_getRealAmp	(	Qureg	qureg,
		long long int	index
	)

Definition at line 569 of file QuEST_gpu.cu.

                                                            {
     qreal el=0;
     cudaMemcpy(&el, &(qureg.deviceStateVec.real[index]), 
             sizeof(*(qureg.deviceStateVec.real)), cudaMemcpyDeviceToHost);
     return el;
 }

References Qureg::deviceStateVec, and qreal.

Referenced by getAmp(), getDensityAmp(), getRealAmp(), and statevec_getProbAmp().

◆ statevec_hadamard()

void statevec_hadamard	(	Qureg	qureg,
		int	targetQubit
	)

Definition at line 1826 of file QuEST_gpu.cu.

 {
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk>>1)/threadsPerCUDABlock);
     statevec_hadamardKernel<<<CUDABlocks, threadsPerCUDABlock>>>(qureg, targetQubit);
 }

References Qureg::numAmpsPerChunk, and qreal.

Referenced by agnostic_applyQFT(), and hadamard().

◆ statevec_hadamardKernel()

__global__ void statevec_hadamardKernel	(	Qureg	qureg,
		int	targetQubit
	)

fix – no necessary for GPU version

Definition at line 1777 of file QuEST_gpu.cu.

                                                                       {
     // ----- sizes
     long long int sizeBlock,                                           // size of blocks
          sizeHalfBlock;                                       // size of blocks halved
     // ----- indices
     long long int thisBlock,                                           // current block
          indexUp,indexLo;                                     // current index and corresponding index in lower half block
  
     // ----- temp variables
     qreal   stateRealUp,stateRealLo,                             // storage for previous state values
            stateImagUp,stateImagLo;                             // (used in updates)
     // ----- temp variables
     long long int thisTask;                                   // task based approach for expose loop with small granularity
     long long int numTasks=qureg.numAmpsPerChunk>>1;
  
     sizeHalfBlock = 1LL << targetQubit;                               // size of blocks halved
     sizeBlock     = 2LL * sizeHalfBlock;                           // size of blocks
  
     // ---------------------------------------------------------------- //
     //            rotate                                                //
     // ---------------------------------------------------------------- //
  
     qreal *stateVecReal = qureg.deviceStateVec.real;
     qreal *stateVecImag = qureg.deviceStateVec.imag;
  
     qreal recRoot2 = 1.0/sqrt(2.0);
  
     thisTask = blockIdx.x*blockDim.x + threadIdx.x;
     if (thisTask>=numTasks) return;
  
     thisBlock   = thisTask / sizeHalfBlock;
     indexUp     = thisBlock*sizeBlock + thisTask%sizeHalfBlock;
     indexLo     = indexUp + sizeHalfBlock;
  
     // store current state vector values in temp variables
     stateRealUp = stateVecReal[indexUp];
     stateImagUp = stateVecImag[indexUp];
  
     stateRealLo = stateVecReal[indexLo];
     stateImagLo = stateVecImag[indexLo];
  
     stateVecReal[indexUp] = recRoot2*(stateRealUp + stateRealLo);
     stateVecImag[indexUp] = recRoot2*(stateImagUp + stateImagLo);
  
     stateVecReal[indexLo] = recRoot2*(stateRealUp - stateRealLo);
     stateVecImag[indexLo] = recRoot2*(stateImagUp - stateImagLo);
 }

References Qureg::deviceStateVec, Qureg::numAmpsPerChunk, and qreal.

◆ statevec_initBlankState()

void statevec_initBlankState ( Qureg qureg )

Definition at line 593 of file QuEST_gpu.cu.

 {
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk)/threadsPerCUDABlock);
     statevec_initBlankStateKernel<<<CUDABlocks, threadsPerCUDABlock>>>(
         qureg.numAmpsPerChunk, 
         qureg.deviceStateVec.real, 
         qureg.deviceStateVec.imag);
 }

References Qureg::deviceStateVec, Qureg::numAmpsPerChunk, and qreal.

Referenced by initBlankState(), and statevec_applyPauliSum().

◆ statevec_initBlankStateKernel()

__global__ void statevec_initBlankStateKernel	(	long long int	stateVecSize,
		qreal *	stateVecReal,
		qreal *	stateVecImag
	)

Definition at line 583 of file QuEST_gpu.cu.

                                                                                                                    {
     long long int index;
  
     // initialise the statevector to be all-zeros
     index = blockIdx.x*blockDim.x + threadIdx.x;
     if (index>=stateVecSize) return;
     stateVecReal[index] = 0.0;
     stateVecImag[index] = 0.0;
 }

◆ statevec_initClassicalState()

void statevec_initClassicalState	(	Qureg	qureg,
		long long int	stateInd
	)

Definition at line 668 of file QuEST_gpu.cu.

 {
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk)/threadsPerCUDABlock);
     statevec_initClassicalStateKernel<<<CUDABlocks, threadsPerCUDABlock>>>(
         qureg.numAmpsPerChunk, 
         qureg.deviceStateVec.real, 
         qureg.deviceStateVec.imag, stateInd);
 }

References Qureg::deviceStateVec, Qureg::numAmpsPerChunk, and qreal.

Referenced by initClassicalState().

◆ statevec_initClassicalStateKernel()

__global__ void statevec_initClassicalStateKernel	(	long long int	stateVecSize,
		qreal *	stateVecReal,
		qreal *	stateVecImag,
		long long int	stateInd
	)

Definition at line 653 of file QuEST_gpu.cu.

                                                                                                                                                {
     long long int index;
  
     // initialise the state to |stateInd>
     index = blockIdx.x*blockDim.x + threadIdx.x;
     if (index>=stateVecSize) return;
     stateVecReal[index] = 0.0;
     stateVecImag[index] = 0.0;
  
     if (index==stateInd){
         // classical state has probability 1
         stateVecReal[stateInd] = 1.0;
         stateVecImag[stateInd] = 0.0;
     }
 }

◆ statevec_initDebugState()

void statevec_initDebugState ( Qureg qureg )

Initialise the state vector of probability amplitudes to an (unphysical) state with each component of each probability amplitude a unique floating point value.

For debugging processes

Parameters

[in,out] qureg object representing the set of qubits to be initialised

Definition at line 689 of file QuEST_gpu.cu.

 {
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk)/threadsPerCUDABlock);
     statevec_initDebugStateKernel<<<CUDABlocks, threadsPerCUDABlock>>>(
         qureg.numAmpsPerChunk,
         qureg.deviceStateVec.real, 
         qureg.deviceStateVec.imag);
 }

References Qureg::deviceStateVec, Qureg::numAmpsPerChunk, and qreal.

Referenced by initDebugState().

◆ statevec_initDebugStateKernel()

__global__ void statevec_initDebugStateKernel	(	long long int	stateVecSize,
		qreal *	stateVecReal,
		qreal *	stateVecImag
	)

Definition at line 679 of file QuEST_gpu.cu.

                                                                                                                    {
     long long int index;
  
     index = blockIdx.x*blockDim.x + threadIdx.x;
     if (index>=stateVecSize) return;
  
     stateVecReal[index] = (index*2.0)/10.0;
     stateVecImag[index] = (index*2.0+1.0)/10.0;
 }

◆ statevec_initPlusState()

void statevec_initPlusState ( Qureg qureg )

Definition at line 642 of file QuEST_gpu.cu.

 {
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk)/threadsPerCUDABlock);
     statevec_initPlusStateKernel<<<CUDABlocks, threadsPerCUDABlock>>>(
         qureg.numAmpsPerChunk, 
         qureg.deviceStateVec.real, 
         qureg.deviceStateVec.imag);
 }

References Qureg::deviceStateVec, Qureg::numAmpsPerChunk, and qreal.

Referenced by initPlusState().

◆ statevec_initPlusStateKernel()

__global__ void statevec_initPlusStateKernel	(	long long int	stateVecSize,
		qreal *	stateVecReal,
		qreal *	stateVecImag
	)

Definition at line 631 of file QuEST_gpu.cu.

                                                                                                                   {
     long long int index;
  
     index = blockIdx.x*blockDim.x + threadIdx.x;
     if (index>=stateVecSize) return;
  
     qreal normFactor = 1.0/sqrt((qreal)stateVecSize);
     stateVecReal[index] = normFactor;
     stateVecImag[index] = 0.0;
 }

References qreal.

◆ statevec_initStateFromSingleFile()

int statevec_initStateFromSingleFile	(	Qureg *	qureg,
		char	filename[200],
		QuESTEnv	env
	)

Definition at line 727 of file QuEST_gpu.cu.

                                                                                     {
     long long int chunkSize, stateVecSize;
     long long int indexInChunk, totalIndex;
  
     chunkSize = qureg->numAmpsPerChunk;
     stateVecSize = chunkSize*qureg->numChunks;
  
     qreal *stateVecReal = qureg->stateVec.real;
     qreal *stateVecImag = qureg->stateVec.imag;
  
     FILE *fp;
     char line[200];
  
     fp = fopen(filename, "r");
     if (fp == NULL)
         return 0;
     
     indexInChunk = 0; totalIndex = 0;
     while (fgets(line, sizeof(char)*200, fp) != NULL && totalIndex<stateVecSize){
         if (line[0]!='#'){
             int chunkId = totalIndex/chunkSize;
             if (chunkId==qureg->chunkId){
                 # if QuEST_PREC==1
                     sscanf(line, "%f, %f", &(stateVecReal[indexInChunk]),
                             &(stateVecImag[indexInChunk]));
                 # elif QuEST_PREC==2
                     sscanf(line, "%lf, %lf", &(stateVecReal[indexInChunk]),
                             &(stateVecImag[indexInChunk]));
                 # elif QuEST_PREC==4
                     sscanf(line, "%lf, %lf", &(stateVecReal[indexInChunk]),
                             &(stateVecImag[indexInChunk]));
                 # endif
                 indexInChunk += 1;
             }
             totalIndex += 1;
         }
     }
     fclose(fp);
     copyStateToGPU(*qureg);
     
     // indicate success
     return 1;
 }

References Qureg::chunkId, copyStateToGPU(), Qureg::numAmpsPerChunk, Qureg::numChunks, qreal, and Qureg::stateVec.

Referenced by initStateFromSingleFile().

◆ statevec_initStateOfSingleQubit()

void statevec_initStateOfSingleQubit	(	Qureg *	qureg,
		int	qubitId,
		int	outcome
	)

Initialise the state vector of probability amplitudes such that one qubit is set to 'outcome' and all other qubits are in an equal superposition of zero and one.

Parameters

[in,out]	qureg	object representing the set of qubits to be initialised
[in]	qubitId	id of qubit to set to state 'outcome'
[in]	outcome	of qubit 'qubitId'

Definition at line 718 of file QuEST_gpu.cu.

 {
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg->numAmpsPerChunk)/threadsPerCUDABlock);
     statevec_initStateOfSingleQubitKernel<<<CUDABlocks, threadsPerCUDABlock>>>(qureg->numAmpsPerChunk, qureg->deviceStateVec.real, qureg->deviceStateVec.imag, qubitId, outcome);
 }

References Qureg::deviceStateVec, Qureg::numAmpsPerChunk, and qreal.

Referenced by initStateOfSingleQubit().

◆ statevec_initStateOfSingleQubitKernel()

__global__ void statevec_initStateOfSingleQubitKernel	(	long long int	stateVecSize,
		qreal *	stateVecReal,
		qreal *	stateVecImag,
		int	qubitId,
		int	outcome
	)

Definition at line 700 of file QuEST_gpu.cu.

                                                                                                                                                      {
     long long int index;
     int bit;
  
     index = blockIdx.x*blockDim.x + threadIdx.x;
     if (index>=stateVecSize) return;
  
     qreal normFactor = 1.0/sqrt((qreal)stateVecSize/2);
     bit = extractBit(qubitId, index);
     if (bit==outcome) {
         stateVecReal[index] = normFactor;
         stateVecImag[index] = 0.0;
     } else {
         stateVecReal[index] = 0.0;
         stateVecImag[index] = 0.0;
     }
 }

References extractBit(), and qreal.

◆ statevec_initZeroState()

void statevec_initZeroState ( Qureg qureg )

Definition at line 620 of file QuEST_gpu.cu.

 {
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk)/threadsPerCUDABlock);
     statevec_initZeroStateKernel<<<CUDABlocks, threadsPerCUDABlock>>>(
         qureg.numAmpsPerChunk, 
         qureg.deviceStateVec.real, 
         qureg.deviceStateVec.imag);
 }

References Qureg::deviceStateVec, Qureg::numAmpsPerChunk, and qreal.

Referenced by initZeroState().

◆ statevec_initZeroStateKernel()

__global__ void statevec_initZeroStateKernel	(	long long int	stateVecSize,
		qreal *	stateVecReal,
		qreal *	stateVecImag
	)

Definition at line 604 of file QuEST_gpu.cu.

                                                                                                                   {
     long long int index;
  
     // initialise the state to |0000..0000>
     index = blockIdx.x*blockDim.x + threadIdx.x;
     if (index>=stateVecSize) return;
     stateVecReal[index] = 0.0;
     stateVecImag[index] = 0.0;
  
     if (index==0){
         // zero state |0000..0000> has probability 1
         stateVecReal[0] = 1.0;
         stateVecImag[0] = 0.0;
     }
 }

◆ statevec_multiControlledMultiQubitNot()

void statevec_multiControlledMultiQubitNot	(	Qureg	qureg,
		int	ctrlMask,
		int	targMask
	)

Definition at line 1918 of file QuEST_gpu.cu.

                                                                                     {
     
     int numThreadsPerBlock = 128;
     int numBlocks = ceil(qureg.numAmpsPerChunk / (qreal) numThreadsPerBlock);
     statevec_multiControlledMultiQubitNotKernel<<<numBlocks, numThreadsPerBlock>>>(qureg, ctrlMask, targMask);
 }

References Qureg::numAmpsPerChunk, and qreal.

Referenced by multiControlledMultiQubitNot(), and multiQubitNot().

◆ statevec_multiControlledMultiQubitNotKernel()

__global__ void statevec_multiControlledMultiQubitNotKernel	(	Qureg	qureg,
		int	ctrlMask,
		int	targMask
	)

Definition at line 1881 of file QuEST_gpu.cu.

                                                                                                      {
     
     qreal* stateRe = qureg.deviceStateVec.real;
     qreal* stateIm = qureg.deviceStateVec.imag;
     
     // althouugh each thread swaps/updates two amplitudes, we still invoke one thread per amp
     long long int ampInd = blockIdx.x*blockDim.x + threadIdx.x;
     if (ampInd >= qureg.numAmpsPerChunk)
         return;
  
     // modify amplitudes only if control qubits are 1 for this state
     if (ctrlMask && ((ctrlMask & ampInd) != ctrlMask))
         return;
     
     long long int mateInd = ampInd ^ targMask;
     
     // if the mate is lower index, another thread is handling it
     if (mateInd < ampInd)
         return;
         
     /* it may seem wasteful to spawn more threads than are needed, and abort 
      * half of them due to the amp pairing above (and potentially abort
      * an exponential number due to ctrlMask). however, since we are moving 
      * global memory directly in a potentially non-contiguous fashoin, this 
      * method is likely to be memory bandwidth bottlenecked anyway 
      */
     
     qreal mateRe = stateRe[mateInd];
     qreal mateIm = stateIm[mateInd];
     
     // swap amp with mate
     stateRe[mateInd] = stateRe[ampInd];
     stateIm[mateInd] = stateIm[ampInd];
     stateRe[ampInd] = mateRe;
     stateIm[ampInd] = mateIm;
 }

References Qureg::deviceStateVec, Qureg::numAmpsPerChunk, and qreal.

◆ statevec_multiControlledMultiQubitUnitary()

void statevec_multiControlledMultiQubitUnitary	(	Qureg	qureg,
		long long int	ctrlMask,
		int *	targs,
		int	numTargs,
		ComplexMatrixN	u
	)

This calls swapQubitAmps only when it would involve a distributed communication; if the qubit chunks already fit in the node, it operates the unitary direct.

It is already gauranteed here that all target qubits can fit on each node (this is validated in the front-end)

Todo:: refactor so that the 'swap back' isn't performed; instead the qubit locations are updated.

Definition at line 1039 of file QuEST_gpu.cu.

 {
     int threadsPerCUDABlock = 128;
     int CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk>>numTargs)/threadsPerCUDABlock);
     
     // allocate device space for global {targs} (length: numTargs) and populate
     int *d_targs;
     size_t targMemSize = numTargs * sizeof *d_targs;
     cudaMalloc(&d_targs, targMemSize);
     cudaMemcpy(d_targs, targs, targMemSize, cudaMemcpyHostToDevice);
     
     // flatten out the u.real and u.imag lists
     int uNumRows = (1 << u.numQubits);
     qreal* uReFlat = (qreal*) malloc(uNumRows*uNumRows * sizeof *uReFlat);
     qreal* uImFlat = (qreal*) malloc(uNumRows*uNumRows * sizeof *uImFlat);
     long long int i = 0;
     for (int r=0; r < uNumRows; r++)
         for (int c=0; c < uNumRows; c++) {
             uReFlat[i] = u.real[r][c];
             uImFlat[i] = u.imag[r][c];
             i++;
         }
     
     // allocate device space for global u.real and u.imag (flatten by concatenating rows) and populate
     qreal* d_uRe;
     qreal* d_uIm;
     size_t uMemSize = uNumRows*uNumRows * sizeof *d_uRe; // size of each of d_uRe and d_uIm
     cudaMalloc(&d_uRe, uMemSize);
     cudaMalloc(&d_uIm, uMemSize);
     cudaMemcpy(d_uRe, uReFlat, uMemSize, cudaMemcpyHostToDevice);
     cudaMemcpy(d_uIm, uImFlat, uMemSize, cudaMemcpyHostToDevice);
     
     // allocate device Wspace for thread-local {ampInds}, {reAmps}, {imAmps} (length: 1<<numTargs)
     long long int *d_ampInds;
     qreal *d_reAmps;
     qreal *d_imAmps;
     size_t gridSize = (size_t) threadsPerCUDABlock * CUDABlocks;
     int numTargAmps = uNumRows;
     cudaMalloc(&d_ampInds, numTargAmps*gridSize * sizeof *d_ampInds);
     cudaMalloc(&d_reAmps,  numTargAmps*gridSize * sizeof *d_reAmps);
     cudaMalloc(&d_imAmps,  numTargAmps*gridSize * sizeof *d_imAmps);
     
     // call kernel
     statevec_multiControlledMultiQubitUnitaryKernel<<<CUDABlocks,threadsPerCUDABlock>>>(
         qureg, ctrlMask, d_targs, numTargs, d_uRe, d_uIm, d_ampInds, d_reAmps, d_imAmps, numTargAmps);
         
     // free kernel memory
     free(uReFlat);
     free(uImFlat);
     cudaFree(d_targs);
     cudaFree(d_uRe);
     cudaFree(d_uIm);
     cudaFree(d_ampInds);
     cudaFree(d_reAmps);
     cudaFree(d_imAmps);
 }

References ComplexMatrixN::imag, Qureg::numAmpsPerChunk, ComplexMatrixN::numQubits, qreal, and ComplexMatrixN::real.

Referenced by applyMultiControlledMatrixN(), densmatr_applyMultiQubitKrausSuperoperator(), densmatr_applyTwoQubitKrausSuperoperator(), multiControlledMultiQubitUnitary(), statevec_controlledMultiQubitUnitary(), and statevec_multiQubitUnitary().

◆ statevec_multiControlledMultiQubitUnitaryKernel()

__global__ void statevec_multiControlledMultiQubitUnitaryKernel	(	Qureg	qureg,
		long long int	ctrlMask,
		int *	targs,
		int	numTargs,
		qreal *	uRe,
		qreal *	uIm,
		long long int *	ampInds,
		qreal *	reAmps,
		qreal *	imAmps,
		long long int	numTargAmps
	)

Definition at line 980 of file QuEST_gpu.cu.

 {
     
     // decide the amplitudes this thread will modify
     long long int thisTask = blockIdx.x*blockDim.x + threadIdx.x;                        
     long long int numTasks = qureg.numAmpsPerChunk >> numTargs; // kernel called on every 1 in 2^numTargs amplitudes
     if (thisTask>=numTasks) return;
     
     // find this task's start index (where all targs are 0)
     long long int ind00 = insertZeroBits(thisTask, targs, numTargs);
     
     // this task only modifies amplitudes if control qubits are 1 for this state
     if (ctrlMask && (ctrlMask&ind00) != ctrlMask)
         return;
         
     qreal *reVec = qureg.deviceStateVec.real;
     qreal *imVec = qureg.deviceStateVec.imag;
     
     /*
     each thread needs:
         long long int ampInds[numAmps];
         qreal reAmps[numAmps];
         qreal imAmps[numAmps];
     but instead has access to shared arrays, with below stride and offset
     */
     size_t stride = gridDim.x*blockDim.x;
     size_t offset = blockIdx.x*blockDim.x + threadIdx.x;
     
     // determine the indices and record values of target amps
     long long int ind;
     for (int i=0; i < numTargAmps; i++) {
         
         // get global index of current target qubit assignment
         ind = ind00;
         for (int t=0; t < numTargs; t++)
             if (extractBit(t, i))
                 ind = flipBit(ind, targs[t]);
         
         ampInds[i*stride+offset] = ind;
         reAmps [i*stride+offset] = reVec[ind];
         imAmps [i*stride+offset] = imVec[ind];
     }
     
     // update the amplitudes
     for (int r=0; r < numTargAmps; r++) {
         ind = ampInds[r*stride+offset];
         reVec[ind] = 0;
         imVec[ind] = 0;
         for (int c=0; c < numTargAmps; c++) {
             qreal uReElem = uRe[c + r*numTargAmps];
             qreal uImElem = uIm[c + r*numTargAmps];
             reVec[ind] += reAmps[c*stride+offset]*uReElem - imAmps[c*stride+offset]*uImElem;
             imVec[ind] += reAmps[c*stride+offset]*uImElem + imAmps[c*stride+offset]*uReElem;
         }
     }
 }

References Qureg::deviceStateVec, extractBit(), flipBit(), insertZeroBits(), Qureg::numAmpsPerChunk, and qreal.

◆ statevec_multiControlledMultiRotateZ()

void statevec_multiControlledMultiRotateZ	(	Qureg	qureg,
		long long int	ctrlMask,
		long long int	targMask,
		qreal	angle
	)

Definition at line 1621 of file QuEST_gpu.cu.

 {   
     qreal cosAngle = cos(angle/2.0);
     qreal sinAngle = sin(angle/2.0);
         
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk)/threadsPerCUDABlock);
     statevec_multiControlledMultiRotateZKernel<<<CUDABlocks, threadsPerCUDABlock>>>(qureg, ctrlMask, targMask, cosAngle, sinAngle);
 }

References Qureg::numAmpsPerChunk, and qreal.

Referenced by multiControlledMultiRotateZ(), and statevec_multiControlledMultiRotatePauli().

◆ statevec_multiControlledMultiRotateZKernel()

__global__ void statevec_multiControlledMultiRotateZKernel	(	Qureg	qureg,
		long long int	ctrlMask,
		long long int	targMask,
		qreal	cosAngle,
		qreal	sinAngle
	)

Definition at line 1599 of file QuEST_gpu.cu.

                                                                                                                                                         {
     
     long long int stateVecSize = qureg.numAmpsPerChunk;
     long long int index = blockIdx.x*blockDim.x + threadIdx.x;
     if (index>=stateVecSize) return;
     
     // amplitudes corresponding to control qubits not all-in-one are unmodified
     if (ctrlMask && ((ctrlMask & index) != ctrlMask))
         return;
     
     qreal *stateVecReal = qureg.deviceStateVec.real;
     qreal *stateVecImag = qureg.deviceStateVec.imag;
     
     // avoid warp divergence, setting fac = +- 1
     int fac = 1-2*getBitMaskParity(targMask & index);
     qreal stateReal = stateVecReal[index];
     qreal stateImag = stateVecImag[index];
     
     stateVecReal[index] = cosAngle*stateReal + fac * sinAngle*stateImag;
     stateVecImag[index] = - fac * sinAngle*stateReal + cosAngle*stateImag;  
 }

References Qureg::deviceStateVec, getBitMaskParity(), Qureg::numAmpsPerChunk, and qreal.

◆ statevec_multiControlledPhaseFlip()

void statevec_multiControlledPhaseFlip	(	Qureg	qureg,
		int *	controlQubits,
		int	numControlQubits
	)

Definition at line 1734 of file QuEST_gpu.cu.

 {
     int threadsPerCUDABlock, CUDABlocks;
     long long int mask = getQubitBitMask(controlQubits, numControlQubits);
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk)/threadsPerCUDABlock);
     statevec_multiControlledPhaseFlipKernel<<<CUDABlocks, threadsPerCUDABlock>>>(qureg, mask);
 }

References getQubitBitMask(), Qureg::numAmpsPerChunk, and qreal.

Referenced by multiControlledPhaseFlip().

◆ statevec_multiControlledPhaseFlipKernel()

__global__ void statevec_multiControlledPhaseFlipKernel	(	Qureg	qureg,
		long long int	mask
	)

Definition at line 1716 of file QuEST_gpu.cu.

 {
     long long int index;
     long long int stateVecSize;
  
     stateVecSize = qureg.numAmpsPerChunk;
     qreal *stateVecReal = qureg.deviceStateVec.real;
     qreal *stateVecImag = qureg.deviceStateVec.imag;
  
     index = blockIdx.x*blockDim.x + threadIdx.x;
     if (index>=stateVecSize) return;
  
     if (mask == (mask & index) ){
         stateVecReal [index] = - stateVecReal [index];
         stateVecImag [index] = - stateVecImag [index];
     }
 }

References Qureg::deviceStateVec, Qureg::numAmpsPerChunk, and qreal.

◆ statevec_multiControlledPhaseShift()

void statevec_multiControlledPhaseShift	(	Qureg	qureg,
		int *	controlQubits,
		int	numControlQubits,
		qreal	angle
	)

Definition at line 1558 of file QuEST_gpu.cu.

 {   
     qreal cosAngle = cos(angle);
     qreal sinAngle = sin(angle);
  
     long long int mask = getQubitBitMask(controlQubits, numControlQubits);
         
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk)/threadsPerCUDABlock);
     statevec_multiControlledPhaseShiftKernel<<<CUDABlocks, threadsPerCUDABlock>>>(qureg, mask, cosAngle, sinAngle);
 }

References getQubitBitMask(), Qureg::numAmpsPerChunk, and qreal.

Referenced by multiControlledPhaseShift().

◆ statevec_multiControlledPhaseShiftKernel()

__global__ void statevec_multiControlledPhaseShiftKernel	(	Qureg	qureg,
		long long int	mask,
		qreal	cosAngle,
		qreal	sinAngle
	)

Definition at line 1538 of file QuEST_gpu.cu.

                                                                                                                           {
     qreal stateRealLo, stateImagLo;
     long long int index;
     long long int stateVecSize;
  
     stateVecSize = qureg.numAmpsPerChunk;
     qreal *stateVecReal = qureg.deviceStateVec.real;
     qreal *stateVecImag = qureg.deviceStateVec.imag;
     
     index = blockIdx.x*blockDim.x + threadIdx.x;
     if (index>=stateVecSize) return;
  
     if (mask == (mask & index) ){
         stateRealLo = stateVecReal[index];
         stateImagLo = stateVecImag[index];
         stateVecReal[index] = cosAngle*stateRealLo - sinAngle*stateImagLo;
         stateVecImag[index] = sinAngle*stateRealLo + cosAngle*stateImagLo;
     }
 }

References Qureg::deviceStateVec, Qureg::numAmpsPerChunk, and qreal.

◆ statevec_multiControlledTwoQubitUnitary()

void statevec_multiControlledTwoQubitUnitary	(	Qureg	qureg,
		long long int	ctrlMask,
		int	q1,
		int	q2,
		ComplexMatrix4	u
	)

This calls swapQubitAmps only when it would involve a distributed communication; if the qubit chunks already fit in the node, it operates the unitary direct.

Note the order of q1 and q2 in the call to twoQubitUnitaryLocal is important.

Todo:

refactor so that the 'swap back' isn't performed; instead the qubit locations are updated.

the double swap (q1,q2 to 0,1) may be possible simultaneously by a bespoke swap routine.

Definition at line 1172 of file QuEST_gpu.cu.

 {
     int threadsPerCUDABlock = 128;
     int CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk>>2)/threadsPerCUDABlock); // one kernel eval for every 4 amplitudes
     statevec_multiControlledTwoQubitUnitaryKernel<<<CUDABlocks, threadsPerCUDABlock>>>(qureg, ctrlMask, q1, q2, argifyMatrix4(u));
 }

References Qureg::numAmpsPerChunk, and qreal.

Referenced by densmatr_applyKrausSuperoperator(), multiControlledTwoQubitUnitary(), statevec_controlledTwoQubitUnitary(), and statevec_twoQubitUnitary().

◆ statevec_multiControlledTwoQubitUnitaryKernel()

__global__ void statevec_multiControlledTwoQubitUnitaryKernel	(	Qureg	qureg,
		long long int	ctrlMask,
		int	q1,
		int	q2,
		ArgMatrix4	u
	)

Definition at line 1096 of file QuEST_gpu.cu.

                                                                                                                                 {
     
     // decide the 4 amplitudes this thread will modify
     long long int thisTask = blockIdx.x*blockDim.x + threadIdx.x;                        
     long long int numTasks = qureg.numAmpsPerChunk >> 2; // kernel called on every 1 in 4 amplitudes
     if (thisTask>=numTasks) return;
     
     qreal *reVec = qureg.deviceStateVec.real;
     qreal *imVec = qureg.deviceStateVec.imag;
     
     // find indices of amplitudes to modify (treat q1 as the least significant bit)
     long long int ind00, ind01, ind10, ind11;
     ind00 = insertTwoZeroBits(thisTask, q1, q2);
     
     // modify only if control qubits are 1 for this state
     if (ctrlMask && (ctrlMask&ind00) != ctrlMask)
         return;
     
     ind01 = flipBit(ind00, q1);
     ind10 = flipBit(ind00, q2);
     ind11 = flipBit(ind01, q2);
     
     // extract statevec amplitudes 
     qreal re00, re01, re10, re11;
     qreal im00, im01, im10, im11;
     re00 = reVec[ind00]; im00 = imVec[ind00];
     re01 = reVec[ind01]; im01 = imVec[ind01];
     re10 = reVec[ind10]; im10 = imVec[ind10];
     re11 = reVec[ind11]; im11 = imVec[ind11];
     
     // apply u * {amp00, amp01, amp10, amp11}
     reVec[ind00] = 
         u.r0c0.real*re00 - u.r0c0.imag*im00 +
         u.r0c1.real*re01 - u.r0c1.imag*im01 +
         u.r0c2.real*re10 - u.r0c2.imag*im10 +
         u.r0c3.real*re11 - u.r0c3.imag*im11;
     imVec[ind00] =
         u.r0c0.imag*re00 + u.r0c0.real*im00 +
         u.r0c1.imag*re01 + u.r0c1.real*im01 +
         u.r0c2.imag*re10 + u.r0c2.real*im10 +
         u.r0c3.imag*re11 + u.r0c3.real*im11;
         
     reVec[ind01] = 
         u.r1c0.real*re00 - u.r1c0.imag*im00 +
         u.r1c1.real*re01 - u.r1c1.imag*im01 +
         u.r1c2.real*re10 - u.r1c2.imag*im10 +
         u.r1c3.real*re11 - u.r1c3.imag*im11;
     imVec[ind01] =
         u.r1c0.imag*re00 + u.r1c0.real*im00 +
         u.r1c1.imag*re01 + u.r1c1.real*im01 +
         u.r1c2.imag*re10 + u.r1c2.real*im10 +
         u.r1c3.imag*re11 + u.r1c3.real*im11;
         
     reVec[ind10] = 
         u.r2c0.real*re00 - u.r2c0.imag*im00 +
         u.r2c1.real*re01 - u.r2c1.imag*im01 +
         u.r2c2.real*re10 - u.r2c2.imag*im10 +
         u.r2c3.real*re11 - u.r2c3.imag*im11;
     imVec[ind10] =
         u.r2c0.imag*re00 + u.r2c0.real*im00 +
         u.r2c1.imag*re01 + u.r2c1.real*im01 +
         u.r2c2.imag*re10 + u.r2c2.real*im10 +
         u.r2c3.imag*re11 + u.r2c3.real*im11;    
         
     reVec[ind11] = 
         u.r3c0.real*re00 - u.r3c0.imag*im00 +
         u.r3c1.real*re01 - u.r3c1.imag*im01 +
         u.r3c2.real*re10 - u.r3c2.imag*im10 +
         u.r3c3.real*re11 - u.r3c3.imag*im11;
     imVec[ind11] =
         u.r3c0.imag*re00 + u.r3c0.real*im00 +
         u.r3c1.imag*re01 + u.r3c1.real*im01 +
         u.r3c2.imag*re10 + u.r3c2.real*im10 +
         u.r3c3.imag*re11 + u.r3c3.real*im11;    
 }

References Qureg::deviceStateVec, flipBit(), insertTwoZeroBits(), Qureg::numAmpsPerChunk, and qreal.

◆ statevec_multiControlledUnitary()

void statevec_multiControlledUnitary	(	Qureg	qureg,
		long long int	ctrlQubitsMask,
		long long int	ctrlFlipMask,
		int	targetQubit,
		ComplexMatrix2	u
	)

Definition at line 1305 of file QuEST_gpu.cu.

  {
     int threadsPerCUDABlock = 128;
     int CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk>>1)/threadsPerCUDABlock);
     statevec_multiControlledUnitaryKernel<<<CUDABlocks, threadsPerCUDABlock>>>(
         qureg, ctrlQubitsMask, ctrlFlipMask, targetQubit, argifyMatrix2(u));
 }

References Qureg::numAmpsPerChunk, and qreal.

Referenced by multiControlledUnitary(), multiStateControlledUnitary(), and statevec_multiControlledMultiRotatePauli().

◆ statevec_multiControlledUnitaryKernel()

__global__ void statevec_multiControlledUnitaryKernel	(	Qureg	qureg,
		long long int	ctrlQubitsMask,
		long long int	ctrlFlipMask,
		int	targetQubit,
		ArgMatrix2	u
	)

fix – no necessary for GPU version

Definition at line 1245 of file QuEST_gpu.cu.

  {
     // ----- sizes
     long long int sizeBlock,                                           // size of blocks
          sizeHalfBlock;                                       // size of blocks halved
     // ----- indices
     long long int thisBlock,                                           // current block
          indexUp,indexLo;                                     // current index and corresponding index in lower half block
  
     // ----- temp variables
     qreal   stateRealUp,stateRealLo,                             // storage for previous state values
            stateImagUp,stateImagLo;                             // (used in updates)
     // ----- temp variables
     long long int thisTask;                                   // task based approach for expose loop with small granularity
     long long int numTasks=qureg.numAmpsPerChunk>>1;
  
  
     sizeHalfBlock = 1LL << targetQubit;                               // size of blocks halved
     sizeBlock     = 2LL * sizeHalfBlock;                           // size of blocks
  
     // ---------------------------------------------------------------- //
     //            rotate                                                //
     // ---------------------------------------------------------------- //
  
     qreal *stateVecReal = qureg.deviceStateVec.real;
     qreal *stateVecImag = qureg.deviceStateVec.imag;
  
     thisTask = blockIdx.x*blockDim.x + threadIdx.x;
     if (thisTask>=numTasks) return;
  
     thisBlock   = thisTask / sizeHalfBlock;
     indexUp     = thisBlock*sizeBlock + thisTask%sizeHalfBlock;
     indexLo     = indexUp + sizeHalfBlock;
  
     if (ctrlQubitsMask == (ctrlQubitsMask & (indexUp ^ ctrlFlipMask))) {
         // store current state vector values in temp variables
         stateRealUp = stateVecReal[indexUp];
         stateImagUp = stateVecImag[indexUp];
  
         stateRealLo = stateVecReal[indexLo];
         stateImagLo = stateVecImag[indexLo];
  
         // state[indexUp] = u00 * state[indexUp] + u01 * state[indexLo]
         stateVecReal[indexUp] = u.r0c0.real*stateRealUp - u.r0c0.imag*stateImagUp 
             + u.r0c1.real*stateRealLo - u.r0c1.imag*stateImagLo;
         stateVecImag[indexUp] = u.r0c0.real*stateImagUp + u.r0c0.imag*stateRealUp 
             + u.r0c1.real*stateImagLo + u.r0c1.imag*stateRealLo;
  
         // state[indexLo] = u10  * state[indexUp] + u11 * state[indexLo]
         stateVecReal[indexLo] = u.r1c0.real*stateRealUp  - u.r1c0.imag*stateImagUp 
             + u.r1c1.real*stateRealLo  -  u.r1c1.imag*stateImagLo;
         stateVecImag[indexLo] = u.r1c0.real*stateImagUp + u.r1c0.imag*stateRealUp 
             + u.r1c1.real*stateImagLo + u.r1c1.imag*stateRealLo;
     }
 }

References Qureg::deviceStateVec, Qureg::numAmpsPerChunk, and qreal.

◆ statevec_multiRotateZ()

void statevec_multiRotateZ	(	Qureg	qureg,
		long long int	mask,
		qreal	angle
	)

Definition at line 1588 of file QuEST_gpu.cu.

 {   
     qreal cosAngle = cos(angle/2.0);
     qreal sinAngle = sin(angle/2.0);
         
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk)/threadsPerCUDABlock);
     statevec_multiRotateZKernel<<<CUDABlocks, threadsPerCUDABlock>>>(qureg, mask, cosAngle, sinAngle);
 }

References Qureg::numAmpsPerChunk, and qreal.

Referenced by multiRotateZ(), and statevec_multiRotatePauli().

◆ statevec_multiRotateZKernel()

__global__ void statevec_multiRotateZKernel	(	Qureg	qureg,
		long long int	mask,
		qreal	cosAngle,
		qreal	sinAngle
	)

Definition at line 1571 of file QuEST_gpu.cu.

                                                                                                              {
     
     long long int stateVecSize = qureg.numAmpsPerChunk;
     long long int index = blockIdx.x*blockDim.x + threadIdx.x;
     if (index>=stateVecSize) return;
     
     qreal *stateVecReal = qureg.deviceStateVec.real;
     qreal *stateVecImag = qureg.deviceStateVec.imag;
     
     int fac = getBitMaskParity(mask & index)? -1 : 1;
     qreal stateReal = stateVecReal[index];
     qreal stateImag = stateVecImag[index];
     
     stateVecReal[index] = cosAngle*stateReal + fac * sinAngle*stateImag;
     stateVecImag[index] = - fac * sinAngle*stateReal + cosAngle*stateImag;  
 }

References Qureg::deviceStateVec, getBitMaskParity(), Qureg::numAmpsPerChunk, and qreal.

◆ statevec_pauliX()

void statevec_pauliX	(	Qureg	qureg,
		int	targetQubit
	)

Definition at line 1360 of file QuEST_gpu.cu.

 {
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk>>1)/threadsPerCUDABlock);
     statevec_pauliXKernel<<<CUDABlocks, threadsPerCUDABlock>>>(qureg, targetQubit);
 }

References Qureg::numAmpsPerChunk, and qreal.

Referenced by pauliX(), and statevec_applyPauliProd().

◆ statevec_pauliXKernel()

__global__ void statevec_pauliXKernel	(	Qureg	qureg,
		int	targetQubit
	)

fix – no necessary for GPU version

Definition at line 1316 of file QuEST_gpu.cu.

                                                                    {
     // ----- sizes
     long long int sizeBlock,                                           // size of blocks
          sizeHalfBlock;                                       // size of blocks halved
     // ----- indices
     long long int thisBlock,                                           // current block
          indexUp,indexLo;                                     // current index and corresponding index in lower half block
  
     // ----- temp variables
     qreal   stateRealUp,                             // storage for previous state values
            stateImagUp;                             // (used in updates)
     // ----- temp variables
     long long int thisTask;                                   // task based approach for expose loop with small granularity
     long long int numTasks=qureg.numAmpsPerChunk>>1;
  
     sizeHalfBlock = 1LL << targetQubit;                               // size of blocks halved
     sizeBlock     = 2LL * sizeHalfBlock;                           // size of blocks
  
     // ---------------------------------------------------------------- //
     //            rotate                                                //
     // ---------------------------------------------------------------- //
  
     qreal *stateVecReal = qureg.deviceStateVec.real;
     qreal *stateVecImag = qureg.deviceStateVec.imag;
  
     thisTask = blockIdx.x*blockDim.x + threadIdx.x;
     if (thisTask>=numTasks) return;
  
     thisBlock   = thisTask / sizeHalfBlock;
     indexUp     = thisBlock*sizeBlock + thisTask%sizeHalfBlock;
     indexLo     = indexUp + sizeHalfBlock;
  
     // store current state vector values in temp variables
     stateRealUp = stateVecReal[indexUp];
     stateImagUp = stateVecImag[indexUp];
  
     stateVecReal[indexUp] = stateVecReal[indexLo];
     stateVecImag[indexUp] = stateVecImag[indexLo];
  
     stateVecReal[indexLo] = stateRealUp;
     stateVecImag[indexLo] = stateImagUp;
 }

References Qureg::deviceStateVec, Qureg::numAmpsPerChunk, and qreal.

◆ statevec_pauliY()

void statevec_pauliY	(	Qureg	qureg,
		int	targetQubit
	)

Definition at line 1393 of file QuEST_gpu.cu.

 {
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk>>1)/threadsPerCUDABlock);
     statevec_pauliYKernel<<<CUDABlocks, threadsPerCUDABlock>>>(qureg, targetQubit, 1);
 }

References Qureg::numAmpsPerChunk, and qreal.

Referenced by pauliY(), and statevec_applyPauliProd().

◆ statevec_pauliYConj()

void statevec_pauliYConj	(	Qureg	qureg,
		int	targetQubit
	)

Definition at line 1401 of file QuEST_gpu.cu.

 {
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk>>1)/threadsPerCUDABlock);
     statevec_pauliYKernel<<<CUDABlocks, threadsPerCUDABlock>>>(qureg, targetQubit, -1);
 }

References Qureg::numAmpsPerChunk, and qreal.

Referenced by pauliY().

◆ statevec_pauliYKernel()

__global__ void statevec_pauliYKernel	(	Qureg	qureg,
		int	targetQubit,
		int	conjFac
	)

Definition at line 1368 of file QuEST_gpu.cu.

                                                                                 {
  
     long long int sizeHalfBlock = 1LL << targetQubit;
     long long int sizeBlock     = 2LL * sizeHalfBlock;
     long long int numTasks      = qureg.numAmpsPerChunk >> 1;
     long long int thisTask      = blockIdx.x*blockDim.x + threadIdx.x;
     if (thisTask>=numTasks) return;
     
     long long int thisBlock     = thisTask / sizeHalfBlock;
     long long int indexUp       = thisBlock*sizeBlock + thisTask%sizeHalfBlock;
     long long int indexLo       = indexUp + sizeHalfBlock;
     qreal  stateRealUp, stateImagUp;
  
     qreal *stateVecReal = qureg.deviceStateVec.real;
     qreal *stateVecImag = qureg.deviceStateVec.imag;
     stateRealUp = stateVecReal[indexUp];
     stateImagUp = stateVecImag[indexUp];
  
     // update under +-{{0, -i}, {i, 0}}
     stateVecReal[indexUp] = conjFac * stateVecImag[indexLo];
     stateVecImag[indexUp] = conjFac * -stateVecReal[indexLo];
     stateVecReal[indexLo] = conjFac * -stateImagUp;
     stateVecImag[indexLo] = conjFac * stateRealUp;
 }

References Qureg::deviceStateVec, Qureg::numAmpsPerChunk, and qreal.

◆ statevec_phaseShiftByTerm()

void statevec_phaseShiftByTerm	(	Qureg	qureg,
		int	targetQubit,
		Complex	term
	)

Definition at line 1491 of file QuEST_gpu.cu.

 {   
     qreal cosAngle = term.real;
     qreal sinAngle = term.imag;
     
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk>>1)/threadsPerCUDABlock);
     statevec_phaseShiftByTermKernel<<<CUDABlocks, threadsPerCUDABlock>>>(qureg, targetQubit, cosAngle, sinAngle);
 }

References Complex::imag, Qureg::numAmpsPerChunk, qreal, and Complex::real.

Referenced by statevec_pauliZ(), statevec_phaseShift(), statevec_sGate(), statevec_sGateConj(), statevec_tGate(), and statevec_tGateConj().

◆ statevec_phaseShiftByTermKernel()

__global__ void statevec_phaseShiftByTermKernel	(	Qureg	qureg,
		int	targetQubit,
		qreal	cosAngle,
		qreal	sinAngle
	)

Definition at line 1463 of file QuEST_gpu.cu.

                                                                                                               {
  
     long long int sizeBlock, sizeHalfBlock;
     long long int thisBlock, indexUp,indexLo;
  
     qreal stateRealLo, stateImagLo;             
     long long int thisTask; 
     long long int numTasks = qureg.numAmpsPerChunk >> 1;
  
     sizeHalfBlock = 1LL << targetQubit;
     sizeBlock     = 2LL * sizeHalfBlock;
  
     qreal *stateVecReal = qureg.deviceStateVec.real;
     qreal *stateVecImag = qureg.deviceStateVec.imag;
  
     thisTask = blockIdx.x*blockDim.x + threadIdx.x;
     if (thisTask>=numTasks) return;
     thisBlock   = thisTask / sizeHalfBlock;
     indexUp     = thisBlock*sizeBlock + thisTask%sizeHalfBlock;
     indexLo     = indexUp + sizeHalfBlock;
  
     stateRealLo = stateVecReal[indexLo];
     stateImagLo = stateVecImag[indexLo];
  
     stateVecReal[indexLo] = cosAngle*stateRealLo - sinAngle*stateImagLo;
     stateVecImag[indexLo] = sinAngle*stateRealLo + cosAngle*stateImagLo;
 }

References Qureg::deviceStateVec, Qureg::numAmpsPerChunk, and qreal.

◆ statevec_reportStateToScreen()

void statevec_reportStateToScreen	(	Qureg	qureg,
		QuESTEnv	env,
		int	reportRank
	)

Print the current state vector of probability amplitudes for a set of qubits to standard out.

For debugging purposes. Each rank should print output serially. Only print output for systems <= 5 qubits

Definition at line 543 of file QuEST_gpu.cu.

                                                                             {
     long long int index;
     int rank;
     copyStateFromGPU(qureg); 
     if (qureg.numQubitsInStateVec<=5){
         for (rank=0; rank<qureg.numChunks; rank++){
             if (qureg.chunkId==rank){
                 if (reportRank) {
                     printf("Reporting state from rank %d [\n", qureg.chunkId);
                     //printf("\trank, index, real, imag\n");
                     printf("real, imag\n");
                 } else if (rank==0) {
                     printf("Reporting state [\n");
                     printf("real, imag\n");
                 }
  
                 for(index=0; index<qureg.numAmpsPerChunk; index++){
                     printf(REAL_STRING_FORMAT ", " REAL_STRING_FORMAT "\n", qureg.stateVec.real[index], qureg.stateVec.imag[index]);
                 }
                 if (reportRank || rank==qureg.numChunks-1) printf("]\n");
             }
             syncQuESTEnv(env);
         }
     }
 }

References Qureg::chunkId, copyStateFromGPU(), Qureg::numAmpsPerChunk, Qureg::numChunks, Qureg::numQubitsInStateVec, Qureg::stateVec, and syncQuESTEnv().

Referenced by reportStateToScreen().

◆ statevec_setAmps()

void statevec_setAmps	(	Qureg	qureg,
		long long int	startInd,
		qreal *	reals,
		qreal *	imags,
		long long int	numAmps
	)

Definition at line 153 of file QuEST_gpu.cu.

                                                                                                               {
     
     cudaDeviceSynchronize();
     cudaMemcpy(
         qureg.deviceStateVec.real + startInd, 
         reals,
         numAmps * sizeof(*(qureg.deviceStateVec.real)), 
         cudaMemcpyHostToDevice);
     cudaMemcpy(
         qureg.deviceStateVec.imag + startInd,
         imags,
         numAmps * sizeof(*(qureg.deviceStateVec.imag)), 
         cudaMemcpyHostToDevice);
 }

References Qureg::deviceStateVec.

Referenced by initStateFromAmps(), setAmps(), and setDensityAmps().

◆ statevec_setWeightedQureg()

void statevec_setWeightedQureg	(	Complex	fac1,
		Qureg	qureg1,
		Complex	fac2,
		Qureg	qureg2,
		Complex	facOut,
		Qureg	out
	)

Definition at line 3175 of file QuEST_gpu.cu.

                                                                                                                   {
  
     long long int numAmpsToVisit = qureg1.numAmpsPerChunk;
  
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil(numAmpsToVisit / (qreal) threadsPerCUDABlock);
     statevec_setWeightedQuregKernel<<<CUDABlocks, threadsPerCUDABlock>>>(
         fac1, qureg1, fac2, qureg2, facOut, out
     );
 }

References Qureg::numAmpsPerChunk, and qreal.

Referenced by setWeightedQureg(), and statevec_applyPauliSum().

◆ statevec_setWeightedQuregKernel()

__global__ void statevec_setWeightedQuregKernel	(	Complex	fac1,
		Qureg	qureg1,
		Complex	fac2,
		Qureg	qureg2,
		Complex	facOut,
		Qureg	out
	)

Definition at line 3143 of file QuEST_gpu.cu.

                                                                                                                                    {
  
     long long int ampInd = blockIdx.x*blockDim.x + threadIdx.x;
     long long int numAmpsToVisit = qureg1.numAmpsPerChunk;
     if (ampInd >= numAmpsToVisit) return;
  
     qreal *vecRe1 = qureg1.deviceStateVec.real;
     qreal *vecIm1 = qureg1.deviceStateVec.imag;
     qreal *vecRe2 = qureg2.deviceStateVec.real;
     qreal *vecIm2 = qureg2.deviceStateVec.imag;
     qreal *vecReOut = out.deviceStateVec.real;
     qreal *vecImOut = out.deviceStateVec.imag;
  
     qreal facRe1 = fac1.real; 
     qreal facIm1 = fac1.imag;
     qreal facRe2 = fac2.real;
     qreal facIm2 = fac2.imag;
     qreal facReOut = facOut.real;
     qreal facImOut = facOut.imag;
  
     qreal re1,im1, re2,im2, reOut,imOut;
     long long int index = ampInd;
  
     re1 = vecRe1[index]; im1 = vecIm1[index];
     re2 = vecRe2[index]; im2 = vecIm2[index];
     reOut = vecReOut[index];
     imOut = vecImOut[index];
  
     vecReOut[index] = (facReOut*reOut - facImOut*imOut) + (facRe1*re1 - facIm1*im1) + (facRe2*re2 - facIm2*im2);
     vecImOut[index] = (facReOut*imOut + facImOut*reOut) + (facRe1*im1 + facIm1*re1) + (facRe2*im2 + facIm2*re2);
 }

References Qureg::deviceStateVec, Complex::imag, Qureg::numAmpsPerChunk, qreal, and Complex::real.

◆ statevec_swapQubitAmps()

void statevec_swapQubitAmps	(	Qureg	qureg,
		int	qb1,
		int	qb2
	)

Definition at line 1769 of file QuEST_gpu.cu.

 {
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk>>2)/threadsPerCUDABlock);
     statevec_swapQubitAmpsKernel<<<CUDABlocks, threadsPerCUDABlock>>>(qureg, qb1, qb2);
 }

References Qureg::numAmpsPerChunk, and qreal.

Referenced by agnostic_applyQFT(), and swapGate().

◆ statevec_swapQubitAmpsKernel()

__global__ void statevec_swapQubitAmpsKernel	(	Qureg	qureg,
		int	qb1,
		int	qb2
	)

Definition at line 1743 of file QuEST_gpu.cu.

                                                                             {
  
     qreal *reVec = qureg.deviceStateVec.real;
     qreal *imVec = qureg.deviceStateVec.imag;
     
     long long int numTasks = qureg.numAmpsPerChunk >> 2; // each iteration updates 2 amps and skips 2 amps
     long long int thisTask = blockIdx.x*blockDim.x + threadIdx.x;
     if (thisTask>=numTasks) return;
     
     long long int ind00, ind01, ind10;
     qreal re01, re10, im01, im10;
   
     // determine ind00 of |..0..0..>, |..0..1..> and |..1..0..>
     ind00 = insertTwoZeroBits(thisTask, qb1, qb2);
     ind01 = flipBit(ind00, qb1);
     ind10 = flipBit(ind00, qb2);
  
     // extract statevec amplitudes 
     re01 = reVec[ind01]; im01 = imVec[ind01];
     re10 = reVec[ind10]; im10 = imVec[ind10];
  
     // swap 01 and 10 amps
     reVec[ind01] = re10; reVec[ind10] = re01;
     imVec[ind01] = im10; imVec[ind10] = im01;
 }

References Qureg::deviceStateVec, flipBit(), insertTwoZeroBits(), Qureg::numAmpsPerChunk, and qreal.

◆ statevec_unitary()

void statevec_unitary	(	Qureg	qureg,
		int	targetQubit,
		ComplexMatrix2	u
	)

Definition at line 972 of file QuEST_gpu.cu.

 {
     int threadsPerCUDABlock, CUDABlocks;
     threadsPerCUDABlock = 128;
     CUDABlocks = ceil((qreal)(qureg.numAmpsPerChunk>>1)/threadsPerCUDABlock);
     statevec_unitaryKernel<<<CUDABlocks, threadsPerCUDABlock>>>(qureg, targetQubit, argifyMatrix2(u));
 }

References Qureg::numAmpsPerChunk, and qreal.

Referenced by applyMatrix2(), and unitary().

◆ statevec_unitaryKernel()

__global__ void statevec_unitaryKernel	(	Qureg	qureg,
		int	targetQubit,
		ArgMatrix2	u
	)

fix – no necessary for GPU version

Definition at line 919 of file QuEST_gpu.cu.

                                                                                   {
     // ----- sizes
     long long int sizeBlock,                                           // size of blocks
          sizeHalfBlock;                                       // size of blocks halved
     // ----- indices
     long long int thisBlock,                                           // current block
          indexUp,indexLo;                                     // current index and corresponding index in lower half block
  
     // ----- temp variables
     qreal   stateRealUp,stateRealLo,                             // storage for previous state values
            stateImagUp,stateImagLo;                             // (used in updates)
     // ----- temp variables
     long long int thisTask;                                   // task based approach for expose loop with small granularity
     long long int numTasks=qureg.numAmpsPerChunk>>1;
  
     sizeHalfBlock = 1LL << targetQubit;                               // size of blocks halved
     sizeBlock     = 2LL * sizeHalfBlock;                           // size of blocks
  
     // ---------------------------------------------------------------- //
     //            rotate                                                //
     // ---------------------------------------------------------------- //
  
     qreal *stateVecReal = qureg.deviceStateVec.real;
     qreal *stateVecImag = qureg.deviceStateVec.imag;
  
     thisTask = blockIdx.x*blockDim.x + threadIdx.x;
     if (thisTask>=numTasks) return;
  
     thisBlock   = thisTask / sizeHalfBlock;
     indexUp     = thisBlock*sizeBlock + thisTask%sizeHalfBlock;
     indexLo     = indexUp + sizeHalfBlock;
  
     // store current state vector values in temp variables
     stateRealUp = stateVecReal[indexUp];
     stateImagUp = stateVecImag[indexUp];
  
     stateRealLo = stateVecReal[indexLo];
     stateImagLo = stateVecImag[indexLo];
  
     // state[indexUp] = u00 * state[indexUp] + u01 * state[indexLo]
     stateVecReal[indexUp] = u.r0c0.real*stateRealUp - u.r0c0.imag*stateImagUp 
         + u.r0c1.real*stateRealLo - u.r0c1.imag*stateImagLo;
     stateVecImag[indexUp] = u.r0c0.real*stateImagUp + u.r0c0.imag*stateRealUp 
         + u.r0c1.real*stateImagLo + u.r0c1.imag*stateRealLo;
  
     // state[indexLo] = u10  * state[indexUp] + u11 * state[indexLo]
     stateVecReal[indexLo] = u.r1c0.real*stateRealUp  - u.r1c0.imag*stateImagUp 
         + u.r1c1.real*stateRealLo  -  u.r1c1.imag*stateImagLo;
     stateVecImag[indexLo] = u.r1c0.real*stateImagUp + u.r1c0.imag*stateRealUp 
         + u.r1c1.real*stateImagLo + u.r1c1.imag*stateRealLo;
 }

References Qureg::deviceStateVec, Qureg::numAmpsPerChunk, and qreal.

◆ swapDouble()

void swapDouble	(	qreal **	a,
		qreal **	b
	)

Definition at line 2057 of file QuEST_gpu.cu.

                                      {
     qreal *temp;
     temp = *a;
     *a = *b;
     *b = temp;
 }

References qreal.

Referenced by densmatr_calcExpecDiagonalOp(), densmatr_calcFidelity(), densmatr_calcHilbertSchmidtDistance(), densmatr_calcInnerProduct(), densmatr_calcPurity(), densmatr_findProbabilityOfZero(), statevec_calcExpecDiagonalOp(), statevec_calcInnerProduct(), and statevec_findProbabilityOfZero().

Macros

Functions

Detailed Description

Macro Definition Documentation

◆ DEBUG

◆ REDUCE_SHARED_SIZE

Function Documentation

◆ agnostic_createDiagonalOp()

◆ agnostic_destroyDiagonalOp()

◆ agnostic_initDiagonalOpFromPauliHamil()

◆ agnostic_initDiagonalOpFromPauliHamilKernel()

◆ agnostic_setDiagonalOpElems()

◆ agnostic_syncDiagonalOp()

◆ copySharedReduceBlock()

◆ densmatr_applyDiagonalOp()

◆ densmatr_applyDiagonalOpKernel()

◆ densmatr_calcExpecDiagonalOp()

◆ densmatr_calcExpecDiagonalOpKernel()

◆ densmatr_calcFidelity()

◆ densmatr_calcFidelityKernel()

◆ densmatr_calcHilbertSchmidtDistance()

◆ densmatr_calcHilbertSchmidtDistanceSquaredKernel()

◆ densmatr_calcInnerProduct()

◆ densmatr_calcInnerProductKernel()

◆ densmatr_calcProbOfAllOutcomes()

◆ densmatr_calcProbOfAllOutcomesKernel()

◆ densmatr_calcProbOfOutcome()

◆ densmatr_calcPurity()

◆ densmatr_calcPurityKernel()

◆ densmatr_calcTotalProb()

◆ densmatr_collapseToKnownProbOutcome()

◆ densmatr_collapseToKnownProbOutcomeKernel()

◆ densmatr_findProbabilityOfZero()

◆ densmatr_findProbabilityOfZeroKernel()

◆ densmatr_initClassicalState()

◆ densmatr_initClassicalStateKernel()

◆ densmatr_initPlusState()

◆ densmatr_initPlusStateKernel()

◆ densmatr_initPureState()

◆ densmatr_initPureStateKernel()

◆ densmatr_mixDamping()

◆ densmatr_mixDampingKernel()

◆ densmatr_mixDensityMatrix()

◆ densmatr_mixDensityMatrixKernel()

◆ densmatr_mixDephasing()

◆ densmatr_mixDephasingKernel()

◆ densmatr_mixDepolarising()

◆ densmatr_mixDepolarisingKernel()

◆ densmatr_mixTwoQubitDephasing()

◆ densmatr_mixTwoQubitDephasingKernel()

◆ densmatr_mixTwoQubitDepolarising()

◆ densmatr_mixTwoQubitDepolarisingKernel()

◆ densmatr_oneQubitDegradeOffDiagonal()

◆ extractBit()

◆ flipBit()

◆ getBitMaskParity()

◆ getNumReductionLevels()

◆ GPUExists()

◆ insertTwoZeroBits()

◆ insertZeroBit()

◆ insertZeroBits()

◆ log2Int()

◆ reduceBlock()

◆ statevec_applyDiagonalOp()

◆ statevec_applyDiagonalOpKernel()

◆ statevec_applyMultiVarPhaseFuncOverrides()

◆ statevec_applyMultiVarPhaseFuncOverridesKernel()

◆ statevec_applyParamNamedPhaseFuncOverrides()

◆ statevec_applyParamNamedPhaseFuncOverridesKernel()

◆ statevec_applyPhaseFuncOverrides()

◆ statevec_applyPhaseFuncOverridesKernel()

◆ statevec_calcExpecDiagonalOp()

◆ statevec_calcExpecDiagonalOpKernel()

◆ statevec_calcInnerProduct()

◆ statevec_calcInnerProductKernel()

◆ statevec_calcProbOfAllOutcomes()

◆ statevec_calcProbOfAllOutcomesKernel()

◆ statevec_calcProbOfOutcome()

◆ statevec_calcTotalProb()

◆ statevec_cloneQureg()