API Reference

Main Interface

`compute_dim(data)`

Compute the effective dimensionality of the given data using the specified method.

Parameters:

data : Union[np.ndarray, List[np.ndarray]] Input data. Can be a single numpy array or a list of numpy arrays. Returns: dict A dictionary containing the results of the effective dimensionality computation.

Source code in src/effdim/api.py

def compute_dim(data: Union[np.ndarray, List[np.ndarray]]) -> Dict[str, Any]:
    """
    Compute the effective dimensionality of the given data using the specified method.

    Parameters:
    -----------
    data : Union[np.ndarray, List[np.ndarray]]
        Input data. Can be a single numpy array or a list of numpy arrays.
    Returns: dict
        A dictionary containing the results of the effective dimensionality computation.
    """
    results: Dict[str, Any] = {}

    # Getting the data and then converting to numpy array if it's a list
    if isinstance(data, list):
        data = np.vstack(data)
    elif not isinstance(data, np.ndarray):
        raise ValueError("Input data must be a numpy array or a list of numpy arrays.")

    # Ensure the data is centered
    data = _ensure_centered(data)
    s = _do_svd(data)

    # gettinf the eigenvalues from the singular values for the covariance matrix
    eigenvalues = (s**2) / (data.shape[0] - 1)

    # Total variance
    total_variance = np.sum(eigenvalues)

    #  getting the probabilities
    if total_variance == 0:
        probabilities = np.zeros_like(eigenvalues)
    else:
        probabilities = eigenvalues / total_variance

    # Computing various effective dimensionalities
    results["pca_explained_variance_95"] = pca_explained_variance(
        eigenvalues, threshold=0.95
    )
    results["participation_ratio"] = participation_ratio(eigenvalues)
    results["shannon_entropy"] = shannon_entropy(probabilities)

    # Renyi effective dimensionalities for alpha = 2,3,4,5
    for i in range(2, 6):
        results[f"renyi_eff_dimensionality_alpha_{i}"] = renyi_eff_dimensionality(
            probabilities, alpha=i
        )

    # Geometric Dimensions
    results["geometric_mean_eff_dimensionality"] = geometric_mean_eff_dimensionality(
        probabilities
    )

    # Compute KNN distances once for the largest k needed (MLE uses k=10 by default)
    # We use k=10 as a safe upper bound for default usage.
    # Convert data to float32 contiguous array once for geometry functions
    data_f32 = np.ascontiguousarray(data, dtype=np.float32)

    knn_dist_sq = compute_knn_distances(data_f32, k=10)

    results["mle_dimensionality"] = mle_dimensionality(
        data_f32, precomputed_knn_dist_sq=knn_dist_sq
    )
    results["two_nn_dimensionality"] = two_nn_dimensionality(
        data_f32, precomputed_knn_dist_sq=knn_dist_sq
    )
    results["danco_dimensionality"] = danco_dimensionality(
        data_f32, precomputed_knn_dist_sq=knn_dist_sq
    )
    results["mind_mli_dimensionality"] = mind_mli_dimensionality(
        data_f32, precomputed_knn_dist_sq=knn_dist_sq
    )
    results["mind_mlk_dimensionality"] = mind_mlk_dimensionality(
        data_f32, precomputed_knn_dist_sq=knn_dist_sq
    )
    results["ess_dimensionality"] = ess_dimensionality(
        data_f32, precomputed_knn_dist_sq=knn_dist_sq
    )
    results["tle_dimensionality"] = tle_dimensionality(
        data_f32, precomputed_knn_dist_sq=knn_dist_sq
    )
    results["gmst_dimensionality"] = gmst_dimensionality(data_f32)

    return results

Metrics (Spectral)

`geometric_mean_eff_dimensionality(spectrum)`

Compute the Geometric Mean Effective Dimensionality of the given spectrum.

Parameters:

spectrum : np.ndarray Array of eigenvalues.

Returns:

float Geometric Mean Effective Dimensionality value.

Source code in src/effdim/metrics.py

def geometric_mean_eff_dimensionality(spectrum: np.ndarray) -> float:
    """
    Compute the Geometric Mean Effective Dimensionality of the given spectrum.

    Parameters:
    -----------
    spectrum : np.ndarray
        Array of eigenvalues.

    Returns:
    --------
    float
        Geometric Mean Effective Dimensionality value.
    """
    positive_spectrum = spectrum[spectrum > 0]
    if len(positive_spectrum) == 0:
        return 0.0

    # Calculate the arithmetic mean of the positive spectrum
    am = np.mean(positive_spectrum)
    # Calculate the geometric mean of the positive spectrum
    gm = np.exp(np.mean(np.log(positive_spectrum)))
    d_eff = (am / gm)

    return d_eff

`participation_ratio(spectrum)`

Compute the Participation Ratio (PR) of the given spectrum.

Parameters:

spectrum : np.ndarray Array of eigenvalues.

Returns:

float Participation Ratio value.

Source code in src/effdim/metrics.py

def participation_ratio(spectrum: np.ndarray) -> float:
    """
    Compute the Participation Ratio (PR) of the given spectrum.

    Parameters:
    -----------
    spectrum : np.ndarray
        Array of eigenvalues.

    Returns:
    --------
    float
        Participation Ratio value.
    """
    numerator = (np.sum(spectrum)) ** 2
    denominator = np.sum(spectrum ** 2)
    if denominator == 0:
        return 0.0
    return numerator / denominator

`pca_explained_variance(spectrum, threshold=0.95)`

Compute the number of principal components required to explain a given threshold of variance.

Parameters:

spectrum : np.ndarray Array of eigenvalues (explained variance) from PCA. threshold : float The cumulative variance threshold to reach (between 0 and 1).

Returns:

int Number of principal components needed to reach the threshold.

Source code in src/effdim/metrics.py

def pca_explained_variance(spectrum: np.ndarray, threshold: float = 0.95) -> int:
    """
    Compute the number of principal components required to explain a given
    threshold of variance.

    Parameters:
    -----------
    spectrum : np.ndarray
        Array of eigenvalues (explained variance) from PCA.
    threshold : float
        The cumulative variance threshold to reach (between 0 and 1).

    Returns:
    --------
    int
        Number of principal components needed to reach the threshold.
    """
    total_variance = np.sum(spectrum)
    cumulative_variance = np.cumsum(spectrum)
    explained_variance_ratio = cumulative_variance / total_variance

    num_components = int(np.searchsorted(explained_variance_ratio, threshold) + 1)
    return num_components

`renyi_eff_dimensionality(probabilities, alpha)`

Compute the Rényi Effective Dimensionality of the given probability distribution.

Parameters:

probabilities : np.ndarray Array of probabilities. alpha : float Order of the Rényi entropy (alpha > 0 and alpha != 1).

Returns:

float Rényi Effective Dimensionality value.

Source code in src/effdim/metrics.py

def renyi_eff_dimensionality(probabilities: np.ndarray, alpha: float) -> float:
    """
    Compute the Rényi Effective Dimensionality of the given probability distribution.

    Parameters:
    -----------
    probabilities : np.ndarray
        Array of probabilities.
    alpha : float
        Order of the Rényi entropy (alpha > 0 and alpha != 1).

    Returns:
    --------
    float
        Rényi Effective Dimensionality value.
    """
    if alpha <= 0 or alpha == 1:
        raise ValueError("Alpha must be greater than 0 and not equal to 1.")

    sum_probs_alpha = np.sum(probabilities ** alpha)
    if sum_probs_alpha == 0:
        return 0.0

    d_eff = sum_probs_alpha ** (1 / (1 - alpha))
    return d_eff

`shannon_entropy(probabilities)`

Compute the Shannon Entropy of the given probability distribution.

Parameters:

probabilities : np.ndarray Array of probabilities.

Returns:

float Shannon Entropy value.

Source code in src/effdim/metrics.py

def shannon_entropy(probabilities: np.ndarray) -> float:
    """
    Compute the Shannon Entropy of the given probability distribution.

    Parameters:
    -----------
    probabilities : np.ndarray
        Array of probabilities.

    Returns:
    --------
    float
        Shannon Entropy value.
    """
    # Filter out zero probabilities to avoid log(0)
    probabilities = probabilities[probabilities > 0]
    entropy = -np.sum(probabilities * np.log(probabilities))
    d_eff = np.exp(entropy)
    return d_eff

Geometry (Spatial)

`compute_knn_distances(data, k)`

Compute k nearest neighbors distances for each point in data. Returns squared distances. Excludes the point itself (distance 0).