Python: module sega_learn.utils.makeData

sega_learn.utils.makeData

Modules

scipy.linalg

numpy

Functions

make_blobs(n_samples=100, n_features=2, centers=None, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random_state=None): Generates isotropic Gaussian blobs for clustering.

Args:
    n_samples (int or array-like, optional): Total number of samples if int, or number of samples per cluster if array-like (default is 100).
    n_features (int, optional): Number of features (default is 2).
    centers (int or array-like, optional): Number of centers to generate, or fixed center locations. If None, 3 centers are generated (default is None).
    cluster_std (float or array-like, optional): Standard deviation of the clusters (default is 1.0).
    center_box (tuple of float, optional): Bounding box for each cluster center when centers are generated at random (default is (-10.0, 10.0)).
    shuffle (bool, optional): Whether to shuffle the samples (default is True).
    random_state (int or None, optional): Random seed (default is None).

Returns:
    X (np.ndarray): Generated samples of shape (n_samples, n_features).
    y (np.ndarray): Integer labels for cluster membership of each sample of shape (n_samples,).
    centers (np.ndarray): Centers of each cluster of shape (n_centers, n_features).

make_classification(n_samples=100, n_features=20, n_informative=2, n_redundant=2, n_repeated=0, n_classes=2, n_clusters_per_class=2, weights=None, flip_y=0.01, class_sep=1.0, hypercube=True, shift=0.0, scale=1.0, shuffle=True, random_state=None): Generates a random n-class classification problem.

Args:
    n_samples (int, optional): Number of samples (default is 100).
    n_features (int, optional): Total number of features (default is 20).
    n_informative (int, optional): Number of informative features (default is 2).
    n_redundant (int, optional): Number of redundant features (default is 2).
    n_repeated (int, optional): Number of duplicated features (default is 0).
    n_classes (int, optional): Number of classes (default is 2).
    n_clusters_per_class (int, optional): Number of clusters per class (default is 2).
    weights (array-like, optional): Proportions of samples assigned to each class (default is None).
    flip_y (float, optional): Fraction of samples whose class is randomly exchanged (default is 0.01).
    class_sep (float, optional): Factor multiplying the hypercube size (default is 1.0).
    hypercube (bool, optional): If True, clusters are placed on the vertices of a hypercube (default is True).
    shift (float, optional): Shift features by the specified value (default is 0.0).
    scale (float, optional): Multiply features by the specified value (default is 1.0).
    shuffle (bool, optional): Shuffle the samples and features (default is True).
    random_state (int or None, optional): Random seed (default is None).

Returns:
    X (np.ndarray): Generated samples of shape (n_samples, n_features).
    y (np.ndarray): Integer labels for class membership of each sample of shape (n_samples,).

make_regression(n_samples=100, n_features=100, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None): Generates a random regression problem.

Args:
    n_samples (int, optional): Number of samples (default is 100).
    n_features (int, optional): Number of features (default is 100).
    n_informative (int, optional): Number of informative features used to build the linear model (default is 10).
    n_targets (int, optional): Number of regression targets (default is 1).
    bias (float, optional): Bias term in the underlying linear model (default is 0.0).
    effective_rank (int or None, optional): Approximate dimension of the data matrix (default is None).
    tail_strength (float, optional): Relative importance of the noisy tail of the singular values profile (default is 0.5).
    noise (float, optional): Standard deviation of the Gaussian noise applied to the output (default is 0.0).
    shuffle (bool, optional): Whether to shuffle the samples and features (default is True).
    coef (bool, optional): If True, returns the coefficients of the underlying linear model (default is False).
    random_state (int or None, optional): Random seed (default is None).

Returns:
    X (np.ndarray): Input samples of shape (n_samples, n_features).
    y (np.ndarray): Output values of shape (n_samples,) or (n_samples, n_targets).
    coef (np.ndarray, optional): Coefficients of the underlying linear model of shape (n_features,) or (n_features, n_targets). Only returned if coef=True.

make_time_series(n_samples=100, n_timestamps=50, n_features=1, trend='linear', seasonality='sine', seasonality_period=None, noise=0.1, random_state=None): Generates synthetic time series data.

Args:
    n_samples (int, optional): Number of time series samples (default is 100).
    n_timestamps (int, optional): Number of timestamps per sample (default is 50).
    n_features (int, optional): Number of features per timestamp (default is 1).
    trend (str, optional): Type of trend ('linear', 'quadratic', or None) (default is 'linear').
    seasonality (str, optional): Type of seasonality ('sine', 'cosine', or None) (default is 'sine').
    seasonality_period (int, optional): Period of the seasonality (default is None, which uses the length of the time series/2).
    noise (float, optional): Standard deviation of Gaussian noise (default is 0.1).
    random_state (int or None, optional): Random seed (default is None).

Returns:
    X (np.ndarray): Time series data of shape (n_samples, n_timestamps, n_features).