tatm
Introduction:
Getting Started
Package Configuration
Examples:
Loading Text Data for LLM Training
Dataset Metadata
Administration:
Metadata Store Setup
API Reference:
tatm
CLI Reference
tatm.data
Data Module API
tatm.config
Config API Reference
tatm.tokenizer
Tokenizer API Reference
Metadata Store API
tatm
Index
Index
A
|
B
|
C
|
D
|
E
|
F
|
G
|
I
|
J
|
L
|
M
|
N
|
O
|
P
|
Q
|
R
|
S
|
T
|
V
A
account (tatm.config.SlurmConfig attribute)
args (tatm.config.MetadataBackendConfig attribute)
as_json() (tatm.data.TatmDataMetadata method)
as_yaml() (tatm.data.TatmDataMetadata method)
B
backend (tatm.config.TatmConfig attribute)
C
conda_env (tatm.config.EnvironmentConfig attribute)
content_field (tatm.data.TatmDataMetadata attribute)
(tatm.tokenizer.engine.ExampleMessage attribute)
corpus_data_dir_parent (tatm.data.TatmDataMetadata attribute)
corpus_separation_strategy (tatm.data.TatmDataMetadata attribute)
corpuses (tatm.data.TatmDataMetadata attribute)
D
data (tatm.tokenizer.engine.ExampleMessage attribute)
data_content (tatm.data.TatmDataMetadata attribute)
dataset_path (tatm.data.TatmDataMetadata attribute)
date_downloaded (tatm.data.TatmDataMetadata attribute)
description (tatm.data.TatmDataMetadata attribute)
download_source (tatm.data.TatmDataMetadata attribute)
E
environment (tatm.config.TatmConfig attribute)
EnvironmentConfig (class in tatm.config)
ExampleMessage (class in tatm.tokenizer.engine)
F
from_directory() (tatm.data.TatmDataMetadata class method)
from_file() (tatm.data.TatmDataMetadata class method)
from_json() (tatm.data.TatmDataMetadata class method)
from_metadata() (tatm.data.TatmData class method)
(tatm.data.TatmTextData class method)
from_metadata_store() (tatm.data.TatmDataMetadata class method)
from_yaml() (tatm.data.TatmDataMetadata class method)
G
get_data() (in module tatm.data)
get_dataset() (in module tatm.data)
get_metadata() (in module tatm.data.metadata_store)
get_source() (tatm.data.TatmData method)
(tatm.data.TatmTextData method)
I
initialize() (tatm.data.TatmData method)
(tatm.data.TatmTextData method)
J
JsonTatmMetadataStoreBackend (class in tatm.data.metadata_store.metadata_backend)
L
load_base_config() (in module tatm.config)
load_config() (in module tatm.config)
lookup() (tatm.data.metadata_store.metadata_backend.JsonTatmMetadataStoreBackend method)
(tatm.data.metadata_store.metadata_backend.TatmMetadataStoreBackend method)
(tatm.data.metadata_store.open_metadata_backend.OpenMetadataTatmMetadataStoreBackend method)
M
metadata_backend (tatm.config.TatmConfig attribute)
MetadataBackendConfig (class in tatm.config)
module
tatm.config
tatm.data
tatm.data.metadata_store
tatm.data.metadata_store.metadata_backend
tatm.data.metadata_store.open_metadata_backend
tatm.tokenizer
tatm.tokenizer.engine
modules (tatm.config.EnvironmentConfig attribute)
N
name (tatm.data.TatmDataMetadata attribute)
num_files() (tatm.data.TatmMemmapDataset method)
num_tokens() (tatm.data.TatmMemmapDataset method)
O
OpenMetadataTatmMetadataStoreBackend (class in tatm.data.metadata_store.open_metadata_backend)
P
partition (tatm.config.SlurmConfig attribute)
Q
qos (tatm.config.SlurmConfig attribute)
R
reset_backend() (in module tatm.data.metadata_store)
run_with_ray() (tatm.tokenizer.engine.TokenizationEngine method)
(tatm.tokenizer.TokenizationEngine method)
S
singularity_image (tatm.config.EnvironmentConfig attribute)
slurm (tatm.config.TatmConfig attribute)
slurm_bin_dir (tatm.config.SlurmConfig attribute)
SlurmConfig (class in tatm.config)
T
tatm.config
module
tatm.data
module
tatm.data.metadata_store
module
tatm.data.metadata_store.metadata_backend
module
tatm.data.metadata_store.open_metadata_backend
module
tatm.tokenizer
module
tatm.tokenizer.engine
module
TatmConfig (class in tatm.config)
TatmData (class in tatm.data)
TatmDataMetadata (class in tatm.data)
TatmMemmapDataset (class in tatm.data)
TatmMetadataStoreBackend (class in tatm.data.metadata_store.metadata_backend)
TatmTextData (class in tatm.data)
to_json() (tatm.data.TatmDataMetadata method)
to_yaml() (tatm.data.TatmDataMetadata method)
TokenizationEngine (class in tatm.tokenizer)
(class in tatm.tokenizer.engine)
tokenized_info (tatm.data.TatmDataMetadata attribute)
torch_collate_fn() (in module tatm.data)
type (tatm.config.MetadataBackendConfig attribute)
V
venv (tatm.config.EnvironmentConfig attribute)