File Analyzer Agent

The File Analyzer Agent provides comprehensive analysis of file contents, structure, and metadata. It automatically detects data types, validates quality, and extracts meaningful insights from various file formats.

Quick Start

from erdo.actions import bot

# Analyze a CSV file
result = bot.invoke(
    bot_name="file analyzer",
    parameters={
        "resource": "sales_data.csv"
    }
)

Features

Multi-Format Support

Supports CSV, Excel, JSON, Parquet, and more

Data Profiling

Comprehensive statistical analysis and profiling

Schema Detection

Automatic schema inference and validation

Quality Assessment

Data quality metrics and issue detection

Supported File Types

Delimited Files: CSV, TSV, pipe-delimited
Spreadsheets: Excel (.xlsx, .xls), Google Sheets
Structured Data: JSON, JSONL, XML, YAML
Columnar Formats: Parquet, ORC, Avro
Databases: SQLite, database dumps

Analysis Output

File Metadata
Column Analysis
Data Quality

{
  "filename": "sales_data.csv",
  "file_size_mb": 2.4,
  "file_type": "csv",
  "encoding": "utf-8",
  "row_count": 10000,
  "column_count": 12,
  "last_modified": "2024-01-15T10:30:00Z"
}

{
  "columns": {
    "sales_date": {
      "dtype": "datetime64[ns]",
      "unique_count": 365,
      "null_count": 0,
      "min": "2023-01-01T00:00:00Z",
      "max": "2023-12-31T23:59:59Z"
    },
    "revenue": {
      "dtype": "float64",
      "unique_count": 8500,
      "null_count": 12,
      "min": 10.50,
      "max": 95000.00,
      "mean": 1250.75
    }
  }
}

{
  "quality_score": 0.92,
  "completeness": 0.95,
  "validity": 0.98,
  "consistency": 0.89,
  "issues": [
    {
      "type": "missing_values",
      "column": "customer_email",
      "count": 25,
      "severity": "low"
    }
  ]
}

Configuration Options

Basic File Analysis

# Simple file analysis
result = bot.invoke(
    bot_name="file analyzer",
    parameters={
        "resource": "data.csv"
    }
)

Excel Sheet Selection

# Analyze specific Excel sheet
result = bot.invoke(
    bot_name="file analyzer",
    parameters={
        "resource": "workbook.xlsx",
        "sheet_name": "Q4_Sales"
    }
)

Custom Analysis Options

# Advanced analysis with options
result = bot.invoke(
    bot_name="file analyzer",
    parameters={
        "resource": "large_dataset.csv",
        "sample_size": 10000,
        "profile_level": "detailed",
        "detect_outliers": True
    }
)

Use Cases

Data Discovery

Understand new datasets quickly
Identify data types and patterns
Assess data quality before processing

Migration Planning

Analyze source data structure
Identify potential migration issues
Plan data transformation strategies

Quality Monitoring

Regular data quality assessments
Track data drift over time
Automated quality reporting

Performance Features

Streaming Analysis: Handles large files efficiently
Incremental Processing: Only analyzes changed portions
Memory Optimization: Smart sampling for large datasets
Parallel Processing: Concurrent analysis of multiple files

Best Practices

File Preparation
Analysis Optimization
Quality Management

Use consistent file naming conventions - Ensure proper encoding (UTF-8 recommended) - Include headers in structured files - Document file sources and update schedules

Get Started

Core Concepts

Testing & Validation

Examples & Use Cases

Python SDK

TypeScript SDK

CLI Tools

Pre-built Agents

Advanced

Integrations

File Analyzer Agent

File Analyzer Agent

Quick Start

Features

Multi-Format Support

Data Profiling

Schema Detection

Quality Assessment

Supported File Types

Analysis Output

Configuration Options

Use Cases

Data Discovery

Migration Planning

Quality Monitoring

Performance Features

Best Practices

Get Started

Core Concepts

Testing & Validation

Examples & Use Cases

Python SDK

TypeScript SDK

CLI Tools

Pre-built Agents

Advanced

Integrations

​File Analyzer Agent

​Quick Start

​Features

Multi-Format Support

Data Profiling

Schema Detection

Quality Assessment

​Supported File Types

​Analysis Output

​Configuration Options

​Use Cases

​Data Discovery

​Migration Planning

​Quality Monitoring

​Performance Features

​Best Practices

File Analyzer Agent

Quick Start

Features

Supported File Types

Analysis Output

Configuration Options

Use Cases

Data Discovery

Migration Planning

Quality Monitoring

Performance Features

Best Practices