ADOLF KNOWLEDGE — Раздел 2: Источники данных
Проект: Корпоративная база знаний с RAGМодуль: Knowledge / Data Sources
Версия: 1.1
Дата: Январь 2026
2.1. Типы источников данных
Поддерживаемые форматы
| Формат | Расширения | Метод обработки | Примечания |
|---|---|---|---|
| PDF (текст) | .pdf | pdfplumber | Текстовые документы |
| PDF (скан) | .pdf | OpenAI Vision OCR | Сканированные документы |
| Word | .docx | python-docx | Документы MS Word |
| Excel | .xlsx, .xls | pandas + openpyxl | Таблицы → Markdown |
| Markdown | .md | Без конвертации | Готовые документы |
| Text | .txt | Без конвертации | Простой текст |
| CSV | .csv | pandas | Табличные данные |
Ограничения
| Параметр | Значение |
|---|---|
| Максимальный размер файла | 50 МБ |
| Поддержка изображений | Только OCR, не индексируются |
| Поддержка видео | Не поддерживается |
2.2. Категории документов
Список категорий
| Категория | Описание | Примеры |
|---|---|---|
product | Информация о товарах | Каталоги, размерные сетки, составы |
regulation | Регламенты и инструкции | Процедуры возврата, правила работы |
contract | Договорная документация | Договоры с поставщиками |
finance | Финансовые документы | Отчёты, P&L, бюджеты |
analytics | Аналитика | Отчёты по продажам |
hr | Кадровые документы | Должностные инструкции |
logistics | Логистика | Регламенты склада |
marketing | Маркетинг | Рекламные материалы |
technical | Техническая документация | API, интеграции |
other | Прочее | Не классифицированные |
Автоматическая классификация
2.3. Уровни доступа
Иерархия доступа
| Уровень | Роли с доступом | Типичные документы |
|---|---|---|
staff | Все | Базовые инструкции, каталоги товаров |
manager | Manager, Senior, Director, Admin | Регламенты, рабочие инструкции |
senior | Senior, Director, Admin | Договоры, KPI, аналитика |
director | Director, Admin | Финансы, P&L, стратегия |
administrator | Admin | Системные настройки |
Правило фильтрации
2.4. Привязка к брендам
Значения brand_id
| Значение | Описание |
|---|---|
ohana_market | Документы бренда Охана Маркет |
ohana_kids | Документы бренда Охана Кидс |
all | Общие документы для всех брендов |
Правило фильтрации по бренду
2.5. YAML-заголовок документа
Структура
Обязательные поля
| Поле | Тип | Описание |
|---|---|---|
title | string | Название документа |
category | enum | Категория документа |
access_level | enum | Уровень доступа |
brand_id | enum | Привязка к бренду |
Опциональные поля
| Поле | Тип | Описание |
|---|---|---|
source_file | string | Имя исходного файла |
uploaded_by | string | Кто загрузил |
uploaded_at | datetime | Дата загрузки |
version | int | Версия документа |
tags | array | Теги для поиска |
2.6. Процесс загрузки
Диаграмма
2.7. Валидация документов
Правила валидации
| Правило | Условие | Действие при нарушении |
|---|---|---|
| Размер | ≤ 50 МБ | Карантин |
| Формат | Поддерживаемый | Карантин |
| Кодировка | UTF-8 | Попытка конвертации |
| YAML | Валидный синтаксис | Карантин |
| Поля | Все обязательные | Карантин |
Карантин
Документы, не прошедшие валидацию, помещаются в карантин:- Сохраняются в
/quarantine - Записываются в таблицу
quarantine - Требуют ручной обработки администратором
Приложение А: Примеры документов
Каталог товаров (product)
Регламент (regulation)
Документ подготовлен: Январь 2026
Версия: 1.1
Статус: Согласовано