Skip to main content

ADOLF KNOWLEDGE — Раздел 2: Источники данных

Проект: Корпоративная база знаний с RAG
Модуль: Knowledge / Data Sources
Версия: 1.1
Дата: Январь 2026

2.1. Типы источников данных

Поддерживаемые форматы

ФорматРасширенияМетод обработкиПримечания
PDF (текст).pdfpdfplumberТекстовые документы
PDF (скан).pdfOpenAI Vision OCRСканированные документы
Word.docxpython-docxДокументы MS Word
Excel.xlsx, .xlspandas + openpyxlТаблицы → Markdown
Markdown.mdБез конвертацииГотовые документы
Text.txtБез конвертацииПростой текст
CSV.csvpandasТабличные данные

Ограничения

ПараметрЗначение
Максимальный размер файла50 МБ
Поддержка изображенийТолько OCR, не индексируются
Поддержка видеоНе поддерживается

2.2. Категории документов

Список категорий

КатегорияОписаниеПримеры
productИнформация о товарахКаталоги, размерные сетки, составы
regulationРегламенты и инструкцииПроцедуры возврата, правила работы
contractДоговорная документацияДоговоры с поставщиками
financeФинансовые документыОтчёты, P&L, бюджеты
analyticsАналитикаОтчёты по продажам
hrКадровые документыДолжностные инструкции
logisticsЛогистикаРегламенты склада
marketingМаркетингРекламные материалы
technicalТехническая документацияAPI, интеграции
otherПрочееНе классифицированные

Автоматическая классификация

CLASSIFICATION_PROMPT = """
Определи категорию документа на основе его содержания.

Документ: {text_preview}

Доступные категории:
- product: каталоги, размерные сетки, характеристики товаров
- regulation: регламенты, инструкции, процедуры
- contract: договоры, соглашения
- finance: финансовые отчёты, бюджеты
- analytics: аналитические отчёты
- hr: кадровые документы
- logistics: логистика, склад
- marketing: маркетинг, реклама
- technical: техническая документация
- other: прочее

Ответ в JSON: {"category": "..."}
"""

2.3. Уровни доступа

Иерархия доступа

УровеньРоли с доступомТипичные документы
staffВсеБазовые инструкции, каталоги товаров
managerManager, Senior, Director, AdminРегламенты, рабочие инструкции
seniorSenior, Director, AdminДоговоры, KPI, аналитика
directorDirector, AdminФинансы, P&L, стратегия
administratorAdminСистемные настройки

Правило фильтрации

Пользователь с ролью R имеет доступ к документам,
где access_level <= R в иерархии ролей.

2.4. Привязка к брендам

Значения brand_id

ЗначениеОписание
ohana_marketДокументы бренда Охана Маркет
ohana_kidsДокументы бренда Охана Кидс
allОбщие документы для всех брендов

Правило фильтрации по бренду

Пользователь с brand_id = B имеет доступ к документам,
где document.brand_id IN (B, 'all').

Пользователь с brand_id = 'all' имеет доступ ко всем документам.

2.5. YAML-заголовок документа

Структура

---
title: "Размерная сетка Охана Маркет 2026"
category: product
access_level: staff
brand_id: ohana_market
source_file: "razmer_setka_om_2026.xlsx"
uploaded_by: admin
uploaded_at: "2026-01-10T14:30:00Z"
version: 1
---

Обязательные поля

ПолеТипОписание
titlestringНазвание документа
categoryenumКатегория документа
access_levelenumУровень доступа
brand_idenumПривязка к бренду

Опциональные поля

ПолеТипОписание
source_filestringИмя исходного файла
uploaded_bystringКто загрузил
uploaded_atdatetimeДата загрузки
versionintВерсия документа
tagsarrayТеги для поиска

2.6. Процесс загрузки

Диаграмма


2.7. Валидация документов

Правила валидации

ПравилоУсловиеДействие при нарушении
Размер≤ 50 МБКарантин
ФорматПоддерживаемыйКарантин
КодировкаUTF-8Попытка конвертации
YAMLВалидный синтаксисКарантин
ПоляВсе обязательныеКарантин

Карантин

Документы, не прошедшие валидацию, помещаются в карантин:
  • Сохраняются в /quarantine
  • Записываются в таблицу quarantine
  • Требуют ручной обработки администратором

Приложение А: Примеры документов

Каталог товаров (product)

---
title: "Каталог Охана Маркет Q1 2026"
category: product
access_level: staff
brand_id: ohana_market
---

# Каталог товаров Q1 2026

## Платья

| Артикул | Название | Состав | Размеры |
|---------|----------|--------|---------|
| OM-001 | Платье летнее | 95% хлопок, 5% эластан | 42-50 |
| OM-002 | Платье вечернее | 100% полиэстер | 42-48 |

Регламент (regulation)

---
title: "Регламент обработки возвратов"
category: regulation
access_level: manager
brand_id: all
---

# Регламент обработки возвратов

## 1. Общие положения
...

Документ подготовлен: Январь 2026
Версия: 1.1
Статус: Согласовано