Sobre el corpus · Metodología · Fuentes

Transparencia

Cómo construimos el corpus, qué incluye, qué decisiones tomamos y cómo verificarlo.

1. Qué es laudos.co

laudos.co es un observatorio académico independiente dedicado a construir el corpus completo de arbitraje colombiano e infraestructura de inteligencia jurídica sobre él. El proyecto es operado por Laudos.co Intelligence S.A.S. (en constitución) y forma parte del trabajo de investigación de estadoseguro.co.

A la fecha el corpus contiene 5.447 documentos directamente buscables, distribuidos en 2.660 laudos arbitrales (de las principales Cámaras de Comercio y de arbitraje internacional sobre Colombia) y 2.787 providencias del Consejo de Estado relacionadas con arbitraje (anulaciones, tutelas y decisiones relacionadas), con 533.007 fragmentos vectorizados mediante embeddings BGE-M3.

2. Fuentes integradas

FuenteDocsTipo
Cámara de Comercio de Bogotá2.122Laudo arbitral
Cámara de Comercio de Medellín275Laudo arbitral
Cámara de Comercio de Cali150Laudo arbitral
Universidad Externado67Laudo arbitral
Cámara de Comercio de Cartagena66Laudo arbitral
Arbitraje internacional (italaw)36Laudo arbitral
Cámara de Comercio de Villavicencio15Laudo arbitral
Cámara de Comercio Armenia/Quindío14Laudo arbitral
Cámara de Comercio de Casanare13Laudo arbitral
Consejo de Estado — Sección Tercera2.787Jurisprudencia
  ↳ Anulaciones de laudos287
  ↳ Providencias relacionadas1.123
  ↳ Tutelas1.378

Todas las fuentes son públicas. La descarga se realiza únicamente desde los portales oficiales de cada entidad, respetando el archivo robots.txt y aplicando rate limiting conservador (observación pasiva exclusivamente, sin tráfico intrusivo).

3. Metodología de procesamiento

Cada documento atraviesa el siguiente pipeline reproducible:

  1. Descarga. Crawlers específicos por fuente, todos idempotentes con tracking por hash SHA-256. Se preserva el archivo original sin alteración.
  2. Extracción de texto. PyMuPDF para PDFs nativos; Tesseract con español + inglés como fallback OCR para escaneados.
  3. Segmentación (chunking). Estructurado por secciones (hechos, pretensiones, consideraciones, decisión) cuando es detectable; fallback recursivo con codificación cl100k_base de aproximadamente 800 tokens por chunk.
  4. Extracción de citas. Regex sobre normas (Constitución, Códigos, Leyes) y jurisprudencia (Corte Constitucional, CSJ, CE) combinado con verificación LLM cross-check.
  5. Embeddings. BGE-M3 ejecutado en GPU A100 (Modal). El 100% de los chunks tiene embeddings reales (sin fallback de hashing).
  6. Anonimización. Microsoft Presidio + spaCy con modelo español + reglas custom para Colombia (cédulas, NIT, partes corporativas). Tokens HMAC con sal rotativa y mappings cifrados con AES-256-GCM.
  7. Indexación. DuckDB con extensiones VSS (HNSW) y FTS (stemmer español) sobre las 533.007 unidades.
  8. Inteligencia. Grafo de citas (13.361 nodos, 243.572 aristas), 274 tópicos BERTopic, NER legal, clasificador heurístico de decisión, reranker BGE v2-m3.

4. Decisiones técnicas relevantes

  • D015 · Originales no anonimizados como salida primaria. Los archivos públicos originales se preservan sin modificación. La vista anonimizada es secundaria, expuesta vía /public/search.
  • D017β · ce_tax como sub-corpus separado. Los aproximadamente 80.000 registros de jurisprudencia tributaria del Consejo de Estado no son laudos arbitrales y se mantienen segregados como sub-corpus distinto, fuera del indexado público actual.
  • D019β · ce como sub-corpus integrado al search. Las 2.787 providencias del Consejo de Estado relacionadas con arbitraje (anulaciones, tutelas, providencias) son buscables como tipo de documento distinto a "laudo arbitral", con un filtro explícito en la interfaz de búsqueda.

5. Fuentes pendientes y derechos de petición

Para las Cámaras de Comercio sin publicación digital de laudos, se han elaborado solicitudes formales bajo el derecho fundamental de petición (artículo 23 de la Constitución, Ley 1755 de 2015) en concordancia con la Ley 1712 de 2014. Las cámaras destinatarias incluyen Bucaramanga, Barranquilla, Manizales, Pereira, Cúcuta, Ibagué, Pasto, Villavicencio, Santa Marta, Neiva, Armenia y Tunja. El estado del envío y la respuesta de cada solicitud se mantienen en un tracker interno y será publicado cuando se reciban las respuestas.

6. Métricas de calidad

  • Hit@10 (retrieval): 90% sobre eval pool de 5K queries con gold standard.
  • MRR (Mean Reciprocal Rank): 0,77; mediana de rank = 1.
  • Faithfulness: 0% de alucinaciones puras en el endpoint /ask.
  • Cobertura de embeddings reales: 100% (sin fallback de hashing).

7. Cómo citar el corpus

Para publicaciones académicas, se sugiere la siguiente atribución:

Laudos.co Intelligence S.A.S. (2026). Corpus de arbitraje
colombiano y jurisprudencia del Consejo de Estado, versión post-N-block
(2026-06-18). Disponible en: https://laudos.co

8. Reproducibilidad y código

El pipeline de construcción del corpus es íntegramente reproducible. El código fuente del proyecto se mantiene actualmente en un repositorio privado en GitHub. La intención del observatorio es publicar progresivamente componentes no sensibles del pipeline (scrapers, anonimizador, extractor de citas) bajo licencia abierta cuando la infraestructura sea estable.

¿Hallaste un error en el corpus o un dato personal expuesto? Escribe alegal@laudos.cocon la descripción concreta del problema. Plazo de revisión: 5 días hábiles.