Transparencia
Cómo construimos el corpus, qué incluye, qué decisiones tomamos y cómo verificarlo.
1. Qué es laudos.co
laudos.co es un observatorio académico independiente dedicado a construir el corpus completo de arbitraje colombiano e infraestructura de inteligencia jurídica sobre él. El proyecto es operado por Laudos.co Intelligence S.A.S. (en constitución) y forma parte del trabajo de investigación de estadoseguro.co.
A la fecha el corpus contiene 5.447 documentos directamente buscables, distribuidos en 2.660 laudos arbitrales (de las principales Cámaras de Comercio y de arbitraje internacional sobre Colombia) y 2.787 providencias del Consejo de Estado relacionadas con arbitraje (anulaciones, tutelas y decisiones relacionadas), con 533.007 fragmentos vectorizados mediante embeddings BGE-M3.
2. Fuentes integradas
| Fuente | Docs | Tipo |
|---|---|---|
| Cámara de Comercio de Bogotá | 2.122 | Laudo arbitral |
| Cámara de Comercio de Medellín | 275 | Laudo arbitral |
| Cámara de Comercio de Cali | 150 | Laudo arbitral |
| Universidad Externado | 67 | Laudo arbitral |
| Cámara de Comercio de Cartagena | 66 | Laudo arbitral |
| Arbitraje internacional (italaw) | 36 | Laudo arbitral |
| Cámara de Comercio de Villavicencio | 15 | Laudo arbitral |
| Cámara de Comercio Armenia/Quindío | 14 | Laudo arbitral |
| Cámara de Comercio de Casanare | 13 | Laudo arbitral |
| Consejo de Estado — Sección Tercera | 2.787 | Jurisprudencia |
| ↳ Anulaciones de laudos | 287 | |
| ↳ Providencias relacionadas | 1.123 | |
| ↳ Tutelas | 1.378 |
Todas las fuentes son públicas. La descarga se realiza únicamente desde los portales oficiales de cada entidad, respetando el archivo robots.txt y aplicando rate limiting conservador (observación pasiva exclusivamente, sin tráfico intrusivo).
3. Metodología de procesamiento
Cada documento atraviesa el siguiente pipeline reproducible:
- Descarga. Crawlers específicos por fuente, todos idempotentes con tracking por hash SHA-256. Se preserva el archivo original sin alteración.
- Extracción de texto. PyMuPDF para PDFs nativos; Tesseract con español + inglés como fallback OCR para escaneados.
- Segmentación (chunking). Estructurado por secciones (hechos, pretensiones, consideraciones, decisión) cuando es detectable; fallback recursivo con codificación cl100k_base de aproximadamente 800 tokens por chunk.
- Extracción de citas. Regex sobre normas (Constitución, Códigos, Leyes) y jurisprudencia (Corte Constitucional, CSJ, CE) combinado con verificación LLM cross-check.
- Embeddings. BGE-M3 ejecutado en GPU A100 (Modal). El 100% de los chunks tiene embeddings reales (sin fallback de hashing).
- Anonimización. Microsoft Presidio + spaCy con modelo español + reglas custom para Colombia (cédulas, NIT, partes corporativas). Tokens HMAC con sal rotativa y mappings cifrados con AES-256-GCM.
- Indexación. DuckDB con extensiones VSS (HNSW) y FTS (stemmer español) sobre las 533.007 unidades.
- Inteligencia. Grafo de citas (13.361 nodos, 243.572 aristas), 274 tópicos BERTopic, NER legal, clasificador heurístico de decisión, reranker BGE v2-m3.
4. Decisiones técnicas relevantes
- D015 · Originales no anonimizados como salida primaria. Los archivos públicos originales se preservan sin modificación. La vista anonimizada es secundaria, expuesta vía
/public/search. - D017β · ce_tax como sub-corpus separado. Los aproximadamente 80.000 registros de jurisprudencia tributaria del Consejo de Estado no son laudos arbitrales y se mantienen segregados como sub-corpus distinto, fuera del indexado público actual.
- D019β · ce como sub-corpus integrado al search. Las 2.787 providencias del Consejo de Estado relacionadas con arbitraje (anulaciones, tutelas, providencias) son buscables como tipo de documento distinto a "laudo arbitral", con un filtro explícito en la interfaz de búsqueda.
5. Fuentes pendientes y derechos de petición
Para las Cámaras de Comercio sin publicación digital de laudos, se han elaborado solicitudes formales bajo el derecho fundamental de petición (artículo 23 de la Constitución, Ley 1755 de 2015) en concordancia con la Ley 1712 de 2014. Las cámaras destinatarias incluyen Bucaramanga, Barranquilla, Manizales, Pereira, Cúcuta, Ibagué, Pasto, Villavicencio, Santa Marta, Neiva, Armenia y Tunja. El estado del envío y la respuesta de cada solicitud se mantienen en un tracker interno y será publicado cuando se reciban las respuestas.
6. Métricas de calidad
- Hit@10 (retrieval): 90% sobre eval pool de 5K queries con gold standard.
- MRR (Mean Reciprocal Rank): 0,77; mediana de rank = 1.
- Faithfulness: 0% de alucinaciones puras en el endpoint
/ask. - Cobertura de embeddings reales: 100% (sin fallback de hashing).
7. Cómo citar el corpus
Para publicaciones académicas, se sugiere la siguiente atribución:
Laudos.co Intelligence S.A.S. (2026). Corpus de arbitraje colombiano y jurisprudencia del Consejo de Estado, versión post-N-block (2026-06-18). Disponible en: https://laudos.co
8. Reproducibilidad y código
El pipeline de construcción del corpus es íntegramente reproducible. El código fuente del proyecto se mantiene actualmente en un repositorio privado en GitHub. La intención del observatorio es publicar progresivamente componentes no sensibles del pipeline (scrapers, anonimizador, extractor de citas) bajo licencia abierta cuando la infraestructura sea estable.
¿Hallaste un error en el corpus o un dato personal expuesto? Escribe alegal@laudos.cocon la descripción concreta del problema. Plazo de revisión: 5 días hábiles.