La biblioteca MarkItDown es una herramienta de utilidad para convertir varios archivos a Markdown (por ejemplo, para indexación, análisis de texto, etc.)
Actualmente admite:
PDF (.pdf)
PowerPoint (.pptx)
Word (.docx)
Excel (.xlsx)
Imágenes (metadatos EXIF y OCR)
Audio (metadatos EXIF y transcripción de voz)
HTML (manejo especial de Wikipedia, etc.)
Varios otros formatos basados en texto (csv, json, xml, etc.)
La API es sencilla:
from markitdown import MarkItDown
markitdown = MarkItDown()
resultado = markitdown.convertir(“test.xlsx”)
print(resultado.texto_contenido)
Este proyecto da la bienvenida a contribuciones y sugerencias. La mayoría de las contribuciones requieren que aceptes un Acuerdo de Licencia del Colaborador (CLA) declarando que tienes el derecho y realmente nos concedes los derechos para usar tu contribución. Para más detalles, visita https://cla.opensource.microsoft.com.
Cuando envíes una solicitud de extracción, un bot de CLA determinará automáticamente si necesitas proporcionar un CLA y decorará la PR adecuadamente (por ejemplo, comprobación de estado, comentario). Simplemente sigue las instrucciones proporcionadas por el bot. Solo necesitarás hacer esto una vez en todos los repositorios que utilicen nuestro CLA.
Este proyecto ha adoptado el Código de Conducta de Código Abierto de Microsoft.
Para más información, consulta la Preguntas Frecuentes sobre el Código de Conducta o
contacta a [email protected] con cualquier pregunta adicional o comentario.
Este proyecto puede contener marcas comerciales o logotipos de proyectos, productos o servicios. El uso autorizado de marcas comerciales o logotipos de Microsoft
está sujeto a y debe seguir
Las Directrices de Marca Registrada y Marca de Microsoft.
El uso de marcas comerciales o logotipos de Microsoft en versiones modificadas de este proyecto no debe causar confusión o implicar un patrocinio de Microsoft.
Cualquier uso de marcas comerciales o logotipos de terceros está sujeto a las políticas de esos terceros.