3 个月前

基于表格一致性度量与数据类型推断的CSV文件方言检测

基于表格一致性度量与数据类型推断的CSV文件方言检测

摘要

CSV格式因其人类可读的简洁性而被广泛采用,同时由于缺乏严格定义该格式的统一标准,导致在实际应用中衍生出多种方言变体。这些变体的存在使得在数据管理系统之间,或在不同国家与地区之间交换信息时,往往需要人工介入数据挖掘与清洗过程。为避免系统在加载数据时因方言识别错误而导致数据丢失,已有多种计算工具被开发出来,旨在准确识别CSV文件的方言。然而,现有系统仍存在局限性,其依赖的假设也亟需改进与扩展。本文提出一种基于表格一致性的CSV文件方言识别方法,该方法采用统计学策略,综合考量表格内部的一致性、记录在各字段中的分布特征,并结合对各字段数据类型的检测。实验结果表明,该方法在包含147个样本的基准测试数据集上实现了100%的识别准确率。此外,该方法具备较强的实用性,仅需读取前10条记录即可完成方言判定;在少数情况下,若前几条记录信息不足,则可通过读取更多数据进一步消除歧义,从而实现准确识别。

基准测试

基准方法指标
csv-dialect-detection-on-tudF1 Score
1:1 Accuracy: 0.9260

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于表格一致性度量与数据类型推断的CSV文件方言检测 | 论文 | HyperAI超神经