1. 修改了问题模拟个数
2. 自己可以切分成训练集和验证集
This commit is contained in:
@@ -34,10 +34,11 @@ class ExcelToJsonConverter:
|
|||||||
if not os.path.exists(output_dir):
|
if not os.path.exists(output_dir):
|
||||||
os.makedirs(output_dir)
|
os.makedirs(output_dir)
|
||||||
|
|
||||||
# CSV临时目录
|
# CSV输出目录 - 在输入目录的同级创建CSV目录
|
||||||
self.temp_csv_dir = os.path.join(output_dir, "temp_csv")
|
parent_dir = os.path.dirname(input_dir)
|
||||||
if not os.path.exists(self.temp_csv_dir):
|
self.csv_output_dir = os.path.join(parent_dir, "Data_Export_CSV")
|
||||||
os.makedirs(self.temp_csv_dir)
|
if not os.path.exists(self.csv_output_dir):
|
||||||
|
os.makedirs(self.csv_output_dir)
|
||||||
|
|
||||||
def find_excel_files(self) -> List[Tuple[str, str]]:
|
def find_excel_files(self) -> List[Tuple[str, str]]:
|
||||||
"""扫描目录下的所有Excel文件"""
|
"""扫描目录下的所有Excel文件"""
|
||||||
@@ -199,7 +200,7 @@ class ExcelToJsonConverter:
|
|||||||
CSV文件路径
|
CSV文件路径
|
||||||
"""
|
"""
|
||||||
csv_filename = f"{base_name}.csv"
|
csv_filename = f"{base_name}.csv"
|
||||||
csv_path = os.path.join(self.temp_csv_dir, csv_filename)
|
csv_path = os.path.join(self.csv_output_dir, csv_filename)
|
||||||
|
|
||||||
# 保存为CSV,使用utf-8-sig编码支持中文
|
# 保存为CSV,使用utf-8-sig编码支持中文
|
||||||
df.to_csv(csv_path, index=False, encoding='utf-8-sig')
|
df.to_csv(csv_path, index=False, encoding='utf-8-sig')
|
||||||
@@ -348,8 +349,15 @@ class ExcelToJsonConverter:
|
|||||||
print(f"成功: {success_count} 个文件")
|
print(f"成功: {success_count} 个文件")
|
||||||
print(f"失败: {failed_count} 个文件")
|
print(f"失败: {failed_count} 个文件")
|
||||||
|
|
||||||
# 显示生成的JSON文件
|
# 显示生成的CSV和JSON文件
|
||||||
if success_count > 0:
|
if success_count > 0:
|
||||||
|
print(f"\n生成的CSV文件:")
|
||||||
|
csv_files = glob.glob(os.path.join(self.csv_output_dir, "*.csv"))
|
||||||
|
for csv_file in sorted(csv_files):
|
||||||
|
file_size = os.path.getsize(csv_file) / 1024 # KB
|
||||||
|
filename = os.path.basename(csv_file)
|
||||||
|
print(f" - {filename} ({file_size:.1f} KB)")
|
||||||
|
|
||||||
print(f"\n生成的JSON文件:")
|
print(f"\n生成的JSON文件:")
|
||||||
json_files = glob.glob(os.path.join(self.output_dir, "*.json"))
|
json_files = glob.glob(os.path.join(self.output_dir, "*.json"))
|
||||||
for json_file in sorted(json_files):
|
for json_file in sorted(json_files):
|
||||||
@@ -367,9 +375,18 @@ class ExcelToJsonConverter:
|
|||||||
|
|
||||||
def main():
|
def main():
|
||||||
"""主函数 - 演示用法"""
|
"""主函数 - 演示用法"""
|
||||||
# 配置路径
|
# 获取当前工作目录
|
||||||
input_dir = r"d:\Code\Test\Table_Data_Test\Data"
|
current_dir = os.getcwd()
|
||||||
output_dir = r"d:\Code\Test\Table_Data_Test\Data_Export_Json"
|
|
||||||
|
# 配置路径 - 基于当前目录
|
||||||
|
input_dir = os.path.join(current_dir, "Data")
|
||||||
|
output_dir = os.path.join(current_dir, "Data_Export_Json")
|
||||||
|
csv_dir = os.path.join(current_dir, "Data_Export_CSV")
|
||||||
|
|
||||||
|
print(f"[INFO] 当前工作目录: {current_dir}")
|
||||||
|
print(f"[INFO] Excel文件目录: {input_dir}")
|
||||||
|
print(f"[INFO] CSV输出目录: {csv_dir}")
|
||||||
|
print(f"[INFO] JSON输出目录: {output_dir}")
|
||||||
|
|
||||||
# 创建转换器实例
|
# 创建转换器实例
|
||||||
converter = ExcelToJsonConverter(input_dir, output_dir)
|
converter = ExcelToJsonConverter(input_dir, output_dir)
|
||||||
|
|||||||
959
qa_generator.py
959
qa_generator.py
File diff suppressed because it is too large
Load Diff
Reference in New Issue
Block a user