20｜不同文件混在一起，怎么快速分类？-Python自动化办公实战

当前位置:　首页>> 技术小册>> Python自动化办公实战

20 | 不同文件混在一起，怎么快速分类？

在日常办公场景中，我们经常会遇到文件杂乱无章地堆积在文件夹中的情况，这些文件可能包括文档、图片、视频、音频以及各类程序文件等，它们因项目、时间或类型不同而需要被有效分类管理。手动分类这些文件不仅耗时耗力，还容易出错。幸运的是，Python 提供了一系列强大的库和工具，可以帮助我们自动化地完成这一繁琐任务，实现文件的快速分类。本章将详细介绍如何利用Python实现文件的自动分类，从基础的文件识别到复杂的分类逻辑，一步步构建我们的自动化解决方案。

20.1 理解文件分类的需求

在动手编写代码之前，首先需要明确文件分类的具体需求。常见的分类依据包括：

文件类型：如文本文件、图片、视频等。
文件扩展名：如.txt、.jpg、.mp4等。
创建/修改时间：根据文件的生成时间或最后一次修改时间进行分类。
文件内容：对于文本文件，可能需要根据内容中的特定关键词或模式进行分类。
文件大小：根据文件大小进行分类，例如将大文件和小文件分开。

20.2 准备工作

安装必要的库：主要使用的库包括os（用于操作文件和目录）、shutil（用于文件的高级操作，如复制、移动等）以及可能需要的第三方库如pandas（用于数据处理，虽然本章节直接操作文件较少用到，但在复杂分类逻辑中可能有用）。
确定源文件夹和目标文件夹结构：明确哪些文件夹中的文件需要被分类，以及分类后的文件应该存放在哪里。

20.3 基于文件扩展名的分类

基于文件扩展名进行分类是最直接也是最常见的方法。我们可以编写一个Python脚本来遍历指定文件夹中的所有文件，根据它们的扩展名将它们移动到相应的子文件夹中。

import os
import shutil
def classify_by_extension(source_dir, target_dir):
    # 确保目标目录存在
    if not os.path.exists(target_dir):
        os.makedirs(target_dir)
    # 遍历源文件夹中的所有文件
    for filename in os.listdir(source_dir):
        file_path = os.path.join(source_dir, filename)
        # 获取文件扩展名
        _, file_extension = os.path.splitext(filename)
        # 根据扩展名构建目标文件夹路径
        destination_folder = os.path.join(target_dir, file_extension[1:].lower())
        # 确保目标文件夹存在
        if not os.path.exists(destination_folder):
            os.makedirs(destination_folder)
        # 移动文件到目标文件夹
        destination_path = os.path.join(destination_folder, filename)
        shutil.move(file_path, destination_path)
# 使用示例
source_folder = 'path/to/source/folder'
target_folder = 'path/to/target/folder'
classify_by_extension(source_folder, target_folder)

注意：上述代码简单地将所有文件按扩展名分类，但在实际应用中可能需要更复杂的逻辑，比如忽略隐藏文件（以.开头的文件）或特定类型的文件。

20.4 基于文件内容的分类

对于文本文件，有时我们可能需要根据文件内容中的特定信息（如关键词、日期、作者名等）来进行分类。这通常涉及到读取文件内容、解析内容以及基于内容的特征进行分类。

import os
import shutil
def classify_by_content(source_dir, target_dir, keyword):
    if not os.path.exists(target_dir):
        os.makedirs(target_dir)
    keyword_folder = os.path.join(target_dir, 'contains_' + keyword)
    other_folder = os.path.join(target_dir, 'does_not_contain_' + keyword)
    for folder in [keyword_folder, other_folder]:
        if not os.path.exists(folder):
            os.makedirs(folder)
    for filename in os.listdir(source_dir):
        file_path = os.path.join(source_dir, filename)
        # 假设只处理文本文件
        if filename.endswith(('.txt', '.md')):
            with open(file_path, 'r', encoding='utf-8') as file:
                content = file.read()
                # 检查关键词是否存在于文件中
                if keyword in content:
                    destination_folder = keyword_folder
                else:
                    destination_folder = other_folder
                # 构造目标路径并移动文件
                destination_path = os.path.join(destination_folder, filename)
                shutil.move(file_path, destination_path)
# 使用示例
source_folder = 'path/to/text/files'
target_folder = 'path/to/classified/text/files'
keyword = 'important'
classify_by_content(source_folder, target_folder, keyword)