Организация изображений (или любых файлов) [закрыто]

Это немного натянуто, но у меня есть интересная (для меня) проблема программирования (err ... scripting? Алгоритмический? Организационный?). (Я отмечаю это в Ruby, потому что я предпочитаю Ruby для сценариев.)

Представьте, что у вас есть 100 гигабайт изображений, плавающих на нескольких дисках. Там, вероятно, в общей сложности 25 гигабайт уникальных изображений. Остальные являются дубликатами (с одинаковым именем файла), дубликатами (с другим именем) или более мелкими версиями рисунка (экспортируются для электронной почты). Конечно, помимо того, что они находятся на нескольких дисках, они также находятся в разных структурах папок. Например, img_0123.jpg может существовать (в мире Windows) как c: \ users \ username \ pics \ 2008 \ img_0123.jpg, c: \ pics \ 2008 \ img_0123.jpg, c: \ pics \ export \ img_0123- email.jpg и d: \ pics \ europe_2008 \ venice \ bungy_jumping_off_st_marks.jpg.

Раньше нам приходилось складывать все в папки и переименовывать их в довольно маленькие имена (как выше). Сегодня поиск и тегирование заботятся обо всем этом и являются излишними (и затрудняющими организацию).

В прошлом я пытался перенести все на один диск, написал скрипт ruby ​​для поиска дубликатов (я не доверяю этим программам дублирования, я запустил одну, и она начала удалять все!) И попытался реорганизовать их. Однако через несколько дней я сдался (об организации и удалении вручную части).

Я собираюсь начать новую мысль. Сначала скопируйте все изображения со всех моих дисков на новый диск в ОДНОЙ папке. Все с дублирующимися именами файлов необходимо будет проверить вручную. Затем запустите Picasa и вручную отсканируйте файлы и удалите дубликаты (используя хороший старый).

Однако я очень недоволен тем, что не могу легко решить эту проблему программно, и мне интересно услышать некоторые другие решения, программные или иные (возможно, написание кода - не лучшее решение, задыхайтесь!).

10.12.2008 20:04:54
3 ОТВЕТА
РЕШЕНИЕ

Мне нравится, что мои фотографии сортируются по дате съемки, поэтому я написал отличный скрипт для просмотра EXIF-данных изображений и размещения их в каталогах в формате даты ISO (2008-12-11). Это держит их организованными. Это не решает тегирование в соответствии с содержанием, хотя, я использую flickr для этого.

Что касается проблемы с дублированием, то контрольная сумма сократит количество изображений, которые вам нужно будет отсортировать вручную, но, к сожалению, она не подберет изображения с измененным размером. Вы могли бы искать менее дрянное средство поиска дубликатов, которое автоматически не удаляет дубликаты? Обязательно сделайте резервную копию, прежде чем проверять какую-либо: p

5
6.01.2009 20:23:53
Не могли бы вы поделиться своим отличным сценарием?
Joshua Ball 10.12.2008 20:40:14
Я сейчас на работе, но уверен, если я вспомню, я опубликую это, когда вернусь домой. Это не всесторонне проверено, но работало для меня до сих пор.
Kenny 10.12.2008 21:05:13
Кенни, ты думал о том, чтобы опубликовать свой отличный сценарий в Интернете? Я хотел бы сделать именно то, что вы сделали.
Nathan DeWitt 22.05.2009 02:37:16

Рассматривали ли вы взять контрольную сумму md5 каждого файла и таким образом определить дубликаты? Если вы это сделаете, вам не придется вручную устранять дубликаты.

Я бы проверял контрольную сумму каждого файла и сравнивал ее со словарем уже обработанных файлов. Если он окажется дубликатом, я бы выбрасывал его в каталог дубликатов, а не удалял его целиком.

2
10.12.2008 20:24:57
Да, именно так я и реализовал скрипт Ruby, который использовал для обнаружения дубликатов. Тем не менее, я надеюсь получить представление о проблеме на более высоком уровне. Мне кажется, что это архитектурная проблема управления и организации, которую я пытаюсь решить.
Joshua Ball 10.12.2008 20:34:32

Вы можете использовать что-то вроде Exiftool, которое существует для Windows, чтобы реорганизовать ваши изображения в соответствии с CaptureTime (это моя собственная схема) или любыми другими параметрами Exif, которые можно найти в файле JPG или RAW. Вы сможете найти дубликаты очень легко.

1
11.12.2008 09:45:22