Существует ли бесплатная (или недорогая) база данных имен и фамилий?

Я ищу справочную базу данных, которую можно использовать для проверки возможных опечаток имен в базе данных контактов. Это для пакетного процесса, поэтому производительность не является реальной проблемой. В идеале я хотел бы иметь обширную базу данных, но даже что-то вроде «топ-5000» имело бы большое значение.

Спасибо!

12.12.2008 08:22:29
6 ОТВЕТОВ
РЕШЕНИЕ

Я не знаю о базе данных, но заполняю ее самостоятельно из такого ресурса, как этот http://web.archive.org/web/20081218100813/http://www.census.gov/genealogy/names/dist.all .last должно работать нормально :)

18
8.05.2019 04:25:11
Имейте в виду, однако, что это топ-х для США А. Для других мест, вы должны были бы получить эти данные от соответствующего органа переписи.
Piskvor left the building 12.12.2008 08:36:11
census.gov больше не предоставляет ссылку для вашего ответа
Mark Entingh 24.01.2016 01:11:41

Я не понимаю, как вы можете найти опечатки в именах. Я имею в виду, меня зовут Филипп (французский), но это может быть Филипп, Филипс, Фелипе, Фелипе или что-то еще. Вероятно, существует традиционное французское имя Сандрин, но тенденция состоит в том, чтобы написать этот Кендрин, тем более что закон недавно был смягчен во Франции. И так далее.
Хорошо, возможно, запах Jhon похож на опечатку (обычная двухбуквенная инверсия), но вы не можете сказать наверняка.
Опечатки в фамилиях еще более невозможно обнаружить ... Если вы не сверяетесь с ограниченным, известным списком (например, сотрудниками компании).

13
12.12.2008 09:09:37

Я знаю базу данных имен http://www.lexique.org/public/Prenoms100.zip, которая охватывает Phil, Phile, Philip, Philipp, Phillip, Felipe, Philippe. (около 12000 имен)

Я думаю, что вы не найдете ничего полезного со вторыми именами, так как их гораздо больше, чем имен. Это известная проблема в компьютерной лингвистике.

14
12.12.2008 09:29:28

Если нет никакой дополнительной информации о языке, это может быть довольно бесполезно. Я бы не стал тратить на это усилия, так как это, вероятно, работает только для небольшого населения.

PS: не забывайте китайские, русские и индийские имена (миллионы)

2
12.12.2008 10:18:00

Я лично знаю людей, у которых есть уникальные имена (имена, которые их родители сознательно придумали как уникальные), и я также лично знаю людей, чьи имена написаны с ошибками, но на самом деле именно так их назвали их родители. Я бы даже не попытался сделать такую ​​вещь, как попытка исправить опечатки. Вместо этого мы импортируем имена (и нам требуется уникальный идентификатор для наших клиентов). Затем в следующий раз, когда мы импортируем, мы сопоставим уникальный идентификатор, и если имя было изменено (потому что мы связались с человеком, и он или она сказал нам, на что его изменить), то имя не будет обновлено. Но если имя не было изменено и оно не совпадает в файле (обычно из-за брака или развода), то имя обновляется. Вам понадобится какой-то флаг на записи данных, чтобы сообщить, что она была обновлена ​​вручную. Мы заполняем это через триггер.

Гораздо важнее при импорте данных об именах избегать создания дубликатов (отсюда наше требование уникального идентификатора из наших источников данных) или избегать некорректного сопоставления данных (вы не можете просто учитывать имя при сопоставлении, чтобы увидеть, существует ли уже запись).

2
12.12.2008 16:10:42

Я нашел несколько баз данных, которые не используются с целью проверки правописания, но вот одна, в которой перечислены общие имена: База данных имен и родов , а другая - общие фамилии: База данных имен

Надеюсь, это поможет!

2
28.04.2013 16:28:54